Verbindungsnetzwerke für parallel und verteilte Systeme.pdf

1 Konventionelle Kopplungen 

1.1 Einleitung 

In der Technik werden Verbindungsnetzwerke im wesentlichen auf vier verschiedenen 

Gebieten eingesetzt: Bei Parallelrechnern [Giloi93], räumlich verteilten 

Rechensystemen bzw. Client Server-Architekturen [Langen94], Rechnernetzen 

wie das Internet [Mezza94] und in der Telekommunikation 

[Schwartz87]. 

In der Parallelverarbeitung sind Verbindungsnetzwerke ein wichtiger Bestandteil 

der Rechnerarchitektur, die vom Aufbau der Rechenknoten und deren 

Verschaltung untereinander festgelegt wird [Regen87]. Die Rechenknoten bzw. 

Rechner und deren Kopplung beeinflussen zusammen mit der Programmierung 

die Leistungsfähigkeit des Gesamtsystems. Programme werden mit Hilfe von 

Kommunikationsmodellen wie (verteiltem) gemeinsamem Speicher bzw. Botschaftenaustausch 

erstellt, die die Interprozessorkommunikation aus der Sicht 

des Benutzers regeln. Die Kommunikation wird implementierungstechnisch 

über Verbindungsnetzwerke realisiert, um die Kopplung von Rechenknoten 

untereinander, mit Speichermoduln und mit der Peripherie zu bewerkstelligen. 

Verteilte Systeme bestehen aus Arbeitsplatzrechnern oder PCs, die über ein 

lokales Netz (LAN) wie Ethernet oder ATM [Mezza94] miteinander verbunden 

sind. Die Netze bestehen aus einzelnen Strängen, die ketten- oder sternartig 

über Switche gekoppelt sind. Die parallele Programmierung erfolgt mit Hilfe 

von Kommunikationsbibliotheken wie PVM oder MPI in Standardprogrammiersprachen. 

Aufgrund der großen Verbreitung dieser Systeme werden 

die sie verbindenden lokalen Netze, ihr Aufbau und ihre Betriebsarten immer 

wichtiger. Die Switche, die die einzelnen Subnetze zusammenschalten, verwenden 

intern Verbindungsnetzwerke, wie sie bei Parallelrechnern eingesetzt 

werden. 

Weitreichende Rechnernetze (MANs, WANs) wie das Internet basieren auf 

einer Vielzahl von Gateway- und Name Server-Rechnern, die über Switche und 

Subnetze gekoppelt sind. Sie werden als Basis für die Realisierung neuer Dienste 

wie Multimedia und Video-on-Demand angesehen. Notwendige Voraussetzung 

für diese Dienste sind Kommunikationspfade mit hoher Bandbreite 

und garantierter Latenzzeit; Eigenschaften, wie sie bei Verbindungsnetzwerken 

für räumlich konzentrierte Systeme bereits realisiert wurden, so daß auch hier 

Parallelrechnernetze Einfluß ausüben. 

In der Telekommunikation spielen Koppelnetze für die Vermittlung von Telefongesprächen 

und sonstigen analogen oder digitalen Daten eine wichtige 

Rolle. Sie sind zusammen mit Übertragungseinrichtungen für den Transport 

und die gezielte Vermittlung von Information notwendig. Die Kopplung von 

Schaltern oder Routern, aus denen Netze im wesentlichen bestehen, mit Übertragungseinrichtungen 

wie Glasfasern erlaubt, große Entfernungen zwischen 

beliebig wählbaren Teilnehmern überbrücken zu können. 

1

Verbindungsnetzwerke, die Informationen wie Sprache, Bild oder Daten übermitteln, 

können auf zwei alternativen physikalischen Prinzipien basieren. Entweder 

arbeiten sie nach der Methode der räumlichen Verteilung oder nach dem 

Prinzip der zeitlichen Staffelung (Multiplex). Bei räumlicher Verteilung spricht 

man von Verbindungsnetzwerken im eigentlichen Sinne, bei zeitlicher Staffelung 

von Bussen. Die entsprechenden Bezeichnungen aus der Telekommunikation 

lauten Raumlagen- bzw. Zeitlagenkoppelvielfach (space-divisionswitching 

bzw. time-division-switching 1 ). 

Bei der Zeitmultiplexmethode wird dergestalt Information übertragen, daß 

ein gemeinsames Medium wie Bus, Kabel oder Glasfaser zeitlich nacheinander 

Daten verschiedenster Herkunft, Dichte und Bestimmung übermittelt. Beim 

Raumlagenvielfach wird für jedes Sender/Empfängerpaar ein physikalischer 

Pfad zur Informationsübermittlung etabliert. Die räumliche Verteilung ist ein 

paralleles Verfahren, bei dem verschiedene Informationen gleichzeitig übertragen 

werden, während das Zeitmultiplexen rein sequentiell arbeitet. 

In diesem Buch liegt der Schwerpunkt auf den Verbindungsnetzwerken, wie 

sie für Parallelrechner eingesetzt werden. 

Verbindungsnetzwerke für Parallelrechner 

Historisch gesehen leiten sich Verbindungsnetzwerke für Parallelrechner von 

den Koppelnetzen der Telefonvermittlungstechnik ab. Die Arbeiten, die die 

Grundlagen für Parallelrechnernetze bilden, wurden von Ingenieuren und Mathematikern 

geleistet, die für Forschungseinrichtungen von Telefongesellschaften, 

wie z.B. den amerikanischen Bell Labs (AT&T) tätig waren. C. Clos und 

V. Benes sind die bekanntesten Vertreter dieser Generation. 

Der Vermittlungstechnik entstammt nicht nur der Kreuzschienenverteiler, 

der vor mehr als 50 Jahren für handvermittelte Telefongespräche verwendet 

wurde, sondern auch das Clos- und das Benes-Netz aus dem Jahre 1953 bzw. 

1965, die heute noch bei Parallelrechnern Verwendung finden. 

Umgekehrt beeinflussen die Parallelrechnernetze seit einiger Zeit die Telefon- 

und Datenvermittlung, insbesondere hinsichtlich der Topologie und des 

Routings. Ein ATM-Switch beispielsweise kann auf einer Butterfly- oder Baseline-Topologie 

[Regensp87] beruhen, die als mehrstufige Verbindungsstruktur 

für Multiprozessoren erfunden wurde. 

In Zukunft werden Verbindungsnetzwerke durch das Zusammenwachsen 

von Rechnertechnik und Übertragungstechnik in ihrer Bedeutung weiter zunehmen, 

da Kommunikation und intelligente Verarbeitung von Daten Schlüsseltechnologien 

für das 21. Jahrhundert sind. Die Vereinigung der Verarbeitung 

von Daten mit der Übertragung von Information zu einem neuen funktionalen 

Ganzen ist ein expansiver Markt der Zukunft. Internet, Multimedia und Datenautobahnen 

kennzeichnen den Weg dorthin. 

1. 

siehe dazu z.B. M. Schwartz, "Telecommunication Networks, Protocols, Modelling and Analysis", 

Addison-Wesley, 1988. 

2

Parallele Rechentechnik 

Die parallele Rechentechnik ist ein Forschungsgebiet, mit dem sich Ingenieure, 

Mathematiker und Informatiker seit Jahrzehnten auseinandersetzen. Bislang 

sind deren Entwicklungen in der Praxis hauptsächlich auf Anwendungen konzentriert, 

bei denen hohe Rechenleistung oder hohe Zuverlässigkeit gefordert 

ist oder bei denen viele Ein- und Ausgabesignale gleichzeitig zu verarbeiten 

sind, wie es z.B. bei Steuerungen und Regelungen der Fall ist. 

Seit langem ist bekannt, daß sequentielle Rechner aufgrund der endlichen 

Ausbreitungsgeschwindigkeit elektrischer Signale, die in einem Kabel bei ca. 

20 cm/ns liegt, an ihre physikalischen Grenzen stoßen werden. Rechner müssen 

deshalb mit zunehmender Rechenleistung immer kleiner gebaut werden, was 

mit der Grund dafür ist, daß konventionelle Großrechner den Mikroprozessorbasierten 

Systemen unterlegen sind und (fast) vom Markt verschwinden. 

Die Architekturen von Parallelrechnern [Bode80, Bode83, Hwang85, 

Hwang93, Erhard95, Waldsch95] und deren Programmierung [Bemmerl92] 

wurden in den letzten 20 Jahren erheblich weiterentwickelt. Neben wissenschaftlichen 

und kommerziellen Interessen waren dafür auch militärische 

Gründe maßgebend. Beispielsweise haben das U.S. Verteidigungs- und Energieministerium 

die parallele Rechentechnik aus strategischen Gründen massiv 

unterstützt. Nach dem Ende des kalten Krieges war diese Geldquelle jedoch 

erloschen und namhafte Parallelrechnerhersteller, die den Umstieg auf zivile 

Kunden nicht rechtzeitig geschafft haben, mußten den großen, auf dem Markt 

etablierten Unternehmen weichen, die das Geschäftsfeld der Parallelrechner zur 

Abrundung ihrer Produktpalette betreiben, ihr Geld aber mit Massenprodukten 

wie PCs, Arbeitsplatzrechnern und Servern verdienen. 

Bei Mikroprozessoren, den Herzstücken der oben genannten Produkte, ist der 

interne Aufbau mittlerweile so gestaltet, daß möglichst viele Vorgänge parallel 

ablaufen (Superpipelining und superskalare RISC-Architekturen). Dadurch 

werden die von der CMOS-Technologie vorgegebenen Grenzen der Taktrate 

durch architektonische Maßnahmen überwunden, und es ist möglich, mehr als 

einen Befehl pro Zeiteinheit auszuführen [Bode90, Flik94, Ungerer95]. Darüber 

hinaus sind Prozessor-Chips wie beispielsweise der Intel PentiumPro so 

konstruiert, daß die zur Kopplung von Prozessoren notwendigen Einrichtungen 

auf dem Chip bereits integriert sind (Symmetric Multiprocessing [Hwang93]). 

Die parallele Rechentechnik wird deshalb in Zukunft auch bei Massenprodukten 

eine immer größere Rolle spielen und damit auch die Verbindungsnetzwerke 

für Parallelrechner. 

1.2 Einführung in Verbindungsnetzwerke 

Seit mehr als 30 Jahren wird das Problem untersucht, wie Prozessoren am besten 

sowohl untereinander als auch mit Speichern und der Peripherie gekoppelt 

werden können. Ein frühes Zeugnis solcher Projekte ist z.B. in [Squire63] zu 

finden, das aus dem Jahre 1963 datiert. Zahlreiche Fortschritte wurden seitdem 

3

in den letzten 3 Dekaden bei der Lösung des Kopplungsproblems erzielt. Allerdings 

hat sich die Verschaltung von Prozessoren als äußerst vielschichtige 

und nicht in jeder Hinsicht optimal lösbare Angelegenheit erwiesen. 

Wie bei allen technischen Systemen gibt es auch bei den Verbindungsnetzwerken 

eine Kluft zwischen dem Kostenfaktor einerseits und den gewünschten 

Leistungsdaten andererseits. Insbesondere ist es schwierig, gleichzeitig 

hohe Bandbreite, geringe Latenzzeit, gute Skalierbarkeit und hohe Zuverlässigkeit 

in einer preisgünstigen Technologie zu erzielen. Darüber hinaus 

lassen sich selbst für stark einschränkende Randbedingungen, wie z.B. vorgegebenes 

Kommunikationsverhalten der parallelen Anwendung, feststehendes 

Programmiermodell, konstante Zahl von Prozessoren, usw. verschiedene, 

gleich gute Lösungen angeben. Das läßt den Schluß zu, daß es "das Verbindungsnetzwerk" 

genausowenig gibt, wie auch "das Automobil" nicht existiert, 

das zugleich schnell und sparsam, sicher und leicht, kompakt und komfortabel 

ist. 

Das Ziel der Kopplung mehrerer Prozessoren, Rechenknoten oder ganzer 

Rechner ist es, die Leistungsfähigkeit eines einzelnen Rechenknotens dadurch 

zu erhöhen, daß alle Einheiten des Systems im Sinne einer Aufgabenteilung kooperativ 

zusammenarbeiten. Die Schwierigkeit, die sich dabei stellt, resultiert 

aus der wechselseitigen Abhängigkeit der funktionalen Einheiten untereinander, 

die bewirkt, daß das gekoppelte System viel mehr ist als die Summe seiner 

Teile. Daß gekoppelte System sehr komplex werden können, selbst wenn sie 

aus einfachen, deterministischen Komponenten aufgebaut sind, ist nicht ungewöhnlich: 

Ein einzelnes schwingendes Pendel beispielsweise läßt sich leicht 

berechnen; zwei Pendel jedoch, von denen eines an der Schwungmasse des anderen 

aufgehängt ist, sind relativ kompliziert. 

Die Interprozessorkommunikation, die Voraussetzung für das Zusammenspiel 

der funktionalen Einheiten von Prozessoren/Rechner, Speicher und Peripherie 

ist, wird implementierungstechnisch mit Hilfe von Verbindungsnetzwerken 

realisiert, die sich auf viele verschiedene Arten realisieren lassen. Allen 

ist gemeinsam, daß sie Daten zwischen Erzeugern und Verbrauchern von 

Information transportieren. 

1.2.1 Definition eines Netzwerks 

Sowohl bei Parallelrechnern als auch bei Rechnernetzen und in der Telekommunikation 

hat man die grundlegende Aufgabe, daß Information von einem Ort 

A zu einem Ort B übertragen werden soll, wobei die Entfernung zwischen A 

und B zwischen einigen Metern (Parallelrechnern) und einigen Tausend Kilometern 

(Telekommunikation) schwanken kann. Dabei ergibt sich zusätzlich das 

Problem, daß der Informationstransport zwischen wechselnden Orten Ai, Bj (i, 

j = 1, 2, ... ) erfolgen soll, also zeitabhängige Richtungen aufweist. Dadurch beinhaltet 

die Aufgabenstellung der Informationsübertragung neben ihrer räumlichen 

noch eine zeitliche Komponente. 

4

Zur Lösung des zeitabhängigen Verbindungsproblems existieren verschiedene 

Möglichkeiten. In jedem Fall wird der Datentransport von einer funktionalen 

Einheit, dem Verbindungsnetzwerk, ausgeführt. 

Bei Parallelrechnern sind Verbindungsnetzwerke, wie z.B. ein Bus oder ein 

Kreuzschienenverteiler, dafür zuständig, Daten innerhalb eines integrierten 

Schaltkreises, einer gedruckten Platine, einer Baugruppe oder zwischen Baugruppen 

zu übertragen. In der Telekommunikation und bei Rechnernetzen müssen 

große Entfernungen überbrückt werden, wozu geeignete Übertragungseinrichtungen 

wie Kupfer- oder Glasfaserkabel und Verstärker notwendig 

sind. Diese können im Falle eines lokalen Netzes ein Ethernet darstellen 

oder bei Weitverkehrsnetzen als ATM- oder ISDN 2 -Leitungen ausgelegt sein. 

Digitale Vermittlungseinrichtungen wie z.B. EWS/D 3 oder Gateways in Rechnernetzen 

sorgen für die Verbindung aller Teilnehmer zu einem weltumspannenden 

System, wie es das Telefonsystem oder das Internet darstellen. 

Aus der Zusammenfassung von einzelnen Informationstransporten zu einer 

mathematischen Funktion erhält man eine formale Definition von Verbindungsnetzwerken 

V, die sich mit Hilfe der Abbildungsfunktion ft von Orten Ai 

auf Bj (i, j = 1, 2, ... ) spezifizieren lassen: 

Def. 1.1: 

V: {A i 

} 

f t 

→ {B j 

}, i=1,2,...,n, j = 1,2,...,m, t 1,2...,p 

⎯⎯⎯⎯ ⎯ = 

Der Parameter t der Abbildung f t kennzeichnet diejenige Funktion f, die zur 

Zeit t die Menge aller Orte Ai auf Bj abbildet. Die Zusammenfassung aller Abbildungen 

definiert das Verbindungsnetzwerk V. Die Orte Ai, Bj heißen die 

Ein- bzw. Ausgänge des Netzes, deren Zahl durch m bzw. n spezifiziert wird; p 

bezeichnet die Gesamtzahl aller Abbildungen von Eingängen auf Ausgängen, 

die vom Netz V realisiert werden können. 

Für den Spezialfall m = n wird f t zu einer Permutationsfunktion, die für p = 

n! alle prinzipiell möglichen Permutationen von Punkt-zu-Punkt-Verbindungen 

realisieren kann. Eine graphische Repräsentation von V zeigt Bild 1.1. 

A1 

A2 

B1 

Verbindungs- 

B2 

A3 netzwerk B3 

. . . . . . 

V 

An 

Bm 

Bild 1.1: Graphische Repräsentation eines allgemeinen Verbindungsnetzwerkes. 

2. 

3. 

Integrated Services in Digital Nets 

Elektronisches Wählsystem/Digital 

5

Die formale Behandlung von Verbindungsnetzwerken bietet den Vorteil, daß 

wesentliche Eigenschaften wie Topologie, Übertragungskapazität, Latenz und 

Fehlertoleranz präzise quantifiziert werden können, was einen Vergleich verschiedener 

Netztypen erlaubt. 

Weiterhin kann man durch Modellierung und/oder Simulation Voraussagen 

über Eigenschaften zukünftiger Netze machen, ohne sie vorher aufzubauen. Die 

Prognose der Kenndaten von Netzen erfordert ebenfalls die Anwendung mathematischer 

Hilfsmittel. 

1.2.2 Beispiel eines Netzwerks 

Ein Beispiel eines einfachen Verbindungsnetzwerks ist ein parallel lad- und lesbares 

Schieberegister, das man für den Fall von m = n in Bild 1.2 für den Informationstransport 

von A nach B einsetzen kann, sofern A und B nur wenige Millimeter 

auseinander liegen (Bild 1.2). 

A1 

A2 

... 

An 

D 

Q 

B1 

D 

Q 

B2 

... ... 

D 

Q 

Bn 

Bild 1.2: Ein Schieberegister als einfaches Verbindungsnetzwerk. 

Die Funktion des Schieberegisters ist dabei die folgende: Ist das Schieberegister 

geladen, kann es mit jedem von außen angelegten Takt die Information entlang 

der Kette weiterreichen und z.B. nach unten weiterschieben. Liegt das zu erreichende 

Ziel unterhalb des Startpunkts, wird die Differenz k zwischen Ziel und 

Herkunft: k = B j 

– A i 

≥ k( 0) 

. Mit jedem Takt wird die an einem bestimmten 

Eingang anliegende Informationseinheit, z.B. ein Bit oder ein Byte, einen 

Schritt näher zum Ausgang hingeschoben. Dazu sind k Schritte nötig. Für Bj < 

Ai muß die Schieberichtung umgekehrt werden. 

Das Funktionsprinzip des Schieberegisters ist dem eines Aufzugs in einem 

Gebäude vergleichbar, der nur nach unten bzw. oben fahren kann. Um den 

Transport in Gegenrichtung bewerkstelligen zu können, kann man die Schieberegisterkette 

zu einem Kreis schließen. Die Differenz Bj - Ai = k (k < 0) wird 

dann im Sinne einer Modulo-N-Arithmetik gemäß k mod N = N + k gebildet. 

Dies entspricht im Aufzugmodell einem Paternoster. 

1.2.3 Grundlegende Eigenschaften von Netzwerken 

Der Schieberegisterring weist trotz seiner Einfachheit vier typische Eigenschaften 

auf, die allen Verbindungsnetzwerken gemeinsam sind, sich aber 

6

leichter an diesem überschaubaren Beispiel beobachten und verifizieren lassen. 

Die exemplarischen Eigenschaften sind: 

• In diesem "Netz" wird eine Informationseinheit, wie z.B. ein Bit oder ein Datenpaket, 

in mehreren Schritten, d.h. iterativ, von einem Sender zu einem 

Empfänger transportiert. Die Art des Informationstransports und die Wegeauswahl 

wird als Routing bezeichnet. 

• Es lassen sich häufig nicht alle an den Sendern (Eingängen A i ) anliegenden 

Informationseinheiten gleichzeitig zu ihren Empfängern (Ausgängen Bj) 

transportieren, sondern es können Wartezeiten auftreten. Man spricht in einem 

solchen Fall von transienter Blockierung. 

• In diesem "Netz" existiert mindestens ein Weg von Ai zu Bj. Im Schieberegisterring 

ist es möglich, einen eventuell längeren Weg in entgegengesetzter 

Ringrichtung zu wählen. Die Entscheidung über den "richtigen Weg" 

wird als adaptive Wegewahl bezeichnet. 

• Netzwerke lassen sich formal als Graph und als Relation darstellen. Aus diesem 

Grunde spielt bei Verbindungsnetzwerken die Graphen- und Gruppentheorie 

eine gewisse Rolle. 

Diese vier Eigenschaften haben, ausgehend vom Beispiel des Schieberegisterrings, 

allgemeine Bedeutung und bedürfen weiterer Erläuterung: 

• Routing: Die iterative Annäherung einer Informationseinheit vom Sender 

zum Empfänger unterliegt gewissen Regeln und ist i.a. von der Netztopologie 

vorgegeben. Für die Geschwindigkeit des Routings während des Informationstransports 

ist neben der Routingmethode die Zahl der Schritte zwischen 

Sender und Empfänger maßgebend. 

• Blockierung: Im Schieberegisterfall gibt es stets Paare (Ai, Ak) mit 

entgegengesetzten Transportwünschen (beispielsweise nach oben und nach 

unten), die nicht gleichzeitig erfüllt werden können. Bei nicht-blockierungsfreien 

Netzen wird eine auftretende Konkurrenzsituation zweier Informationseinheiten 

(Datenpakete) durch kurzzeitiges Sperren eines oder 

mehrerer Netzeingänge oder Netzzwischenstufen gelöst, d.h. es wird eine 

Steuerung des Informationsflusses (Flow Control) vorgenommen. Die gestoppte 

Informationseinheit verbringt eine gewisse Zeit wartend, bis sie an 

die Reihe zum Weitertransport kommt. Das bedeutet, daß es bei den Verbindungsnetzwerken 

Warteschlangen geben muß und damit auch Verfahren, 

diese zu bedienen (Scheduling). 

• Adaptive Wegewahl: Das Vorhandensein alternativer Pfade durch das Netz 

erlaubt, eine adaptive Wegewahl vorzunehmen. Die Redundanz im Netz 

kann entweder zur Fehlertoleranz genutzt werden oder einen höheren Netzdurchsatz 

ermöglichen, sofern ein geeignetes Routing-Schema verwendet 

wird, das den Netzstatus bzw. die Verkehrssituation an den Knoten berücksichtigt. 

• Graphentheorie: Die Graphentheorie hat sich zusammen mit der Gruppentheorie 

als ein nützliches Instrument zur Beschreibung von Netzen erwiesen. 

7

Der Graph des Schieberegisters ist in Bild 1.3 dargestellt. (Da sowohl Graphen- 

als auch Gruppentheorie nicht zum aktiven Wissen von Ingenieuren 

und technisch orientierten Informatikern gehört, erfolgt an den Stellen, wo 

darauf Bezug genommen wird, eine Erläuterung der verwendeten Mathematik.) 

1 

2 

... 

n 

Bild 1.3: Der Schieberegisterring als Graph. 

Für die formale Darstellung von (m=n)-Netzen nach Def 1.1 werden verschiedene 

Schreibweisen von Permutationsfunktionen verwendet, wie z. B. die Mengen- 

oder Matrizenschreibweise sowie die Darstellung als Zyklen- oder Zweierzyklen. 

Diese Notationen sind in Bild 1.4 für das Beispiel des 

Schieberegisterrings gezeigt, der mit jedem Takt die Daten 1 bis n an seinen 

Eingängen im Gegenuhrzeigersinn weiterschiebt. 

Für Verbindungsnetzwerke sind hauptsächlich die Matrix- und die Zyklenschreibweise 

bedeutsam. Die letztere läßt sich noch kompakter darstellen 

als in Bild 1.4 angegeben. Dazu wird die Matrizenschreibweise dahingehend 

modifiziert, daß die erste Zeile der Matrix weggelassen und die zweite Zeile 

1 2 3 4 

ohne Klammern geschrieben wird. Aus p = ⎛ 

⎞ beispielsweise 

wird so 4123. Diese Schreibweise ist sehr ähnlich der Vektor- 

⎝4 1 2 3⎠ 

schreibweise, nur unterliegt sie nicht deren Einschränkungen bzgl. der Verknüpfung 

von Vektoren. 

1.3 Die Bus/Speicher-Kopplung 

Ein zweites einfaches Beispiel eines Verbindungsnetzwerks stellt der Bus dar, 

der auf Entfernungen bis ca. 0,5 m die daran angeschlossenen Einheiten im 

Zeitmultiplex miteinander verbinden kann. Bei Parallelrechnern wird in der Regel 

neben einem Bus noch ein gemeinsamer Speicher zur Kopplung der Rechenknoten 

verwendet. Daraus resultiert das Konzept des Symmetric Multiprocessing 

(SMP) [Hwang93]. 

8

V 

= 

( i j) 

Mengenschreibweise: 

⎧⎪ 

A , A mit i, j = 12 , ,..., n 

⎫⎪ 

⎨ 

⎬ 

⎩⎪ ( AA 1 2A3... An−1An) → ( AnAA 1 2... An−2An−1) 

⎭⎪ 

⎛ 

⎜ 

⎝ 

Matrixschreibweise: 

1 2 3 ... n ⎞ 

⎟ 

n 1 2 ... n−1⎠ 

Zyklenschreibweise: 

( 1 n n -1 n - 2 ... 2) 

Zweierzyklenschreibweise: 

( n n−1) ( n n−2) ( n n−3) ..... ( n 1) 

Bild 1.4: Der Schieberegisterring in Mengen-, Matrix-, Zyklen- und Zweierzyklenschreibweise. 

1.3.1 Symmetrische Multiprozessoren 

Die Bus/Speicherkopplung mehrerer gleichartiger Prozessoren oder Rechenknoten 

ist der einfachste Fall einer konventionellen Koppelmethode, die 

bei SMPs in verschiedenen Varianten realisiert sein kann. Die einfachste und 

zugleich leistungsschwächste Möglichkeit ist in Bild 1.5 dargestellt. 

Die Prozessoren tauschen während der Programmausführung über den gemeinsamen 

Bus und Speicher Daten aus. Zugriffskonflikte, die bei gleichzeitigem 

Zugriff von zwei oder mehr Knoten auf dieselbe Speicherzelle entstehen, 

werden durch den Bus aufgelöst, indem eine Sequentialisierung der Zugriffe 

gemäß eines Prioritätsschemas vorgenommen wird. 

Prozessoren 

P1 

P2 .... .. 

Bus 

Pn 

M1 

gemeinsamer 

Speicher 

Bild 1.5: Einfache Bus/Speicherkopplung in einem Multiprozessorsystem. 

9

Als technisch geeignete Bussysteme haben sich in der Vergangenheit z.B. der 

VMEbus und der MULTIBUS II erwiesen. Bussysteme für SMP-Rechner müssen 

über eine Multimaster-Betriebsweise verfügen, die für einen kontrollierten 

Buszugang durch Arbitrierung und damit für einen wechselseitigen Ausschluß 

gleichzeitig zugreifender Rechner sorgt. 

Obwohl dieses sehr einfache SMP-Konzept bereits vom Ansatz her in seiner 

Leistungsfähigkeit begrenzt ist, gibt es doch kommerzielle Beispiele von Parallelrechnern, 

die so gebaut wurden. Bild 1.6 zeigt den Multimax-Rechner der 

Fa. Encore [Encore87], der in der Vergangenheit, trotz seiner Einfachheit, oder 

vielleicht gerade deswegen, eine gewisse Verbreitung und Popularität erreichen 

konnte. Heutige SMP-Server sind dagegen bedeutend aufwendiger, um die der 

Bus-/Speicher-Kopplung innewohnenden Nachteile zu kompensieren. 

Ethernet 

SCSI 

APC 

oder 

XPC 

Front 

Panel 

APC 

oder 

XPC 

SCC 

... APC 

oder 

XPC 

Nanobus 

SMC 

EMC 

MSC 

APC: Advanced Processor Card 

XPC: Dual Processor Card 

EMC: Ethernet/Mass Storage Controller 

MSC: Mass Storage Controller 

SCC: System Control Card 

SMC: Shared Memory Card 

Multimax 320/520 System Cabinet 

Bild 1.6: Das Multimax System der Encore Computer Corp. nach [Encore87]. 

Bei der Bus/Speicherkopplung kommunizieren die Prozessoren P 1 bis P n über 

den Speicher M 1 durch das Schreiben und Lesen gemeinsamer Daten. Der 

Nachteil der Bus/Speicher Kopplung ist, daß die Interprozessorkommunikation 

durch die Verwendung des gemeinsamen Busses und (einzigen) Speichermoduls 

M 1 zeitlich nacheinander ablaufen muß, was die Effizienz des Gesamtsystems 

erheblich beeinträchtigt. Simulationen und Messungen an dieser Variante 

der Bus/Speicherkopplung haben gezeigt, daß sich die beiden wichtigen Maße 

Durchsatz und Effizienz häufig wie in Bild 1.7 dargestellt verhalten. 

Die Idee der Parallelverarbeitung wird durch die rasche Sättigung des Kommunikationssystems 

auf den Kopf gestellt, da von einer kritischen Prozessorzahl 

an, die relativ niedrig liegt, Durchsatz und Effizienz unter die Werte des 

Einzelprozessorsystems absinken. 

Zur Lösung des Sättigungsproblems bei der Bus/Speicherkopplung müssen 

an zwei Stellen Maßnahmen getroffen werden: Zum einen muß die Busbandbreite 

so gewählt werden, daß sie ungefähr der additiven Bandbreite der Spei- 

10

1 x 

relativer 

Durchsatz 

x 

x 

x 

x 

x 

x 

x 

1 

Effizienz 

x 

x 

x 

x 

x 

x 

x 

1 

Zahl der 

Prozessoren 

1 

Zahl der 

Prozessoren 

Bild 1.7: Durchsatz und Effizienz der klassischen Bus/Speicherkopplung. 

cherschnittstellen der Rechenknoten entspricht. Diese Forderung kann leicht 

die Grenzen des technisch Machbaren der Bustechnologie erreichen bzw. überschreiten, 

ist also i.a. nicht ohne weiteres erfüllbar. Zum anderen muß die Speicherbandbreite 

auf denselben Wert wie die Busbandbreite gesteigert werden, 

um Engpässe zu vermeiden. Für das letztere gibt es mehrere Möglichkeiten, die 

allesamt auf direkter oder indirekter Nebenläufigkeit im Speichersubsystem beruhen. 

Im wesentlichen wird dabei die limitierte Bandbreite durch Verwendung 

mehrfacher Speichermodule erhöht (Bild 1.8). 

P1 

Prozessoren 

P2 ...... 

Bus 

Pn 

M1 M2 . . . Mm 

gemeinsame 

Speicher 

Bild 1.8: Bandbreiteerhöhung der Bus/Speicherkopplung durch multiple Speicher. 

Besteht ein Speichersubsystem aus mehreren parallelen Modulen, können folgende 

Maßnahmen einzeln oder als Ganzes implementiert werden, um die Bus/ 

Speicherkopplung attraktiv zu machen: 

1. Wortbreiteerhöhung: Eine Erhöhung der Wortbreite des Speichersubsystems 

auf das n-fache (n>1) der Prozessorwortbreite bewirkt, daß bei jedem 

Speicherzugriff mehr Worte als vom Prozessor benötigt gelesen 

werden, wodurch Zugriffe auf nachfolgende Adressen wegfallen. Die Speicherbandbreite 

steigt um den Faktor n. 

2. Adreßverschränkung: Addreßmäßig nachfolgende Worte werden auf voneinander 

unabhängige Speichermodule (Bänke) verteilt, die zeitlich leicht 

11

versetzt adressiert werden. Die Summe aller Zeitversetzungen bei n Bänken 

ist gleich der Zykluszeit T eines einzelnen Speichermoduls. Dadurch 

kann erreicht werden, daß alle T/n Zeiteinheiten ein neues Wort aus dem 

Speicher zur Verfügung steht. Voraussetzung bei dieser und der ersten 

Maßnahme ist, daß der Prozessor möglichst lange linear auf- oder absteigende 

Adressen an den Adreßbus anlegt. 

3. Geteilter Buszyklus (Split Transaction): Beim Split Transaction-Betrieb 

kann ein noch nicht abgeschlossener Speicherzyklus auf der Busseite unterbrochen 

werden, sobald die Speicheradresse vom Bus ausgegeben wurde 

und der Prozessor eine neue Adresse lesen oder schreiben möchte. In der 

Zwischenzeit, die der Speicher benötigt, um auf die zuerst gewünschte Variable 

zuzugreifen, liegen am Bus eine oder mehrere neue Adressen an. 

Nach Ablauf der Speicheraddressierungszeit, die in diesem Fall größer als 

die Buszykluszeit ist, werden die nach Ablauf der Zugriffszeit zur Verfügung 

stehenden Daten auf den Bus gegeben bzw. ihm entnommen, so daß 

der zuvor unterbrochene Schreib- oder Lesezyklus abgeschlossen ist. Die 

Überlappung mehrerer Speicherzyklen steigert die Bandbreite des Speichersubsystems. 

4. Pipelining: Beim Pipelining wird ein Speicherzugriff der Zeitdauer T in 

eine Reihe von n elementaren Operationen wie "Adresse anlegen", "Chip 

Enable-Leitung aktivieren", "Speicherzugriffsszeit abwarten", "Datum lesen" 

usw., untergliedert, die jeweils die Zeit T/n benötigen. Diese elementaren 

Operationen werden fließbandmäßig verkettet ausgeführt. Bei n 

gleich langen Unterteilungen können neue Speicheradressen n-fach schneller 

angelegt werden. 

Durch die Betriebsmöglichkeiten 1 - 4 des Speichersubsystems wird die kritische 

Prozessorzahl, von der ab die Latenzzeit der Interprozessorkommunikation 

nichtlinear ansteigt, erheblich gesteigert (Bild 1.9). 

Insgesamt können die beschriebenen Maßnahmen die Sättigungsgrenze des 

Speichersubsystems nur verschieben, aber nicht vermeiden. Man geht davon 

aus, daß unter Ausnutzung aller technischen Möglichkeiten nicht mehr als 32 

RISC-Prozessoren sinnvoll über Bus und gemeinsamen Speicher gekoppelt 

werden können. Voll skalierbar sind dagegen die einund mehrstufigen Verbindungsnetzwerke. 

Die Maßnahmen 1-4 zur Verbesserung der Bus/Speicherkopplung bei Parallelrechnern 

lassen sich bzgl. ihres Kosten/Nutzen-Verhältnisses folgendermaßen 

bewerten: 

• Wortbreiteerhöhung und/oder Adreßverschränkung: Diese Methoden werden 

seit ca. 2 Jahrzehnten bei Speichersubsystemen von Vektor-Superrechnern 

erfolgreich eingesetzt. Die Maßnahmen erfordern sehr breite Busse 

im Subsystem, was einen erheblichen Kostenfaktor darstellt (ca. 70% der Gesamtkosten 

eines Vektor-Supercomputers liegen im Speichersubsystem). 

Deshalb ist diese Technik nur bedingt bei Parallelrechnern einsetzbar. 

• Gemeinsame Speichermodule mit geteiltem Buszyklus (Split Transaction): 

Der geteilte Buszyklus erlaubt, mehrere Speicheranforderungen überlappend 

12

Latenzzeit 

pro Speicherzugriff 

x 

x 

o 

o 

Band= 

breite= 

limits 

Durchsatz 

o o o o 

o 

x x x x x x 

o 

x o 

x x x x o x 

x 

1 x x x xx x 

x 

o o o o o o oo o 

o 

o 

o 

1 

Zahl der 

Zahl der 

1 

Prozessoren 

Prozessoren 

Bild 1.9: Speichersättigung mit (o) und ohne (x) Maßnahmen 1 - 4. 

zu bearbeiten, ohne daß die Prozessoren durch die im Vergleich zum Bus relativ 

lange Speicherzykluszeit blockiert werden (asynchrones Schreiben und 

Lesen). Dies ist insbesondere zusammen mit einer mehrfädigen Programmausführung 

(Multi Threading), bei der extrem schnell von einem Prozeßfaden 

zum nächsten umgeschaltet wird, von großem Vorteil, da die Zugriffszeit auf 

Variable im Speicher für andere Prozeßfäden genutzt wird (Latency Hiding). 

Diese Methode bietet bei Parallelrechnern ein großes Anwendungspotential 

und ist relativ preisgünstig zu realisieren. 

• Pipelining: Gemeinsame Speichermodule mit Pipelining bedeutet, daß der 

Speicherzugriff in atomare Einheiten, wie 'Adresse anlegen', 'Buspuffer umschalten' 

etc., zerlegt wird, die dann in einer Pipeline verkettet werden können. 

Die Speicherzugriffszeiten für voneinander unabhängige Zugriffe reduzieren 

sich in diesem Fall auf die Bearbeitungszeit der langsamsten 

Pipelinestufe. Speicher-Pipelining wird seit 2 Jahrzehnten bei den Vektor- 

Supercomputern angewandt und ist auch bei Parallelrechnern sinnvoll. 

Zwei kommerzielle Beispiele der Bus/Speicherkopplung mit multiplen Kommunikationsspeichern 

sind der Sequent und der ELXSI Rechner, die in Bild 

1.10 und Bild 1.11 dargestellt sind. 

Eine weitere wesentliche Verbesserung von Durchsatz und Latenzzeit des 

Kommunikationssystems kann durch zusätzliche Lokalspeicher erzielt werden, 

die den Zugriff auf gemeinsame Module M 1 - M m nur für das Lesen und Schreiben 

auch gemeinsam genutzter Variablen erforderlich machen (Bild 1.12). Alle 

nicht gemeinsamen Daten werden in den Lokalspeichern L 1 - L n gehalten. Diese 

sind nicht über den Systembus zugänglich, sondern über lokale Speicherbusse, 

und können deshalb parallel adressiert werden, so daß die Sequentialisierung 

der Kommunikation aufgehoben wird, die einen prinzipiellen 

Engpaß der Bus/Speicherkopplung darstellt. Der zweite Vorteil dieser Archi- 

13

tektur besteht darin, daß die kleinen, lokalen Busse aus Anpassungs- und Laufzeitgründen 

breitbandiger ausgelegt werden können als der Systembus. 

Dual CPU 

Processor 

Boards 

Memory 

Controller 

Boards 

Memory 

Expansion 

Boards 

. . . 

80 MB/s 

MULTIBUS 

System Bus 

User 

Devices 

T 

A 

P 

E 

Multibus 

Adapter 

Board 

SCSI, 

Ethernet 

Controller 

Bild 1.10: Bus/Speicherkopplung beim Sequent Symmetry Rechner (Sequent Corp.) 

CPU CPU . MEM . . MEM 

Gigabus 

I/O 

Proc ess or 

I/O 

Sub 

Bus 

ses 

I/O 

Proc ess or 

I/O 

Sub 

Bus 

ses 

Servic e 

Pr ocess or 

Bild 1.11: Bus/Speicherkopplung beim ELXSI System 6400 von ELXSI Corp. 

Zusätzliche Geschwindigkeit sowie Wegfall der manchmal nicht effizient genutzten 

gemeinsamen Speicher sowie eine Entlastung des Systembusses ergeben 

sich durch den Einbau von Cache-Speichern (Bild 1.13). 

Die Cache-Speicher erlauben, lokale Kopien von gemeinsamen Variablen 

anzulegen, die von den Prozessoren auch lokal gelesen und geschrieben werden 

können. Die Cache-Steuerungen sind u.a. dafür zuständig, daß das Konsistenzproblem, 

das bei gleichzeitigem Schreiben mehrerer Kopien einer gemeinsamen 

Variablen entsteht, gelöst wird. Eine automatische Konsistenzsicherung 

sorgt dafür, daß gemeinsame Variable und ihre Kopien systemweit denselben 

Wert haben. Dies wird von den Cache-Steuerungen durch Beobachten der 

14

P1 

L1 

Lokale Busse und Speicher 

P2 

. . . 

L2 

. . . 

Pn 

Ln 

. . . 

M1 M2 . . . Mm 

gemeinsame Speicher 

Systembus 

Bild 1.12: Bus/Speicherkopplung mit Lokalspeicher. 

P1 

P2 

Pn 

C1 

C2 

... 

Cn 

Bus 

M1 M2 Mn 

Bild 1.13: Bus/Speicherkopplung mit Caches und Bus Snooping. 

Schreib-/Leseaktivitäten auf dem Systembus (Bus Snooping) sowie durch Abwicklung 

eines komplexen "Update"-Protokolls wie z.B. MESI [Giloi93] erreicht. 

Bei der Architektur nach Bild 1.13 bestehen keinerlei geschwindigkeitsmäßige 

Unterschiede beim Zugriff der Prozessoren auf Daten in den einzelnen Modulen 

M 1 -Mn, weil alle Zugriffe, die nicht von den Caches befriedigt werden 

können, gleich schnell bzw. langsam abgewickelt werden können. Diese Eigenschaft 

einer symmetrischen Rechnerarchitektur wird als Uniform Memory Access 

(UMA) bezeichnet. UMA-Architekturen sind relativ einfach zu programmieren, 

weil die Allozierung von Variablen zu Speichern nicht beachtet werden 

muß. Andererseits nützen UMA-Rechner die häufig vorhandene Datenlokalität 

paralleler Anwendung nicht zur Gänze aus, weil keine lokalen Speicher existieren. 

Um einen Effizienzverlust zu vermeiden und um die Cache-Speicher nicht zu 

groß und damit zu teuer werden zu lassen, kann man in einer weiteren Optimierungsstufe 

der Bus/Speicherkopplung die gemeinsamen Speichermodule 

lokal zu den Prozessoren anbringen, wodurch das Konzept der globalen und der 

lokalen Speicher vereinigt wird. Dadurch wird der Systembus ebenso entlastet 

wie der Durchsatz erhöht. Eine Adreßdekodierung an jedem Speichermodul 

sorgt dafür, daß eine Speicheranforderung des lokalen Prozessors auch lokal 

abgewickelt wird, also schneller als der Zugriff auf einen entfernten Speicher 

15

abläuft. Aufgrund der geschwindigkeitsmäßigen Unterschiede der Speicherzugriffe 

spricht man in diesem Fall von einer Non Uniform Memory Access-Architektur 

(NUMA). Parallele Anwendungen, die Datenlokalität aufweisen, 

werden in der Effizienz der Ausführung wesentlich davon beeinflußt, ob lokale 

Daten des Programm auch lokal abgespeichert werden. Gute parallele Programmierung 

bedeutet deshalb bei einer NUMA-Architektur die richtige Allozierung 

von Programmvariablen zu Speichern. 

P1 

P2 

Pn 

M1 C1 M2 C2 . . . 

Mn 

Cn 

Systembus 

Bild 1.14: Bus/Speicherkopplung mit unsymmetrischen Zugriffszeiten (NUMA). 

Die Bus/Speicherkopplung gemäß Bild 1.13 (UMA) oder Bild 1.14 (NUMA) 

mit Busbeobachtung zur Konsistenzsicherung ist für Multiprozessoren mit kleinerer 

Prozessorzahl (≤ 8) aus Kosten- und Leistungsgründen sehr gebräuchlich. 

Sie wurde und wird bei einer Reihe kommerzieller Systeme angewandt. Ein 

Beispiel dafür ist der Alliant FX/8-Rechner (Bild 1.15), der dem UMA-Schema 

entspricht. 

Zusammenfassend kann gesagt werden, daß das Symmetric Multiprocessing 

(Bus/Speicherkopplung) in vielen parallelen Rechensystemen zu finden ist. 

Speziell bei Servern mit 2-4 Prozessoren existieren Rechner von Compaq, 

DEC, IBM, Sequent, SNI, SUN und anderer Hersteller mit solcher Architektur. 

In Zukunft werden es die Fortschritte in der Silizium-Höchstintegration erlauben, 

ca. 4 Prozessoren sowie die dazugehörigen Caches mit Bus und 

Konsistenzsicherung auf einem einzigen Silizium-Chip zu integrieren. Dadurch 

wird die Bedeutung der Bus/Speicherkopplung weiter zunehmen. Diese Entwicklung 

ist bei den sog. Quad-Prozessor Boards bereits vorweggenommen. 

1.3.2 Mehrtorspeicherkopplung 

Die zweite klassische Kopplungsmethode neben der Bus/Speicherkopplung besteht 

darin, Prozessoren über einen Mehrtorspeicher (Multiport Memory) zu 

verbinden. Mehrtorspeicher unterscheiden sich von üblichen (Eintor)-Speichern 

dadurch, daß sie gleichzeitige Schreib-/Lesezugriffe auf identische oder 

unterschiedliche Adressen auf der Ebene des Speichersubsystems erlauben. Der 

interne Aufbau der Mehrtorspeicher unterstützt hardwaremäßig einfaches 

Schreiben und mehrfaches Lesen (Exclusive Write Multiple Read) oder gleichzeitiges 

mehrfaches Schreiben und Lesen von Variablen (Multiple Write, Mu- 

16

MEM 

MEM 

. . . 

MEM 

Memory Bus 

Cache Cache . . . Cache 

. . . 

IP1 IP2 IP12 

Bild 1.15: Bus/Speicherkopplung mit Caches (Alliant FX/8-Rechner). 

tiple Read). Selbstverständlich ist auch beim Multiport-Speicher der Wert einer 

Variablen nicht determiniert, wenn von mehreren Prozessoren gleichzeitig dieselbe 

Variable beschrieben wird. Dieser Fall kann bei bestimmten Programmiermodellen 

wie dem der weak consistency [Hwang93] und geeigneten Rechenalgorithmen 

erlaubt sein, in den meisten Fällen wird jedoch das 

gleichzeitige mehrfache Schreiben einer Variablen durch eine Synchronisation 

verhindert, um deterministische Programmergebnisse zu erzielen. 

Mehrtorspeicher werden traditionell zur Kopplung weniger (4-16) Prozessoren 

verwendet, wie sie bei einem Vektor-Superrechner wie z.B. einer Cray 

YMP, J 90, C 90, CONVEX C4 oder NEC SX-4 gegeben sind. In diesen Fällen 

werden die multiplen Anschlüsse eines Mehrtorspeichers durch einen sehr 

schnellen Eintorspeicher, bestehend aus einer Vielzahl von Speicherbänken 

und einem Verbindungsnetzwerk wie z.B. ein Kreuzschienenverteiler emuliert. 

Das Verbindungsnetzwerk weitet den Speicheranschluß so auf, daß alle Prozessoren 

daran angeschlossen werden können. Die Zahl der Speicherbänke muß 

groß genug gewählt werden, um die Prozessoren bandbreitemäßig zufriedenzustellen. 

Das Prinzip das Mehrtorspeichers ist in Bild 1.16 dargestellt, eine konkrete 

Implementierung sieht man in Bild 1.17. Mehrtorspeicher ermöglichen einen 

gleichzeitigen Zugriff der Prozessoren durch eine Adreßverschränkung der 

Speicherbänke. Bei Parallelrechnern haben Mehrtorspeicher im Vergleich zur 

Bus-/Speicher-Kopplung keine besondere Bedeutung erlangt, u.a. deswegen, 

weil sie sehr viel teurer in der Realisierung sind. 

Technisch betrachtet gibt es zwei Möglichkeiten, Mehrtorspeicher zu implementieren: 

• Über spezielle Multiport SRAM- oder DRAM-Speicherbausteine, wie sie 

z.B. von AMD oder Cypress angeboten werden. Diese integrierten Schaltkreise 

weisen 2-4 Speicheranschlüsse auf, die simultan gelesen oder geschrieben 

werden können. Sie haben den Nachteil, daß sie aufgrund komplexer 

interner Verdrahtung nicht hoch integrierbar sind und daß sie wegen der 

Vielzahl benötigter Anschlußstifte erheblich teurer in der Herstellung sind als 

konventionelle RAM-Speicher. 

17

P1 P2 . . . Pn 

Verbindungs= 

netzwerk 

Bild 1.16: Prinzip der Mehrtorspeicherkopplung über Eintorspeicher und Netzwerk. 

M 

P1 P2 P3 P4 P5 P6 P7 P8 

4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 

8x64 8x64 8x64 8x64 

256 Speicherbänke 

Bild 1.17: Implementierung der Mehrtorspeicherkopplung bei der Cray YMP-816. 

• Über konventionelle SRAM- oder DRAM-Bausteine in Verbindung mit einem 

vorgeschalteten Netzwerk, das den Speicheranschluß aufweitet. Als 

Verbindungsnetzwerke werden ein oder mehrstufige Netze oder bei konventionellen 

Architekturen auch Busse verwendet. Die Kosten dieser Lösung 

sind geringer als bei der Kopplung über integrierte Multiport-Schaltkreise, 

die additive Speicherbandbreite allerdings auch, sofern nur eine Speicherbank 

verwendet wird. 

Parallelrechner in Forschungsprojekten, die auf Multiport-Speicherkopplung 

beruhen, wie z.B. der DIRMU-Rechner [Händler85], ermöglichen die Kopplung 

einer kleineren Zahl von Prozessoren. 

Beim DIRMU-Rechner fungiert jeder Multiport-Speicher als ein Kommunikationselement 

mit sieben Kanälen und einem achten Anschluß für den lokalen 

Prozessor. Bis zu acht Rechenknoten mit Multiport-Speicher können so in 

einer vollständig vermaschten Topologie miteinander verbunden werden. Bei 

größeren DIRMU-Systemen sind entfernte Rechenknoten indirekt verbunden, 

indem einer oder mehrere Multiport-Speicher als Zwischenstation für die Daten 

der Interprozessorkommunikation dienen. 

18

1.3.3 Die Grenzen der Bus/Speicherkopplung 

Parallelrechner, die auf Buskopplungen mit gemeinsamen Speichern oder auf 

Mehrtorspeichern beruhen, sind aus zwei physikalischen Gründen in ihrer Leistungsfähigkeit 

prinzipiell begrenzt, d.h. nicht skalierbar. Busse eignen sich nur 

innerhalb kleiner Entfernungen (≤ 1 m) zum schnellen Datentransport, da die zu 

treibenden kapazitiven Lasten mit zunehmender Buslänge ebenfalls ansteigen, 

während der die Kapazitäten umladende Bustreiberstrom nicht beliebig groß 

gemacht werden kann. Busgekoppelte Systeme sind deshalb i.a. auf einen Gehäuserahmen 

(Crate) begrenzt. Busse haben eine endliche Bandbreite, die von 

den nicht anpaßbaren Übertragungsleitungen zwischen Bussender und -empfänger 

herrührt, für die alle Busstecker als störende Impedanzen wirken. Die 

Zahl der Steckplätze, und damit die Zahl der Prozessoren, ist deshalb für einen 

Bus mit hoher Bandbreite möglichst klein zu machen. Dies ist eine der 

Parallelverarbeitung widersprechende Forderung, die möglichst viele Rechnerknoten 

zu koppeln versucht. 

Zu diesen beiden "harten" Grenzen, die die Natur vorgibt, kommt eine "weiche" 

Grenze, die aus der zunehmenden Unbalanziertheit der Geschwindigkeiten 

von Prozessoren auf der einen Seite und Speichern auf der anderen 

Seite resultiert: Die schnellsten, technisch realisierbaren Bussysteme wie 

FASTBus oder Futurebus+ [IEEE91] erreichen maximal ca. 3 Gbyte/s an Datentransferrate 

und sind damit so schnell wie die Speicherschnittstelle eines einzigen 

RISC-Prozessors. Nur durch Zwischenschalten von großen und mehrfach 

gestuften Caches zwischen Prozessoren und Systembus lassen sich deshalb, 

ausreichende Datenlokalität vorausgesetzt, mehrere RISC-Prozessoren über einen 

gemeinsamen Bus koppeln. 

Aufgrund der prinzipiell nicht gegebenen Skalierbarkeit von Bus/Speichergekoppelten 

Architekturen, sind sehr schnelle Parallelrechner bzw. Parallelrechner 

mit großen Prozessorzahlen (> 16-32) auf einer Bustechnologie nicht 

aufbaubar. Glücklicherweise lassen sich die von der Physik gezogenen Grenzen 

der konventionellen Prozessorkopplungen durch andere Konzepte, wie parallele 

und/oder hierarchische Busse, sowie durch die Verwendung ein- oder mehrstufiger 

Verbindungsnetze umgehen. 

Unterhalb der vorgegebenen physikalischen Grenzen ist die Buskopplung mit 

gemeinsamem Speicher für kleine Prozessorzahlen kostengünstiger als alle anderen 

Technologien und übertrifft im Preis/Leistungsverhältnis auch die einund 

mehrstufigen Verbindungsnetzwerke. Multiprozessoren mit kleineren Prozessorzahlen 

(≤ 8-16) basieren deshalb fast ausschließlich auf diesem Konzept. 

Kommerzielle Beispiele für Symmetric Multiprocessing sind die Knotenarchitekturen 

des PowerChallenge Rechner von SGI, der Symmetric Multiprocessor 

von IBM sowie einige andere. 

19

1.4 Parallele Bussysteme 

Die Busbandbreite ist proportional zur Taktrate des Busses, zu seiner Wortbreite 

und zur Zahl parallelgeschalteter Busse pro Prozessor. Weil die Taktrate 

moderner Busse aus physikalischen Gründen nur noch wenig gesteigert werden 

kann und die Wortbreite für doppelt-genaue Gleitkommazahlen auf 64 Bit festgelegt 

ist, kann zur Bandbreiteerhöhung des Busses die Parallelschaltung mehrerer 

Busse herangezogen werden. Mehrbussysteme sind sowohl aus Geschwindigkeits- 

als auch aus Zuverlässigkeitsgründen sinnvoll und werden in 

Forschung und Industrie entworfen und eingesetzt. Ein typisches Mehrbussystem 

zeigt Bild 1.18. 

P1 P2 ... Pn 

M1 

M2 

... 

Mm 

Bild 1.18: Mehrbussystem mit parallelen Bussen. 

Eine evolutionäre Weiterentwicklung des Mehrbuskonzepts entsteht durch Ersetzen 

der Bus-Ports durch Zugriffsbusse und durch Hinzufügen von Busbrükken, 

wie es in Bild 1.19 gezeigt wird. Diese Methode hat den Vorteil, daß ein 

Busanschluß pro Prozessor ausreicht. Da die Bandbreite für den Prozessor auf 

die des Zugriffsbusses beschränkt bleibt, sind Caches unabdingbar, um die 

Speicheranforderungen moderner RISC-Prozessoren erfüllen zu können. 

Durch die Kombination von Zugriffsbussen und parallelen Speicherbussen 

entsteht eine 2-dimensionale Busmatrix. Beim Busmatrixkonzept hat jeder Prozessor 

einen exklusiven Buszugang (vertikale Richtung), der über Busbrücken 

zu den Speicherbussen (horizontale Richtung) die Verbindung mit den Speichermodulen 

herstellt. 

Die Busbrücken arbeiten adreßgesteuert und blenden für bestimmte Adreßbereiche 

Daten eines horizontalen Busses in den eigenen vertikalen Bus ein. Sie 

haben somit eine Schalterfunktion. Dies macht das Busmatrixkonzept identisch 

mit einem Kreuzschienenverteiler. Deshalb kann diese Kopplungsmethode 

nicht mehr als Buskopplung im eigentlichen Sinne bezeichnet werden, sondern 

zählt bereits zu den dynamischen Verbindungsnetzwerken, da Busleitungen 

umgeschaltet werden. Umgekehrt werden Kreuzschienenverteiler häufig als 

Busmatrix implementiert. 

20

P1 

P2 

... 

Pn 

C1 

C2 

... 

Cn 

M1 

M2 

... 

Mm 

Bild 1.19: Mehrbussystem mit vertikalen und horizontalen Bussen. 

1.5 Hierarchische Bussysteme 

Die Umgehung der von der Physik gezogenen Grenzen bei der Bus/Speicherkopplung 

kann entweder durch die Verwendung mehrerer paralleler Busse 

oder durch den Einsatz von hierarchisch gegliederten Bussen erfolgen. In Bild 

1.20 ist ein hierarchisches Bussystem zur Prozessorkopplung für den Fall von 

zwei Hierarchieebenen dargestellt. Auf der unteren Hierarchieebene gibt es vier 

einzelne Multiprozessorsysteme, die auf der nächsthöheren Ebene miteinander 

verbunden sind. Hierarchische Bussystem werden u.a. in [Wilson87] untersucht. 

Hierarchische Bussysteme benötigen Datenlokalität in den parallelen Anwendungen, 

die bei der Interprozessorkommunikation benachbarte Prozessoren 

den entfernten Prozessoren vorzieht. Das heißt, daß bei Datenlokalität jeder 

Rechner einen Satz von Prozessoren oder Rechnern hat, mit denen er besonders 

häufig kommuniziert. Dieser Communication Set, der vergleichbar mit dem 

Working Set im Cache eines Einzelprozessors ist, erlaubt, häufig kommunizierende 

Rechner auch physikalisch benachbart zu gruppieren. 

Bei hierarchischen Bussystemen werden die Prozessoren oder Rechner in 

Untergruppen gegliedert, die wiederum zu Hauptgruppen zussammengefaßt 

werden. Der Vorteil der Gruppenbildung (Clustering) liegt darin, daß die Interprozessorkommunikation 

innerhalb einer Gruppe aus technischen Gründen 

schneller abgewickelt werden kann als zwischen den Gruppen, da sich Daten 

über kurze Entfernungen schneller transportieren lassen als über lange Distanzen. 

Nach einer Arbeit von A. Agarwal [Agarwal91] weist die Datenlokalität zwei 

Eigenschaften auf. Die erste Eigenschaft bewirkt, daß die Latenzzeit für Interprozessorkommunikation 

durch geschickte Allozierung von Prozessen zu Prozessoren 

reduziert werden kann. Die zweite Eigenschaft bewirkt, daß bei rich- 

21

P1 

P2 

Pn 

P1 

P2 

Pn 

C1 

C2 

... 

Cn 

C1 

C2 

... 

Cn 

M1 M2 Mn 

M1 M2 Mn 

P1 

P2 

Pn 

P1 

P2 

Pn 

C1 

C2 

... 

Cn 

C1 

C2 

... 

Cn 

M1 M2 Mn 

M1 M2 Mn 

Bild 1.20: Hierarchisches Bussystem. 

tiger Zuordnung von Prozessen zu Prozessoren die Kommunikation zwischen 

entfernten Prozessoren nicht nur relativ selten stattfindet, sondern auch weniger 

Bandbreite benötigt als der Datenaustausch zwischen benachbarten Prozessoren, 

die in der Regel mit hoher Datenrate erfolgt. Das bedeutet, daß bei Datenlokalität 

entfernte Prozessoren ohne Leistungsverlust mit geringerer Bandbreite 

gekoppelt werden können, als benachbarte, was zu erheblichen Kosteneinsparungen 

führt. Auf diesem Prinzip fußen hierarchische Bussysteme, da sie Cluster 

von Prozessoren mit geringerer Bandbreite koppeln als die Prozessoren innerhalb 

eines Clusters. 

Moderne Bussysteme wie der Futurebus+ erlauben explizit hierarchische 

Buskopplungen zur skalierbaren Einstellung der Rechnerleistung eines Multiprozessorsystems 

gegenüber einem Einzelprozessorsystem. Neben den Multiprozessoren 

und Multicomputern mit parallelen Bussen ist die hierarchische 

Buskopplung die einzige Möglichkeit, den sequentiellen Charakter eines Bustransfers 

über die von der Physik gezogene Bandbreitegrenze hinaus zu beschleunigen. 

Der Flaschenhals der Kommunikation kann im Prinzip durch Verwendung 

eines ein- oder mehrstufigen Verbindungsnetzwerkes vermieden werden, da ein 

statisches oder dynamisches Netz nicht auf dem Zeitmultiplexprinzip eines 

Busses beruht, sondern einen exklusiven Netzzugang für jeden einzelnen Rechner 

zur Verfügung stellt. Die räumliche Parallelität erfordert jedoch einen erheblich 

größeren schaltungstechnischen Aufwand als ein Zeitmultiplex-Bussystem. 

22

1.6 Skalierbarkeit von Verbindungsstrukturen 

Unter Skalierbarkeit versteht man die Eignung einer vorgegebenen Verbindungsstruktur 

sowohl für kleine (einige Dutzend) Teilnehmerzahlen als auch 

nach einer entsprechenden Erweiterung für sehr große (einige Tausend bis 

Zehntausend) Teilnehmerzahlen. Dies setzt einen modularen Aufbau des gegebenen 

Netzwerkes voraus. Am Beispiel der Buskopplung wurde das Problem 

der Skalierbarkeit von Verbindungsstrukturen sichtbar. Beim Bus ist Skalierbarkeit 

aufgrund der maximal vorgegebenen Bandbreiten nicht möglich. 

Bei einund mehrstufigen Verbindungsnetzwerken treten ebenfalls gewisse 

Probleme auf, die eine beliebige Skalierbarkeit manchmal erschweren bzw. unmöglich 

machen. Zwar läßt sich hier die Teilnehmerzahl durch das Raummultiplexprinzip 

"unendlich" vergrößern, doch gibt es auch bei solchen Netzwerken 

Nebeneffekte, die der Skalierbarkeit Schranken auferlegen. 

Eine solche Schranke stellt die inhomogene Verkehrsverteilung in einem 

Netz dar, die bewirkt, daß einzelne Kanäle stärker belastetet werden als andere. 

Die Sättigung belasteter Kanäle wird mit zunehmender Teilnehmerzahl und 

steigender Datentransferrate immer wahrscheinlicher, da die Datendichte zunimmt. 

Die Stellen im Netz, an denen Sättigungseffekte auftreten, werden als 

Hot Spots bezeichnet. Sie bewirken, daß sich Rückstaus von Datenpaketen ähnlich 

wie auf einer überlasteten Autobahn bilden, wodurch einzelne Netzstufen 

kurzzeitig unpassierbar werden. Diese transienten Effekte bewirken zu nicht 

vorhersagbaren Zeitpunkten ein nichtlineares Ansteigen der Latenzzeit, was 

eine unbegrenzte Skalierbarkeit verhindert. Durch zusätzliche Maßnahmen im 

Netz wie adaptives Routing und Combining [Pfister85b] lassen sich allerdings 

solche hochbelasteten Kanäle umgehen bzw. vermeiden. 

Als weiterer Problempunkt bei mehrstufigen Netzen gilt die Tatsache, daß 

Netze häufig so organisiert sind, daß die Zahl der Anschlüsse nur in Zweierpotenzen 

erhöht werden kann, was ab einer gewissen Zahl von Verdopplungen 

ein zu grobes Raster an Anschlüssen bedeutet. Die Verdopplung der Anschlüsse 

läßt sich von einer bestimmten Netzgröße an nicht mehr bezahlen, da zu viele 

Anschlüsse ungenutzt bleiben - außer die Zahl der Prozessoren wird ebenfalls 

verdoppelt. Durch Cluster-Bildung in hierarchische Strukturen kann man hier 

Abhilfe schaffen. 

Schließlich ist die Durchlaufverzögerung (Latenz) eines Signals durch ein 

mehrstufiges Netz i.a. vom Logarithmus der Zahl der Netzeingänge abhängig, 

so daß große Netze auch große Latenz bedeuten. Allerdings wächst der Logarithmus 

immer langsamer mit zunehmender Netzgröße, so daß sich diese 

Schranke in der Praxis nicht stark bemerkbar macht. 

Zusammenfassend kann gesagt werden, daß trotz der genannten Probleme 

mehrstufige Netze, wie z.B. das Omega- [Lawrie75] oder Baseline-Netz 

[Wu80a], als im Prinzip unbegrenzt skalierbar gelten, da die Skalierbarkeit 

durch zusätzliche Maßnahmen erhalten bleibt. 

23

1.7 Programmiermodelle und physikalische 

Kopplung 

Aus der Sicht des Benutzers gibt es zwei Standardmodelle für parallele Programmierung, 

die auf gemeinsamen Variablen (Shared Variables) oder auf Botschaftenaustausch 

(Message Passing) beruhen. Aus rechnerarchitektonischer 

Sicht basieren Parallelrechner entweder auf Kanalkopplung (Channels) oder 

auf Speicherkopplung (Shared Memory). Beide Programmiermodelle lassen 

sich über die zwei Kopplungsarten realisieren. Je nach Programmier- und Koppelmodell 

resultieren verschiedene Rechnerarchitekturen bzw. Verbindungsnetzwerke. 

Programmiermodelle 

Message Passing hat durch die Portierung der Message Passing-Bibliotheken 

PVM, PARMACS, MPI u.a. auf nahezu alle Rechnerplattformen eine hohe Verbreitung 

gewonnen. Die Message Passing-Bibliothek PVM stellt einen De Facto-Standard 

für parallele Programmierung mit Botschaftenaustausch dar. 

Andererseits werden ingenieurwissenschaftliche Codes traditionell in FOR- 

TRAN geschrieben, das vom Sprachkonzept her gemeinsame Variable favorisiert, 

die z.B. durch FORTRAN Common Blocks sowie durch spezielle Compiler-Direktiven 

ausgedrückt werden. Durch die Weiterentwicklungen von 

FORTRAN 77 in die Nachfolger FORTRAN 90 und High Performance FORT- 

RAN (HPF) sowie andere Sprachen mit Array-Datentypen gewinnt das 

Programmiermodell der gemeinsamen Variablen in den technisch-wissenschaftlichen 

Anwendungsbereichen an Verbreitung. 

Den gemeinsamen Variablen eilt der Ruf voraus, bereits nach relativ kurzer Zeit 

der Codierung ein lauffähiges paralleles Programm zu ermöglichen, d.h. eine 

effiziente Programmerstellung zu erhalten, während Botschaftenaustausch, besonders 

bei größeren Prozessorzahlen, als effizienter in der Programmausführung 

gilt. 

Physikalische Kopplung 

Die beiden Standardprogrammiermodelle werden oftmals mit den physikalischen 

Arten der Kopplung gleichgesetzt. Insbesondere das Modell der aus 

Benutzersicht gemeinsamen Variablen suggeriert gemeinsamen Speicher als 

Kopplungsmethode. Dies ist in der Praxis keineswegs der Fall. Beispielsweise 

beruhen die Shared Variable-Rechner Cray T3D und Convex Exemplar auf kanalgekoppelten 

Rechenknoten, weil dies aufgrund deren räumlicher Ausdehnung 

aus technischen Gründen notwendig ist. Bei großen Parallelrechnern, 

die mehr als einen Gehäuserahmen (Crate) umfassen, müssen die aus Benutzersicht 

gemeinsamen Variablen über Kommunikationskanäle realisiert 

werden, da größere Entfernungen anderweitig nicht zu überbrücken sind. 

24

Korrespondierend zu der Tatsache, daß Programmiermodell und Koppelmodell 

voneinander unabhängig sind, gibt es von den japanischen Herstellern NEC und 

Fujitsu in deren Rechnern, die auf physikalisch gemeinsamem Speicher beruhen, 

Kommunikation über die Message Passing-Bibliothek PVM. 

Zwar bevorzugt das Programmiermodell der gemeinsamen Variablen aus 

historischen und praktischen Gründen die Buskopplung mit gemeinsamen 

Speicher, während Botschaftenaustausch oft auf kanalgekoppelten Prozessoren 

basiert, jedoch sind beide Programmiermodelle nicht notwendigerweise an das 

von ihnen favorisierte Kopplungskonzept gebunden, sondern lassen sich auf jeder 

Hardware-Plattform implementieren. In Vergangenheit und Gegenwart gab 

und gibt es Beispiele kommerzieller und wissenschaftlicher Rechner, die gemeinsame 

Variable auf kanalgekoppelten Prozessoren realisieren bzw. Botschaften 

auf gemeinsamen Speicher abbilden. 

Um einen Unterschied zwischen der physikalischen Kopplung einerseits und 

der logischen Sicht andererseits zu machen, wird im folgenden der Begriff des 

gemeinsamen Speichers auf die physikalische Ebene bezogen. Auf der logischen 

Ebene wird statt dessen der Begriff der gemeinsamen Variablen verwendet, 

der den Bezug zur Programmierung des Parallelrechners herstellt. Entsprechend 

werden Kanäle als das technische Übertragungsmedium bezeichnet und 

Botschaftenaustausch als die Art der Programmierung. 

Um die Nomenklatur zu vervollständigen, muß an dieser Stelle der wichtige 

Spezialfall vorweggenommen werden, bei dem auf der physikalischen Ebene 

ein gemeinsamer Speicher existiert, der nicht räumlich konzentriert, sondern 

verteilt ist. Aufgrund der physikalischen Ausdehnung von Parallelrechnern, die 

einige Meter und mehr betragen kann, scheidet die Buskopplung (Symmetric 

Multiprocessing) als Verbindung aus, statt dessen wird der gemeinsame Speicher 

über Kanäle emuliert. Auf den Kanälen wiederum werden die Adressen 

und Inhalte des gemeinsamen Speichers in Form von Datenpaketen zwischen 

den Speichermodulen übertragen. Diese Architektur, die als verteilter gemeinsamer 

Speicher (Distributed Shared Memory) bezeichnet wird, stellt die beiden 

physikalischen Kopplungsmodelle gemeinsamer Speicher und Kanalkopplung 

nicht als zwei Alternativen dar, die sich gegenseitig ausschließen, sondern vereinigt 

sie zu einem neuen Ganzen. 

Fortschritte in der Hardware-Technologie, wie Caches mit automatischem 

Konsistenzabgleich bereits auf dem Prozessor-Chip, fördern die Verbreitung 

von Bussen mit gemeinsamem Speicher, während standardisierte Kanalkopplungsmethoden 

wie SCI [IEEE92] die Kanalkopplung favorisieren, da sie die 

Zusammenschaltung von inhomogenen Systemen verschiedener Hersteller ermöglichen. 

Aufgrund dieser Entwicklungen werden beide Methoden auch in 

Zukunft ihre Bedeutung haben. Der Trend geht dahin, daß kleine "Cluster" busgekoppelt 

und größere Cluster kanalgekoppelt sind. 

25

1.8 Klassifikation nach physikalischer und 

logischer Kopplung 

Man kann parallele und verteilte Systeme hinsichtlich ihrer physikalischen und 

logischen Kopplung klassifizieren. Es entsteht dann ein Ordnungsschema, in 

dem die Programmiermodelle von Botschaftenaustausch und gemeinsamen Variablen 

mit den Koppelmodellen von gemeinsamen Speicher und Kanalkopplung 

kombiniert werden. In Tabelle 1.1 werden gebräuchliche Parallelrechner 

hinsichtlich dieser Kriterien klassifiziert. Die Klassifikation erlaubt, die 

Rechner bzgl. ihrer Kommunikationseigenschaften vergleichen zu können. Dabei 

kann man folgende Punkte feststellen: 

• Maschinen mit gemeinsamem Speicher werden häufiger mit dem Programmiermodell 

der gemeinsamen Variablen als mit dem der Botschaftenkopplung 

auf dem Markt angeboten. Ähnliches gilt für Kanalkopplung und 

Botschaftenaustausch im Vergleich zu Kanalkopplung und gemeinsamen 

Variablen. 

• Einige Hersteller wie CONVEX und Fujitsu ermöglichen bzw. erfordern aufgrund 

ihrer hybriden Bauweise beide Programmiermodelle. Dabei werden 

stets gemeinsame Variable innerhalb eines Rechenknotens und Botschaftenaustausch 

zwischen den Knoten eingesetzt. 

• Vier der fünf großen Parallelrechnerhersteller Cray, Convex, DEC, IBM und 

Intel bieten die innovative Kanalkopplung zusammen mit dem Programmiermodell 

der gemeinsamen Variablen an. Convex ermöglicht darüber hinaus 

als einziger Hersteller auf dem Markt systemweite Cache-Konsistenz für 

Kopien gemeinsamer Variablen. 

Offenbar favorisieren die Kostenvorteile der klassischen Bus/Speicherkopplung 

bei kleinen Prozessorzahlen das Programmiermodell der gemeinsamen 

Variablen, während große Parallelrechner auf der physikalischen Ebene durchweg 

kanalgekoppelt sind. Diese stellen auf der Programmierebene Botschaftenaustausch 

zur Verfügung. In einigen Fällen werden auch gemeinsame Variable 

als Programmiermodell hardwaremäßig mitunterstützt bzw. sind das primäre 

Programmiermodell (Exemplar, T3D/E). Der Trend bei Parallelrechnern geht 

zu einer Kombination von gemeinsamem Speicher und Variablen innerhalb eines 

Knotens und Kanälen mit Botschaften zwischen den Knoten, wie man anhand 

der CONVEX Exemplar, IBM SP2 (und Nachfolger), Intel Paragon, NEC 

SX-3/4, sehen kann. Dadurch lassen sich die spezifischen Vorteile beider 

Kopplungsarten, nämlich geringe Kosten plus Skalierbarkeit, vereinigen. Bei 

(lose) gekoppelten Rechnergruppen, wie einem DEC Workstation Cluster 

8400, einem SGI Power Challenge Array oder einer NEC SX-4 Anordnung, 

sind hybride Kopplungen und Programmiermodelle üblich. 

In Tabelle 1.2 sind früher gebräuchliche Parallelrechensysteme zum Vergleich 

aufgelistet. Es fällt auf, daß die Zahl der Hersteller von kanalgekoppelten, 

Botschaften austauschenden Systemen sowie von Systemen mit gemeinsa- 

26

Programmiermodell 

gemeinsame 

Variable 

Botschaftenaustausch 

K 

o 

p 

p 

e 

l 

m 

o 

d 

e 

l 

l 

g 

e 

m. 

S 

p 

e 

i 

c 

h 

e 

r 

K 

a 

n 

ä 

l 

e 

o CONVEX Exemplar 

(gem. Speicher im Knoten) 

o Cray J90 

o Cray T90 

o Fujitsu VPP 300/500 

o NEC SX-4 


reine SMP- Maschinen: 

o DEC AlphaServer 

o SGI Power Challenge 

o sowie die Modelle von 

- Compaq 

- IBM 

- Sequent 

- SNI 

- SUN 


(Kanäle zw. Knoten) 

o Cray T3D/E 

o DEC Memory Channel 

Cluster 

o Intel Paragon 

(Shared Virtual Memory 

Implementierung) 

o Meiko CS-2 


(gem Speicher im Knoten) 

o Dressler GIGAmachine 

o Fujitsu VPP 300/500 



o SGI Power Challenge 



o Cray T3D/E 

o DEC AdvantageCluster 

o Hitachi SR 2001 

o IBM SP2 



o Maspar MP 2 

o NCUBE 3 

o NEC SX-4 Cluster 


o PARSYS SN9000 

o PARSYS TransAlpha9000 

o Parsytec Explorer 

o Parsytec GC, CC 

o SGI Power Challenge Array 


o SNI RM 1000 

Tabelle 1.1: Physikalische und logische Kopplung gebräuchlicher Parallelrechner. 

mem Speicher und gemeinsamen Variablen zugenommen hat. Letzteres ist insbesondere 

dem Symmetric Multiprocessing zuzuschreiben, das zunehmend 

verbreitet ist. 

Ein Grund für die Zunahme dieser Art von Systemen liegt in der Verbreitung 

von PVM, MPI, PARMACS, Linda und anderen Bibliotheken bzw. Sprachen 

als "standardisierte" Programmierschnittstellen auf Botschaftenbasis, die die 

Portierbarkeit einer parallelen Anwendung auf verschiedenste Plattformen erlaubt 

und damit Investitionen in der Software-Entwicklung bewahrt. 

Bei den hybriden Lösungen haben die botschaftenorientierten Rechner basierend 

auf gemeinsamen Speicher ebenfalls zugenommen. Hier ist das Argu- 

27

Programmiermodell (Benutzersicht) 

gemeinsame Variable 


K 

o 

p 

p 

e 

l 

m 

o 

d 

e 

l 

l 

g 

e 

m. 

S 

p 

e 

i. 

K 

a 

n 

ä 

l 

e 

o Alliant FX/8 

o Balance 21000 

o Convex C-1 XP 

o CRAY 2, 3, X/YMP 

o ETA 10 

o Encore Multimax 

o IBM 3090/400/VF 

o Sequent Symmetry 

o Tandem NonStop 

o Univac 1194/ISPx2 

o BBN Butterfly 

o Denelcor HEP 1 

o KSR 1, 2 

o ELXSI 6400 

o Flexible /32 

o CDC Cyberplus 

o FPS T 

o Intel iPSC, Delta 

o Meiko CS-1 

o NCUBE 2 

o Parsytec 

o Transtech 

o TMC CM2, CM5 

Tabelle 1.2: Physikalische und logische Kopplung früherer Parallelrechner. 

ment eines effizienten Programmierstandards (PVM) zusammen mit den geringen 

Kosten (Bus!) maßgebend. 

Im Vergleich zu früheren Systemen werden heutzutage von verschiedenen 

Herstellern beide Programmiermodelle für dieselbe Hardware-Plattform angeboten 

(z.B. CONVEX, Fujitsu etc.). Dieser Trend wird sich in Zukunft fortsetzen, 

da es dem Parallelrechneranwender maximale Flexibilität ermöglicht. 

Tabelle 1.3 klassifiziert einige Forschungsparallelrechner hinsichtlich deren 

Kopplungsweise. 

In dieser Liste dominieren bei den Forschungsparallelrechnern die kanalgekoppelten 

Systeme mit gemeinsamen Variablen als Programmiermodell. Auf diesem 

Gebiet ist die meiste Entwicklungsarbeit sowohl auf dem Architektursektor 

als auch bei den Programmiermodellen zu leisten. 

Verbindungstechniken wie der DEC Memory Channel oder das Scalable Coherent 

Interface [IEEE92], die diese Kopplungsart unterstützen, haben neuere 

Forschungsprojekte auf diesem Sektor beeinflußt. Für SCI beispielsweise existieren 

verschiedene Implementierungen in GaAs und Silizium seit dem Jahre 

1994. 

28

Programmiermodell (Benutzersicht) 



K 

o 

p 

p 

e 

l 

m 

o 

d 

e 

l 

l 

g 

e 

m. 

S 

p 

e 

i. 

K 

a 

n 

ä 

l 

e 

o C.mmp (S.H.Fuller) 

o DIRMU (W. Händler) 

o Polyp (R. Männer) 

o NYU Ultracomputer 

(A. Gottlieb) 

o Cedar (D.J. Kuck) 

o Cenju 3 (NEC) 

o DASH (D. Lenoski) 

o FLASH (J. Kuskin) 

o GF 11 (J. Beetem) 

o IBM RP3 (G.F. Pfister) 

o PASM (H.J. Siegel) 

o MIT *T (D.E. Arvind 

o MIT Alewife (A. Agarval) 

o C.mmp 

o Cenju 3 

o Cosmic Cube 

o MULTITOP 

o IBM RP3 

o GMD Manna 

o MIT J-Machin 

o Mosaic C 

(S.H.Fuller) 

(NEC) 

(C. Seitz) 

(H. Richter) 

(G.F. Pfister) 

(W. Giloi) 

(W. Dally) 

(C. Seitz) 

Tabelle 1.3: Physikalische/logische Kopplung bei einigen Forschungsparallelrechnern. 

29

2 Grundlagen statischer und dynamischer 

Netze 

2.1 Definition 

Das Kennzeichen statischer Netze ist, daß jeder Kommunikationsknoten im 

Netz, der ein Prozessor, ein Rechner oder in der Telekommunikation ein Gesprächsteilnehmer 

sein kann, fest mit einer kleineren Zahl anderer Kommunikationsknoten 

(Prozessoren, Rechner oder Teilnehmer) verbunden ist, die als 

Nachbarknoten bezeichnet werden. Der Netzwerkzugang erfolgt über spezielle 

Anschlüsse (Netzwerkadapter), die über Leitungen zu den Anschlüssen der 

Nachbarknoten führen. In einem statischen Netz kann deshalb von jedem Knoten 

in einem Schritt mindestens ein Nachbarknoten erreicht werden, weil alle 

Knoten einen zusammenhängenden Netzgraphen bilden. 

Ein statisches Netzwerk existiert nicht als physikalisch separierbare Einheit, 

sondern in Form der Netzwerkanschlüsse und deren Verkabelung. Da die Verdrahtung 

zwischen zwei miteinander verbundenen Kommunikationsknoten 

keine zusätzlichen Schaltelemente enthält, gilt für statische Netze auch die synonyme 

Bezeichnung einstufiges oder direktes Netz. 

Wenn in einem statischen Netz ein Datensender und der dazu gehörende 

Empfänger nicht benachbart sind, erfolgt der Datenaustausch über Zwischenknoten, 

die im einfachsten Fall auf dem kürzesten Weg zwischen Sender und 

Empfänger liegen. Typische einstufige Netze sind Ring-, Gitter- oder Hypercube-Topologien, 

wie sie in Bild 2.1. zu sehen sind. 

Bild 2.1: Ring, Gitter und Hypercube als Beispiele statischer Netze. 

Dynamische Netze (auch als mehrstufige oder indirekte Netze bezeichnet) bestehen 

aus mindestens einem Schaltelement, an dessen Ein- und Ausgänge die 

Kommunikationsknoten angeschlossen sind. Zählt man den Weg durch das 

Schaltelement als einen Transferschritt, dann ist in einem dynamischen Netz jeder 

Knoten von jedem anderen aus direkt erreichbar. Das bedeutet, daß in einem 

mehrstufigen Netz keine Nachbarschaften existieren, weil alle Prozessoren 

30

(Knoten, Teilnehmer) gleich weit voneinander entfernt sind. Die Schaltstufen 

sind aus sog. nxn-Schaltern (lies "n-Kreuz-n-Schalter") für n = 2, 3, ... und deren 

Verdrahtung aufgebaut. Die nxn-Schalter werden als Kreuzschalter bezeichnet, 

wenn n = 2 ist und sie sowohl parallel ("=") als auch gekreuzt ("x") 

gesetzt werden können (Bild 2.2). Bei dynamischen Netzen sind Kreuzschalter 

die am häufigsten verwendeten Schaltertypen. 

Bild 2.2: Ein 2x2-Kreuzschalter und seine beiden Schaltmöglichkeiten. 

Beispiele für dynamische Netze sind der Kreuzschienenverteiler sowie das 

Clos- und das Benes-Netz [Clos53, Benes65], die in Bild 2.3 (von oben nach unten) 

dargestellt sind. Der Kreuzschienenverteiler besteht aus einer einzigen 

Schaltstufe zwischen Sender und Empfänger, das Clos-Netz aus drei Schaltstufen, 

und das Benes-Netz hat bei N Ein- und Ausgängen insgesamt (2log 2 

N-1) Stufen. 

In Bild 2.3 sind keine Prozessorknoten eingezeichnet; vielmehr geht man bei 

der Darstellung dynamischer Netze implizit davon aus, daß die Knoten mit den 

Ein- und Ausgängen der Netze verbunden werden. Die Datenerzeuger und -verbraucher 

sind bei den dynamischen Netzen im Gegensatz zu den statischen Topologien 

an der Übermittlung der Informationen nur indirekt beteiligt. 

2.2 Parallelrechnernetze 

Im einfachsten Fall eines Parallelrechnernetzes ersetzt man die Bus/Speicherkopplung 

der Rechenknoten durch ein statisches oder dynamisches Verbindungsnetzwerk 

und behält die Knotenarchitektur bis auf die Busschnittstelle 

bei. In der Regel werden jedoch zusätzliche architektonische Maßnahmen bei 

den Speichern und den Netzwerkanschlüssen vorgenommen, die bei einer Bus/ 

Speicherkopplung nicht notwendig sind. Durch den Übergang vom Bus zum 

Verbindungsnetz ergeben sich neue architektonische Möglichkeiten für Parallelrechner, 

die im folgenden dargestellt werden. 

Ein Beispiel einer auf einem Verbindungsnetzwerk beruhenden Parallelrechnerarchitektur 

zeigt Bild 2.4. Jeder Prozessor Pi (i = 1,2,...,n) kann gleichzeitig 

mit anderen Prozessoren auf je ein Speichermodul Mj, (j = 1,2,...,n) zugreifen. 

Kein Prozessor hat jedoch einen eigenen Lokalspeicher. Diese Architektur 

wird als eng gekoppeltes Multiprozessorsystem bezeichnet, weil aus der 

Sicht jedes Prozessors die Speichermodule wie ein großer, monolithischer Speicher 

aussehen. 

Werden die Prozessoren durch einfache Rechenwerke ohne Leitwerk ersetzt 

und die Steuerung der Befehlsausführung einer zentralen Instanz übertragen, 

31

. 

. 

. 

. . . 

Bild 2.3: Kreuzschienverteiler, Clos- und Benes-Netz als Beispiele für dynamische Netze. 

P1 

P2 . . . 

Pn 

Verbindungs= 

netzwerk 

M1 M2 . . . Mn 

Bild 2.4: Verbindungsnetzwerk für ein eng gekoppeltes Multiprozessorsystem. 

hat man einen Single Instruction Multiple Data-Rechner (SIMD) vorliegen. Die 

in Bild 2.4 gezeigte Architektur wird häufig bei SIMD-Rechnern verwendet. 

Ein Vertreter der SIMD-Kategorie ist z.B. der GF11-Rechner von IBM 

[Beetem85]. 

Speziellere SIMD-Rechner stellen die CM2 [Hillis85] von Thinking Maschines 

Corporation und die MasPar MP1 [MasPar91] dar, die in ihrer 

Rechnerarchitektur ein statisches mit einem dynamischen Netz kombinieren. 

Ist jedes Rechenwerk mit einem Leitwerk ausgerüstet, so daß mehrere Befehlsströme 

gleichzeitig verarbeiten werden können, spricht man von Multiple 

Instruction Multiple Data-Rechnern (MIMD). Historische Beispiele für 

MIMD-Maschinen nach Bild 2.4 sind der NYU Ultracomputer [Gottlieb83] 

32

und der IBM RP3-Rechner [Pfister85]. Modernere MIMDs wie die Cray T3D 

[Oed94], IBM SP2 [IBM95], Convex Exemplar [Convex93] oder die SNI 

RM1000 sind im Vergleich dazu bedeutend komplexer aufgebaut. 

Die Programmiermodelle dieser Maschinen sind entweder gemeinsame Variable, 

(NYU Ultracomputer, IBM GF11) oder Botschaftenaustausch (TMC 

CM2, Maspar MP1, IBM SP2, SNI RM1000) oder beides (IBM RP3, Cray 

T3D/E, Convex Exemplar). 

2.2.1 Netze für gemeinsamen Speicher 

Die Weiterentwicklung der Architektur eng gekoppelter Multiprozessorsysteme 

nach Bild 2.4 zielt auf die bessere Handhabbarkeit und Unterstützung des 

gemeinsamen Speichers ab. Wie bei der Bus/Speicherkopplung kann man 

durch den Einbau von Lokalspeichern die gemeinsamen Kommunikationsspeicher 

entlasten und den Durchsatz erhöhen. Daraus ergibt sich eine Architektur 

nach Bild 2.5. 

L1 

L2 

. . . 

Ln 

P1 P2 . . . Pn 

Verbindungs= 

netzwerk 

M1 M2 . . . Mm 

Bild 2.5: Verbindungsnetzwerk für eng gekoppelten Multiprozessor mit Lokalspeichern. 

Ein Beispiel dieser Architektur ist der Cedar-Rechner [Kuck86], der sowohl einen 

lokalen als auch einen globalen Speicher hat. Beim Cedar-Rechner werden 

gemeinsame Variable als Programmiermodell verwendet. 

Ein weiterer Evolutionsschritt für eng gekoppelte Multiprozessorsysteme mit 

Lokalspeichern und gemeinsamen Variablen besteht darin, die globalen Speichermodule 

wegzulassen und die Lokalspeicher zusätzlich anderen Prozessoren 

zugreifbar zu machen. Diese Architekturen benötigen spezielle Netzwerkanschlüsse, 

sog. Ports A i (i = 1,...,n), die den Zugriff auf fremde Lokalspeicher 

abwickeln. Das Architekturprinzip ist in Bild 2.6 dargestellt. Ein 

Beispiel für ein System, das ein mehrstufiges Netz und gemeinsam benutzbaren 

Speicher verwendet, ist der Bolt Beranek &Newman TC2000 [BBN89]. 

Bei gemeinsamen Variablen hat jede Speicherzelle der Lokalspeicher eine 

rechnerweit eindeutige Adresse, so daß aus der Sicht des Benutzers ein gemeinsamer 

Adreßraum entsteht. Der Adreßraum wird so implementiert, daß die 

niedrigerwertigen Adreßbits innerhalb eines Lokalspeichers gelten und die hö- 

33

herwertigen Bits zur Unterscheidung der verschiedenen Lokalspeicher dienen. 

Aufgrund der Tatsache, daß jedem Prozessor ein räumlich dicht benachbarter 

Speicher als Lokalspeicher zugeordnet ist und daß ein gemeinsamer Adreßraum 

existiert, spricht man von einem verteilten gemeinsamen Speicher (Distributed 

Shared Memory). 

P1 

M1 

A1 M1 

P2 P1 

M2 M1 

A2 M1 

. . . 

B 

u 

s 

Kanal 

Verbindungs= 

netzwerk 

Pn P1 

Mn M1 

An M1 

Bild 2.6: Verbindungsnetzwerk für verteilten gemeinsamen Speicher. 

Bei Rechnern mit verteiltem gemeinsamen Speicher kommt den Netzwerkanschlüssen 

eine wichtige Rolle zu. Sie sind dafür zuständig, selbständig einen 

entfernten Speicherzugriff über das Netz durchzuführen, sobald vom Prozessor 

eine Adresse ausgegeben wird, die nicht im Lokalspeicher existiert. Dazu 

schickt ein Port A i eine Nachricht über das Netz zu einem anderen Port A j , der 

lokal zum benötigten Speichermodul ist. Diese Nachricht enthält die Adresse 

des gewünschten Elements sowie die Zahl der zu übertragenden Bytes, sofern 

es sich um ein Feld von Elementen handelt und ein Blocktransfer angefordert 

wurde. 

In dem Zusammenspiel zweier Netzwerkanschlüsse führt der angesprochene 

Port einen von seiner CPU autonomen Speicherzugriff durch und schickt das 

gewünschte Datum in einer Botschaft verpackt zurück (Bild 2.7). Die geschilderten 

Vorgänge laufen für beide Prozessoren transparent ab. 

Durch die autonom agierenden Ports ist eine Entkopplung von Kommunikation 

und Rechnung erreicht, da die Rechenknoten währenddessen, daß ein 

Datum gelesen oder geschrieben wird, an anderer Stelle im Programm weiter 

rechnen oder eine neue Speicherzelle adressieren können. Das letztere wird als 

offenstehende Lade/Speichere-Operation (Outstanding Load/Store) bezeichnet 

und dient dazu, den Durchsatz zu erhöhen. Ein Beispiel der Architektur des verteilten 

gemeinsamen Speichers ist der T3D-Rechner [Oed94] der Fa. CRAY. 

Die Implementierung von verteiltem gemeinsamen Speicher über Kanäle, auf 

denen Datenpakete übertragen werden, erlaubt ohne Mehraufwand, daß Benutzer 

die Botschaften austauschenden Systemmechanismen für ihre Applikationen 

mitverwenden und ebenfalls Botschaften versenden. Dadurch erhält der 

Anwender eines Parallelrechners, der auf verteiltem gemeinsamen Speicher basiert, 

die Möglichkeit, sowohl Botschaften auszutauschen als auch gemeinsame 

Variable zu verwenden. 

34

Pi 

Ai 

Kanal 

Netz 

Kanal 

Aj 

Pj 

beobachtung 

Bus- 

Bus- 

beobachtung 

a) 

b) 

Leseanforderung 

+ Adresse 

Speicherinhalt 

als Antwort 

Schreibanforderung 

+ Adresse+Datum 

Bestätigung 

als Antwort 

Bild 2.7: Lesen (a) und Schreiben (b) über das Verbindungsnetzwerk. 

Der Nachteil, der dem Konzept des verteilten gemeinsamen Speichers anhaftet, 

ist, daß im Vergleich zum räumlich konzentrierten Speicher mehr Daten über 

das Verbindungsnetzwerk transportiert werden, weil Speicheradressen und -inhalte 

in Pakete verpackt werden müssen, was einen Mehraufwand (Overhead) 

bedeutet. Zusätzlich sind die Netzwerkanschlüsse aufwendiger auszulegen als 

bei Architekturen ohne verteiltem gemeinsamen Speicher, da sie DMA-Transfers 

durchführen müssen. 

In einigen Forschungsprojekten wurde das Konzept des verteilten gemeinsamen 

Speichers weiterentwickelt. Eine Verbesserung erhält man dadurch, daß 

man den gemeinsamen Adreßraum nicht über physikalische, sondern über virtuelle 

(logische) Adressen bildet. Voraussetzung dafür ist, daß die Prozessoren 

der Rechenknoten Speicherverwaltungen (MMUs) besitzen, die logische CPU- 

Adressen in physikalische Adressen umwandeln. Werden zusätzlich die Netzwerkanschlüsse 

durch Kommunikationsprozessoren ersetzt (in Bild 2.8 mit Ki 

bezeichnet), spricht man von einem verteilten gemeinsamen Speicher mit virtuellen 

Adressen (Distributed Virtual Shared Memory). 

Die Verwendung virtueller Adressen zur Etablierung eines gemeinsamen 

Adreßraums geht auf Kai Li [Li86] und einigen anderen zurück und wurde im 

Jahre 1986 erstmalig formuliert. In der Originalarbeit von Li wird das Konzept 

der virtuellen Adressen mit dem Seitenkonzept verknüpft, das man von der Seitenmigration 

(Paging) bei Großrechnern oder Arbeitsplatzrechnern gewohnt 

ist. 

Li ging von der Vorstellung aus, daß die entfernten Speichermodule analog 

zu einem Festplatten-Hintergrundspeicher anzusehen sind. Entsprechend wird 

der virtuelle Adreßraum in Seiten (Pages) eingeteilt und bei einem Seitenfehlen 

(Page Fault) der benötigte Adreßbereich von einem entfernten Speicher in den 

eigenen Lokalspeicher transportiert (Seitenmigration). Nach der Migration 

kann die Seite vom entfernten Prozessor nicht mehr modifiziert werden, da sie 

35

dort nicht mehr zur Verfügung steht, außer es sind Zusatzmechanismen wie Seitenduplizierung 

vorhanden. 

P1 

M1 

M1 K1 

Bus 

P2 P1 

M2 M1 

K2 M1 

. . . 

Kanal 

Verbindungs= 

netzwerk 

Pn P1 

Mn M1 

Kn M1 

Bild 2.8: Verbindungsnetzwerk für virtuellen gemeinsamen Speicher. 

Die dargestellte Lösung der Koppelung der Rechnerknoten über einen verteilten 

gemeinsamen Speicher ist aus Benutzersicht elegant, hat jedoch für das 

Verbindungsnetzwerk Nachteile: 

• Für jede benötigte Variable, die nicht lokal vorhanden ist, muß ein Blocktransfer 

von einigen KB Größe (üblich sind 4KB) in Form einer Seitenmigration 

angestoßen werden, was das Netz belastet. 

• Falls zwei oder mehr Prozessoren dieselbe Variable mehr als einmal lesen 

oder schreiben wollen, kommt es zur periodischen Migration der Seite, in der 

die Variable alloziert ist. Dies ist von virtuellen Speichersystemen auf sequentiellen 

Rechnern als Seitenflattern (Page Thrashing) bekannt. Durch Seitenflattern 

wird das Verbindungsnetzwerk schnell bis zur Kapazitätsgrenze 

belastet. Um dieses Problem zu lösen, kann man anstelle der Migration eine 

Replizierung der Seite durchführen, was zusätzlich eine Konsistenzsicherung 

der Kopie erfordert. 

• Falls Variablen verschiedener Prozessoren in derselben Seite alloziert sind, 

aber nicht gemeinsam benutzt werden, kommt es zu einer unnötigen Seitenmigration 

(False Sharing) ähnlich dem Seitenflattern, die dadurch verhindert 

werden kann, daß man nicht zusammengehörende Variablen verschiedenen 

Seiten zuordnet. Die Verhinderung von False Sharing obliegt entweder dem 

Compiler oder dem Benutzer, indem eine korrekte Zuordnung von Variablen 

zu Lokalspeichern vorgenommen wird. 

Um die dargestellten Probleme zu lösen oder zumindest zu mildern, wurde in 

weiteren Forschungsprojekten, wie dem MANNA-Rechner der GMD [Mon92] 

und den Stanford DASH- und FLASH-Maschinen [Lenoski92, Kuskin94], als 

kleinste Transfereinheit nicht eine Seite von 4 KB Größe, sondern eine Cache- 

Zeile von 128 Byte gewählt. Dadurch sind die Transportzeiten verkürzt und so 

die "Kosten" für ein Seitenfehlen reduziert. Zusätzlich werden lokale Caches 

verwendet, die Kopien der Zeilen in Form von 128 Byte großen Cache-Zeilen 

enthalten. Hiermit werden Engpässe (Hot Spots), die bei gleichzeitigem Zugriff 

36

mehrerer Prozessoren auf dieselbe Variable entstehen, vermieden, weil jeder 

Prozessor beim ersten Zugriff auf eine entfernte Variable eine lokale Kopie bekommt. 

Allerdings ist dann das Konsistenzproblem verschärft, da jetzt viele 

Kopien von Zeilen in den lokalen Caches existieren können. 

Für die Netzwerkanschlüsse bedeutet dies eine weitere Steigerung der Komplexität, 

da Konsistenzlisten über den Zustand der Cache-Zeilen geführt werden 

müssen. Deshalb reichen einfache Netzwerkanschlüsse wie beim Speicher mit 

physikalischen Adressen nicht mehr aus, sondern müssen durch spezielle Kommunikationsprozessoren 

K i ersetzt werden, die entweder mikroprogrammiert 

oder fest verdrahtet sind. Diese führen ein komplexes Protokoll aus, das eine 

auf alle K i -Prozessoren verteilte Liste für das Schreiben und Lesen von Seiten 

oder Cache-Zeilen aufbaut. Eine zentral gehaltene Liste ist nicht möglich, weil 

dies einen Engpaß in der Skalierbarkeit des Rechners darstellen würde. 

Zusammenfassend kann gesagt werden, daß es für das Verbindungsnetzwerk 

einen Unterschied macht, ob es sich um einen verteilten gemeinsamen Speicher 

mit physikalischen oder mit logischen Adressen handelt. Bei physikalischen 

Adressen ist der Verwaltungsaufwand und damit der Datentransfer durch das 

Netz kleiner und das Netzwerk-Interface einfacher. Bei logischen Adressen ist 

der Hardware-Aufwand größer; dafür kann sich im "eingeschwungenen Zustand" 

eines Programms ein "Working Set" häufig benötigter Seiten oder Zeilen 

im Lokalspeicher oder Cache bilden, so daß der durch den Benutzer verursachte 

Netzverkehr auf einer längeren Zeitskala abnimmt. In beiden Fällen ist der Benutzerverkehr, 

der von der parallelen Anwendung herrührt, von zusätzlichem 

Datenaustausch überlagert, der von den Kommunikationsprozessoren durch die 

Abwicklung ihres Protokolls verursacht wird. 

Abschließend ist noch festzustellen, daß das Architekturkonzept des verteilten 

gemeinsamen Speichers in die Kategorie der NUMA-Architekturen einzuordnen 

ist. 

2.2.2 Netze und Caches 

Für die Leistungsfähigkeit eines Verbindungsnetzwerks, das einen verteilten 

gemeinsamen Speicher mit virtuellen Adressen und Zeilenmigration unterstützt, 

sind Größe und Art der Caches entscheidend. Im Bewußtsein dieser Tatsache 

wurde von der amerikanischen Firma Kendall Square Research eine 

Rechnerarchitektur entwickelt, die nur noch aus Caches besteht. Dies wird als 

Cache Only Architecture (COMA) bezeichnet. COMA ist eine spezielle Realisierung 

einer Virtual Shared Memory NUMA-Maschine. Die Firma KSR hat 

diese Idee in die Produkte KSR 1 [KSR92] und KSR 2 umgesetzt. Eine typische 

COMA-Architektur zeigt Bild 2.9. 

Eine ernsthafte Schwierigkeit bei Virtual Shared Memory NUMA- bzw. 

COMA-Architekturen stellt die Aufrechterhaltung der systemweiten Cache- 

Konsistenz dar. Diese ist im Falle einer Bus/Speicherkopplung kein Problem, 

da sie dort bei vertretbarem Aufwand durch Mitverfolgen des Busverkehrs (Bus 

Snooping) realisiert werden kann. Bei einem Rechner mit ein- oder mehrstufi- 

37

P1 

P2 P1 

. . . 

Pn P1 

C1 M1 

C2 M1 

. . . 

Cn M1 

K1 M1 

K2 M1 

. . . 

Kn M1 

Verbindungs= 

netzwerk 

Bild 2.9: Verbindungsnetzwerk für COMA-Architektur. 

gem Verbindungsnetzwerk kann diese Methode nicht mehr angewandt werden, 

da es physikalisch viele verschiedene Pfade gibt, so daß eine dezentrale Überwachung 

aller Kommunikationskanäle zu aufwendig wird. Ein zentrales Abhören 

des Datenverkehrs ist aus Skalierungsgründen ebenfalls nicht möglich. Der 

Konsistenzabgleich muß deshalb über verteilte Listen (Directories) realisiert 

werden, die in den Kommunikationsprozessoren implementiert sind. Deren 

Transportmedium ist das Verbindungsnetzwerk, dessen Eigenschaften für die 

Übertragung von Seiten oder Cache-Zeilen optimiert sein sollten. Dies bedeutet, 

daß im Netz Puffer entsprechender Größe (4 -8 KB bzw. 128-256 Byte) vorhanden 

sein müssen, falls eine Netzstufe oder der Datenempfänger einer Seite 

oder Cache-Zeile vorübergehend nicht aufnahmebereit ist, da sonst Daten verloren 

gehen. 

2.2.3 Netze für Botschaftenaustausch 

Botschaftenorientierte, kanalgekoppelte Parallelrechner sind aus rechnerarchitektonischer 

Sicht ähnlich den Systemen mit verteiltem gemeinsamen 

Speicher. Der Unterschied besteht darin, daß bei Botschaften als Programmiermodell 

die Adressierung fremder Lokalspeicher entfällt, weshalb die Netzwerkanschlüsse 

D i im Vergleich zu den Adaptern A i und den Kommunikationsprozessoren 

K i eine andere Funktionalität aufweisen. Botschaftenorientierte, 

kanalgekoppelte Parallelrechner werden auch als lose gekoppelte Multiprozessorsysteme 

bezeichnet. Ein typisches System dieser Art zeigt Bild 2.10. 

Beispiele für lose gekoppelte Multiprozessorsysteme stellen alle transputerbasierten 

Parallelrechner von Firmen wie z.B. Parsytec, Meiko, Transtech 

und Parsys dar, aber auch eine Reihe anderer Systeme wie beispielsweise die 

IBM SP2. Im Falle der Transputerrechner sind auf dem Transputerchip (Typ 

T9000 oder T805) vier serielle Kommunikationskanäle mit 100 Mb/s Datenrate 

pro Kanal und Richtung (20 Mb/s bei T805) integriert, die simultan und autonom 

zum Rechenwerk Daten transferieren können, um überlappende Kommunikation 

zu ermöglichen. Darüberhinaus werden Netze für Botschaftenaustausch 

zur Kopplung von Rechnern eingesetzt, die ein Cluster bilden, wie 

z.B. das Server Cluster Modell 8400 von DEC, das den sog. Memory Channel 

38

P1 

M1 

M1 

M1 D1 

P2 P1 

M1 

M2 

D2 M1 

. . . 

Kanal 

B 

u 

s 

Verbindungs= 

netzwerk 

Pn P1 

Mn M1 

Dn M1 

Bild 2.10: Verbindungsnetzwerke für ein lose gekoppeltes Multiprozessorsystem. 

verwendet, die NEC SX-4 Cluster, die über einen glasfasergekoppelten Kreuzschienenverteiler 

verbunden sind, sowie das Power Challenge Array von SGI. 

2.2.4 Netzwerkanschlüsse für Botschaftenaustausch 

Die Hauptunterschiede zwischen den Netzanschlüssen A i der eng gekoppelten 

Systeme und den DMA-Adaptern D i der lose gekoppelten Maschinen liegen in 

der Art und Weise, wie ein Transfer initiiert wird, wie die Kommunikation zwischen 

zwei Anschlüssen D i und D j abläuft und wie sich die Prozessoren während 

des Transfers und danach verhalten. 

Transfer initiieren 

Während A i -Ports selbständig und transparent für den Prozessor den lokalen 

Adreßbus beobachten und nicht-lokale Daten lesen bzw. schreiben, werden D i - 

Ports explizit vom Benutzer programmiert. Dies geschieht auf Hochsprachenniveau 

durch SEND/RECEIVE-Funktionen, die entweder über Prozeduraufrufe 

von Kommunikationsbibliotheken oder über spezielle Sprachkonstrukte 

abgewickelt werden. Ein Beispiel für letzteres sind die 

Kommunikationsmittel der Sprachen Ada und occam [Pount88]. 

Kommunikation zwischen Di-Anschlüssen im Vergleich zu Ai-Ports 

Ein A i -Port einer Rechnerarchitektur mit gemeinsamen Speicher übermittelt an 

einen korrespondierenden Port A j die Art der Kommunikationsanforderung 

(Lesen oder Schreiben) und die Speicheradresse der Variablen sowie einen Variablenwert, 

falls geschrieben werden soll. Der A i -Port erhält im lesenden Fall 

vom A j -Port den gewünschten Wert bzw. im schreibenden Fall eine Bestätigung, 

daß geschrieben wurde, als Antwort zurück. 

Ein D i -Port einer Architektur für Botschaftenaustausch schickt im schreibenden 

Fall einen Kanalnamen, der als ein Adreßäquivalent aufgefaßt werden 

kann, sowie einen oder mehrere Variablenwerte an den korrespondierenden 

Anschluß D j und erhält für jedes Datum eine Bestätigung (Acknowledge) in 

39

Form eines Flußsteuerungssignal zurück. Im lesenden Fall sind die Rollen von 

D i und D j vertauscht. 

Ein Netzwerkanschluß D i benötigt in der Regel drei Parameter von der lokalen 

CPU, um ein oder mehrere Bytes vom eigenen Lokalspeicher als Botschaft 

zu einem korrespondierenden Anschluß D j zu senden: 

• einen Zeiger auf den zu übertragenden Speicherbereich bzw. die zu sendende 

Variable, 

• die Länge des DMA Transfers und 

• einen Zeiger auf den Prozeß, der den Transfer angestoßen hat, um diesem 

eine Rückmeldung nach erfolgtem Transfer zu schicken oder ihn erneut der 

CPU zur weiteren Bearbeitung zuzuführen. 

Entsprechend benötigt der empfangende Anschluß D j einen Zeiger auf den Puffer, 

in dem die Botschaft gespeichert werden soll, inklusive einer Längenangabe 

sowie einen Zeiger auf den Empfangsprozeß. Zum Botschaftenaustausch 

wird ein gemeinsamer Kanalname vereinbart, der für beide Prozesse gilt. 

Dies kann entweder zur Kompilierungszeit in Form einer Konstanten oder zur 

Laufzeit mit Hilfe einer vom jeweiligen Betriebssystem bereitgestellten Socket- 

Adresse erfolgen. 

Verhalten der Prozessoren 

Bei eng gekoppelten Systemen macht sich, wenn man vom Spezialfall offenstehender 

Lade/Speichere-Operationen absieht, der Zugriff auf nicht-lokale 

Speicher nur durch eine größere Zugriffszeit bemerkbar. Bei lose gekoppelten 

Systemen wird in der Regel den kommunizierenden Prozessen während des 

Transfers die CPU entzogen und anderen Prozessen zugeteilt, weil der eigentliche 

Transfer CPU-autark abläuft. Man geht davon aus, daß die Kommunikation 

im Vergleich zum Scheduling "teuer" ist, d.h. lang dauert, so daß es sich 

lohnt, einem Prozeß die CPU zu entziehen und nach erfolgtem Transfer wieder 

zuzuteilen. 

Ein weiterer Unterschied zwischen D i - und A i -Ports besteht darin, daß die 

Netzwerkzugänge nicht für die Übertragung von Speicheradressen ausgelegt 

sein müssen, also 16 - 64 Bit breit sind, sondern daß auch bitserielle Kanäle 

(Links) zur Übertragung von Botschaften ausreichen. 

Schließlich weisen die D i - gegenüber den A i -Ports die Eigenschaft des Multiplexens 

bzw. Demultiplexens von logischen auf physikalische Kanäle auf. 

Das Multiplexen mehrerer logischer Kanäle auf einen physikalischen Kanal 

wird immer dann notwendig, wenn mehr gleichzeitig kommunizierende Prozesse 

oder Prozeßfäden (Threads) auf einem Prozessor existieren, als dieser an 

Netzanschlüssen aufweist. Für diesen Fall werden die Botschaften von und zu 

den Prozessen im Zeitscheibenverfahren auf dem Kanal übertragen (Bild 2.11). 

40

Prozessor i 

Prozeß 

b 

Prozeß 

a 

Prozeß 

c 

logischer 

Kanal 1 

log. 

Kan. 2 

logischer 

Kanal 3 

Adapter 

Di 

gemultiplexter 

physikalischer 

Kanal i->j 

Adapter 

Dj 

logischer 

Kanal 1 

log. 

Kan. 2 

logischer 

Kanal 3 

Prozeß 

d 

Prozeß 

f 

Prozessor j 

Prozeß 

e 

Bild 2.11: Die Netzwerkanschlüsse D i als Multiplexer/Demultiplexer von logischen Kanälen. 

2.2.5 Synchrone und asynchrone Kommunikation 

Bei botschaftenorientierten Parallelrechnern kann die Interprozessorkommunikation 

entweder synchron oder asynchron zwischen Sender und Empfänger 

ablaufen. Beim synchronen Verfahren müssen die beiden korrespondierenden 

Prozesse, die auf den Prozessoren die Kommunikation ausführen, gleichzeitig 

zum Datenaustausch bereit sein. Dies wird als Rendezvous-Verfahren bezeichnet, 

da die austauschenden Partner bei der Byteübergabe zeitgleich aktiv 

sein müssen, d.h. sie "treffen" zusammen. Ein Datenaustausch entspricht somit 

zugleich einer Prozeßsynchronisation. 

Bei asynchroner Kommunikation gibt es zwei Fälle. Im ersten Fall kann der 

Sender unabhängig vom Empfänger seine Daten in einem Systempuffer des 

Empfängers ablegen, aus dem dieser zu einem späteren Zeitpunkt liest. Im 

zweiten Fall kann ebenfalls zu einem beliebigen Zeitpunkt gesendet werden, 

der Empfangsprozeß wird allerdings mit Hilfe eines Interrupts zum sofortigen 

Einlesen und Bearbeiten gezwungen. In beiden Fällen wird von den Prozessen 

nicht explizit auf das Schreiben oder Lesen einer Nachricht gewartet. Dementsprechend 

kann asynchrones Lesen nur dann erfolgreich sein, wenn der Sender 

seine Datenübertragung zuvor durchgeführt hat. 

Man kann zeigen, daß zwei asynchrone Kommunikationen mit wechselnder 

Kommunikationsrichtung eine synchrone Kommunikation funktional ersetzen 

können. 

2.3 Allgemeine Konstruktionsprinzipien von 

Netzwerken 

Für Verbindungsnetzwerke gibt es neben den Möglichkeiten, die in späteren 

Kapiteln noch erläutert werden, vier allgemeine Entwurfsprinzipien, die grundlegend 

und unabhängig von technischen Implementierungen sind. Diese Prinzipien 

sind Parallelität, Hierarchie, Modularität und Rekursion. Bei Buskopplungen 

wurden diese Prinzipien an Einzelbeispielen bereits erläutert, sie 

lassen sich jedoch auf alle Netzwerke übertragen. 

Die Prinzipien sind sowohl vom theoretischen wie vom praktischen Standpunkt 

aus interessant, da sie einerseits die Erzeugung neuer Netzstrukturen er- 

41

lauben und andererseits die technische Realisierung und die Eigenschaften eines 

Netzes beeinflussen: 

• Parallelgeschaltete Netze bedeuten eine Erhöhung der Bandbreite und der 

Zuverlässigkeit gegenüber einem Einzelnetz und können bei gleichen technischen 

Daten die Kosten senken, da sich die Stückzahl erhöht. 

• Hierarchisch gekoppelte Netze erlauben, einen Top-Down- oder Bottom-Up- 

Entwurf bei der Netzkonstruktion zu machen und ermöglichen einen schichtweisen 

Aufbau und Test, sofern die Hierarchieebenen voneinander separierbar 

sind. 

• Rekursion bedeutet, daß das Netz hierarchisch gegliedert ist und, daß es nach 

stets derselben Regel aufgebaut ist, was die Beschreibung des Netzes vereinfacht. 

• Modularität heißt, daß es im Netz eine (kleine) Anzahl verschiedener Modultypen 

gibt, die in Stückzahl produziert werden und so die Kosten senken. 

Darüber hinaus machen Module ein Netz skalierbar, wenn sie beliebig 

anreihbar sind. 

2.3.1 Parallelität 

In Bild 2.12 ist die Parallelschaltung mehrerer Netzwerke, die im Allgemeinfall 

auch inhomogen sein können, dargestellt. Dabei ist jedes Netz über bestimmte 

Ports an die Rechenknoten gemäß dem Schema "verbinde Port i am Knoten j 

mit Netz i" angeschlossen. 

P1 

P2 . . . 

Pn 

Verbindungs= 

netzwerke 

Bild 2.12: Parallelschaltung mehrerer Verbindungsnetzwerke. 

Genau wie bei Bussen bewirkt eine Parallelschaltung von m voneinander unabhängigen 

Netzen sowohl eine Bandbreiteerhöhung um das m-fache als auch 

eine erhöhte Fehlertoleranz. Bis zu (m-1) defekte Netze können von den Prozessorknoten 

toleriert werden. Darüber hinaus ist die Parallelschaltung von 

Netzen für den Fall die kostengünstigste Lösung, daß jeder Rechenknoten über 

mehr als einen Port an ein Netz angeschlossen werden soll. Wenn z.B. n Knoten 

gegeben sind, von denen jeder m Ports aufweist, die alle an ein (großes) Netz 

anzuschließen sind, müssen für ein Netz logarithmischer Komplexität von mn 

Eingängen O(mn*log(mn)) Schalter aufgewendet werden, während für m klei- 

42

nere Netze mit je n Eingängen nur O(m*nlogn) Schalter nötig sind. Die erzielte 

Einsparung kann beträchtlich sein und resultiert letztlich daraus, daß bei dem 

mn-Netz die m Ports eines Knotens mit sich selbst verbunden werden können, 

was in der Regel unnötig ist. 

Ein Beispiel für Parallelität zeigt Bild 2.13. Hier ist die Verbindungsstruktur 

eines 3-dimensionalen Gitters aus parallelgeschalteten 2-dimensionalen Gittern 

aufgebaut, wobei der Übergang von einer Gitterebene zur nächsten in den Knoten 

stattfindet. Weitere Beispiele sind parallelgeschaltete Kreuzschienenverteiler 

oder parallelgeschaltete Kanäle innerhalb eines ein- oder mehrstufigen 

Netzes. Letztere werden auch als dilatierte Netze bezeichnet [Upfal89]. 

Bild 2.13: Parallelschaltung von 2-D Gittern zu einem 3-D Gitter. 

2.3.2 Hierarchie 

Hierarchische Netze findet man überall dort, wo die Kommunikation der 

Netzteilnehmer einer gewissen Lokalität gehorcht. Dies ist z.B. bei allen Telefonsystemen 

der Welt der Fall, da Ortsgespräche häufiger als Ferngespräche 

geführt werden. Auch parallele Programme weisen häufig eine Datenlokalität 

auf, die sich in einer hierarchischen Architektur des Parallelrechners, der diese 

Programme ausführt, widerspiegeln kann. 

Netzteilnehmer (Knoten) sind dann benachbart, wenn sie in derselben Hierarchieebene 

angeschlossen sind. Die Überquerung einer oder mehrerer Hierarchieebenen 

kostet Zeit, so daß der Zugriff auf Nachbarn derselben Hierachiestufe 

schneller abgewickelt werden kann als die Kommunikation mit entfernten 

Knoten, was genau der Datenlokalität entspricht. Die CM5 von Thinking Machines 

Corp. oder der MANNA-Rechner der GMD [Mon92] sind Implementierungen 

von Parallelrechnern mit hierarchischen Netzen. 

Ein Beispiel einer Netzhierarchie ist in Bild 2.14 für den Fall von 2 Hierarchieebenen 

gezeigt. Von einem Hauptnetz ausgehend verzweigen sich baumartig 

vier Subnetze. Das Prinzip läßt sich auf beliebig viele Ebenen ausdehnen 

Ein anderes Beispiel zeigt das Verbindungsnetzwerk eines MANNA-Rechners 

mit 192 Prozessoren (Bild 2.15), dessen Hierarchieebenen nicht baumartig, 

sondern voll vermascht miteinander verbunden sind. 

In der Ebene 2 der Manna-Archiektur werden 4 von den 16 Ein-/Ausgängen jedes 

Kreuzschienenverteilers für die Verbindung zu Ebene 1 verwendet, die verbleibenden 

12 dienen zur Ankopplung der Rechenknoten. 

Insgesamt kann man aus einer vielstufigen Netzhierarchie ein fein abgestuftes 

System verschiedener Zugriffsgeschwindigkeiten erhalten, das eine fle- 

43

P1 

P2 

. . . 

Pn 

P1 

P2 . . . 

Pn 

P1 

Subnetz 

P2 

. . . 

Subnetz 

Pn 

H 

a 

u 

p 

t 

n 

e 

t 

z 

P1 

Subnetz 

P2 . . . 

Subnetz 

Pn 

Bild 2.14: Baumartige Hierarchie von Netzen. 

1 2 3 4 

16x16 16x16 16x16 16x16 

Ebene 1 aus 

Kreuzschienenverteilern 

16x16 

... 

1 2 12 

16x16 

... 

1 2 12 

16x16 

... 

1 2 12 

. . . 

. . . 

16x16 

... 

1 2 12 

1 2 3 16 

Bild 2.15: Vermaschte Hierarchie aus Kreuzschienenverteilern. 

Ebene 2 aus 

Kreuzschienenverteilern 

Rechenknoten 

xible Zuordnung von Prozessen zu Prozessoren gemäß den Bandbreiteanforderungen 

der Anwendung ermöglicht. 

2.3.3 Rekursion 

Rekursiv aufgebaute Netze bestehen aus einer gegebenen Grundstruktur wie 

z.B. einem Ring oder einem Stern, die vielfach ineinandergeschachtelt im Sinne 

einer Selbstähnlichkeit repliziert wird. In Bild 2.16 sind Beispiele rekursiver 

Netze gezeigt, die jeweils zwei Rekursionsstufen umfassen. 

2.3.4 Modularität 

Ein modularer Aufbau ist grundsätzlich in allen Gebieten der Technik wünschenswert, 

weil dadurch der Entwurf, die Realisierung und der Test von Systemen 

vereinfacht wird. Bei Verbindungsnetzwerken genügt es oft, ein einziges 

Modul, das wiederum ein Netz sein kann, vielfach zu replizieren, um daraus ein 

Netzwerk "nach Maß" zu erhalten. 

Modularität wird oftmals gleichzeitig mit den Konstruktionsprinzipien Rekursion 

und/oder Hierarchie eingesetzt. In Bild 2.17 ist beispielsweise ein 2-di- 

44

a) b) 

Bild 2.16: Rekursiv aufgebauter Ring (a) bzw. Stern (b). 

mensionaler Kreuzschienenverteiler gezeigt, der aus mehreren typgleichen Modulen 

aufgebaut ist. Jedes Modul kann wiederum ein 2-dimensionaler Kreuzschienenverteiler 

sein oder auch ein anderes Netz z.B. vom Benes- [Benes62] 

oder Clos-Typ [Clos53], so daß sich optional ein rekursiver bzw. hierarchischer 

Aufbau ergibt. 

Weiterhin ist es möglich, daß in einem Netz mehrere Modultypen in verschiedener 

Zahl existieren, die ihrerseits parallelgeschaltet und/oder rekursiv oder 

hierarchisch gegliedert sein können, wodurch sich eine außerordentliche Vielfalt 

von Konfigurationsmöglichkeiten ergibt. Dies spiegelt die gleichzeitigen 

Anwendung aller vier Konstruktionsprinzipen wider. 

P1 

P2 . . . 

Pm 

Pn 

Po 

. . . 

Pz 

Bild 2.17: Kreuzschienenverteiler aus Subnetzen. 

Ein gutes Beispiel der potentiellen Mannigfaltigkeit, die Netzen innewohnt, ist 

das Internet, das aus vielen lokalen Netzen (WANs, MANs und LANs) aufgebaut 

ist, die ihrerseits modular, parallel, hierarchisch, rekursiv oder unstrukturiert 

sein können. 

Eine graphische Darstellung eines solchen allgemeinen Netzes ist exemplarisch 

in Bild 2.18 wiedergegeben. In diesem Bild sind die Elemente P 1 -P 5 keine 

Rechenknoten, sondern Cluster von Prozessoren, zwischen denen Subnetze 

verschiedener Topologie aufgespannt werden. 

Irreguläre Strukturen werden i.a. nicht als Verbindungsnetzwerke für Parallelrechner 

verwendet, da sie aufgrund ihrer amorphen Gestalt eine hohe Routing- 

Komplexität aufweisen. Bei lokalen und globalen Netzen der Telekommunika- 

45

P1 

P5 

P2 

P4 

P3 

Bild 2.18: Allgemeines Netz bestehend aus Subnetzen und Prozessor-Clustern P1-P4. 

tion und bei Rechnernetzen sind amorphe Strukturen dagegen die Regel. Deshalb 

kann in diesen Fällen kein fester Routing-Algorithmus für die Wegewahl 

existieren. Vielmehr beruht der Informationstransfer auf Routing-Tabellen, deren 

Einträge die Vernetzung mit den jeweiligen Nachbarknoten eines Routers 

oder Gateways dokumentieren. 

2.4 Verbindungstypen 

Neben der formalen Darstellung von Verbindungsnetzwerken und ihren grundlegenden 

Konstruktionsmöglichkeiten ist die Unterscheidung der in einem Netz 

auftretenden Verbindungstypen und die Berechnung ihrer Anzahl von Bedeutung. 

Im folgenden soll deshalb ein allgemeines Netz hinsichtlich dieser Kriterien 

untersucht werden. 

Gegeben sei ein Verbindungsnetzwerk V gemäß Bild 2.19 mit n∈N daran angeschlossenen 

Teilnehmern T 1 - T n , die Rechner oder Knoten eines Rechners 

sein können, wie sie in lokalen Netzen oder in Netzen für Parallelrechner eingesetzt 

werden. 

T2 

T1 

V 

Tn 

Tn-1 

T 3 

. . . 

Bild 2.19: Allgemeines Verbindungsnetzwerk zwischen Teilnehmern. 

In V lassen sich verschiedene Verbindungstypen für die n gegebenen Netzzugänge 

(Ports) unterscheiden. Die bekanntesten Verbindungstypen sind die 

Punkt-zu-Punkt-, Broadcast- und Multicast-Verbindung, bei denen entweder 

einer an einen, einer an alle oder einer an viele Daten sendet. Die Multi-/Broadcast-Funktionen 

dienen nicht nur dem reinen Datenaustausch, sondern erlauben 

46

auch Prozeßsynchronisation, z.B. um den Start einer parallelen Schleife, die dezentral 

abgearbeitet wird, von einer zentralen Stelle aus anzustoßen. Daneben 

gibt es eine Reihe weiterer Kommunikationsformen, die in der Reihenfolge ihres 

Auftretens weniger häufig sind. Dazu zählen der allgemeine Multi-/Broadcast, 

der personalisierte Multi-/Broadcast, die Kombination aus beiden sowie 

deren Inversionen, die hauptsächlich bei der parallelen Programmierung Bedeutung 

haben und in Kommunikationsbibliotheken wie PVM und MPI Berücksichtigung 

finden. 

Allgemeiner Multi-/Broadcast 

Beim allgemeinen Broadcast schicken alle an das Netz angeschlossenen Sender 

ihre Daten gleichzeitig an alle Empfänger, so daß am Ende jeder über die Daten 

der anderen verfügt. Bei der Verallgemeinerung, dem allgemeinen Multicast 

(viele an viele), kann der Teilnehmerkreis gezielt ausgewählt werden. Die allgemeinen 

Multi-/Broadcast-Funktionen sind wie der normale Broad-/Multicast 

zum globalen Datenaustausch und zur Prozeßsynchronisation geeignet, beispielsweise, 

um am Ende einer Iterationsschleife die Ergebnisse aller Prozessoren 

schnell und ohne Zuhilfenahme einer zentralen Instanz auszutauschen. 

Personalisierter Multi-/Broadcast 

Bei diesem Verbindungstyp wird von einem Sender nicht ein Skalar, sondern 

ein Vektor von Daten an die übrigen Rechenknoten bzw. einer Teilmenge davon 

übermittelt, wobei jeder Empfänger ein bestimmtes Vektorelement erhält 

(einer an viele oder einer an alle). Anwendungen dieses Typs treten u.a. bei parallelisierten 

numerischen Verfahren der linearen Algebra auf. 

Allgemeiner personalisierter Multi-/Broadcast 

Die Kombination der beiden zuvor erläuterten Verbindungstypen entspricht der 

gleichzeitigen Verbreitung von Datenvektoren nach dem alle an alle- bzw. viele 

an viele-Schema. Wiederum ist es so, daß dezentral jeder mit Information von 

jedem anderen versorgt wird, wobei die Datentransfers überlappend ausgeführt 

werden können, so daß nicht mehr Zeit als in der einer an viele-Variante verbraucht 

wird. 

Die aufgeführten Verbindungstypen erlauben, den Informationsfluß umzukehren. 

Dabei bedeutet eine Richtungsumkehr im Falle der Punkt-zu-Punkt- 

Verbindung, daß bidirektional Daten ausgetauscht werden, während beim inversen 

Multi-/Broadcast Datenreduktionsoperationen ausgeführt werden. 

Die inversen Operationen der speziellen Verbindungstypen sind folgendermaßen 

definiert: 

47

Inverser Multi-/Broadcast 

Damit bezeichnet man eine Kommunikationsform, bei der viele oder alle Sender 

gleichzeitig ihre Daten an einen einzigen Empfänger schicken, der die Daten 

seinerseits z.B. zu Protokollzwecken sammelt oder eine Datenreduktion damit 

durchführt. Reduktionsoperationen treten in der Parallelverarbeitung 

beispielsweise dann auf, wenn eine globale Summe oder das Maximum oder 

Minimum aus einer Reihe von Werten berechnet werden soll, die auf mehreren 

Rechnern oder Rechenknoten verteilt sind. Der inverse Multi-/Broadcast kann 

auch zur Prozeß- oder Rechnersynchronisation verwendet werden, um z.B. das 

Ende einer parallelen Schleife oder sonstigen verteilten Operation einem übergeordneten 

Prozessor mitzuteilen. Dazu schickt jeder Teilnehmer sein Ready- 

Bit an den Master, der anhand einer UND-Verknüpfung erkennt, wann alle Prozesse 

terminiert haben. 

Inverser allgemeiner Multi-/Broadcast 

Dies ist die Vereinigung eines inversen Multi-/Broadcasts und eines daran anschließenden 

(normalen) Multi-/Broadcasts zu einer einzigen Operation. Sein 

Sinn liegt darin, durch Überlappung der einzelnen Transfers Zeit im Vergleich 

zur sequentiellen Ausführung zu sparen. Eine Anwendung der Operation ist 

wiederum bei der Prozeßsynchronisation gegeben, um beispielsweise die Terminierung 

einer verteilten Operation zentral zu erkennen und allen Prozessoren 

in einem Schritt mitzuteilen. 

Wenn in einem anderen Beispiel ein Prozessor beim parallelen Durchsuchen 

einer Datenbank den benötigten Eintrag gefunden hat, müssen alle anderen Prozessoren/Prozesse 

davon unterrichtet werden und ihre Suche stoppen. Diese 

Funktion kann ebenfalls mit dem inversen, allgemeinen Multi-/Broadcast effizient 

implementiert werden. 

Inverser personalisierter Multi-/Broadcast 

Beim inversen personalisierten Multi-/Broadcast werden die Daten, die die Rechenknoten 

an einen Master schicken, in den Elementen eines Vektors abgespeichert. 

Der Resultatvektor kann anschließend z.B. mit Hilfe eines Vektorrechenwerks 

weiterverarbeitet werden. Der inverse, personalisierte Multi-/ 

Broadcast ist eine Verallgemeinerung des inversen Multi-/Broadcast, weil nicht 

ein Skalar, sondern ein Vektor erzeugt wird. 

Inverser allgemeiner und personalisierter Multi-/Broadcast 

Hier werden gleichzeitig von allen Sendern Vektorelemente zu allen Empfängern 

geschickt, um einen globalen Datenaustausch durchzuführen. Dies stellt 

die Zusammenfassung eines inversen, personalisierten Multi-/Broadcasts und 

48

eines normalen Multi-/Broadcasts zu einer einzigen Operation dar, die gegenüber 

einer Ausführung in zwei Einzeloperationen Zeit spart. 

Schließlich ist der Spezialfall der sog. Konferenzschaltung zu erwähnen, bei 

dem innerhalb eines festgelegten Teilnehmerkreises nacheinander Multicasts in 

der Art "einer-an-viele, einer-an-viele, ..." usw. stattfinden, wobei die Zahl der 

Multicasts von vorneherein nicht feststeht. Die Konferenzschaltung ist dem allgemeinen 

Multicast vergleichbar, wobei hier die Multicast-Verbindungen 

nacheinander ausgeführt werden. Konferenzschaltungen haben weniger in der 

parallelen Programmierung als in der Telekommunikation eine Bedeutung. Sowohl 

dort als auch bei lokalen und globalen Datennetzen sind Konferenzschaltungen 

notwendige Voraussetzung für die sog. Telekooperation, bei der räumlich 

getrennte Mitglieder eines Teams gemeinsam ein Projekt bearbeiten. 

Im Bild 2.20 sind anhand des Datums a bzw. b, das einem Prozessor 1 bzw. 

2 zugeordnet ist, die Wirkungen der wichtigsten Verbindungstypen aufgelistet. 

Die Darstellung unterscheidet die beiden Zustände "vorher" und "nachher" und 

im inversen Multi/Broadcast-Fall zusätzlich die Datenfeldelemente a,b,...z, um 

die Funktionsweise der Verbindungstypen zu erläutern. R(a, b,...,z) stellt einen 

Reduktionsoperator dar. 

In Bild 2.21 sind die Funktionen der anderen Verbindungstypen dargestellt. 

Wiederum wird zur Erläuterung die Wirkung auf ein auf mehrere Prozesssoren 

verteiltes Datenfeld gezeigt. Im Zustand "vorher" ist je ein Datenelement einem 

Prozessor zugeordnet. V(a,b,...,z) ist ein Datenvektor für Prozessor 1. 

Bild 2.22 schließlich zeigt den Fall des personalisierten Multi/Broadcast sowie 

dessen Umkehrung, die beide zum gleichzeitigen Austausch von Vektoren 

dienen. 

2.4.1 Zahl der Verbindungen 

Die gezeigten Verbindungstypen sind eine qualitative Darstellung aller in einem 

Netz möglichen Kommunikationsformen. Im nächsten Schritt geht es um 

deren quantitativer Erfassung. 

Die Zahl der Verbindungen, die in einem Netzwerk realisiert werden können, 

gibt Auskunft über die Blockierungsfreiheit des Netzes. Ein blockierungsfreies 

Netz kann bei n Ein- und Ausgängen alle potentiell möglichen n! Verbindungen 

realisieren. Bei der Berechnung der Zahl der Verbindungen muß man unterscheiden, 

ob jede Verbindung für sich betrachtet werden soll oder ob die Kombinationen 

der Verbindungen von Interesse ist. Im letzteren Fall muß berücksichtigt 

werden, wer mit wem kommuniziert, während im ersten Fall nur die 

Zahl der Möglichkeiten wichtig ist, die sich pro Einzelverbindung ergeben. 

Im folgenden werden für die am häufigsten vorkommenden Kommunikationsformen 

von Punkt-zu-Punkt, Multicast- und inverser Multicast-Verbindung 

die Maximalzahl von Verbindungen berechnet, die in einem Netz vorkommen 

können. Die Berechnung erfolgt sowohl durch Summation als auch 

durch Multiplikation der Verbindungen, um die Zahl der Einzelmöglichkeiten 

und deren Kombinationen angeben zu können. 

49

Bezeichnung 

Typ 

Vorher 

Nachher 

Punkt-zu-Punkt 

Verbindung 

1 2 

lokale Daten 

Prozessor 1 a 

Prozessor 2 

Prozessor 3 

. . . 

... 

Prozessor n 

a 

a 

. . . 

Inverse 

Punkt-zu-Punkt 

Verbindung 

1 2 

b 

b 

b 

. . . . . . 

Multi/Broadcast 

Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

a 

a 

a 

a 

. . . . . . 

a 

Inverse 


Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

a 

b 

c 

z 

. . . 

R =Reduktion 

R (a,b,c,...,z) 

b 

c 

. . . 

z 

Bild 2.20: Die Wirkung von Punkt-zu-Punkt-, Multi-/Broadcast-Verbindungen und ihre inversen 

Funktionen. 

Punkt-zu-Punkt-Verbindungen 

Hierbei ist jeder Sender mit genau einem Empfänger verbunden, so daß eine 

umkehrbar eindeutige Zuordnung von Sendern zu Empfängern besteht. Für den 

Sender, der als erstes in das Netz Daten einspeist, hat man potentiell e = s 

Empfänger zur Auswahl, für den zweiten Sender verbleiben noch e = (s-1) 

Empfänger, für den 3. Sender noch e = (s-2) Empfänger usw., so daß bei s 

gleichzeitig aktiven Verbindungen K Kombinationen von Verbindungen möglich 

sind. Die Zahl K berechnet sich zu: 

Gl. 2.1: 

K = s⋅ ( s – 1) ⋅ … ⋅ 1 = s! = e! , (s=e Verb. gleichzeitig). 

Möchte man nur die Summe S der Möglichkeiten der Einzelverbindungen wissen, 

hat man: 

50

Bezeichnung 

Typ 

Vorher 

Nachher 

allgemeine 


Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

a 

b 

c 

z 

a b c z 

a b c z 

. . . 

a b c z 

. . . 

a b c z 

Inverse, 

allgemeine 


Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

a 

b 

c 

z 

R1(a,b,...,z) 

R2(a,b,...,z) 

R3(a,b,...,z) 

. . . . . . 

Rn(a,b,...,z) 

R=Reduktion 

Personalisierte 


Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

V(a,b,c,...,z) 

a 

. . . 

b 

c 

z 

. . . 

V=Vektor 

Inverse, 

personalisierte 


Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

a 

b 

c 

z 

. . . 

V(a,b,c,...,z) 

b 

c 

. . . 

z 

Bild 2.21: Wirkung der allgemeinen Multi-/Broadcast-, personalisierten Multi-/Broadcast- 

Verbindung und ihrer inversen Abbildungen. 

Bezeichnung 

Typ 

Vorher 

Nachher 

Allgemeine, 



Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

V(a,b,c,...,z) 

V(a',b',c',...,z') 

V(a'',b'',c'',...,z'') 

. . . 

(n) 

V(a ,b 

(n) (n) 

,...,z ) 

a 

b 

c 

z 

a' 

b' 

c' 

a'' 

b'' 

c'' 

... 

... 

... 

z' z'' ... 

a 

(n) 

b (n) 

c (n) 

z (n) 

Inverse, 

allgemeine, 



Verbindung 

1 

2 

3 

... 

n 

1 

2 

3 

... 

n 

a 

b 

c 

z 

V (a,b,...,z) 

V (a,b,...,z) 

V (a,b,...,z) 

. . . . . . 

V (a,b,...,z) 

V=Vektor 

Bild 2.22: Die allgemeine personalisierte Multi-/Broadcast-Verbindung und ihre inverse Abbildung. 

51

Gl. 2.2: 

1 

S = s+ ( s– 

1) + … + 1 = --s⋅ 

( s + 1) 

= 

2 

1 

--e ⋅ ( e + 1) 

2 

Wiederum können gleichzeitig s = e Verbindungen gleichzeitig aktiv sein. 

Normaler Multicast 

In diesem Fall ist jeder der gegebenen s aktiven Sender mit einem der e Empfänger 

( s, e ≤ n ) verbunden, wobei ein Empfänger genau einem Sender, jeder 

Sender aber mehreren Empfänger zugeordnet sein kann. Das heißt, daß nur bei 

der Abbildung von Empfängern zu Sendern eine eindeutige Beziehung gegeben 

ist. 

Da jeder Empfänger maximal s Sender zur Auswahl hat, mit denen er potentiell 

verbunden sein kann, gibt es höchstens s e Kombinationen von Verbindungen, 

von denen e in einem Netz gleichzeitig existieren können. Die tatsächliche 

Zahl von Verbindungen ist kleiner als s e , weil nicht berücksichtigt wurde, 

daß je zwei Empfänger nur dann denselben Sender haben, wenn sie zum selben 

Multicast gehören. Die Auswahl an Sendern ist deshalb für jeden Empfänger 

kleiner als s, sobald mehr als ein Multicast im Netz existiert (s>1). 

Die Berechnung der exakten Zahl von Kombinationsmöglichkeiten ist aufwendig 

und wird erst im nächsten Kapitel vorgenommen. An dieser Stelle beschränken 

wir uns auf die Angabe der Obergrenzen für die Zahl K der Kombinationen. 

K beträgt höchstens: 

Gl. 2.3: 

K < s e , (s>1 bei e>1 gleichzeitigen Verb.) 

Die Obergrenze für die Summe S der Einzelmöglichkeiten berechnet sich zu: 

e-mal 

Gl. 2.4: 

S = s+ s + … + s = e ⋅ s, ( s>1,e>1 gleichzeitige Verb.) 

⎫ ⎪ 

⎪ 

⎬ 

⎪ 

⎪ 

⎭ 

Inverser Multicast 

Beim inversen Multicast ist eine eindeutige Zuordnung bei der Abbildung von 

Sendern zu Empfängern gegeben, weil jeder Sender genau einem Empfänger 

zugeordnet ist, während ein Empfänger mit mehreren Sendern verbunden sein 

kann. Die Obergrenze für die Zahl der Kombinationen berechnet sich gemäß 

Gl. 2.5 in analoger Weise wie beim Multicast-Fall. Für die Summe der Einzelmöglichkeiten 

gilt Gl. 2.6. Man erhält diese Gleichungen alternativ dadurch, 

daß man in Gl. 2.3 und Gl. 2.4 die Rollen von Sender und Empfänger vertauscht. 

Gl. 2.5: 

K < e s , (e>1, s>1 gleichzeitige Verb.) 

52

s – mal 

Gl. 2.6: 

S < e + e + … + e = s⋅ 

e 

⎫ ⎪ 

⎪ 

⎬ 

⎪ 

⎪ 

⎭ 

2.4.2 Gesamtzahl der Verbindungen 

In vielen Fällen möchte man die Gesamtzahl der Verbindungen wissen, die ein 

Netz realisieren kann, und nicht nur die Zahl der Punkt-zu-Punkt-, Multicastund 

inversen Multicast-Verbindungen. Dazu muß man alle existierenden Verbindungstypen 

bei der Abbildung von Sendern auf Empfängern, d.h. von Netzeingängen 

auf -ausgängen, berücksichtigen. 

Um die Gesamtzahl der Verbindungen zu bestimmen, betrachtet man die 

Verbindungen zwischen Sendern und Empfängern als die Abbildung eines Sendevektors 

S auf einen Empfangsvektor E . Die Vektoren S und E repräsentieren 

dabei die geordnete Folge von Sendern und Empfängern, die an den 

Ein-/Ausgängen des Netzes angeschlossen sind. 

Die Gesamtzahl der Verbindungen wird durch die Menge aller Abbildungen 

E = V ⋅ S bestimmt, wobei V das Verbindungsnetzwerk darstellt. Der 

entscheidende Schritt ist, daß V als eine nxn-Matrix angesehen wird, deren Elemente 

die Boolschen Werte "verbunden" oder "nicht verbunden" annehmen 

können. Aus der Variation der Elemente von V ergibt sich die Menge aller 

Abbildungen. 

Bei n 2 Boolschen Elementen, aus denen V besteht, gibt es verschiedene 

Zustände der Art "verbunden/nicht verbunden", so daß die Gesamtzahl der 

Kombinationen von Verbindungen ebenfalls gleich wird. Dieser Wert erfaßt 

alle Fälle, so daß in einem Netz bei n gleichzeitig aktiven Sendern und 

Empfängern maximal 

2 n2 

2 n2 

Gl. 2.7: 

K 

= 

2 n2 

Kombinationen von Verbindungen verschiedener Verbindungstypen auftreten 

können. 

Die Berechnung der Gesamtzahl der Kombinationen nach Gl. 2.7 unterscheidet 

nicht nach einzelnen Teilnehmern oder Teilnehmergruppen, sondern 

betrachtet das Netz als Ganzes. 

Eine genauere Differenzierung des Netzwerkverkehrs ist manchmal wünschenswert. 

Eine Differenzierung nach Teilnehmergruppen erlaubt beispielsweise 

eine exakte Berechnung der Zahl der Mulitcast und inversen Multicast- 

Kombinationen, von denen im vorigen Kapitel nur die Obergrenzen angegeben 

wurden. Die Unterscheidung nach Teilnehmergruppen erlaubt weiterhin, qualitative 

Aussagen über den Verkehr auf dem Netz zu machen und optimierte Rou- 

53

ting-Strategien anzugeben, sofern man zusätzlich weiß, welche Teilnehmer mit 

welchen häufig kommunizieren. 

2.4.3 Nach Teilnehmergruppen differenzierte Verbindungen 

Man kann die Verbindungen, die in einem Netz vorhanden sind, dergestalt differenzieren, 

daß man einzelne Teilnehmergruppen bildet, in denen jeweils ein 

bestimmter Verbindungstyp existiert. Dabei sind als Verbindungstypen die 

Punkt-zu-Punkt-Verbindung, der normale Multicast, der personalisierte Multicast, 

der allgemeine Multicast, der allgemeine, personalisierte Multicast und 

deren Umkehrungen von besonderem Interesse, weil diese in einem Netz 

gleichzeitig auftreten können. Dasselbe gilt für die Punkt-zu-Punkt-Verbindungen, 

die ebenfalls zur selben Zeit in einem Netz vielfach existieren können 

und die als Spezialfall im Multicast enthalten sind, wenn man auf jeden Sender 

genau einen Empfänger schaltet. 

Der Verkehr in einem Netz besteht entweder aus mehreren, simultan existierenden 

Verbindungen der genannten Typen oder es gibt genau eine Broadcast-Verbindung, 

die definitionsgemäß das ganze Netz umfaßt. Der Broadcast- 

Verbindungstyp erlaubt keine Differenzierung nach Teilnehmergruppen, weil 

zu einem Zeitpunkt nur ein Broadcast-Typ (normaler Broadcast, allgemeiner 

Broadcast, personalisierter Broadcast, allgemeiner, personalisierter Broadcast 

und deren Umkehrungen) auftreten kann. Innerhalb eines Broadcast-Typs gibt 

es jedoch entsprechend den n Netzeingängen, an die man den Broadcast-Sender 

anlegen kann, n Broadcast-Möglichkeiten. 

Im folgenden soll die Zahl der Kombinationen für ein Netz berechnet werden, 

in dem als Verbindungstypen die Punkt-zu-Punkt-Verbindung sowie der normale 

und der personalisierte Multicast und deren Umkehrungen erlaubt sind. 

Dabei soll berücksichtigt werden, wer mit wem verbunden ist und wer zu welcher 

Teilnehmergruppe gehört. Dies ist ein für die Praxis besonders interessanter 

Fall. 

Zur Berechnung der Kombinationszahl zerlegt man die Menge A der sendenden 

und empfangenden Netzwerkanschlüsse in einzelne Teilmengen, die jeweils 

einer Teilnehmergruppe entsprechen. (Bei der Zerlegung handelt es sich 

nicht um eine Klassenzerlegung von A im mathematischen Sinne, weil es erlaubt 

ist, daß verschiedene Teilnehmergruppen denselben Verbindungstyp, d.h. 

dieselbe Klasse haben können.) Nach der erfolgten Zerlegung in 

Teilnehmergruppen (Teilmengen) kann man eine Reihe von Aussagen machen. 

In einem Netz mit n bidirektionalen Netzwerkanschlüssen gilt für die Zahl 

der Elemente (=Sender oder Empfänger), die in A enthalten sind: 

Gl. 2.8: A = 2n . 

Bezeichnet man die Teilmengen, die einer Teilnehmergruppe eines bestimmten 

Verbindungstyps zugeordnet sind, mit U i 

⊆ A , dann läßt sich über Ui folgendes 

feststellen: 

54

Ist die i. Teilmenge vom Punkt-zu-Punkt-Typ, dann gilt Gl. 2.9, da sie genau 

einen Sender und einen Empfänger enthält. 

Gl. 2.9: U i 

= 2 , 

Besteht die i. Teilmenge aus einem inaktiven Teilnehmer, dann hat man 

Gl. 2.10: U i 

= 1 , 

da der inaktive Teilnehmer mit niemandem anderen Daten austauscht. 

Umfaßt die i. Teilmenge alle Empfänger, erhält man einen Broadcast von einem 

Sender auf n Empfänger: 

Gl. 2.11: 

U i 

= n + 1 

Die Zahl u der nichtleeren Teilmengen U i , in die A zerlegt werden kann, ist 

gleich n, wenn alle Ports inaktiv sind. Andererseits kann die Zahl der Elemente, 

die in einem speziellen enthalten sind, ebenfalls höchstens gleich n werden. 

Daraus ergibt sich insgesamt : 

U i 

1 U i 

n 

Gl. 2.12: 

≤ ≤ . für n ≥ u≥ i≥ 

1 

Faßt man alle Teilmengen, die nur ein Element enthalten, zur Menge NA (NA= 

"nicht angeschlossen") der inaktiven Teilnehmer zusammen, wird die ursprüngliche 

Menge A der Netzwerkanschlüsse zu einem bestimmten Zeitpunkt 

t so in verschiedene Teilmengen zerlegt, daß gilt: 

Gl. 2.13: A = U 1 

∪ U 2 

∪ U 3 

∪ … ∪ U u 

∪NA, 

wobei alle mindestens zwei Elemente (1 Sender und 1 Empfänger) enthalten 

müssen. Gl. 2.13 ist eine vollständige Zerlegung von A in disjunkte Teilmengen, 

so daß die Teilmengen überschneidungsfrei sind: 

U i 

U i 

U j 

∅ 

u 

∧ 

i, 

j = 0 

i ≠ j 

∩ 

= 

Das bedeutet, daß kein Sender oder Empfänger gleichzeitig in mehr als einer 

Teilmenge (Teilnehmergruppe) enthalten ist. 

Die Zahl der Kombinationen von Verbindungen, die in einem Netz auftreten 

können, ist identisch mit der Anzahl der Arten, in die sich A zerlegen läßt. Jede 

Teilmenge ⊆ A repräsentiert dabei eine der genannten Verbindungstypen 

U i 

55

Punkt-zu-Punkt, Multicast, personalisierter Multicast oder deren Umkehrungen. 

Die Zahl der Zerlegungen (Kombinationsanzahl) kann sehr groß werden. Beschränkt 

man sich z.B. nur auf die Punkt-zu-Punkt-Verbindungen, erhält man 

bei n gleichzeitig aktiven Teilnehmern n! Permutationen [Vogel74] potentieller 

Verbindungen. Im Falle des Parallelrechners CM-5 [Leiserson92] z.B. haben 

wir im Vollausbau ein Verbindungsnetzwerk, das 16 K Prozessoren miteinander 

koppelt. Dieses Netz muß deshalb 16 K! (≈10 160000 verschiedene Punkt-zu- 

Punkt-Verbindungen schalten können. (Zum Vergleich: Die Zahl der Atome im 

Universum beträgt "nur" ca. 10 65 .) 

Die Realisierung aller Punkt-zu-Punkt-Verbindungen stellt also hohe Anforderungen 

an das Verbindungsnetzwerk. Bei Realisierung aller Verbindungstypen 

ist die Zahl der Kombinationen noch wesentlich größer. 

2.4.4 Berechnung der Zahl der Teilnehmergruppen 

Um die Zahl verschiedener Teilnehmergruppen, die gleichzeitig in einem Netz 

existieren können, zu bestimmen, muß die Anzahl der Zerlegungen von A berechnet 

werden. Für eine anschauliche Herleitung der Zerlegung gehen wir zunächst 

davon aus, daß in jeder Teilmenge U i derselbe Multicast-Verbindungstyp 

existiert. Als Typ wählen wir den einfachsten Fall, den normalen 

Multicast, der den Punkt-zu-Punkt-Typ als Spezialfall enthält, wenn man die 

Zahl der Empfänger, die an jeden Sender angeschlossen sind, gleich Eins setzt. 

Zur Berechnung der Zahl von Zerlegungen in normale Multicasts geht man von 

folgender Überlegung aus: 

Der erste Sender, der Daten in ein gegebenes Netz einspeist, kann potentiell 

aus einem Vorrat von n Empfängern einen bestimmten Empfänger (sich selbst 

eingeschlossen) auswählen. Für die Auswahl des 2. Empfängers, der zum Multicast 

gehört, verbleiben für den 1. Sender noch (n-1) Empfänger, für den 3. 

Empfänger noch (n-2) Empfänger usw. Am Ende der Empfängerauswahl des 1. 

Senders sollen i 1 Empfänger vom 1. Sender ausgewählt worden sein. (i 1 stellt 

also die Zahl der an den 1. Sender angeschlossenen Empfänger dar, mit 

0 ≤ i1 ≤ n). Entsprechend verbleiben für den 2. Sender, der gleichzeitig zum 1. 

Sender Daten in ein Netz einspeist, noch (n-i 1 ) Empfänger für seinen Multicast. 

Der zweite Sender wählt aus den verbliebenen (n-i 1 ) Empfängern „seine" i 2 

Empfänger aus, danach folgt der 3. gleichzeitig aktive Sender usw. Am Ende 

des Auswahlprozesses sind alle n maximal möglichen Sender mit ihren i 1 bis i n 

Multicast-Empfängern verbunden, und es gilt für die Summe aller Empfänger: 

Gl. 2.14: i 1 

+ i 2 

+ … + i n 

≤ n . 

Durch die Zerlegung nach Gl. 2.14 wird für jede Teilmenge U i die Zahl ihrer 

Elemente gemäß U 1 

= i 1 

+ 1, U 2 

= i 2 

+ 1, …, 

U n 

= i n 

+ 1 , festgelegt, 

da zur j-ten Teilnehmergruppe i j Empfänger sowie ein Sender gehören. 

Somit gilt: 

56

Gl. 2.15: 

∧ 

U j 

= i j 

+ 1 . 

An dieser Stelle ist zu beachten, daß Gl. 2.15 die Menge NA der inaktiven Anschlüsse, 

die im vorigen Kapitel definiert worden ist, mit enthält, da in Gl. 2.14 

auch i j = 0 zugelassen ist. Es gilt in diesem Fall: Uj = 1, 

( ij = 0) 

. Die Teilmenge 

U j besteht also aus einem inaktiven Sender j als einzigem Element. 

In Gl. 2.14 ist die Zahl aller Punkt-zu-Punkt-Verbindungen ebenso mit berücksichtigt, 

wenn man für einen beliebigen Sender j die Zahl seiner Empfänger 

gleich 1 setzt. Dann hat man Uj = 2 , da die Teilmenge aus zwei Teilnehmern 

(Sender und Empfänger) besteht (i j = 1). Schließlich berücksichtigt Gl. 2.14 

auch den Broadcast-Fall, wenn für Uj = n, 

( ij = n) 

gilt und alle anderen Indizes 

i k = 0 ( k ≠ j) 

sind. 

Zusammengefaßt kann man sagen, daß sich bei n Sendern mit Multicast 

höchstens n Gruppen von Empfängern bilden können, wobei in jeder Gruppe 

zwischen 0 und n Empfänger erlaubt sind. Insgesamt darf die Summe aller 

Empfänger aus allen Gruppen die Zahl n der Netzanschlüsse nicht übersteigen. 

Empfängerauswahl 

Für die Wahl der i 1 Empfänger der 1. Empfängergruppe, die vom 1. Sender ausgewählt 

werden, gibt es 

⎛ 

n 

⎞ 

⎝ ⎠ 

i 1 

n 

j = 1 

Möglichkeiten [Hockney85], da die Reihenfolge 

innerhalb einer Multicast-Gruppe keine Rolle spielt. Entsprechend gibt es für 

⎛n – i 1 ⎞ 

die Wahl der i 2 Mitglieder der 2. Empfängergruppe noch ⎜ ⎟ Möglichkeiten, 

usw., so daß für den letzten, d.h. n. Sender schließlich 

⎝ i 2 ⎠ 

⎛n– i 1 

– i 2 

– … – i n – 1 ⎞ 

⎜ 

⎟ Möglichkeiten der Empfängerauswahl übrigbleiben. 

⎝ i n ⎠ 

Da sich die Gesamtzahl der Möglichkeiten aus dem Produkt der Einzelmöglichkeiten 

ergibt, erhält man in einem allgemeinen Verbindungsnetzwerk insgesamt 

K ⎛ 

n 

⎞ 

⎛ n – i 1⎞ ⎛n – i 1 

– i 2 

– … – i n – 1 ⎞ 

= 

Multicast-Kombinationen. 

⎝i 1 

⎠ 

⎜ ⎟ … ⎜ 

⎟ 

⎝ i 2 ⎠ ⎝ i n ⎠ 

Dies läßt sich auch schreiben als [Richter95b]: 

57

Gl. 2.16: 

K 

n 

∏ 

F j 

i j 

= ⎛ ⎞ mit 

⎝ ⎠ 

F = n – i l 

j = 1 

j – 1 

∑ 

l = 1 

Die Randbedingungen, die dabei beachtet werden müssen, sind: 

Gl. 2.17: 0 ≤ i j 

≤ F j 

, bei i ≤ n l 

für j > 1 . 

In Gl. 2.16 stellt K die Zahl der Multicast-Kombinationen zwischen Sendern 

und Empfängern dar, die in einem beliebigen Netz bei n Sendern und deren 

Empfängergruppen zu höchstens n Empfängern möglich ist. K ist eine Funktion 

der Variablen i 1 bis in, die die Anzahl der Empfänger je Gruppe festlegen. Die 

Zahl n der Netzwerkanschlüsse ist ein freier Parameter. 

Wenn man in Gl. 2.16 die Variablen für "Sender" mit denen für "Empfänger" 

vertauscht, gilt Gl. 2.16 auch für die Berechnung der Zahl der inversen Multicasts, 

die gleichzeitig in einem allgemeinen Netz auftreten können. Dieselbe 

Dualität (d.h. Austauschbarkeit von Sender durch Empfänger) gilt ebenfalls für 

die anderen beschriebenen Resultate. 

Man kann sich Gl. 2.16 folgendermaßen veranschaulichen: K kann als das 

Volumen eines n-dimensionalen Quaders gedeutet werden, der aus n aufeinander 

senkrechten Achsen der Länge ⎜ ⎟ besteht. Die Längen der Koordina- 

⎛F j ⎞ 

⎝i j ⎠ 

tenachsen entsprechen der Zahl der Möglichkeiten, die es gibt, um die Zusammensetzung 

der max. n Empfängergruppen festzulegen. 

Spezialfälle 

j – 1 

∑ 

l = 1 

Gl. 2.16 enthält drei bekannte Beispiele als Spezialfälle. Den ersten Spezialfall 

erhält man für i 1 = i 2 =...= i n = 1. Dann gilt: 

Gl. 2.18: K ⎛n⎞ ⎛n – 1⎞ n – 2 

= ⋅ ⋅ ⎛ ⎞ ⋅ … ⋅ ⎛ n – ( n – 1) 

⎞ = n! , 

⎝1⎠ 

⎝ 1 ⎠ ⎝ 1 ⎠ ⎝ 1 ⎠ 

Man erhält also alle Punkt-zu-Punkt-Abbildungen, die bei n Ein-/Ausgängen in 

einem Netz möglich sind. Der zweite Spezialfall ergibt sich für i 1 = n und i 2 = 

i 3 =...= i n = 0. Die Zahl K der Kombinationen läßt sich berechnen zu: 

Gl. 2.19: K ⎛n⎞ ⎛n – n⎞ ⎛n – n⎞ … ⎛ n – n ⎞ n 

= ⋅ ⋅ ⋅ ⋅ = ⎛ ⎞ = 1 , mit ⎛0⎞ = 1 . 

⎝n⎠ 

⎝ 0 ⎠ ⎝ 0 ⎠ ⎝ 0 ⎠ ⎝n⎠ 

⎝0⎠ 

58

Dies stellt den Broadcast vom 1. Sender zu allen Empfängern dar, wofür es 

selbstverständlich genau eine Kombinationsmöglichkeit gibt. 

Der dritte Spezialfall von Gl. 2.16 ist dann gegeben, wenn jeder der möglichen 

n Empfänger mit einem Sender verbunden ist, d.h. die Zerlegung von A in 

disjunkte Gruppen vollständig aus aktiven Ports besteht, NA also gleich Null 

ist. Dann gilt: 

n 

∑ 

Gl. 2.20: = n , ( 0 ≤ i j 

≤ n) 

, für NA = 0 . 

j = 1 

i j 

Mit Gl. 2.20 als Zusatzbedingung läßt sich Gl. 2.16 vereinfachen in [Bronstein83]: 

Gl. 2.21: 

K 

= 

n! 

------------------------ 

i 1 

!i 2 

!…i n 

! 

Der Fall der Aufteilung von empfangenden Netzwerkanschlüssen auf Empfängergruppen 

gemäß Gl. 2.20 stellt eine vollständige Zerlegung ohne Rest der 

Menge A der Netzwerkanschlüsse dar. Schließlich kann man noch eine Abschätzung 

über die Zahl der Kombinationen angeben: 

( 

Gl. 2.22: 2 n2 ) 

n n n! 

» » n! ≥ ------------------------ ≥ ⎛ ⎞ . 

i 1 

!i 2 

!…i n 

! ∏ ⎝ ⎠ 

2.4.5 Zusammenfassung 

Die Resultate der Betrachtungen über die Verbindungskombinationen sind in 

Tabelle 2.1 zusammengefaßt. 

2.5 Datentransport in Netzen 

2.5.1 Einleitung 

j = 1 

Die Aufgabe eines Verbindungsnetzwerks ist es, in einem Parallelrechner oder 

Rechnernetz effizient Information zwischen kommunizierenden Teilnehmern 

bzw. Rechenknoten zu übertragen. Der Informationstransport mit Hilfe eines 

statischen oder dynamischen Verbindungsnetzwerks erfordert die Festlegung 

einer Reihe technischer Parameter. Dazu zählen beispielsweise die Frage, ob 

die Daten formatiert übertragen werden sollen, ob die Verbindungen zwischen 

n 

F j 

i j 

59

Gesamtzahl der Verbindungskombinationen in einem Netzwerk mit n bidirektionalen 

Ports: 

K 

= 

2 n2 

Zahl der Verbindungskombinationen, wenn nur Punkt-zu-Punkt-, Multicast- oder 

personalisierte Multicast-Verbindungen sowie deren Umkehrungen auftreten (mit Aufschlüsselung 

nach Teilnehmergruppen der Stärke ): 

K 

F j 

n ⎛ ⎞ 

= ∏ ⎜ ⎟ F 

⎝ ⎠ j 

= n – ∑ i 0 ≤ i l 

j 

≤ F j ∑ i l 

≤ n 

j = 1 

i j 

j – 1 

j – 1 

, mit und ( für j>1). 

l = 1 

l = 1 

K 

= 

------------------------ 

n! 

i 1 

!i 2 

!…i n 

! 

Tabelle 2.1: Zahl der Verbindungskombinationen in einem Netzwerk. 

Sender und Empfänger permanent oder transient sind, ob Wege zentral oder dezentral 

ausgewählt werden und ob bzw. wie eine Flußsteuerung (Flow Control) 

vorgenommen werden soll. 

Entsprechend kann man den Datentransport in die Aspekte Verbindungsart, 

Verbindungsaufbau und -steuerung, sowie Paketformat und Routing untergliedern. 

Eine graphische Darstellung dieser Gliederung ist in Bild 2.23 gezeigt. 

Datentransport 

Verbindungsart 

Vereinfachung, wenn alle Netzwerkanschlüsse gleichzeitig senden und/oder empfangen: 

Leitungs- 

Paket- 

Nachrichtenvermittlung 

Verbindungsaufbau 

statisch 

dynamisch 

Verbindungssteuerung 

zentral 

dezentral 

Paketformat 

Kopf 

Daten 

Ende 

Routing 

Adreßdekodierung 

Wegewahl 

Flußsteuerung 

Bild 2.23: Klassifikation des Datentransports. 

In den folgenden Kapiteln wird jeder der in Bild 2.23 dargestellten Parameter 

näher erläutert. 

60

2.5.2 Verbindungsart 

Grundsätzlich gibt es in einem Netz drei Möglichkeiten, eine Verbindung zwischen 

einem Sender und einem Empfänger aufzubauen, die als Leitungsvermittlung, 

Paketvermittlung und Nachrichtenvermittlung bezeichnet werden. 

Die ersten beiden Arten sind sehr unterschiedlich in ihren Eigenschaften, während 

die dritte eine Kombination aus beiden darstellt. Im einzelnen gilt: 

Leitungsvermittlung wurde ursprünglich auf dem Gebiet der Telefonvermittlungstechnik 

eingesetzt und danach auf Parallelrechnernetze übertragen. 

Bei Leitungsvermittlung wird eine physikalische Verbindung zwischen den 

Teilnehmern (Rechenknoten) hergestellt, die auf der Koppelung aller Teilstrecken, 

die zwischen Sender und Empfänger liegen, beruht. Wesentlich dabei 

ist, daß der durch das Zusammenschalten von Leitungen etablierte Pfad für die 

gesamte Dauer der Informationsübermittlung physikalisch bestehen bleibt. 

Die Daten werden auf dem Pfad durch das Netz unformatiert übertragen; insbesondere 

ist keine Adresse und kein Paketendezeichen erforderlich, so daß 

nach der Aufbauphase der Verbindung eine hohe Nettodatenrate möglich ist. 

Weiterer Verwaltungsaufwand fällt bis zum Abbau der Verbindung nicht mehr 

an. 

Der Nachteil von Leitungsvermittlung liegt darin, daß die Kommunikationskanäle, 

die den Datenpfad bilden, während der Verbindung für andere Kommunikationszwecke 

nicht zur Verfügung stehen, da sie fest alloziert zur aufgebauten 

Verbindung sind. Dies bewirkt häufig eine schlechte Ausnutzung der im 

Netz vorhandenen Kanäle. Aus diesem Grunde wird Leitungsvermittlung bei 

Netzen für Parallelrechner nur noch selten angewandt. 

Paketvermittlung vermeidet den Nachteil der Ressourcen-Blockierung, indem 

sie die Nutzinformation in einzelne physikalische Abschnitte (Pakete) unterteilt, 

die nur für die Dauer der Übertragung von einem Knoten zu seinem 

Nachbarknoten den dazwischen liegenden Kanal belegen. Die Interprozessorkommunikation 

besteht in diesem Fall aus dem Austausch einzelner Datenpakete. 

Gehören mehrere Pakete logisch zueinander, werden sie zu einer Nachricht 

zusammengefaßt, die als übergeordnete Verwaltungseinheit dient. 

Die einzelnen Bytes, aus denen ein Paket besteht, können mit den Waggons 

eines Zuges verglichen werden. Dieser benötigt zur freien Fahrt nur den Strekkenabschnitt, 

auf dem er sich gerade befindet. Wenn er einen Gleisabschnitt 

passiert hat, steht die Teilstrecke für andere Züge (Pakete) wieder zur Verfügung. 

Das bedeutet, daß an einem physikalischen Kanal mehrere logische Datenströme 

im Zeitmultiplex-Verfahren übertragen werden können. Diese werden 

als virtuelle Kanäle bezeichnet. 

Bei Parallelrechnernetzen mit Paketvermittlung erfordert die Mehrfachausnutzung 

der Kanäle einen erhöhten Verwaltungsaufwand, da jedes Paket mit einer 

Zieladresse versehen werden muß, weil sonst unklar ist, wer der Empfänger 

ist. Zusätzlich sind für das Multiplexen unterschiedlicher Nachrichten auf demselben 

physikalischen Kanal eine Herkunftsadresse sowie weitere Verwaltungsinformation 

wie Nachrichtenanfang, Nachrichtenende und Paketnummer 

61

erforderlich, um eine ungestörte Durchmischung der Pakete verschiedener 

Nachrichten zu gewährleisten. 

Der beschriebene Verwaltungsaufwand, der bei Paketvermittlung anfällt, bewirkt, 

daß die Nettodatenrate kleiner als bei der Leitungsvermittlung ausfällt. 

Insbesondere bei langen Nachrichten, die am Stück übertragen werden, ist Leitungsvermittlung 

effizienter; auch, weil keine zusätzlichen Zeiten zur Inspektion 

der Zieladressen in den einzelnen Zwischenknoten anfallen. Trotzdem wird 

bei Parallelrechnernetzen Paketvermittlung bevorzugt, da eine gute Ausnutzung 

der Kommunikationskanäle die Effizienz der Programmausführung und 

damit des Parallelrechners erhöht. 

Schließlich ist es zur Übertragung jedes Pakets erforderlich zu wissen, welcher 

Weg durch das Netz der beste, d.h. schnellste oder kürzeste, ist. Diese Frage 

stellt sich bei der Leitungsvermittlung nur einmal, nämlich am Anfang einer 

Interprozessorkommunikation zum Aufbau des Pfades. 

Nachrichtenvermittlung ist eine Mischung aus Paket- und Leitungsvermittlung. 

Sie versucht, die Vorteile beider Vermittlungsarten zu kombinieren, indem 

sie Nachrichten nicht in kleine Pakete unterteilt, sondern am Stück als ein 

großes Paket überträgt. Ein Durchmischen der Nachrichten auf Paketbasis entfällt 

dadurch ebenso wie der damit verbundene Verwaltungsaufwand, was sich 

positiv auf die Übertragungsbandbreite auswirkt. Die genannten Vorteile werden 

allerdings damit erkauft, daß sich die durchschnittliche Latenzzeit der 

Interprozessorkommunikation bei langen Nachrichten deutlich erhöht, was 

wiederum die Effizienz einer parallelen Anwendung senkt. 

Zusammenfassend kann gesagt werden, daß Paketvermittlung sich besonders 

für kurze Botschaften eignet, während Leitungsvermittlung bei sehr langen 

Nachrichten günstiger ist. Botschaften mittlerer Länge können am besten mit 

Nachrichtenvermittlung übertragen werden. 

Da die drei Vermittlungsarten in einem Verbindungsnetzwerk unterschiedliche 

technische Einrichtungen und Abläufe erfordern, ist es nicht möglich, abhängig 

von der Nachrichtenlänge eine der drei Arten dynamisch auszuwählen. 

Vielmehr muß man sich von Anfang an festlegen. Bei Paketvermittlung kann 

man durch die Wahl kleiner bis mittlerer Paketlängen eine ausreichende Bandbreite 

bei gleichzeitig niedriger Latenz und guter Ressourcen-Auslastung erreichen, 

und deshalb wird Paketvermittlung bevorzugt. 

2.5.3 Verbindungsaufbau 

Der Aufbau einer Verbindung kann entweder statisch oder dynamisch erfolgen. 

Bei statischem Aufbau wird zur Übersetzungszeit des Programms festgestellt, 

welche Interprozessorkommunikationen durchgeführt werden sollen, und diese 

werden als ein Teil des Programmladens im Verbindungsnetzwerk hergestellt. 

Jede Verbindung bleibt während der gesamten Ausführung der parallelen Anwendung 

bestehen. Neue Verbindungen können nicht realisiert werden. 

Ein statischer Verbindungsaufbau ist für diejenigen parallelen Anwendungen 

ausreichend, bei denen gemäß einfacher Muster (Regeln) kommuniziert wird. 

62

Dies ist z.B. bei allen systolischen Algorithmen der Fall, aber auch bei Verfahren 

aus der Bildverarbeitung und bei Matrizenarithmetik. 

Ein dynamischer Verbindungsaufbau kann Datenabhängigkeiten, die erst zur 

Laufzeit bekannt werden, berücksichtigen und nicht mehr benötigte Verbindungen 

ab- und neue aufbauen. Der dynamische Verbindungsaufbau ist flexibler, 

aber er erfordert eine schnelle Rekonfigurierbarkeit des Netzes sowie einen 

erhöhten Betriebssystemaufwand, um die Verbindungswünsche effizient 

und sicher herstellen zu können. Üblicherweise wird bei Parallelrechnernetzen 

ein dynamischer Verbindungsaufbau gewählt. 

2.5.4 Verbindungssteuerung 

Die Entscheidung, über welche Zwischenknoten ein Datenpaket zum Ziel gelangt, 

bzw. über welche Streckenabschnitte ein unformatiertes Datum zum 

Empfänger transportiert wird, kann entweder von einer einzigen zentralen Instanz, 

die ein besonderer Knoten oder ein Host-Rechner sein kann, getroffen 

werden oder sie wird von vielen lokalen Knoten in dezentraler Art und Weise 

vorgenommen. Man spricht deshalb entweder von zentraler oder von lokaler 

Verbindungssteuerung. 

Eine zentrale Steuerung des Verbindungsaufbaus hat den Vorteil, daß die 

Verbindungswünsche, die von den Rechenknoten an sie herangetragen werden, 

so realisiert werden können, daß ein globales Optimum bzgl. des Datendurchsatzes 

und der Latenzzeit entsteht, vorausgesetzt, das Netzwerk bietet verschiedene 

Alternativen in der Wegewahl. Zentrale Steuerungen haben deshalb das 

Potential, ein Netz besonders effizient nutzen zu können. 

Leider sind mit einer zentralen Instanz auch mehrere Nachteile verbunden: 

Um Wartezeiten bei einem für alle Knoten gemeinsamen Verbindungs-Server 

zu vermeiden, muß dieser erheblich schneller als die Wünsche seiner Klienten 

sein, was sich nur für eine kleine Kundenzahl realisieren läßt. Große Parallelrechnersysteme 

können deshalb nicht auf einer gemeinsamen Verbindungssteuerung 

beruhen, da diese einen Engpaß darstellen würde. Darüberhinaus hat 

eine zentrale Instanz den Nachteil, daß das ganze System bei deren Ausfall 

blockiert würde. Deshalb ist bei fehlertoleranten und/oder massiv parallelen 

Rechnern eine auf mehrere oder alle Knoten verteilte Verbindungssteuerung 

das Mittel der Wahl. 

Allerdings ist nicht bei allen Netztypen eine Dezentralisierung machbar. Die 

Kategorie der mehrstufigen Netze z.B., die nur durch Umordnen interner Wege 

blockierungsfrei ist (rearrangable non blocking networks), erfordern eine zentrale 

Vergabe aller Teilstrecken im Netz, da sonst nicht alle Verbindungswünsche 

realisiert werden können. Die mit diesen Netzen verbundenen 

Wegesuchalgorithmen werden auf einem einzigen Verbindungs-Server sequentiell 

ausgeführt. Eine Parallelisierung der Algorithmen und deren verteilte 

Ausführung auf einer beliebigen Zahl von Knoten, z.B. entsprechend der Zahl 

der Prozessoren im System, ist oft nicht möglich oder wünschenswert. Beispiele 

für Netze, bei denen eine Dezentralisierung schwierig ist, sind das Benes- 

63

und das Clos-Netz, die beide leitungs- oder paketvermittelnd betrieben werden 

können. 

Dezentrale Verbindungssteuerungen werden überwiegend in statischen Verbindungsnetzwerken, 

aber auch in Banyan-Netzen eingesetzt, die zur Kategorie 

der dynamischen Netze gehören. Bei diesen Netztypen existieren eine Reihe 

von Verfahren, wie Datenpakete lokal, d.h. von den einzelnen Rechen- oder 

Schaltknoten durch das Netz gelotst werden können. Dezentrale Verbindungssteuerungen 

bieten Vorteile bzgl. Fehlertoleranz und Skalierbarkeit. Allerdings 

gibt es auch Nachteile: 

Zum einen sind die spezifischen Algorithmen zur Wegewahl primär auf paketvermittelnde 

Netze beschränkt. Ein Anwendung auf Leitungsvermittlung ist 

schwierig, weil die Kopplung verschiedener Teilstrecken zu einem gemeinsamen 

Pfad vom Charakter her zentralistisch ist. 

Zum anderen erfordert die Erzielung eines globalen Optimums von Netzdurchsatz 

und Latenzzeit, daß die einzelnen Knoten Kenntnis über die Wegeentscheidungen 

der Nachbarknoten haben. Insbesondere muß jeder Knoten bei 

seiner Routingentscheidung für eine effiziente Netzauslastung die momentane 

Verkehrsbelastung der anderen Knoten berücksichtigen. Ist die Information 

über die Verkehrssituation anderer Knoten nicht vorhanden, können nur lokale, 

aber keine globalen Optimierungen getroffen werden. 

Leider kann auch bei gegenseitigem Austausch der Verkehrsbelastung ein 

globales Optimum deshalb nicht erreicht werden, weil die Daten entfernter 

Knoten aufgrund der endlichen Signalausbreitungsgeschwindigkeit in der Regel 

erst dann zur Routing-Entscheidung eintreffen, wenn sie bereits veraltet 

sind, da sich die Verbindungsanforderungen schnell ändern können. In der Praxis 

sind dezentrale Verbindungssteuerungen mit gegenseitigen Austausch der 

Verkehrsbelastungen trotzdem vorteilhaft, da sie aufgrund ihrer Adaptivität der 

Wegewahl zur Leistungssteigerung der Rechnersystems beitragen. Bei Parallelrechnernetzen 

und lokalen Netzwerken ist deshalb Paketvermittlung mit dezentraler 

Verbindungssteuerung die häufigste Betriebsart. 

2.5.5 Paketformate 

Bei paketvermittelnden Netzen müssen die Daten, bevor sie ins Netz eingespeist 

werden, formatiert, d.h. in Pakete verpackt werden. Für die Nachrichtenformatierung 

läßt sich ein genereller Aufbau angeben, der in drei Hierarchieebenen 

gegliedert ist, die wiederum aus einzelnen Abschnitten bestehen. Das 

Prinzip des Nachrichtenaufbaus ist in Bild 2.24 gezeigt. 

Auf der obersten Hierarchieebene bestehen Nachrichten aus einer Reihe von 

Datenpaketen, die von einem Kopf- und einem Endepaket eingerahmt sind, um 

so Beginn und Ende der Nachricht zu kennzeichnen. Einzelne abgesendete Pakete 

werden vom Empfangsprozeß zwischengespeichert und dort zur ganzen 

Nachricht wieder zusammengesetzt. 

Auf der mittleren Hierarchieebene ist jedes Paket in Nutzdaten und Verwaltungsinformation 

gegliedert, die wiederum aus einzelnen Abschnitten wie 

64

Ziel- und Herkunftsadresse bestehen. Verwaltungsinformationen werden von 

den Vermittlungseinrichtungen des Verbindungsnetzwerkes, Nutzdaten von 

den Rechenknoten ausgewertet. Eine laufende Paketnummmer wird für die Fälle 

mit übertragen, wo Pakete in anderer Reihenfolge, als sie abgeschickt werden, 

empfangen werden können, um so die korrekte Sequenz der Pakete nach 

dem Empfang wiederherzustellen. Eine Herkunftsadresse wird vom Empfänger 

für den Fall benötigt, daß virtuelle Kanäle vorhanden sind, um das Paket anhand 

dieser Angabe dem richtigen logischen Empfangskanal zuordnen zu können 

(Paket-Demultiplexen). 

Nachricht (Botschaft) 

Kopfpaket 

(Header) 

Datenpaket 

1 

Daten- . . . Datenpaket 

2 paket n 

Endepaket 

(Trailer) 

Zieladresse 

Herkunftsadresse 

Paket 

Nr. 

Datenblock 

Paketendezeichen 

Nachrichtenendezeichen 

Flit Flit . . . Flit 

(Phit) (Phit) (Phit) 

Bild 2.24: Hierarchischer Aufbau einer Nachricht. 

Auf der untersten Ebene (Transportschicht) sind die Daten in elementare Transporteinheiten, 

den Physical Transfer Units (Phits), zerlegt und diese werden 

bitseriell, byteparallel oder wortparallel übertragen. Wird auf dieser Ebene eine 

Flußsteuerung vorgenommen, um eine Datenüberflutung des Netzes oder des 

Empfängers zu vermeiden, heißen die Phits Flow Control Digits (Flits). Eine 

Cray T3D beispielsweise verwendet 16 Bit breite Flits zur Informationsübertragung. 

Die IBM SP2 arbeitet mit 8 Bit breiten Flits. 

Der geschilderte, dreifach gegliederte und mehrfach in Abschnitte unterteilte 

Nachrichtenaufbau ist bei den meisten Formaten nicht vollständig implementiert; 

z.B. wird ein Kopf- und Endepaket nur dann übertragen, wenn eine Verbindung 

explizit auf- und wieder abgebaut werden muß (Connection Oriented 

Protocol). Dementsprechend können Pakete je nach Format eine feste Länge 

aufweisen oder variabel lang sein, und sie können alle Abschnitte der Ebenen 2 

und 3 enthalten oder nur Teile davon. 

Beispiel: 

Der Kopfteil eines Transputer T9000 Pakets enthält nur die Zieladresse (Bild 

65

2.25a), während beim ATM- und SCI-Format eine Reihe weiterer Informationen 

im Kopfteil enthalten sind, wie die Priorität und die Herkunftsadresse (SCI- 

Format). T9000 Zieladressen variieren je nach Netzgröße, ebenso kann dort das 

letzte Paket der Nachricht kürzer als die vorangehenden sein, während SCI- 

Adressen auf 8 Byte und SCI-Daten auf 64 bzw. 256 Bytegrenzen festgelegt 

sind (Block-Write Request). Die ATM-Zelle hat ebenfalls einen Kopf- und Datenteil 

konstanter Länge (Bild 2.25 b und c). 

1. Paket 

Ziel 32 Byte Daten Paketende 

a) 

2. Paket 

Ziel 32 Byte Daten Paketende 

n. Paket 

. . . 

Ziel ≤ 32 Byte Daten 

1.- n. Paket 

Nachrichtenende 

1 Phit = 

1 Byte 

b) 

5 Byte Kopf 

48 Byte Daten 

1.- n. Paket (Block-Write Request) 

c) 16 Byte Kopf 

64/256 Byte Daten 

Bild 2.25: Beispiele für Paketformate, a) Transputer T9000, b) ATM-Zelle, c) SCI-Block. 

2.5.6 Routing 

Ein wichtiger Teil beim Transport von Information durch ein paketvermittelndes 

Netz ist das Routing. Bei Leitungsvermittlung tritt Routing nur in der Phase 

des Verbindungsaufbaus auf. Während der eigentlichen Datenübertragung wird 

Routing nicht benötigt. 

In umfassenderen Sinne wird unter Routing der Vorgang verstanden, wie 

Information von einem Datenerzeuger durch ein Verbindungsnetzwerk zu einem 

Datenverbraucher transportiert wird. Dabei spielen verschiedene, voneinander 

unabhängige Mechanismen ineinander und tragen zum Datentransport 

bei. Im engeren Sinne zählen zum Routing der Verbindungsaufbau, der die 

Wahl eines geeigneten Pfades durch das Netz beinhaltet, die Dekodierung von 

Paketadressen, eine optionale alternative Wegelenkung zur Leistungsoptimierung 

sowie eine geeignete Flußsteuerung zur Verhinderung von Datenüberlauf. 

Adreßdekodierung, Wegewahl und Flußsteuerung werden üblicherweise unter 

dem gemeinsamen Oberbegriff des Routings zusammengefaßt. 

Traditionell wird in Rechnernetzen wie LANs, MANs und WANs seit mehr 

als 2 Dekaden das sog. Store-and-Forward Routing eingesetzt, das eine bestimmte 

Art des Pakettransports und der Flußsteuerung beinhaltet. In Parallel- 

66

echnernetzen wird ebenfalls Store-and-Forward Routing verwendet, jedoch 

werden hier auch neuere Methoden wie Virtual-Cut-Trough und Wormhole 

Routing eingesetzt, die beim Informationstransport für eine besonders kleine 

Latenzzeit sorgen. 

Aktuelle Entwicklungen bei Rechnernetzen greifen auf Virtual-Cut-Through 

und Wormhole Routing zurück, da sie sich zur Echtzeitübertragung von 

Sprach-, Video- und anderen Multimediadaten eignen, so daß an dieser Stelle 

Wechselwirkungen bei der Entwicklung von Rechnernetzen einerseits und Netzen 

für Multiprozessorsysteme andererseits erkennbar sind. 

Trotz einiger Gemeinsamkeiten von Rechnernetzen und Parallelrechnernetzen 

gibt es prinzipielle Unterschiede. Bei einem Parallelrechner beispielsweise 

verkürzt eine geringe Latenz die Wartezeiten sowohl bei der Interprozessorkommunikation 

als auch bei der Prozeßsynchronisation und ist deshalb 

für die Effizienz des Systems von großer Bedeutung. Bei Rechnernetzen dagegen 

spielt, außer für Echtzeitanwendungen, mehr der Datendurchsatz als die 

Verweildauer eines Datenpakets im Netz die wesentliche Rolle. 

Ein zweiter Unterschied zwischen beiden Netztypen liegt in den spezifischen 

Routing-Aspekten von Wegewahl bzw. alternativer Wegelenkung. Bei Weitverkehrsnetzen 

(WANs) sind diese Aufgaben so komplex, daß etliche Rechner 

darin involviert sind. Dies liegt u.a. daran, daß die Topologien von Weitverkehrsnetzen 

irregulär und ständigen Veränderungen unterworfen sind, so daß 

Tabellen zur Lösung der Routing-Aufgaben eingesetzt werden müssen, die sich 

nicht wie bei Parallelrechnernetzen durch einfache, in Hardware implementierte 

Algorithmen ersetzen lassen. Tabellen sind flexibler in der Anpassung 

und können leichter als Algorithmen modifiziert werden. 

Parallelrechnernetze weisen fast immer eine Art von Symmetrie auf, so daß 

Wegewahl und Wegelenkung implizit über festverdrahtete Algorithmen oder 

über Mikroprogrammierung realisiert werden können. Darüberhinaus ändert 

sich das Netz eines gegebenen Parallelrechners in der Regel nur hinsichtlich 

seiner Größe, aber nicht hinsichtlich der Topologie. Algorithmische (implizite) 

Wegewahl und -lenkung haben gegenüber tabebellengesteuertem (expliziten) 

Routing den Vorteil, schneller und platzsparender zu sein, da Suchvorgänge 

und Tabellenhaltung entfallen. Alogrithmisches Routing wird deshalb bei Netzen 

für Parallelrechner bevorzugt. 

2.6 Routingmethoden in Netzen 


Für die Leistungsfähigkeit eines Weitverkehrs- oder Parallelrechnernetzes spielen 

effiziente Routingmethoden eine wichtige Rolle. Wie bereits erwähnt, tragen 

Adreßdekodierung, Wegewahl und Transportart, bzw. Flußsteuerung der 

Pakete wesentlich zur Effizienz bei. In Bild 2.26 ist graphisch dargestellt, welche 

Methoden üblicherweise für diese drei Routing-Aufgaben eingesetzt werden. 

67

Routing 

Adreßdekodierung 

Wegewahl 

Transportart/Flußsteuerung 

Quellenbasiert 

Zielbasiert 

deterministisch 

adaptiv 

Store-and-Forward 

Virtual-Cut-Trough 

x-y-z Routing 

Wormhole 

e-cube Routing 

... 

Bild 2.26: Gliederung des Routing-Begriffs. 

2.6.2 Adreßdekodierung 

Grundsätzlich gibt es zwei Möglichkeiten, Paketadressen zu spezifizieren. Bei 

der ersten Methode wird der Kopfteil (Header) eines Pakets mit einer systemweit 

eindeutigen, d.h. absoluten Empfängeradresse versehen. Beim Routing 

wird diese Adresse von jedem Zwischenknoten auf dem Weg zum Empfänger 

inspiziert und anhand dieser Information derjenige Übertragungskanal (Ausgang) 

ausgewählt, der zum nächsten geeigneten Zwischenknoten bzw. Empfänger 

führt. Diese Methode wird als Destination-Based Routing bezeichnet. 

Beim Destination-Based Routing muß jeder Zwischenknoten "wissen", in 

welcher Richtung das jeweilige Ziel von der eigenen Knotenposition aus zu erreichen 

ist. Der Absender des Pakets, der die absolute Zieladresse generiert hat, 

braucht sich dagegen nicht um die korrekte Dekodierung und Interpretation der 

Adreßinformation zu kümmern. Destination-Based Routing erfordert deshalb 

in den Zwischenknoten eine komplexere Logik als im Absender. Bei Rechnernetzen 

wie z.B. dem Internet wird durchweg diese Methode angewandt; jeder 

Rechner hat hier eine weltweit eindeutige, absolute Adresse, die in 4 Bytes kodiert 

ist. Bei Netzen für Multiprozessorsystemen ist Destination-Based Routing 

ebenfalls weit verbreitet. 

Die zweite Methode der Adreßspezifikation ist das Source-Based Routing. 

Hier wird das Paket, abhängig von der Position des Absenders im Netz, mit allen 

Informationen versehen, die es benötigt, um ohne Zusatzinformation von 

den Zwischenknoten zum Empfänger zu gelangen. In diesem Fall wird nicht 

eine absolute, sondern eine relative Empfängeradresse verwendet, die aussagt, 

welche Abzweigungen an welchem Zwischenknoten zu nehmen sind. 

In einem statischen oder dynamischen Verbindungsnetz kann das Source-Based 

Routing mit der Art und Weise verglichen werden, wie einem Menschen in 

einer fremden Stadt der Weg zu einer bestimmen Straße erklärt wird: „Zuerst 

geradeaus, dann nach 50 m rechts, dann die dritte Abzweigung links, usw.". Destination-Based 

Routing würde in dieser Analogie, bei der die Straßen den Ver- 

68

indungskanälen und die Passanten den Kreuzungen an den Zwischenknoten 

entsprechen, bedeuten, daß der Fremde an jeder Straßenkreuzung einem Passanten 

sein Ziel nennt und ihn dieser bis zur nächsten Kreuzung weiterschickt. 

Source-Based Routing erfordert im Sender eine komplexere Logik als in den 

Zwischenknoten. Ein Beispiel für die Anwendung dieser Methode ist beim 

Netz der IBM SP-2 Maschine gegeben. 

2.6.3 Wegewahl 

In nahezu allen statischen Verbindungsnetzwerken sowie allen dynamischen 

Netzen, die aus mindestens zwei hintereinandergeschalteten Banyans bestehen, 

existiert mehr als ein Weg von jedem Sender zu jedem Empfänger. Daraus ergibt 

sich das Problem der Wegewahl, um für einen bestimmten Datentransfer 

den jeweils besten Weg festzulegen. Die nicht adaptive Lösung des Wegewahlproblems 

besteht darin, aus den potentiellen Wegen einen bestimmten Weg anhand 

eines fest vorgegebenen Algorithmus auszuwählen. Werden dabei als Eingabeparameter 

nur die Quell- und die Zieladresse des Datenpakets 

herangezogen, insbesondere resultieren unterschiedliche Netztopologien in unterschiedlichen 

Algorithmen. Diese Methode wird als deterministisches Routing 

bezeichnet. 

Eine andere Lösung des Wegewahlproblems besteht darin, den momentanen 

Zustand des Netzes hinsichtlich Komponentenausfälle oder Kanalüberlastungen 

in die Wegewahlentscheidung mit einzubeziehen. Solche Verfahren sind a 

priori nicht deterministisch, weil Ausfälle oder Überlastungen von Kanälen 

oder Knoten nicht vorhergesagt werden können. Sie werden als adaptives Routing 

bezeichnet. 

Adaptive Algorithmen haben den Vorteil, daß sie durch alternative Wegewahl 

den Datendurchsatz durch ein Verbindungsnetzwerk potentiell erhöhen, 

weil hochbelastete Strecken und Knoten umgangen werden können. Als Nachteil 

weisen sie im Vergleich zu den deterministischen Verfahren eine höhere 

Komplexität auf und sind deshalb häufig langsamer in der Abarbeitung. 

Für den Allgemeinfall kann nicht vorausgesagt werden, ob deterministisches 

oder adaptives Routing günstiger für Durchsatz und Latenz ist. Das jeweils geeignetere 

Verfahren hängt von der Netztopologie, der Verkehrsverteilung und 

den Ansprüchen an die Fehlertoleranz ab. 

2.6.4 Flußsteuerung 

Statische oder dynamische, paketvermittelnde Netze mit dezentraler Verbindungssteuerung 

haben den unerwünschten Freiheitsgrad, daß es vorkommen 

kann, daß zur selben Zeit zwei oder mehr Datenpakete denselben Knotenausgang 

oder Kanal an einem Zwischenknoten benutzen wollen, weil sie unabhängig 

voneinander den gleichen Weg gewählt haben und/oder denselben Zielknoten 

anstreben. Da Kanäle physikalisch nur nacheinander Daten übertragen 

können, müssen in den Zwischenknoten Puffer installiert sein, um Pakete so- 

69

lange zwischenzuspeichern, bis die benötigte Ressource (Kanal, Ausgang etc.) 

wieder frei ist. Beim Zwischenspeichern muß der betreffende Knoten dafür sorgen, 

daß seine Puffer nicht überlaufen, weil sonst Pakete verloren gehen. Die 

Gefahr eines Pufferüberlaufs ist immer dann gegeben, wenn die Verkehrsdichte 

inhomogen verteilt ist und sich die Datenpakete an wenigen Knoten häufen 

oder wenn man aus Kosten- oder Latenzzeitgründen darauf verzichtet hat, ein 

blockierungsfreies Netz zu verwenden. (Blockierungsfreie, dynamische Netze 

sind immer aufwendiger in der Konstruktion als nicht blockierungsfreie und haben 

eine größere Latenz). 

Andererseits können Ressourcenkonflikte auch von der parallelen Anwendung 

selbst herrühren, die auf dem Multiprozessor ausgeführt wird, sofern diese 

bestimmte Empfänger bevorzugt und auch dann anspricht, wenn sie momentan 

mit einer anderen Interprozessorkommunikation beschäftigt sind. 

Schließlich kann ein Pufferüberlauf vom Netz verursacht sein, wenn z.B. in 

einer unidirektionalen, statischen Netztopologie mehr Kanäle auf einen Knoten 

zulaufen als von ihm abgehen, so daß zwangsläufig Konzentrationseffekte auftreten, 

oder wenn ein dezentrales Routingverfahren mangels Kenntnis über die 

Routingentscheidung eines Nachbarknotens einem Datenpaket denselben Zwischenknoten 

wie der Nachbar zuweist, so daß dort mehrere Pakete zusammentreffen. 

All diese Fälle treten in der Praxis auf und müssen beachtet 

werden. 

Zur Lösung des Pufferüberlaufproblems kann entweder Leitungsvermittlung 

verwendet werden, weil diese durch stationäre Ressourcenallokation einen Ressourcenkonflikt 

vermeidet, oder man kann bei Verwendung von Paketvermittlung 

bei drohendem Überlauf den Zufluß neuer Daten durch eine zusätzliche 

Flußsteuerung (Flow Control) stoppen. Ein paketvermittelndes Netz mit 

Flußsteuerung erfordert, daß zwischen allen benachbarten Knoten für jedes 

übertragene Paket ein Flußsteuerungssignal in der Gegenrichtung übermittelt 

wird (Bild 2.27). 

Knoten 

i 

Daten= 

paket 

Fluß= 

steuerung 

Knoten 

i+1 

Bild 2.27: Verbindungsnetzwerk mit Flußsteuerung auf Paketbasis. 

Die Flußsteuerung kann entweder über eine spezielle Leitung (Strobe oder 

Data Acknowledge) oder bei bidirektionalen Netzen über ein spezielles Flußsteuerungspaket 

vorgenommen werden. Prinzipiell gibt es die drei Möglichkeiten 

des Store-and-Forward-, Virtual-Cut-Trough- und Wormhole-Routings, um 

Datentransport mit Flußsteuerung durchzuführen. 

70

2.6.5 Store-and-Forward Routing 

Beim Store-and-Forward Routing erfolgt die Flußsteuerung auf Paketbasis, d.h. 

Pakete können beim Durchgang durch das Netz gestoppt und nach Freiwerden 

belegter Ressourcen weitergeschickt werden. Das bedeutet, daß in jedem 

Schalt- oder Rechenknoten Pufferplatz für mindestens ein Paket vorhanden sein 

muß, um im Falle, daß der Nachbarknoten nicht datenaufnahmebereit ist, dieses 

zwischenzuspeichern. Da die Empfängerknoten in einem Netzwerk i.a. nicht direkt 

mit den Sendeknoten verbunden sind, das Ziel es aber ist, die Entstehung 

neuer Daten direkt an der Quelle zu beeinflussen, muß die Flußkontrolle, ebenso 

wie der Datentransport, indirekt über Zwischenknoten bzw. Schaltstufen im 

Netz abgewickelt werden. 

Ein negatives Acknowledge-Signal beispielsweise, das vom Knoten (i+1), 

der zugleich Empfänger einer Nachricht sein kann, an den Vorgängerknoten i 

ausgegeben wird, bewirkt, daß dieser die Pakete für den Empfängerknoten solange 

speichern muß, bis der Empfänger wieder aufnahmebereit ist. Sobald der 

Puffer von Knoten i überzulaufen droht, wird von diesem seinerseits ein Flußsteuerungssignal 

an dessen Vorgängerknoten (i-1) ausgegeben, worauf jener 

die Pakete für (i+1) speichern muß, usf. Dieser sog. Backpressure-Vorgang bewirkt 

schließlich, daß der Datensender nach einer gewissen Zeitverzögerung 

über eine Kette von Zwischenknoten ein negatives Acknowledge-Signal erhält 

und die Erzeugung neuer Pakete aussetzt, bis das Flußsteuerungssignal verschwindet. 

Dadurch wird die Paketentstehung an der Datenquelle bei Bedarf 

gestoppt. Vor und während der Ausbreitung des Flußsteuerungssignals vom 

Empfänger zum Sender können Datenpakete in der Gegenrichtung wandern 

und müssen nötigenfalls auf der Strecke dazwischen gepuffert werden. Der 

Wiederanlauf des Datentransports erfolgt in derselben Richtung wie das Stoppen, 

indem vom Datenempfänger das negative Acknowledge-Signal weggenommen 

wird. Durch eine Kette von Zwischenknoten wird dies dem Datensender 

mitgeteilt. 

Store-and-Forward Routing arbeitet im nicht blockierten Fall so, daß das Datenpaket 

von jedem Zwischenknoten erst komplett eingelesen (=store), bevor 

der Adreßteil des Pakets dekodiert wird. Danach wird, vorausgesetzt, daß das 

Acknowledge-Signal positiv ist und der Nachbarknoten nicht bereits der Empfänger 

der Nachricht darstellt, das Paket an einen geeigneten Nachbarknoten 

oder eine weitere Schaltstufe weitergegeben (=forward). Store-and-Forward 

gleicht dem Transportvorgang, wie er von einer Eimerkette durchgeführt wird 

(Bild 2.28), bei der Wassereimer zum Löschen eines Brandes von Person zu 

Person weitergereicht werden. Store-and-Forward darf jedoch nicht mit einer 

Pipeline-Übertragung verwechselt werden, die mit kleineren Elementen als mit 

Paketen arbeitet, so wie dies bei Wormhole-Routing beipielsweise der Fall ist. 

Bei der Datenübertragung ist die Latenzzeit sowohl proportional zur Paketlänge 

als auch zur Zahl der Zwischenstufen. Die Datenrate (Bandbreite) ist der Proportionalitätsfaktor. 

Die Bandbreite spiegelt sich in der Geradensteigung des 

korrespondierenden Raum-/Zeitdiagramms wieder (Bild 2.29). 

71

Daten= 

paket 

forward 

store 

forward 

store 

forward 

store 

Sender 

Acknowledge 

i-1 

Acknowledge 

i 

Acknowledge 

Empfän= 

ger 

Bild 2.28: Store-and-Forward Routing. 

Paket= 

position 

Datenrate 

Header 

Paket 

Empfänger 

Knoten i 

Knoten i-1 

Sender 

0 1 2 3 4 

Zeit 

Bild 2.29: Datenübertragung bei Store-and-Forward Routing. 

Store-and-Forward Routing ist relativ einfach zu implementieren, da nur jeweils 

zwei Knoten bzw. Schaltstufen für das Weiterreichen des Pakets erforderlich 

sind. Allerdings ist das Ein- und Ausspeichern der Pakete unnötig zeitraubend 

und trägt zur hohen Latenzzeit dieses Verfahrens bei. Darüberhinaus muß 

in jedem Knoten ausreichend Pufferplatz für den Fall eines negativen Acknowledge 

vorhanden sein. In Verbindungsnetzwerken für Parallelrechner wird 

Store-and-Forward selten eingesetzt, weil große und schnelle Pufferspeicher so 

teuer sind wie die Cache-Speicher von RISC-Prozessoren. 

2.6.6 Virtual-Cut-Through Routing 

Virtual-Cut-Through Routing [Kermani79] stellt hinsichtlich der Latenzzeit 

eine deutliche Verbesserung gegenüber Store-and-Forward dar. Bei Virtual- 

Cut-Through Routing wird auf die temporäre Ein- und Ausspeicherung des Datenpakets 

verzichtet und unmittelbar nach dem Eintreffen der Paketadresse mit 

der Dekodierung und Wegeauswahl begonnen. 

Bei unbelegtem Ausgangskanal und positivem Acknowledge des Folgeknotens 

wird das einlaufende Paket "on-the-fly", d.h. schritthaltend mit dem 

Einlesen zum entsprechenden Ausgang befördert. Die Latenz ist dadurch proportional 

zur Headerlänge und zur Knotenzahl und fällt geringer als bei Storeand-Forward 

Routing aus, was man an dem steileren Geradenanstieg im Raum- 

/Zeitdiagramm nach Bild 2.30 sehen kann. 

72

Paket= 

position 

Empfänger 

Knoten i 

Knoten i-1 

Sender 

Datenrate 

Nutzdaten 

Header 

0 1 2 3 4 

Zeit 

Bild 2.30: Datenübertragung bei Virtual-Cut-Through Routing. 

Virtual-Cut-Through Routing erfordert in den Zwischenknoten bzw. Schaltstufen 

eine schnelle Adreßdekodier- und Wegewahllogik, um mit der Datenrate 

der Verbindungskanäle Schritt halten zu können. 

Bei belegten Ressourcen (Blockierungsfall) verhält sich Virtual-Cut-Through 

genauso wie Store-and-Forward, entsprechend muß auch hier ausreichend 

Pufferplatz im Knoten vorhanden sein. Ein Beispiel für die Verwendung von 

Virtual-Cut-Through Routing stellt der T3D-Rechner der Firma Cray dar, bei 

dem auf der Ebene des physikalischen Transports die Pakete in Einheiten von 

16 Bit unterteilt werden. Diese Einheiten heißen Physical Transfer Units. 

2.6.7 Wormhole Routing 

Wormhole-Routing [Dally87] ist bei nicht belegten Kommunikationsressourcen 

identisch mit Virtual-Cut-Through Routing: Sobald der Adreßteil eines Datenpakets 

im Knoten eingetroffen ist, wird das einlaufende Paket am entsprechenden 

Kanal wieder ausgegeben. Ebenso werden die Paketdaten in 

elementare Quanten von üblicherweise 1 oder 2 Byte für den Transport auf den 

Kanälen zerlegt. Der entscheidende Vorteil dieses Verfahrens liegt jedoch darin, 

daß im Blockadefall (fast) keine Pufferspeicher für die temporäre Datenhaltung 

erforderlich sind, weil die Flußsteuerung nicht auf Paketbasis, sondern auf 

Basis der wesentlich kleineren physikalischen Transporteinheiten (Phits) erfolgt, 

die man deshalb als flow control digits (Flits) bezeichnet. 

Bei Wormhole-Routing verteilt sich bei belegten Übertragungskanälen oder 

kurzzeitig nicht empfangsbereiten Knoten ein Datenpaket aufgrund eines Backpressure-Mechanismus 

auf alle Knoten, die auf dem Weg vom Sender zum 

Empfänger liegen. In jedem Knoten wird je ein Flit des Pakets gespeichert. Sobald 

der Knoten oder der Kanal, der den Stau verursacht hat, wieder frei ist, beginnen 

die vorderen Flits des Pakets sich ähnlich einer Ziehharmonika auseinanderzuziehen, 

während die hinteren Flits des Pakets noch darauf warten, daß 

der Stau sich auflöst. 

Das Zusammen- und Auseinanderziehen der Flits eines Datenpakets erinnert 

an die Art und Weise, wie sich ein Wurm fortbewegt, daher auch die Namensgebung 

Wormhole Routing. 

73

Da Flits aus nur ein oder zwei Bytes bestehen und keine Zieladresse enthalten, 

können Flits verschiedener Pakete nicht gemischt werden, so daß ein Flit, das 

in einem Knoten zwischengespeichert ist, den daran angeschlossenen Kommunikationskanal 

solange blockiert, bis es von diesem abtransportiert werden 

kann. Aus demselben Grund ist die Implementierung virtueller Kanäle nur auf 

Paketbasis möglich. Ein einziges Datenpaket, das aus mehreren Flits besteht, 

kann somit eine Vielzahl von Kommunikationskanälen für längere Zeit besetzt 

halten, was einen Nachteil von Wormhole-Routing darstellt. 

Das gravierendste Problem bei Wormhole Routing ist, daß durch die exklusive 

Belegung der Kanäle, wenn sie von mehreren gleichzeitig stattfindenden 

Interprozessorkommunikationen vorgenommen wird, unter bestimmten Bedingungen 

eine Blockadesituation (Deadlock) entstehen kann, die in letzter 

Konsequenz den ganzen Parallelrechner zum Stillstand bringt. Deshalb sind zusätzliche 

Maßnahmen zur Deadlock-Vermeidung unbedingt erforderlich. 

Eine Deadlock-Situation kann auch bei den zuvor beschriebenen Verfahren 

von Store-and-Forward- und Virtual-Cut-Through-Routing auftreten, weil hier 

gegenseitige Pufferblockaden möglich sind. Deshalb ist bei der Anwendung jedes 

Routing-Verfahrens unbedingt die Deadlock-Problematik zu beachten. 

Dazu wurden eine Reihe spezieller Methoden entwickelt [Gopal85, Dally87], 

die im Kapitel über Routing-Verfahren für statische Netze erläutert werden. 

Insgesamt kann gesagt werden, daß bei Parallelrechnernetzen Wormhole- 

Routing aus Kosten- und Geschwindigkeitsgründen häufig eingesetzt wird. 

74

3 Statische Verbindungsnetzwerke 


Verbindungsnetzwerke werden in die zwei großen Kategorien der statischen 

und der dynamischen Netze eingeteilt. Bei statischen Netzen handelt es sich um 

Verbindungsstrukturen, die aus beliebigen mathematischen Graphen abgeleitet 

werden können und bei denen die Knoten Prozessoren oder Rechner darstellen 

und die Kanten die Verbindungen zwischen den Prozessoren bzw. Rechenknoten 

symbolisieren. Statische Netze werden auch als einstufig oder direkt 

bezeichnet, weil die Prozessoren ohne dazwischenliegende Schalter direkt miteinander 

verbunden sind. Aufgrund ihrer Herkunft von mathematischen Graphen 

gibt es, im Gegensatz zu den dynamischen Netzen, eine praktisch unbegrenzte 

Zahl möglicher statischer Verbindungsstrukturen. 

3.2 Übersicht 

Ein wichtiges Kennzeichen fast aller Graphen, die als statische Verbindungsstrukturen 

in Multiprozessoren oder Multirechnern verwendet werden, 

ist, daß sie auf wenigen, sehr einfachen Konstruktionsregeln basieren und bestimmte 

Symmetrieeigenschaften aufweisen. Die Gründe, warum regelmäßige 

und insbesondere symmetrische Topologien gegenüber irregulären und amorphen 

Strukturen bevorzugt werden, liegen darin, daß sich aus der Symmetrie 

eine Reihe von Vorteilen wie einfacheres Routing im Netz und leichtere Programmierbarkeit 

der Parallelrechner ergeben. 

Trotz der Vorteile symmetrischer Netze gibt es eine große Zahl von Topologien 

wie z.B. Gitter oder Bäume, die nicht im (graphentheoretischen Sinne) 

symmetrisch sind, aber dennoch Bedeutung erlangt haben, weil sie andere Vorzüge, 

wie z.B. eine leichte Überschaubarkeit oder einfache Erweiterbarkeit aufweisen. 

Diese mehr praktischen Aspekte haben in jüngster Zeit zunehmend an 

Bedeutung gewonnen. 

Generell werden bei statischen Netzen modulare Strukturen bevorzugt, weil 

durch Modularität auch große Netze durch Replikation vieler einfacher Grund- 

Elemente aufgebaut werden können. Bekannte Beispiele dafür sind das Gitter 

und der binäre Hypercubus, die aus Zeilen und Spalten bzw. aus kleineren Hypercube-Moduln 

aufgebaut werden können. 

Bei Gitter und Hypercube kommt zur Modularität noch die Rekursion als 

zweite Konstruktionsregel hinzu, die erst bei mehr als 3 Dimensionen wichtig 

wird. Ein (n+1)-dimensionaler Hypercubus beispielsweise entsteht durch Verdoppeln 

eines vorhandenen n-dimensionalen Moduls, wobei die korrespondierenden 

Knoten beider Module miteinander verbunden werden. Analog entsteht 

ein (n+1)-dimensionales Gitter durch Vervielfachen eines n-dimensionalen Gittermoduls, 

wobei die korrespondierenden Knoten der Replikate auf Geraden 

liegend verbunden werden. 

75

3.3 Typische statische Netze 

Das heutzutage am häufigsten verwendete statische Netz ist das zwei- oder 

dreidimensionale Gitter in der Variation mit oder ohne wrap-around-Enden, 

während früher der Hypercube [z.B. Harary88] eine dominierende Rolle spielte. 

Ein Gitter mit wrap-around-Enden wird auch als Torus bezeichnet. Die Intel 

Paragon- und die Cray T3D/E-Rechner beispielsweise enthalten eine Gittertopologie. 

Neben Gitter und Hypercube werden eine Vielzahl weiterer Topologien 

wie Ring, Sehnenring [Arden81], Baum, Cube-Connected-Cycles 

[Preparata79] oder systolische Felder [Chen90] in kommerziellen und Forschungs-Parallelrechnern 

eingesetzt. Die bekanntesten dieser Strukturen sind in 

Bild 3.1 dargestellt. Überblicksartig zusammengefaßt läßt sich folgendes über 

diese Topologien sagen: 

• Ringe sind ähnlich wie Busse topologisch einfache Strukturen. Sie sind jedoch 

nur für kleine Prozessorzahlen (≤32) geeignet. Eine Erweiterung der 

normalen Ringstruktur, die sowohl die Bandbreite als auch die Fehlertoleranz 

erhöht, ist die Sehnenringtopologie. 

• 3-dimensionale Gitter mit und ohne wrap-around Enden erfreuen sich u.a. 

wegen ihrer einfachen technischen Implementierung und guten Überschaubarkeit 

durch den Programmierer zunehmender Beliebtheit. 

• Für die Hypercube-Topologie wurden weltweit bereits viele parallele Algorithmen 

entwickelt. Einer ihrer Vorteile, neben ihrem relativ einfachen Aufbau 

und den kurzen mittleren Knotenabständen, ist, daß sie fast alle statischen 

Topologien mit hoher Effizienz nachbilden können. 

• Cube-Connected-Cycles haben gegenüber Hypercuben den Vorteil, daß der 

Verzweigungsgrad pro Knoten unabhängig von der Dimension, d.h. der Anzahl 

der Rechenknoten im System ist. 

• Eine Stern-Topologie ist überall dort vorteilhaft, wo ein Broad-/Multicast, 

ein inverser Multicast oder eine Prozeßsynchronisation durchzuführen ist. 

• Bäume sind für viele Algorithmen und Datenstrukturen in speziellen Anwendungen 

wie z.B. verteilten Datenbanken günstig. 

• Systolische Felder haben ihre eigene Bedeutung bei SIMD-Programmen der 

Muster- und Bildverarbeitung bzw. des Bildverstehens. 

Neben diesen populären Topologien existieren weitere wichtige statische Verbindungsstrukturen, 

die entweder aus theoretischen Gründen besonders interessant 

sind, wie der de Bruijn-Graph [Samatham91] und Star-Graph [Akers89], 

oder solche, die große praktische Bedeutung erlangt haben, weil sie in technischen 

Systemen in größerer Stückzahl eingesetzt wurden, wie z.B. die Fat Tree- 

Topologie [Leiserson85] in der TMC CM-5. Ein zur Fat-Tree-Topologie ähnliches 

Konzept wird übrigens seit langem in der hierarchisch organisierten Verkabelung 

der Telefonvermittlungstechnik verwendet. 

76

Ring 

Sehnenring 

2D-Gitter 

.. . . .. . .. 

. .. 

. .. 

3D-Torus 

4D-Hypercube 

3D-Cube Connected Cycles 

vollständiger Baum Broadcast-Stern Systolisches Feld 

Bild 3.1: Einige der bekanntesten statischen Topologien. 

Weiterhin gibt es eine Reihe von Verbindungsstrukturen, die entwickelt wurden, 

um die Mängel beliebter Netze wie Bäume (rel. großer Durchmesser) und 

Hyperwürfel (schwierige Skalierbarkeit) zu beheben bzw. abzumildern. Alle 

verbesserten Strukturen beruhen darauf, zusätzliche Verbindungen zwischen 

den Knoten einzufügen, die aber ihrerseits die Routing-Komplexität erhöhen. 

Zu diesen Strukturen zählen neben dem bereits erwähnten Fat Tree der Hypertree 

[Goodmann81] und der X-Tree [Despain78], die auf die Optimierung der 

Baumtopologie zielen sowie der Bridged Cube [Amawy90], Twisted Cube 

[Esfahania91] und Crossed Cube [Efe92], die der Verbesserung von Hyperwürfeln 

dienen. Eine Auswahl aus diesen verbesserten Topologien ist in Bild 3.2 

gezeigt. 

Schließlich sind aus der Graphentheorie verschiedene Gruppen von Graphen 

bekannt, wie z.B. die Moore-Graphen [Hoffman60, Delorme84], die Kneser- 

Graphen [Boll78] bzw. reduzierte Kneser-Graphen [Sied92], die Cayley-Graphen 

[Akers89] sowie die Balanced Incomplete Block Designs [Opatrny86], die 

Eingang in die Parallelrechnerarchitektur gefunden haben. Diese Topologien 

77

De Brujin-Graph 

Star-Graph 

Fat Tree 

X-Tree 

Hypertree 

Twisted Cube 

Bild 3.2: Fortgeschrittenere statische Topologien. 

weisen erheblich bessere graphentheoretische Eigenschaften auf als die üblichen 

Verbindungsstrukturen, werden jedoch bei kommerziellen Parallelrechnern 

bislang nicht eingesetzt. Teilweise sind sie noch Gegenstand der Forschung. 

Die reduzierten Kneser-Graphen haben beispielsweise den technischen 

Vorteil, daß die beiden Parameter Knotenzahl und Verzweigungsgrad unabhängig 

voneinander gewählt werden können. Einige Beispiele dieser "modernen" 

Verbindungsstrukturen zeigt Bild 3.3. 

Zu beachten ist, daß die aufgelisteten Graphengruppen keine Klassifikation 

im eigentlichen Sinne darstellen, da sie nicht orthogonal zueinander sind, sondern 

sich gegenseitig überlappen. So kann man beispielsweise zeigen, daß alle 

statischen Netze, die knotensymmetrisch sind, auch als Cayley-Graphen dargestellt 

werden können [Akers89]. 

Den Cayley-Graphen ist aufgrund ihrer übergreifenden theoretischen Bedeutung 

ein eigenes Kapitel gewidmet, in dem Eigenschaften und Konstruktion 

78

Moore-Graph für N=10 

(= Petersen-Graph) Reduzierter Kneser-Graph (N=15) 

Cayley-Graph (N=8) 

Balanced Incomplete Block Design (N=9) 

Bild 3.3: Beispiele von Topologien mit besonderen graphentheorischen Eigenschaften. 

von Cayley-Graphen ausführlich erörtert werden. Auch die für fehlertolerante 

Systeme besonders interessanten Balanced Incomplete Block Designs werden 

in einem kurzen Kapitel näher erläutert, ebenso wie der Aufbau und die Eigenschaften 

der de Bruijn und Star-Graphen. 

Trotz der großen Fülle an Topologien, die für statische Verbindungsnetzwerke 

in Frage kommen, sollte man nicht übersehen, daß sich alle Graphen von 

einer einzigen Topologie, nämlich dem vollständig vermaschten Graphen ableiten 

lassen, woraus sie durch Weglassen von Verbindungen entstanden sind. 

Bild 3.4 zeigt Beispiele für die Konstruktion einiger Topologien aus dem vollständig 

vermaschten Graphen, wie Ring, Gitter, Torus, Würfel, Barrel Shifter 

sowie verschiedene Variationen der Baumstruktur. Die alles enthaltende, voll 

vermaschte Struktur stellt zugleich den teuersten aller Graphen dar. 

3.4 Symmetrie bei statischen Netzen 

Es gibt viele Beispiele für Netzwerke, die im graphentheoretischen Sinne symmetrisch 

sind, wie z.B. die Torus- oder die Hypercube-Topologie, aber auch einige, 

die nicht dazu gehören, wie das zwei- oder mehrdimensionale Gitter beispielsweise. 

Genau betrachtet, existieren zwei verschiedene Arten von 

Symmetrie, nämlich die Kanten- und die Knotensymmetrie. Wird ein Graph als 

symmetrisch bezeichnet, meint man damit i.a. die Knotensymmetrie. Eng ver- 

79

vollständig vermaschter Graph 

Ring 

2 D-Matrix (2x4) 

2 D-Torus (2x4) 3 D-Würfel 

Baum X-Tree Hypertree Barrel Shifter 

Bild 3.4: Beispiele für die Ableitung von Topologien aus dem vollständig vermaschten Graphen. 

wandt mit der Symmetrie ist die Regelmäßigkeit (Regularität) eines Graphen. 

Beide Begriffe sind besonders wichtig und müssen daher definiert werden: 

Def. 3.1: Ein Graph heißt regelmäßig (regulär), wenn von jedem Knoten gleich 

viele Kanten ausgehen. Die Zahl der Kanten pro Knoten wird als Grad d des 

Graphen bezeichnet. Bei einem regelmäßigen Graphen ist der Grad konstant. 

Def. 3.2: Ein Graph heißt kantensymmetrisch, wenn es eine Abbildung f gibt, 

die angewandt auf jede Kante eines Graphen G einen Graphen G' liefert, der 

identisch zu G ist. Für diesen Fall heißt f eine Abbildung von G auf sich selbst 

oder Automorphismus von G und G' ist automorph zu G. 

Das bedeutet, daß die Topologie eines kantensymmetrischen Graphen von jeder 

Kante aus betrachtet gleich aussieht. Ein Beispiel für einen Automorphismus ist 

die Drehung jeder Kante um 90° nach rechts. 

Eine zur Kantensymmetrie analoge Definition existiert für den Begriff der 

Knotensymmetrie, bei dem die Knoten eines Graphen auf (andere) Knoten desselben 

Graphen abgebildet werden. 

80

Def. 3.3: Ein Graph heißt knotensymmetrisch, wenn es eine Abbildung g gibt, 

die angewandt auf jeden Knoten eines Graphen G einen identischen Graphen G' 

liefert; g ist ein Automorphismus von G. 

Beide Symmetrieformen treten unabhängig voneinander auf, so daß ein kantensymmetrischer 

Graph nicht knotensymmetrisch zu sein braucht und umgekehrt. 

Bild 3.5 zeigt zwei Beispiele für dieses Verhalten. In der Sechseck-Topologie 

von Bild 3.5a) wird jeder Knoten durch eine Drehung um 60° auf einen 

Nachbarknoten abgebildet. Für die Kanten dieses Graphen dagegen gibt es keinen 

solchen Automorphismus. 

Ebenfalls eine Drehung um 60° bildet im Stern von Bild 3.5b) jede Kante in 

ihre Nachbarkante ab. Diesmal haben die Knoten keine entsprechende Abbildung 

f, weil der zentrale Knoten in der Mitte des Sterns invariant bzgl. der Drehung 

ist. Die Figur b) kann auch deshalb nicht knotensymetrisch sein, weil der 

zentrale Knoten einen anderen Knotengrad hat als die äußeren Knoten. 

a) b) 

Bild 3.5: Zwei regelmäßige Graphen, die knotensymmetrisch, aber nicht kantensymmetrisch 

(a), bzw. kantensymmetrisch, aber nicht knotensymmetrisch sind (b). 

Wichtig ist noch festzustellen, daß aus der Symmetrie die Regelmäßigkeit des 

Graphen folgt. Dies ist eine für viele praktische Belange bedeutsame Tatsache 

(Satz 3.1). 

Satz 3.1: Ein knotensymmetrischer Graph ist zugleich regelmäßig, aber nicht 

umgekehrt. 

Eine notwendige, aber nicht hinreichende Bedingung für Knotensymmetrie ist, 

daß von allen Knoten gleich viele Kanten abgehen, d.h., daß der Grad des Graphen 

konstant ist. Knotensymmetrische Graphen haben eine Reihe günstiger 

Eigenschaften, wie z.B.: 

• Der Graph sieht aus der Sicht jedes Knoten gleich aus. Dies erleichtert die 

Programmierung der darauf basierenden Parallelrechner. 

• Der Verkehr wird (im Prinzip jedenfalls) gleichmäßig verteilt, weil es keine 

ausgezeichneten Knoten gibt. 

81

• Das Routing ist für jeden Prozessor gleich. Spezialfälle, wie z.B. Prozessoren 

am Rand eines Gitters etc., gibt es nicht. Dadurch entfallen Routing-Tabellen. 

• Auf jedem Prozessor kann derselbe parallele Algorithmus ausgeführt werden, 

weshalb Anwendungen einfacher und übersichtlicher gestaltet werden 

können als im irregulären Fall. 

• Die Leistungsanalyse der Rechnerarchitektur und die Herstellbarkeit und Erweiterbarkeit 

des Netzwerks werden erleichtert. 

• Operationen wie Broadcast, Multicast und inverser Multicast, die in Hardware 

durch das Netzwerk ausgeführt werden, sind in einem einfach strukturierten 

Netz leichter zu implementieren. 

3.5 Metriken bei statischen Netzen 

Aufgrund ihrer Herkunft aus allgemeinen Graphen spielt die Graphentheorie 

bei statischen Verbindungsnetzwerken eine wichtige Rolle. Insbesondere werden 

die dort gebräuchlichen Maße (Metriken), wie Durchmesser, mittlerer 

Knotenabstand, Knotenzusammenhang usw., auch auf statische Verbindungsnetzwerke 

angewandt, um dadurch deren Eigenschaften besser voraussagen 

bzw. quantifizieren zu können. Neben den erwähnten Metriken sind noch die 

Maße mittlere Nachrichtendichte, Halbierungsbreite und Konnektivität für die 

Beurteilung statischer Netze wichtig. 

In einem statischen Netz erfolgt die Kommunikation zwischen zwei beliebigen 

Knoten über Zwischenknoten, wenn Sender und Empfänger einer Nachricht 

keine direkten Nachbarn sind. Der Weg der Nachricht durch das Netz wird 

als Pfad bezeichnet. Ein Pfad ist, mathematisch ausgedrückt, eine Folge von 

Kanten im Graphen des Netzes. Die Zahl der Kanten des Pfades ist ein Maß für 

die Entfernung der kommunizierenden Knoten. Da es zwischen zwei Knoten in 

einem statischen Netz i.a. mehrere Pfade gibt, die auch verschieden lang sein 

können, verwendet man für die Definition des Abstandes a zwischen zwei Knoten 

das Minimum aller Pfadlängen zwischen dem betrachteten Knotenpaar. Der 

Knotenabstand wird auch als Distanz bezeichnet. 

Man geht davon aus, daß der Knotenabstand wesentlich die Latenzzeit der 

Kommunikation beeinflußt, d.h. daß mit zunehmender Distanz die Latenz ebenfalls 

zunimmt. Eine Obergrenze für die Latenz in einem Netz stellt die größtmögliche 

Distanz im Graphen dar, die als das Maximum aller kleinsten Pfadlängen 

zwischen zwei Knoten definiert ist. Diese Größe wird als Durchmesser 

k des Graphen bezeichnet. Der Durchmesser gibt an, wieviele Kanten eine 

Nachricht maximal passieren muß, um von einem Sender zum Empfänger zu 

gelangen, vorausgesetzt, es wird der jeweils kürzeste Weg gewählt. Die Zahl 

der Knoten, die bei Distanz k zwischen Sender und Empfänger höchstens liegen 

können, ist dabei gleich k-1. 

Da die maximale Distanz k nur eine Obergrenze für die Latenz L darstellt, gemäß 

der Beziehung L

ein genaueres Maß zur Hand haben. In diesen Fällen wird der mittlere Knotenabstand 

a verwendet, der als das arithmetische Mittel aller Pfadlängen definiert 

ist, die von den Nachrichten einer bestimmten Anwendung im Netz zurückgelegt 

werden müssen. 

Da die Verteilung der Nachrichten, und damit der Mittelwert der zurückzulegenden 

Pfadlängen, eine Funktion der Anwendung ist, läßt sich a für allgemeine 

parallele Programme nur statistisch angeben, gemäß der Beziehung 

Gl. 3.1: 

k 

∑ 

a = i⋅ 

p i 

i = 1 

wobei p i der Prozentsatz derjenigen Nachrichten ist, die die Pfadlänge i haben. 

Unter den vereinfachenden Annahmen, daß die von den Nachrichten zurückgelegten 

Pfadlängen i gleichverteilt sind und daß es sich um ein symmetrisches 

Netz handelt, läßt sich Gl. 3.1 auf das Aufsummieren der Pfadlängen von 1 bis 

k zurückführen (k ist der Durchmesser): 

1 

Gl. 3.2: a' = ------------ i ⋅ n , 

N – 1 ∑ i 

, 0 ≤ n i 

≤ N – 1 

i = 1 

wo N-1 die Zahl der Nachbarknoten zu einem beliebigen Bezugsknoten im Graphen 

ist, und n i die Zahl der Nachbarn mit Distanz i angibt. Für den Fall, daß es 

sich um nicht-symmetrische Graphen handelt, muß Gl. 3.2 so erweitert werden, 

daß jede Pfadlänge einzeln gezählt wird: 

k 

Gl. 3.3: 

a'' 

k 

2 

= 

NN --------------------- ( – 1) 

∑ i ⋅ n , 0≤ 

n i i 

≤ N – 1 

i = 1 

Es gibt dann (N-1)N/2 statt (N-1) Knotenpaare, deren Abstand zueinander betrachtet 

wird. In Gl. 3.3 wird dementsprechend nicht über (N-1) Distanzen wie 

in Gl. 3.2 summiert, sondern über N(N-1)/2 Entfernungen. 

Die Definition des mittleren Knotenabstandes gemäß Gl. 3.2 oder Gl. 3.3 enthält 

nicht mehr die spezifischen Charakteristika der parallelen Anwendung in 

Form der Verteilung p 1 , p 2 , p 3 , ... ,p k von den Pfadlängen 1, 2, 3,...,k der Interprozessorkommunikation, 

sondern berücksichtigt ausschließlich die Topologie 

des Verbindungsnetzwerks, auf dem die Anwendung ausgeführt wird. Beispielsweise 

ist die mittlere Entfernung a' einer beliebigen parallelen Anwendung, 

die auf einem Hypercube mit N=2 n Knoten berechnet wird, gleich n/ 

2, was dem mittleren Knotenabstand des Hyperwürfels entspricht. 

Zur vergleichenden Beurteilung der Leistungsfähigkeit verschiedener Verbindungsstrukturen 

ist der mittlere Knotenabstand deshalb besonders geeignet, 

83

weil er technologieunabhängig ist. Im Einzelfall sind allerdings für das tatsächliche 

Verhalten eines Netzes Messungen der Bandbreite und Latenz unerläßlich, 

um netzunabhängige Parameter wie Nachrichtenlänge, Prozeß-Scheduling, 

Gerätetreiberlatenzen und Setup-Zeiten in einem genaueren Kommunikationsmodell 

berücksichtigen zu können. 

Im weiteren werden die anderen Maße, wie mittlere Nachrichtendichte, Halbierungsbreite 

und Konnektivität, die bei Verbindungsnetzwerken häufig Verwendung 

finden, erläutert. 

Mittlere Nachrichtendichte 

Die mittlere Nachrichtendichte gibt an, wie viele Pakete oder Nachrichten pro 

Zeiteinheit auf einem Kanal (Link) transportiert werden. Dieses Maß gibt Auskunft 

über die Auslastung des Kanals und erlaubt, Schwachstellen im Netz, die 

durch ungleichmäßige Verkehrsverteilung entstanden sind, zu identifizieren. 

Unter der Voraussetzung, daß der Graph des Netzes kantensymmetrisch ist und 

daß von allen Sendern gleich viele Pakete pro Zeiteinheit produziert werden, 

gilt der wichtige Satz, daß die mittlere Nachrichtendichte im Netz konstant ist. 

Halbierungsbreite 

Die Halbierungsbreite gibt die Mindestzahl der Kanten an, die entfernt werden 

müssen, damit ein Graph in zwei gleichgroße Hälften zerfällt (bzw. in (N-1)/2 

und (N+1)/2 Knoten, falls N ungerade). Beispielsweise ist die Halbierungsbreite 

eines Rings gleich zwei und die eines quadratischen, 2-D Gitters aus N Knoten 

gleich N . 

Die Halbierungsbreite kennzeichnet einerseits die Toleranz eines Netzes gegenüber 

Ausfällen von Kanälen und andererseits den maximalen Verkehr, der 

zwischen zwei Netzhälften entstehen kann, wenn diese verbunden sind. Zur 

Kennzeichnung des maximalen Verkehrs wird meistens eine Variante, die dimensionsbehaftete 

Größe Halbierungsbandbreite, verwendet, die durch Multiplikation 

der Halbierungsbreite mit der Übertragungskapazität eines Kanals 

entsteht. Sie wird üblicherweise in MHz oder GHz angegeben. 

Kantenkonnektivität 

Die Kantenkonnektivität, auch als Kantenzusammenhang bezeichnet, ist eine 

Verallgemeinerung der Halbierungsbreite und gibt die Mindestzahl der Kanten 

an, die entfernt werden müssen, damit ein Netz in zwei (i. a. verschieden große) 

Teile zerfällt. Sie kennzeichnet die Fehlertoleranz gegen Linkunterbrechungen. 

Analog dazu existiert das Maß des Knotenzusammenhangs, der die Mindestzahl 

der zu entfernenden Knoten darstellt. 

84

Knotenkonnektivität 

Der Knotenzusammenhang erlaubt, Aussagen über die Zahl der alternativen 

Wege durch das Netz anzugeben. Nach einem Theorem von Menger [Bondy76] 

ist der Knotenzusammenhang identisch mit der kleinsten Zahl knotenfremder 

Pfade zwischen einem Sender und einem Empfänger. (Die Pfade zwischen zwei 

Knoten heißen dann knotenfremd, wenn sie außer Sender und Empfänger keine 

gemeinsamen Knoten haben). Das Minimum der Zahl der knotenfremden Pfade 

zwischen allen Sender/Empfängerpaaren stellt gleichzeitig die Zahl alternativer 

Wege dar, die im Netz zwischen zwei Knoten existieren. Der kleinste Wert der 

Maße Kantenzusammenhang und Knotenzusammenhang, die für ein Netz gelten, 

wird auch als Konnektivität bezeichnet. Bei symmetrischen Netzen ist die 

Konnektivität meistens gleich der Zahl der Links pro Knoten. 

Zusammenfassend kann gesagt werden, daß die wichtigsten Metriken bei statischen 

Netzen die Knotenzahl, der Knotengrad, ihr Durchmesser bzw. mittlere 

Knotenabstand sowie die Konnektivität sind. 

3.6 Wichtige Netztopologien 

Zu den wichtigsten Netztopologien zählen der Stern, der Ring, das 2-dimensionale 

Gitter, der binäre Hypercube, das de Bruijn-Netz, die Cube-Connected- 

Cycles und der Star-Graph. In Tabelle 3.1 sind die Hauptmetriken dieser Netze 

wie Grad, Durchmesser, mittlerer Knotenabstand, Konnektivität und kleinstes 

Erweiterungsinkrement für je N Knoten angegeben [Varma94] 

Tabelle 3.1erlaubt einen Vergleich der Netztopologien bzgl. der angegebenen 

Metriken. Es wird ersichtlich, daß für eine gegebene Knotenzahl N jedes der 

acht Netze hinsichtlich der Kriterien Grad, Durchmesser, mittlerer Knotenabstand, 

Konnektivität und kleinste Erweiterungseinheit Vor- und Nachteile bietet, 

so daß aus graphentheoretischer Sicht kein optimales Netz existiert. 

Darüberhinaus sind für einen umfassenden Vergleich der aufgelisteten Netze 

noch andere Faktoren wie Kosten und Zuverlässigkeit sowie Integrationsmöglichkeit 

in VLSI mit zu berücksichtigen. Insbesondere bei der VLSI- 

Integration spielen praktische Gesichtspunkte wie die Zahl der Anschlußstifte 

des Chip-Gehäuses sowie die Zahl der Verbindungen zwischen verschiedenen 

integrierten Schaltungen eine wichtige Rolle, so daß die Wahl des "richtigen" 

Netzes weiter erschwert wird. 

Der Trend bei statischen Verbindungsnetzwerken geht dahin, daß man 3-dimensionale 

Gitter, die eine geringe Ausdehnung in z-Richtung haben und keine 

wrap-around-Verbindungen aufweisen, gegenüber der Hypercube-Topologie 

bevorzugt. Zwar sind die Metriken bei "flachen" Gittern nicht besonders günstig, 

aber aus zwei Gründen ist diese Topologie trotzdem interessant: 

• Große Parallelrechner (>100 Prozessoren) benötigen ein nicht unerhebliches 

räumliches Volumen und sind in mehreren Modulgehäusen untergebracht. 

85

Netzwerk 

Grad 

d 

Durchmesser 

k 

mittlerer Knotenabstand 

Konnek. 

kleinste Erweiterung 

Stern 

(N>2) 

1 bzw. 

N - 1 

2 

--- ( N – 1) ≈ 2 

N 

2 1 1 

Ring 

(N>2) 

2 

N 

--- 

2 

N 2 

-------------------- 

4( N – 1) 

(für N gerade), 

N + 1 

------------ N ≈ 

4 

--- 4 

(für N unger.) 

2 1 

2-D Gitter 

ohne 

wraparound 

2-D Gitter 

mit 

wraparound 

2( N – 1) N – 1 

4 ≈ 2 

2 N 

------- 

2 

N ⁄ 2 

4 ≈ 4 

2 N – 1 

Zeilen und 

Spaltenerw. 

2 N – 1 

Zeilen und 

Spaltenerw. 

Binärer 

Hyperkubus 

(N=2 n ) 

n n 

n2 n – 1 – 1 

------------------------ 

2 n – 1 

≈ n/2 

n 

N 

de Bruijn 

Graph 

(N = d k ) 

2d k keine Angabe 2d (d+1) k -d k 

Cube- 

Connected- 

Cycles 

(N=nlog 2 n) 

3 (5/2) log 2 n-1 ≈ (7/4) log 2 n-3 3 

(n+1)· 

·log 2 (n+1) 

-n log 2 n 

Star-Graph 

(N=n!) 

n-1 

n 

≈ 

( – ⁄ ) n + 

i = 1 

+(2/n) 

3 n 1 ) 2 

1 

∑ -- 

i 

– 4 

n-1 n·n! 

Tabelle 3.1: Die wichtigsten Metriken häufig verwendeter statischer Netze. 

86

Aus verkabelungstechnischen und übertragungsmäßigen Gründen ist es dabei 

besser, auf die wrap-around-Verbindungen zu verzichten, weil diese relativ 

lang und entsprechend umständlich zu realisieren sind. 

• Dally [Dally90] konnte zeigen, daß sich unter einer bestimmten Randbedingung 

die Kategorie der k-nären Hyperwürfel, zu denen sowohl die Gitter als 

auch die binären Hyperkuben gehören, für kleine Dimensionszahlen günstiger 

verhält als für große. Das bedeutet für ein vorgegebenes N, daß Gitter gegenüber 

Hypercubes zu bevorzugen sind, weil dort die Dimensionszahl auch 

für große Prozessorzahlen niedrig gehalten werden kann. Die Randbedingung, 

unter der diese Aussage gilt, ist, daß bei beiden Topologien dieselbe 

Zahl von Leitungen verwendet wird. Da ein 2-D Gitter nur vier Leitungen 

von einem Knoten zu seinen Nachbarn benötigt, können dort die übrigen Leitungen 

zur Verbreiterung der Datenpfade verwendet werden, so daß die 

Bandbreite des Gitters bei gleicher Knotenzahl und gleichem Materialeinsatz 

für die Verkabelung größer als die des Hyperwürfels ist. 

3.6.1 Sterntopologie 

Sterne sind einfach strukturierte, aber dennoch nützliche Graphen. Eine Stern- 

Topologie ist überall dort vorteilhaft, wo ein Broad-/Multicast, ein inverser 

Multicast oder eine Prozeßsynchronisation häufig durchzuführen ist, so daß es 

sich lohnt, zusätzlich zu dem Netz, das zur Interprozessorkommunikation dient, 

noch einen Stern als zweite Netztopologie zu verwenden. Dies ist bei vielen 

parallelen Anwendungen, insbesondere aus dem Echtzeit- und Embedded Systems-Gebiet 

der Fall, weil dort häufig schnelle Prozeßsynchronisationen erforderlich 

sind, deren Signalisierung am besten direkt im Netz in Hardware implementiert 

wird [Richter95a]. Die Stern-Topologie wird als Kommunikationsund 

Rechentopologie für Master-Slave- bzw. Prozessorfarm-Architekturen 

eingesetzt, bei denen ein zentraler Prozessor (Master) Arbeitsaufträge an untergeordnete 

Prozessoren (Slaves) vergibt, bei denen wenig oder keine Interprozessorkommunikation 

zwischen den Slaves erforderlich ist, so daß der Master, 

über den alle Kommunikation laufen muß, verkehrsmäßig nicht überlastet wird. 

3.6.2 Baumtopologie 

Durch eine Erweiterung der Sternstruktur auf mehrere Ebenen entsteht die 

Baumtopologie, bei der Durchmesser und mittlerer Knotenabstand mit O(logN) 

wachsen. Bäume sind für viele rekursive Algorithmen gut geeignet und lassen 

sich darüberhinaus als sog. H-Bäume leicht in Silizium integrieren 

[Horowitz81]. Weiterhin sind Bäume für parallele Datenstrukturen und Datenbanken 

vorteilhaft. Der Nachteil von Bäumen ist, daß bei gleichverteiltem 

Verkehr an der Basis die Verkehrsdichte an der Spitze des Baumes exponentiell 

ansteigen kann, weshalb die Fat Tree-, Hypertree- und X-Tree-Netze entwickelt 

wurden, um Datenverkehr in Querverbindungen umzuleiten. 

87

3.6.3 Ringtopologie 

Ringe werden in verschiedenen Kommunikationssystemen wie Token Ring 

oder SCI wegen ihrer Fehlertoleranz gegenüber Einzelstrangsystemen eingesetzt. 

Ein unidirektionaler Ring beispielsweise bietet aus topologischen wie 

elektrischen Gründen einen höheren Datendurchsatz als eine Kette oder ein 

Bus, da er mit angepaßten Übertragungsleitungen zwischen Sender und Empfänger 

betrieben werden kann. Ringtopologien werden beispielsweise bei dem 

Gigaring-Kommunikationssystem [Scott95] der Fa. Cray eingesetzt, das Vektor-Superrechner 

und Parallelrechner untereinander und mit der Peripherie mit 

einer Übertragungsgeschwindigkeit von ca. 1 GByte/s verbindet. 

Man muß in einem Ring zwei Betriebsweisen unterscheiden: Entweder zirkuliert 

zu einer Zeit nur ein Paket im Ring oder es kann auf jedem Ringsegment 

ein Paket unterwegs sein (=Slotted Ring Protocol). Im ersten Fall ist eine 

Arbitrierung der Zugriffswünsche notwendig, die dezentral sein muß, um skalierbar 

zu sein. Im letzten Fall steigt die Bandbreite mit der Zahl der Knoten. 

Der Ring wird also in einem gewissen Rahmen skalierbar. 

Da sowohl Durchmesser als auch mittlerer Knotenabstand mit O(N) steigen, 

sind Ringe ohne slotted ring Protokoll ähnlich wie Busse nur für kleine Prozessorzahlen 

(≤32) geeignet. Eine Erweiterung der normalen Ringstruktur, die sowohl 

die Bandbreite als auch die Fehlertoleranz erhöht, ist die Sehnenringtopologie. 

Einige grundlegende Artikel zu Ringen sind in [Saltzer81], [Raghaven81] 

und [Sylvester83] zu finden. 

3.6.4 Gittertopologie 

Historisch gesehen werden Gitter seit Jahrzehnten in verschiedenen kommerziellen 

Systemen und Forschungsparallelrechnern verwendet, z.B. im ILLIAC 

IV-Rechner [Barens68], den Intel Touchstone- [Lillevik90] und Delta-Rechnern 

sowie deren Nachfolger Paragon und der MIT-J-Maschine [Dally92]. 

Flache 3-dimensionale Gitter erfreuen sich u.a. wegen einfacher technischer 

Implementierung und leichter Überschaubarkeit durch den Programmierer zunehmender 

Beliebtheit. Insbesondere werden sie vorteilhaft zur Berechnung 

partieller Differentialgleichungen und für Algorithmen in der Signal- und Bildverarbeitung 

eingesetzt. 

Eine Besonderheit sind Stapel aus übereinandergesetzten 2-dimensionalen 

Gittern mit in z-Richtung zunehmendem Gitterabstand und abnehmender Knotenzahl. 

Sie werden als Pyramiden bezeichnet und für Multigrid-Algorithmen 

und zum maschinellen Bildverstehen benötigt. 

Gittertopologien gibt es ohne und mit wrap-around-Verbindungen. Im letzteren 

Fall heißen sie Torus. Tori sind knotensymmetrisch, während Gitter ohne 

88

wrap-around-Verbindungen diese Eigenschaft nicht haben. Tori mit der Einschränkung 

einer konstanten Zahl k von Knoten in jeder ihrer n-Dimensionen 

werden auch als k-näre n-Kuben [Dally90] bezeichnet. Bei k-nären n-Kuben 

gibt es die beiden Möglichkeiten, daß die wrap-around-Verbindungen entweder 

uni- oder bidirektional sind. Nach Öffnen der wrap-around-Verbindungen sind 

nur noch bidirektionale Datenpfade möglich, damit jeder Knoten von jedem anderen 

aus erreichbar bleibt. In diesem Falle entstehen aus den k-nären n-Kuben 

n-dimensionale Gitter mit der Kantenlänge k pro Dimension. Andererseits sind 

binäre Hypercuben als Spezialfall k = 2 in topologisch unveränderten k-nären 

n-Kuben enthalten. Die Genealogie der Gitter und Hypercuben ist in Bild 3.6 

dargestellt. 

n-dimensionale Tori der 

Ausdehnung k = 

k-näre n-Kuben 

unidirektionale 

wrap-around- 

Verbindungen 

bidirektionale 

wrap-around- 

Verbindungen 

Beschränkung auf 

k = 2 

Öffnen der wraparound-Verbindungen 

binäre Hypercuben 

der Größe 2 n 

n-dimensionale Gitter 

der Ausdehnung k 

Bild 3.6: Zusammenhang zwischen Tori, Gitter und Hyperkuben. 

Ein n-dimensionales Gitter mit k Knoten pro Dimension wird rekursiv aus k 

einzelnen (n-1)-dimensionalen Gittern konstruiert, indem man je k korrespondierende 

Knoten aus den verschiedenen Gittern mit Geraden verbindet. (Für 

Tori werden Ringe benötigt). Um den mittleren Knotenabstand im Gitter zu 

verbessern, wurden verschiedene Varianten vorgeschlagen, die "Abkürzungen" 

ermöglichen. Dazu zählen die Einführung eines oder mehrerer globaler Busse 

[Stout83] oder die Anbringung von Bussen [Prasanna87] oder Bäumen 

[Huang85] in jeder Zeile und Spalte des Gitters. Weiterhin werden neben Quadraten 

als geometrische Grundelemente auch Sechsecke verwendet [Chen90]. 

3.6.5 Hypercube-Topologie 

Obwohl die Hypercube-Topologie bereits im Jahre 1963 vorschlagen wurde 

[Squire63], konnte der erste funktionsfähige Hypercube-Rechner erst 20 Jahre 

später realisiert werden [Seitz85]. Seitdem wurden Hypercubes in einer Vielzahl 

von Maschinen eingesetzt, und es werden weltweit viele parallele Algorithmen 

für die Hypercube-Topologie entwickelt [Miller88]. Einer der großen 

89

Vorteile von Hypercuben, neben ihrem relativ einfachen Aufbau und den kurzen 

mittleren Knotenabständen, ist, daß sie fast alle statischen Topologien mit 

hoher Effizienz nachbilden können (Emulation durch "Einbettung"). 

Einen binären, n-dimensionalen Hypercube mit N=2 n Knoten erhält man entweder 

rekursiv, indem man zwei (n-1)-dimensionale Hyperwürfel an den korrespondierenden 

Knoten verbindet (Bild 3.7a) oder konstruktiv, indem man N 

Symbole (Adressen) zu je n Bits bildet und diejenigen Symbole verbindet, die 

sich jeweils in einem Bit unterscheiden (Bild 3.7b) [Saad88]. 

0D-Würfel 

1D-Würfel 

0010 

0000 

0011 

0001 

0100 

0110 

0101 

0111 

2D-Würfel 

3D-Würfel 

1100 

1110 1111 

1101 

4D-Würfel 

1000 

1001 

1010 1011 

4D-Würfel 

a) rekursive Erzeugung 

b) konstruktive Erzeugung 

Bild 3.7: Konstruktionsmethoden eines 4-D binären Hypercube (a und b sind gleichwertig). 

Wie bereits erwähnt, sind binäre Hypercuben Spezialfälle der k-nären n-Kuben. 

So entsteht beispielsweise ein 3-dimensionaler Würfel aus einem 3-dimensionalen 

Torus, der wiederum einen k-nären n-Kubus für k=2 und n=3 darstellt. 

Mit der Hypercube-Topologie sind auch Nachteile verbunden. Ein Nachteil 

liegt z.B. darin, daß die Zahl der Kanten pro Knoten mit der Dimension n ansteigt. 

Um dieses Problem zu umgehen, wurden die Cube-Connected-Cycles 

entwickelt [Preparata79]. Darin wird jeder Knoten eines n-dimensionalen binären 

Hyperkubes durch einen Ring von n Knoten ersetzt. Jede vormalige Kante 

eines Hyperkubenknotens ist dann mit einem der Ringknoten verbunden, so 

daß der Grad der Cube-Connected-Cycle-Topologie auf drei fixiert ist und nicht 

mehr von der Dimension abhängt. 

Ein anderer Nachteil betrifft die schwierige Realisierung der Hypercube-Topologie 

bei Rechnern, die mehrere Gehäuse umfassen, da aufgrund der starken 

inneren Vermaschung des Graphen die Gehäuse nicht unabhängig voneinander 

verkabelt werden können. Diesen Nachteil gibt es bei den meisten anderen Topologien 

ebenfalls, mit Ausnahme von 2 bzw. 3-D Gittern. 

90

3.6.6 De Bruijn-Topologie 

De Bruijn-Topologien [Samatham91] sind in der Wissenschaft in den letzten 

Jahren aufgrund ihrer rekursiven Konstruktionsweise, ihres geringen Durchmessers, 

der großen Halbierungsbreite sowie besonderer Symmetrieeigenschaften 

interessant geworden. Sie eignen sich speziell zur Implementierung 

von Sortieralgorithmen und für die schnelle Fouriertransformation. Darüberhinaus 

sind sie in der Lage, alle für Hypercuben entworfene Algorithmen effizient 

durch Emulation der Hypercube-Topologie auszuführen. 

Konstruktion eines de Bruijn-Graphen 

Der n-dimensionale de Bruijn-Graph zur Basis b besteht aus b n Knoten und 

b n+1 gerichteten Kanten, die pro Knoten mit "0","1",...,"b-1" beschriftet werden. 

Jeder Knoten erhält eine n-stellige Adresse a n a n-1 ,..,a 1 zur Zahlenbasis b zu 

seiner Identifikation. Dann verläuft für b = 2 (binärer de Bruijn-Graph) eine gerichtete 

Kante von Knoten K = a n a n-1 ,..,a 1 zu Knoten K', wenn dessen Adresse 

entweder lautet: K 0 ' = a n-1 ,...,a 1 0 oder K 1 ' = a n-1 ,...,a 1 1. Für b>2 ergibt sich für 

K': 

K 0 ' = a n-1 ,...,a 1 0 oder K 1 ' = a n-1 ,...,a 1 1 u.s.w. bis K b-1 ' = a n-1 ,...,a 1 (b-1). 

Das heißt, zwei Knoten sind genau dann miteinander verbunden (benachbart), 

wenn die Adresse eines der beiden Knoten durch Linksverschieben aus der 

Adresse des anderen Knoten hervorgeht. An die Position der niedrigstwertigen 

Stelle (LSD) folgt nach der Linksverschiebung eines von b möglichen Ziffern 

0,1,...,(b-1) nach, die höchstwertige Stelle (MSD) geht verloren. Aufgrund dieser 

Vorschrift werden bei jedem de Bruijn-Graphen die Knoten mit den Nummern 

0 und 2 n -1 mit sich selbst verbunden. 

Allgemein verlaufen von jedem Knoten K = a n a n-1 ,..,a 1 genau b gerichtete 

Kanten (Pfeile) zu dessen Nachbarn 

K 0 ' = a n-1 ,...,a 1 0, K 1 ' = a n-1 ,...,a 1 1 ,..., K b-1 ' = a n-1 ,...,a 1 (b-1), 

die entsprechend der niedrigstwertigen Ziffer von K i ' (0≤i≤b-1) die Aufschrift 

"i" tragen. Bild 3.8 zeigt die Konstruktion des gerichteten de Bruijn-Graphen 

für den Fall N = 8 und b = 2. 

Beim binären de Bruijn-Graphen entspringen von jedem Knoten zwei Kanten, 

und auf jeden Knoten laufen zwei Kanten zu. Ein Knoten K = a n a n-1 ,..,a 1 erhält 

genau dann einen Pfeil von einem Knoten K'', wenn für dessen Adresse entweder 

K 0 '' = 0a n a n-1 ,..,a 2 oder K 1 '' = 1a n a n-1 ,..,a 2 gilt, 

und wenn bei der nachfolgenden Linksverschiebung von K 0 '' und K 1 '' das Bit 

91

001 

1 

011 

0 

000 

1 

0 

0 

1 

010 1 101 

1 0 

0 

0 

1 

1 

0 

111 

1 

100 

0 

110 

Bild 3.8: Konstruktion des de Bruijn-Graphen (N = 8, b = 2). 

a 1 des Knotens K als LSB bei K 0 '' bzw. K 1 '' nachrückt. Wegen des zuvor Gesagten 

tragen die Pfeile, die auf K zulaufen, die Aufschrift „a 1 ", was bei binären 

de Bruijn-Graphen entweder „0" oder „1" sein kann. Für b>2 kann a 1 die 

Werte "0","1",...,"b-1" annehmen. 

Das wesentliche Konstruktionsmerkmal des de Bruijn-Graphen ist das nichtzyklische 

Linksverschieben von Ziffern (bzw. Adreßbits für b=2). Seine Konstruktion 

ist mit der Konstruktion des Shuffle Exchange-Graphen verwandt, den 

man durch Komplementierung ε des LSB bzw. zyklische Linksverschiebung σ 

erhält, gemäß der beiden Permutationsfunktionen: 

ε ( a n 

a n – 1 

, …, 

a ) a 1 

= , a n n – 

, …, 

a 1 1 

und 

σ ( a n 

a n – 1 

,…, 

a ) 1 

= a . 

n – 

, …, 

a 1 1 

a n 

Die Darstellung des Shuffle Exchange-Graphen ist in Bild 3.9a gezeigt. 

a) 

000 

001 

010 011 

100 

101 

110 

111 

b) 

00 

01 

10 

11 

Bild 3.9: Shuffle Exchange-Graph (a) und de Bruijn-Graph zur Basis 2 mit N=8 bzw. 4 Knoten. 

Beim binären Shuffle Exchange-Graphen sind die beiden Exchange-Knoten E 0 

und E 1 mit 

E 0 = a n a n-1 ,..,a 2 0 und E 1 = a n a n-1 ,..,a 2 1 

92

mit den Knoten 

N 0 ' = a n-1 ,..,a 2 0a n bzw. N 1 ' = a n-1 ,..,a 2 1a n 

verbunden (E 0 mit N 0 ' und E 1 mit N 1 '), die wiederum zueinander keine Exchange-Knoten 

sind. Faßt man in einem binären Shuffle Exchange-Graphen je 

zwei Exchange-Knoten E 0 und E 1 zu einem einzigen Knoten E zusammen, erhält 

man daraus im korrespondierenden de Bruijn-Graphen einen Knoten K und 

es gilt: E = K = a n a n-1 ,..,a 2 . 

Die Verschmelzung aller Exchange-Knotenpaare eines Shuffle-Exchange 

Graphen aus 2 n Knoten, liefert einen de Bruijn-Graphen aus 2 n-1 Knoten (Bild 

3.9b). Diesen Zusammenhang kann man als zweite Möglichkeit zur Konstruktion 

von de Bruijn-Graphen benutzen. 

Eine dritte Konstruktionsmöglichkeit für binäre de Bruijn-Graphen besteht 

darin, daß man einen de Bruijn-Graphen G der Größe N/2 = 2 n-1 auf die doppelte 

Größe erweitert. Die Verdopplung erfolgt so, daß man die 2 n Kanten des 

Graphen G durch Knoten ersetzt, während seine ursprünglichen Knoten entfallen, 

so daß man im neuen Graphen G' insgesamt 2 n Knoten erhält. G' heißt dann 

Kantengraph von G. Der entscheidende Schritt bei diesem Verfahren ist, daß 

man aus je zwei benachbarten Kanten in G, die einen Pfad der Länge zwei bilden, 

eine neue Kante in G' formt. In Bild 3.10a ist ein de Bruijn-Graph für N/2 

= 2 gezeigt, aus dem ein (N = 4)-Graph konstruiert wird. In Bild 3.10b sind die 

beiden ursprünglichen Knoten grau, die neuen Knoten schwarz gezeichnet. Bild 

3.11c zeigt das Resultat. 

Die rekursive Konstruktion des de Bruijn-Graphen besteht also aus drei Schritten: 

• Plazieren von neuen Knoten auf den Kanten von G (In Bild 3.10b schwarz 

dargestellt) 

• In dem daraus entstehenden Zwischengraphen werden je zwei benachbarte 

Kanten eines Pfades der Länge zwei zu einer neuen gerichteten Kante zusammengefaßt 

(ebenfalls schwarz in Bild 3.10b dargestellt) 

• Weglassen der Knoten und Kanten von G (Bild 3.10c). 

3.6.7 Star Graph-Topologie 

Star-Graphen zählen zu den relativ neuen Verbindungsstrukturen. Genau wie 

Hypercuben und de Bruijn-Graphen besitzen Star-Graphen [Akers89] eine rekursive 

Struktur und eine Reihe von Symmetrieeigenschaften. Darüberhinaus 

weist der Star-Graph bei geringem Knotengrad einen relativ kleinen Durchmesser 

auf, was ihn interessant für Verbindungsnetzwerke für Parallelrechner 

macht. In den letzten Jahren sind eine Reihe von Algorithmen für den Star-Graphen 

entworfen worden, die als sehr effizient gelten. 

93

a) 

b) 

c) 

Bild 3.10: Rekursive Konstruktion eines de Bruijn-Graphen für N = 4 und b =2 [Leighton92]. 

Konstruktion des Star-Graphen 

Zur Konstruktion von Star-Graphen geht man von einer Menge von n verschiedenen 

Elementen aus, die als Symbole bezeichnet werden. Jedes Symbol 

wird durch eine Ziffer zur Zahlenbasis n repräsentiert. Im ersten Schritt wird ein 

Startvektor erzeugt, indem man eine beliebige Aneinanderreihung (Sequenz) 

von n Symbolen bildet. Im zweiten Schritt wird eine bestimmte Permutationsregel 

auf die Symbolsequenz angewandt, um daraus eine neue Sequenz zu erzeugen, 

auf die wiederum dieselbe Regel angewandt wird, usf. So entsteht eine 

Menge mit Sequenzen von Symbolen (Vektoren) als Elementen, die untereinander 

verschieden sein müssen. Die Permutationsregel wird als Generator bezeichnet, 

und die Elemente der Sequenzmenge werden mit den Knoten eines 

ungerichteten Graphen identifiziert. Die Sequenzen adressieren die Knoten im 

Graphen, da es gemäß Voraussetzung keine zwei gleichen Sequenzen gibt. 

Im letzten Schritt der Konstruktion von Star-Graphen werden dann zwei 

Knoten im Graphen miteinander verbunden, wenn der eine Knoten durch Permutation 

der Symbolsequenz aus dem anderen Knoten hervorgegangen ist. 

Wichtig ist festzustellen, daß die Star-Graphen eine Untermenge der Cayley- 

Graphen [Akers89] sind, die wiederum auf einigen Sätzen aus der Gruppentheorie 

basieren (Cayley-Graphen werden im nächsten Kapitel behandelt). 

Zur Erzeugung des speziellen Star-Graphen wird als Permutationsregel die 

Butterfly-Permutation verwendet. Die Butterfly-Permutation β i zur Zahlenbasis 

n ist im Gegensatz zur Verwendung bei dynamischen Netzen definiert als: 

Def. 3.4: β i 

( a n 

a n – 1 

…a n – ( i– 

1) 

…a 2 

a 1 

) = a n – ( i – 1) 

a n – 1 

…a n 

…a 2 

a 1 

, 

wobei a k 

∈ { 0, 1, …, 

n – 1} 

ist. Die Butterfly-Permutation β i tauscht in der Sequenz 

a n ,...,a 1 das erste Symbol (a n ) mit dem i. Symbol aus (i≤n), weshalb sie 

auch als Transposition bezeichnet wird. Durch eine Transposition kann man ein 

Symbol in einer Sequenz an jede Position transportieren, so daß die Anzahl un- 

94

terschiedlicher Sequenzen, die durch fortlaufende Transpositionen erzeugt werden 

können, identisch ist mit der Zahl der Kombinationen von n Elementen zur 

r-ten Klasse (mit Berücksichtigung der Anordnung und ohne Wiederholungen). 

Diese Zahl ist für r = n gleich n! Ein Star-Graph besteht deshalb aus n! Knoten, 

wobei jeder Knoten (n-1) Nachbarknoten hat, die durch Transposition des 1. 

Symbols mit den übrigen (n-1) Symbolen entstanden sind. 

Der Grad des Star-Graphen ist somit ebenfalls gleich (n-1). Die Gesamtzahl 

seiner Kanten beträgt n!(n-1)/2, da von jedem der n! Knoten (n-1) Kanten weggehen 

und je zwei Knoten eine gemeinsame Kante haben (=Divisor 2). 

Beispiel: 

Aus der Menge {1, 2, 3} und der Startsequenz 123 entsteht durch Transposition 

die Menge {123, 213, 312, 132, 231, 321} aus 6 Elementen. Der dazu gehörende 

Star-Graph ist ein Ring und in Bild 3.11 gezeigt. Zu beachten ist, daß der 

nächstgrößere Star-Graph bereits 24 Knoten umfaßt und eine wesentlich komplexere 

Struktur aufweist. Seine Topologie ist in Bild 3.2 des Kapitels "Typische 

statische Netze" dargestellt. Der darauffolgende Star-Graph umfaßt 120 

Knoten und ist zeichnerisch nur noch schwer darstellbar. 

123 

321 

213 

231 

312 132 

Bild 3.11: Star-Graph mit N = 6 Knoten. 

3.7 Skalierbarkeit und Emulation von Netzen 

Für die praktische Anwendung statischer Netze spielen häufig zwei pragmatische 

Faktoren eine wichtige Rolle. Der erste Faktor ist die leichte Erweiterbarkeit 

(Skalierbarkeit) eines Netzes, die möglichst kostengünstig und mit geringem 

Aufwand verbunden sein sollte, und der zweite Faktor betrifft die 

Portierbarkeit eines gegebenen parallelen Algorithmus auf einen anderen Parallelrechner 

mit unterschiedlicher Verbindungstopologie. Obwohl beide Faktoren 

starken Bezug zur Praxis haben, ist gerade hier die Graphentheorie besonders 

wichtig. Für die Skalierbarkeit ist das graphentheoretisch berechenbare 

kleinste Netzinkrement entscheidend, das hinzugefügt werden muß, um das je- 

95

weils nächstgrößere Netz zu erhalten. Für die Portierung ist die Frage wichtig, 

inwieweit ein Graph durch einen anderen Graphen nachgeahmt (emuliert) werden 

kann. Im folgenden Abschnitt werden diese Faktoren näher untersucht. 

Zur Beurteilung der Skalierbarkeit eines Netzes ist die Berechnung des 

kleinstmöglichen Netzinkrements vorzunehmen. Dabei zeigt es sich, daß die 

kleinste Zahl hinzuzufügender Knoten, die zur topologischen Vollständigkeit 

eines Graphen notwendig ist, von Graph zu Graph stark schwankt. Während es 

beim Ring noch ausreicht, nur einen Knoten hinzuzufügen, sind beim Star-Graphen 

bereits n ⋅ n! Knoten notwendig. 

Natürlich kann auch eine kleinere Knotenzahl als das Netzinkrement zur 

Netz- bzw. Rechnererweiterung verwendet werden, die beispielsweise dem verfügbaren 

Budget entspricht. Dann allerdings muß man eine erhöhte Routing- 

Komplexität sowie eine mögliche Sättigung einzelner Kanäle aufgrund ungleichmäßiger 

Verkehrsaufteilung und zusätzlichen Mehraufwand beim Algorithmenentwurf 

in Kauf nehmen. 

Neben dem kleinsten Knoteninkrement spielen für die Skalierbarkeit noch 

eine Rolle, wie sich die Effizienz der Verbindungstopologie bei zunehmender 

Knotenzahl verhält. Ein Indikator für die Effizienz ist die Latenzzeit, die wiederum 

mit dem Netzdurchmesser gekoppelt ist. Ein zweidimensionales Gitter 

aus N Knoten beispielsweise hat mit O ( N) 

ein kleines Inkrement, weil nur 

eine Gitterzeile und -spalte neu hinzugefügt werden muß. Allerdings wächst der 

Durchmesser ebenfalls mit O ( N) 

, so daß große Gitter im Vergleich zum Hypercube, 

der mit O(logN) wächst, nur für Anwendungen mit hoher Datenlokalität 

effizient sind. 

Die Latenz beim Hypercube steigt relativ langsam an. Hyperkuben haben 

also auch bei hohen Prozessorzahlen große Effizienz. Ihr Nachteil liegt darin, 

daß für jede Erweiterung eines gegebenen Hyperkuben die Knotenzahl verdoppelt 

werden muß, was von einer bestimmten Größe an zu teuer wird. Zusätzlich 

muß bei einer Erweiterung ein neuer Netzwerkanschluß an jedem Knoten angebracht 

werden, was in der Praxis nachteilig ist, da dies entweder Stillstandszeiten 

des Rechner wegen Umbauarbeiten oder von Anfang an freie Steckplätze 

im Rechner, d.h. höhere Mehrkosten erfordert. 

Zusammenfassend ist zur Skalierbarkeit zu sagen, daß es die "ideale" Topologie 

mit geringem Inkrement bei gleichzeitig geringer Latenz nicht gibt, so 

daß in der Praxis der bestmögliche Kompromiß aus einander widersprechenden 

Forderungen gefunden werden muß, was eine Abwägung im konkreten Einzelfall 

bedeutet. 

Die zweite, für die Praxis wichtige Frage lautet, wie gut ein Graph einen anderen 

Graphen nachbilden (emulieren) kann. Der Vorteil der Emulation eines 

Graphen durch einen anderen liegt darin, daß man Programme, die für den einen 

Graphen, z.B. für ein Gitter, geschrieben sind, auf einen anderen Graphen, 

z.B. einem Hypercube, unverändert ausführen kann. Dadurch werden Kosten 

für eine Neukodierung eingespart, weil trotz der Vielzahl existierender Topologien 

und deren spezifischer paralleler Programmierung eine Wiederverwendung 

einmal vorhandener Applikation möglich wird. 

96

Für die Emulation wird die Topologie eines Gastgraphen G auf einen Wirtsgraphen 

H so abgebildet, daß alle Knoten von G auf Knoten von H zu liegen kommen. 

Dadurch wird jede Kante von G auf einen Pfad, d.h. auf eine oder mehrere 

nachfolgende Kanten von H transformiert. Ein Maß, das Auskunft über die 

Qualität der Abbildung gibt, ist die Verlangsamung, die eine Anwendung bei 

der Ausführung auf dem Wirtsgraphen H erfährt. Eine gute Abbildung bzw. ein 

gut geeigneter Wirtsgraph bedeutet für eine parallele Anwendung eine nur geringfügige 

Verlangsamung. Je geringer die Verlangsamung, umso größer ist die 

Effizienz der Emulation. Die Verlangsamung hängt von drei Faktoren ab: 

• Von der sog. Knotenlast, die als die Zahl von Gastknoten definiert ist, die maximal 

auf einem Wirtsknoten zu liegen kommen. 

• Von der Länge des längsten Pfades, auf den eine beliebige Kante von G abgebildet 

wird. Diese Länge wird als Dilatation (Dehnung) bezeichnet. 

• Vom Maximum der Zahl der Kanten von G, die auf dieselbe Kante in H abgebildet 

werden, sich also eine Wirtskante teilen müssen. Dieses Maximum 

kennzeichnet den Andrang (Congestion) bzw. den Füllungsgrad an dieser 

Kante. 

Von R. Koch [Koch89] wurde gezeigt, daß ein Graph G, der mit Last L, Dilatation 

D und Andrang C von einem Wirtsgraphen emuliert wird, eine Verlangsamung 

S erfährt, die von der Ordnung O(L+D+C) ist. Für den Fall S = 1 

beispielsweise besteht kein Unterschied zwischen der Ausführung auf G oder 

auf H. Wenn dagegen die Zahl der Knoten von G größer als die Zahl der Knoten 

von H, dann muß, bei gleicher Rechengeschwindigkeit der Knoten in G und H, 

S>1 sein. 

Eine der bei der Emulation interessantesten Fragen ist, wie groß S höchstens 

werden muß, damit G von H emuliert werden kann. Diese Frage kann bislang 

nicht allgemein beantwortet werden. Sie ist noch Gegenstand der Forschung. 

Ein anderes Maß für die Güte der Emulation ist die Effizienz E, die hier als 

Def. 3.5: 

E 

= 

T G 

N 

-------------- G 

T H 

N H 

definiert wird, wobei T G und N G die Ausführungszeit bzw. Knotenzahl des 

Gastgraphen und T H und N H die Ausführungszeit und Knotenzahl des Wirtsgraphen 

sind. Die Effizienz ist also das Verhältnis der mit den Knotenzahlen 

gewichteten Ausführungszeiten. Mit der Effizienz eng verknüpft ist die Expansion 

der Knotenzahl, die als das Verhältnis N H /N G definiert ist. Für die Expansion 

X gilt: 

Gl. 3.4: 

X ⋅ S⋅ 

E = 1 

Die Gl. 3.4 kann als Normierungsbedingung für X, S oder E verwendet werden. 

Es hat sich herausgestellt, daß binäre Hyperkuben gut geeignet zur Emulation 

fast aller Topologien sind. Insbesondere kann ein Hyperkubus effizient Ringe, 

97

Gitter und Bäume einbetten, für die eine Vielzahl paralleler Anwendungen existieren. 

Die drei genannten Topologien sind in der parallelen Programmierung besonders 

gebräuchlich. Auf Gittern beispielsweise können sehr gut partielle Differentialgleichungen, 

Matrixoperationen und Mehrgitterverfahren berechnet 

werden können. Auf Bäumen sind alle Teile-und-Herrsche-Algorithmen (Divide 

and Conquer) leicht implementierbar. Der Ring schließlich wird wegen seiner 

Einfachheit und seinen geringen Kosten besonders bei kleinen Parallelrechnern 

bzw. verteilten Systemen verwendet. Ein guter Überblick zur Emulationsfähigkeit 

des Hypercubes ist z.B. in [Leighton92] zu finden. 

3.8 Das Grad-Durchmesser-Problem 

Verbindungsnetzwerke gelten vom topologischen Standpunkt aus als gut, wenn 

sie bei gegebener Knotenzahl N einen möglichst geringen Durchmesser k und 

einen kleinen Knotengrad d haben, weil dann Latenzzeit und die Zahl der Netzanschlüsse, 

die den Hauptkostenfaktor in einem statischen Netz darstellen, minimal 

sind. Die Frage dabei ist, wie klein d und k bei gegebener Knotenzahl 

überhaupt werden können. Mit dieser Fragestellung verwandt ist die Frage, wie 

viele Knoten N man bei gegebenem Durchmesser k und Knotengrad d maximal 

miteinander verbinden kann. Das letztere wird als das (d, k)-Problem bezeichnet. 

In der Mathematik wird das Grad-Durchmesser-Problem bei Graphen seit 

langem untersucht [Elspas64, Imase85, Opatrny85]. Eine umfassende, endgültige 

Lösung des Problems ist zur Zeit nicht in Sicht. Die besten bekannten Verfahren 

zur Erzeugung guter Graphen sind heuristischer Natur [Bermond84]. 

Eine obere Grenze für N(d, k) ist nach [Delorme84] gegeben durch: 

Gl. 3.5: 

dd ( – 1) k – 2 

Ndk ( , ) ≤ ------------------------------ , für d > 2 

d – 2 

Gl. 3.5 wird als Moore-Grenze bezeichnet. Interessant ist, daß die heute gebräuchlichen 

Graphen weit von der Moore-Grenze entfernt sind. Ein Hyperkubus 

mit d = k = 4 beispielsweise hat 16 Knoten, während nach Moore 161 Knoten 

möglich sein müßten! 

Das Problem ist allerdings, daß man nicht weiß, wie man Graphen mit der 

Moore-Knotenzahl konstruiert und daß nur sehr wenige Graphen überhaupt bekannt 

sind, wie z.B. der Petersen Graph, die diese Obergrenze tatsächlich erreichen. 

Mittlerweile wurde sogar gezeigt, daß es aus prinzipiellen Gründen nur 

wenige Moore-Graphen geben kann [Sied92]. Trotzdem ist die Moore-Grenze 

eine gute Orientierungshilfe, die motiviert, "bessere" Graphen zu finden. 

98

3.9 BIBD-Graphen 

Eine Möglichkeit, Graphen kleinen Durchmessers und großer Fehlertoleranz zu 

konstruieren, stellen die Balanced Incomplete Block Designs (BIBD) dar, die 

bereits 1971 vorgeschlagen wurden [Hagelb71, Opatrny86, Skillicorn88]. 

BIBD-Graphen liegen bzgl. ihres Durchmessers, Knotengrades und der Zahl 

der miteinander verbundenen Knoten näher an der Moore-Grenze als eine Reihe 

anderer Graphen. Beispielsweise besteht ein BIBD-Graph mit Grad 10 und 

Durchmesser 4 aus 1001 Knoten. Der Vergleich mit einem Hyperkubus aus 

1024 Knoten zeigt, daß der Durchmesser beim Hyperkubes bei gleichem Knotengrad 

mehr als doppelt so groß ist (K = 10). 

Zur Konstruktion von BIBDs werden im ersten Schritt, ähnlich wie beim 

Star-Graphen, Kombinationen von n Symbolen zur r-ten Klasse gebildet. Der 

Unterschied zum Star-Graphen besteht u.a. darin, daß die Kombinationen nicht 

als Sequenzen (Vektoren) repräsentiert werden, sondern als Mengen, weil die 

Anordnung der Symbole hier keine Rolle spielt. Genauso wie beim Star-Graphen 

sind Wiederholungen von Symbolen in derselben Menge nicht erlaubt. 

Ein BIBD kann somit maximal ⎛n⎞ 

Mengen enthalten, die als Blöcke bezeichnet 

werden (Daher auch die Namensgebung). 

⎝r⎠ 

Zusätzlich gilt bei der Konstruktion von BIBD-Graphen noch die Randbedingung, 

daß, summiert über alle Mengen, jedes Symbol, jedes Paar von Symbolen, 

jedes Tripel, Quadrupel, usw. von Symbolen genau sooft in den erzeugten 

Blöcken enthalten sein muß, wie man zuvor vereinbart hat. Durch diese Zusatzbedingung 

wird die Zahl der Blöcke, aus denen ein BIBD besteht, i.d.R. 

wesentlich reduziert. Wenn S die Zahl der Symbole angibt und wenn jedes 

Symbol insgesamt α mal in Mengen mit r Elementen enthalten ist, dann gilt für 

die Zahl B der Blöcke: 

Gl. 3.6: 

B 

= 

αS 

------ 

r 

Sind beispielsweise für ein BIBD die Symbole 1,2,...,9 gegeben und sollen daraus 

alle Kombinationen mit drei Elementen gewonnen werden, die jedes Symbol 

4 mal und jedes Symbolpaar 1 mal enthalten, dann lautet das Resultat: 

{1,2,3}, {4,5,6}, {7,8,9}, {1,4,7}, {2,5,8}, {3,6,9}, {1,5,9}, {2,6,7}, {3,4,8}, 

{1,6,8}, {2,4,9}, {3,5,7}, was 12 Blöcke ergibt. 

Im nächsten Schritt werden zur Konstruktion eines BIBD-Graphen die Symbole 

der Blöcke mit den Knoten eines Graphen identifiziert. Die Symbolnummer 

gibt dabei die Knotenadresse an (im Beispiel 1 bis 9). Die Verbindungen 

zwischen den Knoten werden durch die Elemente der Blöcke definiert. 

Block {1,2,3} bedeutet beispielsweise "Verbinde Knoten 1 mit 2 und diesen mit 

Knoten 3". In Bild 3.12 ist der BIBD-Graph des Beispiels abgebildet. 

BIBD-Graphen haben trotz ihrer herausragenden Eigenschaften bzgl. Durchmesser 

und Fehlertoleranz auch Nachteile. Zum einen ist bislang nicht bekannt, 

99

1 2 3 

4 

5 

6 

7 8 9 

Bild 3.12: Beispiel eines BIBD-Graph für N = 9. 

für welche Kombinationen von S, r, B und α es BIBD-Graphen überhaupt gibt. 

Zum anderen ist das Routing in BIBDs relativ aufwendig, weil die Knoten über 

komplexe Regeln miteinander verbunden sind und weil der Grad des Graphen 

nicht konstant ist. Im Beispiel hat der Knoten 5 den Grad 8, während der Knoten 

1 den Grad 4 aufweist. Das bedeutet, daß BIBD-Graphen nicht knotensymmetrisch 

sind. 

3.10 Routing in statischen Netzen 

Die Definition des Routing-Begriffs und die Grundlagen der Wegewahl wurden 

bereits erläutert. In diesem Kapitel geht es um die verschiedenen Routing-Methoden, 

die in statischen Netzen eingesetzt werden. Generell unterscheidet man 

bei statischen Netzen zwischen deterministischen und adaptiven sowie zwischen 

verklemmungsfreien und deadlock-trächtigen Routing-Methoden. Es 

wird gezeigt, wie man mit Hilfe spezieller Deadlock-Tests feststellen kann, ob 

die gewählte Routing-Methode für ein gegebenes Netz verklemmungsfrei ist. 

3.10.1 Deterministisches Routing 

Bei deterministischen Routing-Verfahren werden zur Bestimmung des Netzpfades 

nur die Adressen von Sender und Empfänger verwendet, andere Informationen 

wie z.B. die Verkehrsbelastung im Netz gehen in die Berechnung 

nicht ein. Daher rühren auch die synonymen Bezeichnungen Oblivious- bzw. 

Fixed-Path-Routing. 

Das Wesentliche beim deterministischen Routing ist, daß entweder aus der 

Zieladresse oder aus der Differenz von Ziel- und Herkunftsadresse ein in der 

Regel einfaches Wegschema ermittelt wird, das für jede Netztopologie spezi- 

100

fisch ist. Die gebräuchlichsten deterministischen Routing-Verfahren sind das x- 

y-z- und das e-Cube Routing. 

x-y-z-Routing 

Beim x-y-z-Routing, das in einem 3-dimensionalen Gitter bzw. einem 3-D Torus 

abläuft, wird die Sender- und Empfängeradresse in einer Koordinatendarstellung 

P(x,y,z) ausgedrückt, und zur Wegewahl werden die Koordinatendifferenzen 

zwischen Sender und Empfänger berechnet. Wenn S = (s x , s y , s z ) 

und E = (e x , e y , e z ) die Sende- bzw. Empfangsadressen repräsentieren, dann erhält 

man aus D = (d x , d y , d z ) = (e x -s x , e y -s y , e z -s z ) die Information, wieweit Sender 

und Empfänger entlang der einzelnen Koordinatenachsen voneinander entfernt 

sind. Ein Datenpaket, das ausgehend vom Sender die Abstände d x , d y , d z 

im Netz zurücklegt, erreicht nach (d x +d y +d z ) Schritten den Empfänger. 

Beim x-y-z-Routing wandert das Paket zuerst um die Differenz d x entlang der 

x-Achse, dann um d y entlang der y-Achse und schließlich um d z entlang der z- 

Achse, bis das Ziel erreicht ist. Ist eine Differenz kleiner Null, muß in absteigender 

Koordinatenrichtung vorangeschritten werden. Dieses Schema läßt sich 

auf beliebig viele Dimensionen ausdehnen. 

Das x-y-z-Routing ist aufgrund der vorgegebenen Abfolge bei der Auswertung 

der Koordinatendifferenzen (zuerst x, dann y dann z) ein deterministisches 

Verfahren und kann mit geringem Aufwand in den Rechenknoten implementiert 

werden. 

Bezüglich der Wegewahl unterscheidet sich die Torustopologie vom Gitter 

insofern, als daß beim Torus die Differenz in jeder Koordinatenrichtung nicht 

größer als die Hälfte des entsprechenden Abstandes im Gitter werden kann. Das 

bedeutet für das x-y-z-Routing im Torus, daß auch dann, wenn die Koordinatendifferenz 

positiv ist, in negativer Koordinatenrichtung vorangeschritten 

wird, sofern der Empfänger dadurch schneller erreichbar ist. D.h., daß beim x- 

y-z-Torus-Routing der räumlich kürzeste Weg aus zwei Alternativen (rechts 

oder links im Kreis) gewählt wird. 

Beispiel: 

In einem Torus seien in x-Richtung 8 Knoten kreisförmig verbunden und die 

Koordinatendifferenz d x sei gleich +7. Dann wird beim x-y-z-Torus-Routing 

ein Datenpaket in negativer x-Richtung um |7-8| = |-1| Knoten zum Ziel hin bewegt, 

da |-1| < +7 ist. 

e-Cube Routing 

Ein dem x-y-z-Routing entsprechendes Routing-Schema läßt sich auch für die 

Hypercube-Topologie aufstellen und trägt dann den Namen e-Cube Routing. In 

einem Hyperkubus werden die Knoten üblicherweise so durchnumeriert, daß 

sich benachbarte Knoten um genau ein Bit unterschieden, was analog zu einer 

101

Koordinatendifferenz von 1 bei benachbarten Gitter- oder Torusknoten ist. Anstelle 

der P(x, y, z)-Koordinatendarstellung wird im Hypercube eine binäre 

Knotenadressierung der Art 

S = s n s n-1 ...s 1 und E = e n e n-1 ...e 1 (s i , e i ∈{0, 1}) 

für die Sender- und Empfängeradressen gewählt. In diesem Fall haben zwei 

Knoten S, E, deren Adressen sich um zwei Bits unterscheiden, einen gemeinsamen 

Nachbarn (Zwischenknoten), der sich um jeweils ein Bit von S und E unterscheidet. 

Die Entfernung von S und E im Hypercube ist also gleich zwei. Entsprechend 

hat ein Knotenpaar (S, E) mit i (0 

Entfernung i, so daß ein Paket i Schritte benötigt, um von S nach E zu kommen. 

Weiterhin gibt es für zwei beliebige Adreßbits s j , e j (1 ≤ j ≤ n) nur die beiden 

Möglichkeiten, daß sie entweder gleich oder ungleich sein können. Im ungleichen 

Fall wird beim e-Cube Routing das Paket von seiner momentanen Position 

zu demjenigen Nachbarn geschickt, der sich in genau diesem Bit unterscheidet. 

Für den Fall, daß s j und e j für ein bestimmtes j gleich sind, erfolgt keine Bewegung 

in der Dimension j. Im Schritt j+1 werden die Bits e j+1 und s j+1 miteinander 

verglichen, d.h. der beschriebene Vorgang wird nacheinander für alle 

Adreßbits von S und E durchgeführt. 

Beispiel: 

Gegeben sei in einem 4-dimensionalen Hypercube ein Sender-/Empfängerpaar 

mit S = 0000 und E = 1111. Nach dem e-Cube Routing ergibt sich daraus der 

Pfad 0000->0001->0011->0111->1111, den ein Datenpaket vom Sender zum 

Empfänger zurücklegen muß. Der Weg durch das Netz ist durch die vorgegebene 

Reihenfolge der Dimensionen (LSB First) eindeutig. 

3.10.2 Adaptives Routing 

Das Ziel von adaptivem Routing ist es, den Datendurchsatz durch ein Netz zu 

steigern und eventuelle Netzdefekte durch alternative Wegewahl zu umgehen. 

Die bei Netzfehlern durch den Einsatz von adaptivem Routing erzielbare Fehlertoleranz 

ist für viele Anwendungen wichtig und deshalb wird in diesen Fällen 

adaptives gegenüber deterministischem Routing bevorzugt. 

Der Datendurchsatz eines Netzes wird bei adaptivem Routing dadurch erhöht, 

daß verkehrsmäßig stark belastete Knoten und Kanäle (Hot Spots) seltener 

als Routing-Pfade verwendet werden als wenig belastete. Die Wartezeiten 

an den Hot Spots werden dadurch so klein wie möglich gehalten, weil der Verkehr 

gleichmäßig verteilt wird. Auf der anderen Seite bedeutet die Umgehung 

hochbelasteter Knoten in der Regel auch eine größere Pfadlänge durch das 

Netz, so daß die Latenz der Datenpakete, die einen Umweg beschreiten, zunimmt. 

Die Annahme beim adaptiven Routing ist, daß Umwege sich lohnen, Pakete 

also trotz des Umwegs schneller zum Empfänger gelangen, als wenn sie an ei- 

102

nem verkehrsreichen Knoten warten würden. Diese Annahme ist jedoch nicht 

immer gerechtfertigt. Ebenso wird die potentielle Zeitersparnis, die bei einem 

adaptiven Routing-Verfahren zu gewinnen ist, durch die Ausführungszeit des 

Verfahrens teilweise wieder aufgezehrt, da es komplexer als deterministisches 

Routing ist und deshalb mehr Zeit benötigt. 

Adaptives Routing bedeutet immer ein Abwägen zwischen dem damit verbundenen 

höheren Aufwand und dem erzielbaren Gewinn. Glass und Ni 

[Glass92] beispielsweise haben gezeigt, daß in einem 16x16 Gitter ein einfaches 

x-y-Routing-Schema gegenüber adaptiven Verfahren überlegen ist. Deshalb 

kann man nicht sagen, daß Adaptivität in jedem Fall besser geeignet ist, 

vielmehr muß im Einzelfall abgewogen werden. In den meisten praktischen 

Fällen wird nicht analytisch sondern durch Simulation die Tauglichkeit eines 

Verfahrens geprüft. Dazu werden die wichtigsten Netzparameter von Bandbreite 

und Latenz für verschiedene Verkehrsanforderungen simulativ ermittelt. 

Ein einfaches Beispiel für eine verkehrsabhängige Routing-Methode ist das 

adaptive x-y-z- bzw. e-Cube Routing. 

Adaptives x-y-z- und e-Cube Routing 

Sowohl beim x-y-z- als auch beim e-Cube Routing gibt es die Möglichkeit, die 

Reihenfolge der Dimensionen, entlang denen ein Paket transportiert wird, flexibel 

zu handhaben und zwar dergestalt, daß eine Dimension nur dann beschritten 

werden darf, wenn der dazugehörende Kanal frei ist. Dadurch werden 

die Wartezeiten verkürzt, die beim Durchgang durch das Netz an belegten Netzressourcen 

entstehen. Dies wird als adaptives x-y-z- bzw. e-Cube Routing bezeichnet. 

Ist beim adaptiven x-y-z- bzw. e-Cube Routing der Kanal einer benötigten 

Dimension zu einem bestimmten Zeitpunkt belegt, wird das Paket auf 

einem anderen Kanal einer anderen Dimension eingespeist, der zu diesem Zeitpunkt 

frei ist und der ebenfalls für den Pfad des Pakets benötigt wird. Dadurch 

kann die Latenzeit verkürzt und der Datendurchsatz gesteigert werden, weil die 

zu übertragenden Pakete in den Puffern der Knoten nur solange gespeichert 

werden müssen, bis ein beliebiger Kanal aus der Menge der zulässigen Kanäle 

frei ist. Darüberhinaus können mit adaptivem x-y-z- und e-Cube Routing defekte 

Kanäle und Zwischenknoten umgangen werden. 

3.10.3 Allgemeine, adaptive Routing-Verfahren 

Zur Durchführung von adaptivem Routing gibt es mehrere Möglichkeiten, die 

man hinsichtlich der Parameter Weglänge, Wegewahl und Rückverfolgung 

(Backtracking) unterscheidet. Dementsprechend kann man für adaptive Routing-Verfahren 

eine Gliederung, wie sie in Bild 3.13 gezeigt ist, angeben. 

Jeder der drei Parameter kann zwei Zustände annehmen, so daß insgesamt 8 

verschiedene Routing-Varianten existieren. Dabei ist die Weglänge l ein Maß 

für die Zahl der Zwischenknoten K, die bis zum Empfänger durchlaufen werden 

müssen, gemäß l = K +1. Die Wegewahl kennzeichnet die Zahl der alternativen 

103

Pfade zwischen einem beliebigen Sender-/Empfängerpaar, und der Rückverfolgungsparameter 

klassifiziert, ob beim Routing-Verfahren Backtracking erlaubt 

ist. Im folgenden werden alle drei Parameter näher erläutert. 

adaptive Pfadfindung 

(Wegelenkung) 

Weglänge Wegewahl Rückverfolgung 

minimal 

nicht minimal 

eingeschränkt 

nicht eingeschränkt 

ja 

nein 

Bild 3.13: Gliederung der adaptiven Routing-Methoden. 

Wegewahl 

Ein Maß für die Adaptivität eines Routing-Verfahrens ist die Zahl der alternativen 

Pfade, die aufgrund des Routing-Schemas in einer bestimmten Topologie 

gewählt werden können. Beim n-dimensionalen, adaptiven x-y-z-Routing im 

Gitter beispielsweise kann man, ebenso wie beim adaptiven e-Cube Routing im 

Hypercube, im ersten Routing-Schritt von den i Koordinatendifferenzen eines 

Sender-/Empfängerpaares, die ungleich Null sind, eine Koordinate auswählen 

und das Paket entlang dieser Richtung schicken. Für den zweiten Routing- 

Schritt verbleiben noch (i-1) ungleiche Dimensionen zur Auswahl, für den 3. 

Schritt (i-2) Möglichkeiten usw., so daß es bei beiden Verfahren insgesamt i! 

Möglichkeiten gibt, in welcher Reihenfolge die Dimensionen beschritten werden 

können. Damit existieren auch i! verschiedene Pfade zwischen Sender und 

Empfänger, die darüber hinaus alle gleich lang sind. Deswegen können x-y-z 

bzw. e-Cube Routing bzgl. der Pfadzahl als gleichwertig bezeichnet werden. 

Aus technischen Gründen kann es manchmal sinnvoll sein, die Adaptivität, 

d.h. die Zahl alternativer Pfade einzuschränken, um so ein Routing-Verfahren 

leichter implementierbar zu machen oder um potentielle Verklemmungen 

(Deadlocks) zu vermeiden. Man spricht deshalb entweder von eingeschränkter 

oder von nicht eingeschränkter Wegewahl. Üblicherweise stehen auch bei partieller 

Adaptivität noch genügend Wegewahlalternativen zur Verfügung, um 

den Netzdurchsatz zu erhöhen oder Fehlertoleranz zu erzielen. 

Weglänge 

Adaptive Routing-Verfahren werden dann als minimal bezeichnet, wenn alle 

Wege zugleich kürzeste Pfade zwischen Sender und Empfänger sind. Das heißt, 

104

daß bei minimalem, adaptivem Routing Umwege nicht erlaubt sind. Beispiele 

für wegminimales Routing sind das adaptive x-y-z- oder e-Cube Routing. Erlaubt 

man Umwege (nicht minimales Routing), steigt die Zahl der alternativen 

Pfade in der Regel erheblich an. 

Backtracking 

Bei adaptivem Routing kann es auch sinnvoll sein, eine Wiederaufnahme bzw. 

Rückverfolgung (Backtracking) bereits eingeschlagener Wege vorzunehmen, 

die folgendermaßen abläuft: Ein Datenpaket wird solange weitertransportiert, 

bis es an einem Knoten K n ankommt, an dem es warten müßte. Um die Wartezeit 

zu vermeiden, wird das Paket um einen oder mehrere Knoten auf dem Weg 

zurückgeschickt, auf dem es gekommen ist (von K n zurück zu K n-1 , K n-2 ,...). 

Von einem der Vorgängerknoten K n-i (i>0) wird es zu einem anderen Knoten 

transportiert, der ohne Wartezeit erreichbar und gemäß des Backtracking-Verfahrens 

zulässig ist, weil er ebenfalls zum Empfänger führt. Das bedeutet, daß 

adaptives Routing mit Backtracking eine nicht wegminimale Routing-Methode 

darstellt, weil Rückwege zugelassen sind. 

Sobald ein Rückweg eingeschlagen wird, entfernt sich das Paket vorübergehend 

vom Empfänger, deshalb wird Backtracking auch als nicht-progressives 

Routing bezeichnet. Bei wegminimalem Routing dagegen ist jeder Schritt, der 

von einem Paket ausgeführt wird, in Richtung des Empfängers (=progressives 

Routing). 

3.10.4 Das Deadlock-Problem 

Generell müssen sowohl deterministische als auch adaptive Routing-Methoden 

erst hinsichtlich ihres Deadlock-Potentials analysiert werden, bevor sie in der 

Praxis angewandt werden. Bei adaptivem Routing wird durch die a priori nicht 

festgelegte Wegewahl die Gefahr einer Verklemmung noch verschärft. 

Auftreten von Deadlocks 

Verklemmungen können bei paketvermittelnden Netzen in allen Netztopologien 

und bei allen Routing-Verfahren wie Store-and-Forward-, Virtual-Cut- 

Through- oder Wormhole Routing auftreten. Wenn eine Verklemmung vorkommt, 

sind gleichzeitig drei verschiedene Bedingungen eingetreten: 

• Eine Interprozessorkommunikation hat eine Ressource wie einen Kanal oder 

einen Puffer für eine gewisse Zeit exklusiv belegt. 

• Eine zweite Interprozessorkommunikation benötigt zur Durchführung ihres 

Datenaustauschs die unter 1. belegte Ressource. (Als belegte Ressourcen gelten 

dabei volle Puffer oder Kanäle, die keine Daten mehr aufnehmen können, 

weil sie gerade Pakete von anderen Kommunikationen speichern bzw. übertragen.) 

105

• Die erste Interprozessorkommunikation kann nur dann terminieren, wenn die 

zweite Kommunikation terminiert hat, bis dahin wird die eingangs belegte 

Ressource blockiert. 

Durch das Zusammentreffen dieser drei Bedingungen tritt eine zyklische 

Wartesituation ein, die Kennzeichen jedes Deadlocks ist. In Bild 3.14 ist eine 

Deadlock-Situation aufgrund belegter Puffer exemplarisch dargestellt. In diesem 

Beispiel kann keiner der Knoten seine Daten senden, weil die benötigten 

Empfangspuffer erst frei werden, nachdem die Daten abgeschickt sind. Das Abschicken 

wird jedoch dadurch verhindert, daß kein Empfangspuffer zur Verfügung 

steht, wodurch sich der Kreis schließt. 

Situation: 

Alle Puffer 

belegt 

K 

n 

o 

t 

e 

n 

beabsichtigter 

Transfer: 1->2 

negatives 

Acknowledge 

beabsichtigter 


K 

n 

o 

t 

e 

n 

Situation: 

Alle Puffer 

belegt 

1 

negatives 

Acknowledge 

2 

Bild 3.14: Verklemmungssituation aufgrund belegter Puffer. 

Zu beachten ist, daß eine Verklemmung nach Bild 3.14 bei all denjenigen Knoten 

eines beliebigen Graphen auftreten kann, die zueinander benachbart sind 

und bidirektional Daten austauschen wollen und die keine getrennten Sendeund 

Empfangspuffer haben, so daß es sich nicht um eine auf eine bestimmte Topologie 

beschränkte Situation handelt. 

Im Falle des Wormhole-Routings gibt es zur beschriebenen Verklemmungssituation 

eine analoge Konstellation, bei der nicht Puffer sondern Kanäle die belegte 

Ressource darstellen. In Bild 3.15 beispielsweise möchte Knoten 1 ein 

Datenpaket zu Knoten 3 schicken, während Knoten 3 gleichzeitig ein Paket zu 

Knoten 1 übertragen will. Gemäß Wormhole-Routing wird von Knoten 1 das 

erste Flit in Richtung Empfänger (Knoten 3) abgeschickt und dadurch der Kanal 

von 1 nach 2 für diese Kommunikation belegt. Dasselbe geschieht bei Knoten 

3 bzgl. des Kanals von 3 nach 2. Die Flits beider Kommunikationen treffen 

sich im Zwischenknoten 2 und können nicht weiter, weil die benötigten Kanäle 

durch die jeweils andere Kommunikation belegt sind. Wiederum ist die geschilderte 

Verklemmungssituation nicht von der Topologie abhängig, sondern kann 

überall auftreten. 

Anhand der geschilderten, einfachen Deadlock-Situationen wird bereits deutlich, 

daß die Deadlock-Vermeidung einen wichtigen Punkt darstellt. 

Die geschilderten Fälle wechselseitig blockierter Puffer bzw. Kanäle lassen 

sich auf alle Konstellationen erweitern, bei denen mehr als zwei Interprozessorkommunikationen 

einander blockieren, so daß dadurch ein zirkulares War- 

106

Knoten 

1 

Knoten 

2 

Knoten 

3 

Transfer 1->3 Transfer 3->1 

Kanal 1->2 

ist durch Flit 

1->3 belegt 

Kanal 3->2 

ist durch Flit 

3->1 belegt 

(gestrichelt) 

Bild 3.15: Verklemmung aufgrund belegter Kanäle. 

ten entsteht. In Bild 3.16 werden exemplarisch 4 Knoten gezeigt, die im Kreis 

auf freie Puffer warten. In diesem Beispiel möchte Knoten 1 zu Knoten 2, 2 zu 

3, 3 zu 4 und dieser wiederum zu Knoten 1 übertragen. Da alle Puffer voller 

Sendedaten sind und keine getrennte Sende- und Empfangsspeicher existieren, 

kann kein Knoten die Daten des Nachbarknotens aufnehmen. 

Situation: Alle Puffer voll 

Knoten 

1 


neg. Ack. 

Knoten 

2 

Transfer: 

4->1 

neg. Ack. 

neg. Ack. 

Transfer: 

2->3 

Knoten 

4 

neg. Ack. 


Knoten 

3 

Bild 3.16: Verklemmung aufgrund zirkularen Wartens auf belegte Puffer. 

Auch hier gibt es eine zu Bild 3.16 analoge Situation, bei der nicht Puffer, sondern 

Kanäle beteiligt sind, und die bei Wormhole-Routing immer dann auftreten 

kann, wenn eine Kommunikation einen Kanal als Teilstrecke eines Pfades 

reserviert, während die übrigen Kanäle, die zur Komplettierung des Pfades notwendig 

sind, nicht erhältlich sind, weil sie von anderen Kommunikationen belegt 

sind. Diese wiederum können ihre Pfade deshalb nicht freigeben, weil sie 

den reservierten Pfad für die Komplettierung ihrer Kommunikationen benötigen 

(kreisförmiges Warten). Der geschilderte Deadlock-Kreis ist in Bild 3.17 

exemplarisch für 4 Knoten dargestellt. 

In Bild 3.17 belegt Knoten 1 den Kanal von Knoten 1 zu Knoten 2, um den 

Transfer 1->3 durchzuführen, sobald der Kanal von Knoten 2 zu Knoten 3 frei 

ist. Genauso verhalten sich die Knoten 2, 3 und 4 mit den Kanälen von 2 nach 

3, 3 nach 4 und 4 nach 1, so daß kein Transfer durchgeführt werden kann, weil 

jeder ein Teil der Ressourcen des anderen belegt. 

Der geschilderte Fall nach Bild 3.17 kann bei Leitungsvermittlung immer 

dann auftreten, wenn eine neue Verbindung durch Reservierung von Teil- 

107

Knoten 

1 


neg. Ack. 

Knoten 

2 

Transfer: 

4->2 

neg. Ack. 

neg. Ack. 

Transfer: 

2->4 

Knoten 

4 

neg. Ack. 


Knoten 

3 

Bild 3.17: Verklemmung aufgrund zirkularen Wartens auf reservierte Kanäle. 

strecken aufgebaut wird. Ebenso möglich ist das Eintreten dieser Situation bei 

Paketvermittlung mit Wormhole-Routing, da jedes Flit eines Pakets solange einen 

Kanal belegt, bis das erste Flit des Pakets auf dem vordersten Kanal in der 

Kette weiter transportiert werden kann. 

Zum geschilderten zyklischen Warten gemäß Bild 3.16 oder Bild 3.17 existiert 

noch die Variante, daß die Übertragungsrichtung gespiegelt sein kann. 

Aus einem kreisförmigen Warten im Uhrzeigersinn wird dann ein Zyklus im 

Gegenuhrzeigersinn, wie es in Bild 3.18 für den Fall von vier Knoten dargestellt 

ist. 

1 2 

4 

3 

Bild 3.18: Verklemmung in gespiegelter Reihenfolge. 

Wichtig ist festzustellen, daß es sich bei allen gezeigten Beispielen nicht um 

den Spezialfall einer bestimmten, kreisförmigen Netztopologie handelt, sondern 

um alle Kreise, die sich in einen beliebigen Graphen einbetten lassen. 

Zirkulares Warten kann um so schwerer erkannt werden, je mehr Knoten am 

Warten beteiligt sind. Prinzipiell ist die Knotenzahl nicht begrenzt; viele Knoten 

sind jedoch sehr unwahrscheinlich. Bei adaptiven nicht wegminimalen 

Wormhole-Routing-Verfahren kann zusätzlich der Fall auftreten, daß ein Knoten 

sich selbst blockiert, indem die Flits eines Pakets, die von dem Knoten ausgehen, 

einen "Kreis schlagen" und sich ein "früheres" und ein "späteres" Flit 

desselben Pakets an dem Knoten treffen und in die gleiche Richtung wollen. 

Als Schlußfolgerung aus den gezeigten Fallstudien lassen sich drei Sätze über 

Deadlocks aufstellen: 

108

Satz 3.2: Solange in einem Netz keine vollen Puffer bzw. keine exklusiv belegten 

Kanäle existieren, sind Verklemmungen nicht möglich. 

Satz 3.3: Volle Puffer oder belegte Kanäle sind dann Deadlock-trächtig, wenn 

ein kreisförmiges (zyklisches) Warten auf Pufferplatz oder Kanalkapazität 

stattfinden kann. 

Satz 3.4: An einem Deadlock können eine beliebige Zahl (1,2,...,n) von Kommunikationen 

beteiligt sein. 

Diese Sätze haben ein gewisse Praxisrelevanz bei der Verhinderung von Deadlocks. 

Im allgemeinen wird man jedoch versuchen, ein a priori verklemmungsfreies 

Routing-Verfahren auszuwählen. 

Verhinderung von Deadlocks 

Nach der Darstellung, unter welchen Bedingungen Verklemmungen auftreten 

können, geht es nun um Methoden zu ihrer Vermeidung. Es zeigt sich, daß die 

Verhinderung einer Verklemmung, die durch zyklisches Warten auf Kanäle 

oder Puffer verursacht wird, nur für den Spezialfall von zwei einander blokkierenden 

Knoten leicht zu bewerkstelligen ist, bei mehr als zwei Knoten jedoch 

besondere Gegenmaßnahmen erfordert. 

Die "Zweier"-Verklemmung nach Bild 3.14 läßt sich leicht durch getrennte 

Sende- und Empfangspuffer vermeiden, weil durch diese Maßnahme auch dann 

noch Daten von Nachbarknoten entgegengenommen werden können, wenn die 

Sendepuffer voll sind. Analog kann man die Verklemmung nach Bild 3.15 

durch die Einführung getrennter Hin- und Rückkanäle lösen. Beim zyklischen 

Fall der Vierer-Verklemmung (Bild 3.16) hingegen führen einfache Maßnahmen 

nicht mehr zum Ziel, wie folgende Konstellation zeigt: 

Vier mit getrennten Sende- und Empfangspuffern versehene und im Kreis geschaltete 

Knoten versuchen, Daten zum jeweils übernächsten Nachbarn zu 

übertragen. Dazu ist es notwendig, daß die Daten in einem Zwischenknoten von 

dem Empfangspuffer in den Sendepuffer transferiert und von dort abgeschickt 

werden können. Die Situation nach Bild 3.19 ist jedoch so, daß die Daten solange 

nicht transferiert werden können, wie der Sendepuffer seinerseits belegt 

ist und auf einen freien Empfangspuffer im Nachbarknoten wartet. Durch die 

zyklische Verbindung wartet jeder Knoten mit dem Transferieren vom Sendezum 

Empfangspuffer, bis der Nachbarknoten seinen Empfangspuffer frei 

macht, was nie der Fall ist. 

Die in Bild 3.19 gezeigte Verklemmung läßt sich vermeiden, wenn es in jedem 

Knoten genauso viele Sende- und Empfangspuffer gibt, wie aufeinander wartende 

Knoten, also in diesem Fall je vier Puffer. 

Man kann zeigen, daß die Einführung von vier virtuellen Kanälen, die das 

Multiplexen voneinander unabhängiger Transfers auf demselben physikalischen 

Kanal erlauben, eine zu Bild 3.19 analoge Deadlock-Situation, die durch 

109

Pakete für 3 

Transfer 1->3 

Pakete von 2 T 

1 

4 

R 

neg. Ack. 

Transfer 

2->4 


Situation: 

Alle Puffer aller 

Knoten sind voll. 

neg. Ack. 

neg. Ack. 

T 

R 


Pakete von 1 

Transfer 

4->2 


Pakete von 3 

T 

R 

2 

neg. Ack. 

Transfer 3->1 

3 

T 

R 

Pakete von 4 

Bild 3.19: Verklemmung trotz getrennter Sende- und Empfangspuffer. 

das Warten auf freie Kanäle entsteht, ebenfalls verhindern kann. Diese Resultate 

lassen sich auf Deadlock-Kreise von mehr als 4 Knoten verallgemeinern: 

Satz 3.5: Eine hinreichende Bedingung zur Vermeidung von Verklemmungen 

in einem Netz ist, daß es genauso viele freie virtuelle Kanäle pro physikalischem 

Kanal bzw. genauso viele freie Puffer pro Knoten gibt, wie im Netz 

Kommunikationen existieren, die zirkular zusammengehören. 

Leider wird in großen Netzen die benötigte Puffer- bzw. Kanalzahl schnell zu 

groß für eine praktische Implementierung dieser Methode, so daß Lösungsansätze 

dieser Art nur dann erfolgreich sind, wenn es gelingt, die notwendige Puffer- 

bzw. Kanalzahl zu reduzieren. Dies ist mit Hilfe von sog. Puffer- bzw. Kanalreservierungsverfahren 

möglich, die im nächsten Abschnitt beschrieben 

werden. Die Reservierungsmethoden resultieren in a priori verklemmungsfreien 

Routing-Verfahren, die entweder nach dem Store-and-Forward- oder 

nach dem Wormhole-Prinzip arbeiten. 

Deadlock-freies Store-and-Forward Routing 

Historisch gesehen wurden die Verfahren für Deadlock-freies, deterministisches 

Store-and-Forward Routing zuerst für Weitverkehrsnetze (WANs) entwickelt 

und später auf Netze für Parallelrechner übertragen. Den meisten Methoden 

dieser Art liegt das Prinzip zugrunde, daß man Datenpakete in 

verschiedene Klassen einteilt und daß die Pakete beim Transfer von einem 

Knoten zum nächsten in die nächsthöhere Pufferklasse wechseln. Dies wird als 

Pufferreservierungsschema bezeichnet und dient dazu, die notwendige Pufferzahl 

für verklemmungsfreies Übertragen möglichst klein zu halten. 

Das einfachste verklemmungsfreie Pufferreservierungsschema, ist das sog. 

Hop-Schema [Toueg79, Merlin81, Gunther81], das die Zahl der Zwischen- 

110

schritte, die ein Paket im Netz zurückgelegt hat, als Zuordnungskriterium von 

Paketklassen zu Pufferklassen benützt: Nach k Zwischenschritten wird ein Paket, 

das von der Flußsteuerung (Flow Control) gestoppt wurde, in die k. Pufferklasse 

eines Zwischenknotens eingespeichert. Dadurch wird ein Paket bei seinem 

Weg durch das Netz bei jedem Zwischenstopp in die jeweils nächsthöhere 

Pufferklasse eingespeichert. Da 0 ≤ k ≤ d gilt, wobei d der Durchmesser des 

Netzwerks ist, müssen nach dem Hop-Schema (d+1) verschiedene Pufferklassen 

in jedem Knoten vorhanden sein, um Deadlocks zu vermeiden. Es gilt also 

für die Zahl K p der im Knoten benötigten Pufferplätze: 

Gl. 3.7: K p = d + 1 

Können Pakete mehr Zwischenschritte zurücklegen, als das Netz groß ist (k > 

d), weil Umwege beim Routing erlaubt sind, dann ist die Zahl der Pufferklassen 

entsprechend größer. 

Die Pufferklassenzahl läßt sich weiter reduzieren, indem man die Knoten 

ebenfalls in Klassen einteilt und als Zwischenschritte nur diejenigen zählt, die 

von einer höheren in eine niedrigere Knotenklasse führen. Dieses verbesserte 

Verfahren heißt Negative-Hop-Schema [Gopal85]. Die Klassenzerlegung der 

Knoten eines Graphen ist eine relativ komplexe Angelegenheit, die mit dem 

Vierfarbenproblem bei Landkarten verwandt ist: Man färbt benachbarte Knoten 

mit verschiedenen Farben so ein, daß insgesamt möglichst wenig Farben benötigt 

werden. Knoten gleicher Farbe gehören zur selben Klasse. Jeder Klasse ist 

eine Nummer zugeordnet, so daß definiert ist, wann ein Übergang von einer höheren 

Knotenklasse in eine niedere erfolgt (="negativer" Übergang). Nach k 

solchen negativen Übergängen wird das Paket in die Pufferklasse k eingespeichert. 

Bei dem Negative-Hop-Schema wird ein Paket bei seinem Weg durch das 

Netz bei jedem Zwischenstopp entweder in einen Puffer einer höheren (positiver 

Übergang) oder niedrigeren Pufferklasse (negativer Übergang) eingespeichert. 

Wenn es insgesamt m Knotenklassen in einem Netz gibt, dann sind in einer 

Sequenz von hintereinander ausgeführten Übergängen maximal (m-1) Übergänge 

von einer höheren in eine niedere Knotenklasse möglich. Der m. Übergang, 

der in der Sequenz ausgeführt wird, muß positiv sein, da er nur von einer 

niederen zu einer höheren Knotenklasse führt kann. Der Prozentsatz der negativen 

Übergänge an der Gesamtzahl aller Übergänge beträgt somit höchstens 

m 

------------ 

– 1 

. Werden in einem beliebigen Netz von einem Paket k Übergänge ausgeführt, 

kann somit die Zahl k neg der negativen Übergänge den Wert ------------k 

m 

m – 1 

m 

nicht überschreiten. Sind beim Routen keine Umwege erlaubt, ist k ≤ d, und es 

ergibt sich für die Zahl der neg. Übergänge k neg des Negative-Hop-Schemas: 

111

Gl. 3.8: 

m – 1 

k neg 

≤ ------------d < d + 1 

m 

m – 1 

Da 0 ≤ k neg 

≤ ------------d gilt, ist die Zahl der Puffer, die bei diesem Verfahren 

m 

für Deadlock-Freiheit benötigt wird: 

Gl. 3.9: 

m – 1 

k p 

= ------------d + 1 

m 

Sind auch adaptive Routing-Verfahren mit Backtracking etc. zugelassen, ist 

k>d möglich und für diesen Fall gilt für die Zahl k p der Pufferklassen: 

Gl. 3.10: 

m – 1 

k p 

= ------------k + 1 

m 

(allgemeines Netz). 

Der Einsparungseffekt beim Negative-Hop-Schema kann für m = 2 bis 

max. 50% gegenüber dem normalen Hop-Reservierungsschema betragen. 

Die Frage, die nun untersucht werden soll, ist, wie klein k p höchstens werden 

kann, damit das Store-and-Forward Routing-Schema verklemmungsfrei bleibt. 

Diese Frage korreliert mit der Aufgabenstellung, wie viele Farben maximal benötigt 

werden, um in einem beliebigen Graphen je zwei benachbarte Knoten 

verschieden färben zu können. Diese Frage läßt sich nicht allgemein beantworten, 

aber man kann zeigen, daß in Ringen, n-dimensionalen Gittern und Hyperkuben 

m = 2 Farben (Knotenklassen) ausreichend sind. Dies kann man sich anhand 

von Bild 3.20 veranschaulichen: 

1 

0 1 

0 

0 

1 0 

1 

0 

0 

1 

1 

1 

1 

0 

0 

1 

1 

0 

0 

0 

1 

1 

1 

1 

0 

0 

0 

0 

1 

1 

0 

0 

1 

1 

0 

0 

1 

Bild 3.20: Zerlegung von Ringen, Gittern und Hyperkuben in die Knotenklassen 0 und 1. 

Unter der Randbedingung von zwei Knotenklassen lassen sich für diese drei 

Topologien verbesserte Werte für die Zahl benötigter Pufferklassen angeben, 

wenn man zusätzlich berücksichtigt, daß der Durchmesser d eines n-dimensionalen 

Gitters aus p Knoten pro Dimension d = n (p-1) beträgt und daß für den 

Hypercube bezüglich des Durchmessers d = n gilt. Damit benötigen diese Topologien 

nach Gl. 3.10 die folgende Zahl von Pufferklassen für Verklem- 

112

mungsfreiheit: 

Gl. 3.11: 

k np ( – 1) 

p 

= ------------------- + 1 

2 

(Gitter) 

Gl. 3.12: 

Im bidirektionalen Ring aus p Knoten ist d 

Gl. 3.13: 

k p 

n 

-- + 1 (Hypercube) 

2 

, so daß gilt: 

k p 

= 1 

-- p , (bidirektionaler Ring) 

2 2 -- + 1 

und für den unidirektionalen Ring hat man (d = p-1) und somit: 

= 

Gl. 3.14: : k p 

= p – 1 

----------- + 1 (unidirektionaler Ring). 

2 

Zusammenfassend kann gesagt werden, daß alle Netze, die auf Store-and-Forward 

Routing basieren, durch die Anwendung des Hop- oder Negative-Hop- 

Pufferreservierungschemas verklemmungsfrei werden, vorausgesetzt, daß eine 

ausreichende Anzahl von Pufferklassen vorhanden ist. Beim Negative-Hop- 

Schema sind soviele Pufferklassen ausreichend, wie in Gl. 3.10 angegeben. Die 

Zahl der zur Berechnung benötigten Knotenklassen hängt von der jeweiligen 

Netztopologie ab. 

Möchte man wissen, ob ein bestimmtes Pufferreservierungsschema für eine 

vorgegebene Netztopologie eine verklemmungsfreie Kommunikation erlaubt, 

kann man einen sog. Verklemmungstest durchführen. 

3.10.5 Deadlock-Test für Store-and-Forward Routing 

Für jedes vorgegebene Netz, das Daten nach der Store-and-Forward-Methode 

transportiert, läßt sich mit Hilfe eines Verklemmungstests überprüfen, ob das im 

Netz verwendete Pufferreservierungsschema Deadlock-gefährdet ist oder ob 

Verklemmungen nie auftreten können. Der Verklemmungstest wird durchgeführt, 

indem man den sog. Pufferabhängigkeitsgraphen des Netzwerkes erstellt. 

Der Test beruht auf folgendem wichtigen Satz von Gunter [Gunter81]: 

Satz 3.6: In einem Netz mit Store-and-Forward Routing kann dann und nur 

dann eine Verklemmung entstehen, wenn der Pufferabhängigkeitsgraph, der 

nach dem jeweiligen Pufferreservierungsschema erstellt wurde, einen gerichteten 

Kreis enthält. 

= 

p 

-- 

2 

113

Der Pufferabhängigkeitsgraph ist ein gerichteter Graph, der folgendermaßen 

konstruiert wird: Jede Pufferklasse eines Netzknotens wird im Pufferabhängigkeitsgraphen 

durch einen Knoten repräsentiert; die Kanten des Graphen 

werden von den Übergängen gebildet, die ein Paket nach dem vorgegeben Routing-Schema 

von einem Knotenpuffer zum Nachbarpuffer durchführen kann. 

Der Verklemmungstest über Pufferabhängigkeitsgraphen soll am Beispiel eines 

Rings erläutert werden. 

Unidirektionaler Ring und Hop-Schema 

Die Verklemmungsfreiheit eines unidirektionalen Rings aus 4 Knoten, bei dem 

die Pufferklassen nach dem Hop-Schema vergeben wurden, kann mit Hilfe des 

Satzes von Gunter getestet werden. Bei der Erstellung des Pufferabhängigkeitsgraphen 

ist zu beachten, daß bei der Topologie des Beispiels ein Paket 

nach höchstens drei Übergängen am Ziel angekommen ist, weil die maximale 

Entfernung in einem unidirektionalen Ring aus vier Knoten d = 3 beträgt. 

Daraus berechnen sich nach dem Hop-Schema d+1 = 4 Pufferklassen. Weiterhin 

muß berücksichtigt werden, daß von jedem Knoten ein neues Paket in den 

Ring eingespeist werden kann. Der zum Ring gehörende Pufferabhängigkeitsgraph 

ist in Bild 3.21 dargestellt. 

Knoten 1 

0 

1 

2 

3 

Knoten 2 

0 

1 

2 

3 

Knoten 3 

0 

1 

2 

3 

Knoten 4 

0 

1 

2 

3 

Bild 3.21: Pufferabhängigkeitsgraph im unidirektionalen Ring (Hop-Schema). 

Da Bild 3.21 keine geschlossenen Kreise enthält, ist das Hop-Schema mit vier 

Pufferklassen für das Beispiel des 4-Knoten-Rings verklemmungsfrei. Das Resultat 

läßt sich auf Ringe beliebiger Größe übertragen, wenn mit zunehmender 

Ringgröße die Zahl der Pufferklassen nach der im vorigen Kapitel angegebenen 

Formel k p = d + 1 berechnet wird. Weiterhin behält das Resultat auch bei allen 

Topologien seine Gültigkeit bei, die aus Ringen bestehen oder in die Ringe eingebettet 

sind. 

Unidirektionaler Ring und Negative-Hop-Schema 

Als zweites Beispiel eines Verklemmungstests soll der Pufferabhängigkeitsgraph 

für die Ringtopologie mit Negative-Hop-Schema erstellt werden. Dazu 

114

wird die benötigte Pufferklassenzahl nach k p 

= p – 1 

----------- + 1 bestimmt, was 3 

2 

Pufferklassen für den unidirektionalen Ring aus vier Knoten ergibt. Daraus erhält 

man den Pufferabhängigkeitsgraph nach Bild 3.22. 

Knoten 1 

Klasse 0 

0 

1 

2 

Knoten 4 

Klasse 1 

0 

1 

2 

Knoten 2 

Klasse 1 

0 

1 

2 

Knoten 3 

Klasse 0 

0 

1 

2 

Bild 3.22: Pufferabhängigkeitsgraph im unidirektionalen Ring (Negative-Hop-Schema). 

Bezüglich der Verklemmungsfreiheit gilt dieselbe Argumentation wie für das 

Hop-Schema, d.h. daß aus der Kreisfreiheit des Graphen Verklemmungsfreiheit 

beim Routing resultiert. Ringe mit mehr als 4 Knoten sind dann verklemmungsfrei, 

wenn die Zahl der Pufferklassen wie oben angegeben berechnet wird. 

Ebenso läßt sich das Resultat auf alle Graphen anwenden, die aus Ringen aufgebaut 

sind. Zu beachten ist, daß das Ergebnis auch auf ringbasierte Topologien 

ausgedehnt werden kann, die in andere Graphen, wie z.B. einem Hypercube, 

eingebettet sind. 

3.10.6 Deadlock-freies, deterministisches Wormhole Routing 

Wormhole Routing ist hinsichtlich der Verklemmungsfreiheit eine besonders 

schwer zu handhabende Routing-Methode. Dafür sind zwei Gründe maßgebend. 

• Für den Fall, daß entweder der Empfänger eines Datenpakets oder ein an der 

Wegstrecke zum Empfänger liegender Zwischenknoten temporär nicht daten= 

aufnahmebereit ist, wird bei Wormhole Routing definitionsgemäß in jedem 

Zwischenknoten ein Flit des Pakets gespeichert. Da darüberhinaus die 

Flits verschiedener Pakete bei der Übertragung auf einem Kanal nicht gemischt 

werden können, belegt ein Flit, das von der Flußsteuerung gestoppt 

wird, nicht nur den Pufferplatz im Zwischenknoten, sondern auch den vom 

Zwischenknoten abgehenden Kanal. Pakete bestehen aus vielen Flits und belegen 

somit bei Flußsteuerungsstop eine Vielzahl aufeinanderfolgender Kanäle 

exklusiv für sich. 

115

• Werden in einem Netzwerk von der Flußsteuerung mehrere Pakete gestoppt, 

kann es nach der Freigabe des Datentransports zu einer gegenseitigen Verklemmung 

kommen. Die Verklemmung tritt dann auf, wenn die Pakete einen 

oder mehrere Kanäle zur Zwischenspeicherung ihrer Flits belegen und wenn 

Flits verschiedener Pakete wechselseitig einen Kanal benötigen, den ein Flit 

des jeweils anderen Pakets belegt hat. Die geschilderte Verklemmungssituation 

kann auf mehr als zwei Datenpakete erweitert werden, wenn diese kreisförmig 

aufeinander warten. 

Da bei hoher Verkehrsdichte häufig entweder der Empfänger oder ein Zwischenknoten 

kurzzeitig nicht Daten aufnahmebereit sind, haben Netze mit 

Wormhole Routing ein hohes Deadlock-Potential und entsprechende Vorbeugemaßnahmen 

müssen getroffen werden. 

Die Situation ist vergleichbar mit der gegenseitigen Verklemmung, die durch 

Warten auf wechselseitig belegte Puffer entsteht und die in Netzen mit Storeand-Forward 

Routing beschrieben wurde. Aufgrund dieser Analogie wurde die 

Idee geboren, die Methoden, die bei Store-and-Forward-Netzen entwickelt 

wurden, auf Wormhole-Netze zu übertragen. Der Beweis für die Richtigkeit 

dieses Vorgehens wurde von Boppana und Chalasani geliefert [Boppana93a]. 

Danach kann man bei Wormhole-Netzen Kanalreservierungsschemata einsetzen, 

die analog zu den Pufferreservierungsschemata bei Store-and-Forward- 

Netzen sind. Insbesondere entspricht der (räumlichen) Unterteilung der Knotenpuffer 

in mehrere, kleine Puffer verschiedener Klassen eine (zeitliche) Unterteilung 

der Übertragungskanäle in mehrere virtuelle Kanäle kleinerer Bandbreite. 

Die virtuellen Kanäle werden im Zeitscheibenverfahren (Multiplex) auf einem 

physikalischen Kanal übertragen. Dabei ist zu beachten, daß die Zeitscheibe, 

die jedem virtuellen Kanal zur Verfügung steht, so groß sein muß, wie ein 

Paket für den Transfer seiner Flits benötigt, da Pakete komplett übertragen werden 

müssen. Die Verwaltung der Übertragungszeit erfolgt auf Paketbasis, weil 

Flits im Netzwerk keine autonomen Verwaltungseinheiten darstellen, weshalb 

sich Flits verschiedener Pakete nicht mischen dürfen. 

Weiterhin ist in jedem Knoten für jeden virtuellen Kanal ein Pufferplatz für 

jeweils ein Flit zu reservieren, so daß es ebenso viele Flit-Puffer wie virtuelle 

Kanäle gibt. Bei aktivierter Flußkontrolle muß das zu übertragende Flit in demjenigen 

Puffer zwischengespeichert werden, der dem zu übertragenden Paket 

zugeordnet ist. Die Flit-Puffer eines Knotens werden dazu in verschiedene Pufferklassenklassen 

eingeteilt, die mit den virtuellen Kanälen korrespondieren. 

Die Analogien zwischen den Puffern in Store-and-Forward-Netzen und den 

Kanälen bei Wormhole Routing gehen über das bereits Gesagte hinaus. Boppana 

und Chalasani [Boppana93a] konnten zeigen, daß aus jedem verklemmungsfreien 

Pufferreservierungsschema ein Reservierungsschema für virtuelle Kanäle 

konstruiert werden kann, das ebenfalls verklemmungsfrei ist, vorausgesetzt, 

daß im Pufferreservierungsschema kein Übergang von einer höheren Pufferklasse 

in eine niedere Klasse erlaubt ist. Da diese Randbedingung von praktisch 

allen Pufferreservierungsschemata eingehalten wird, lassen sich fast genauso 

viele Kanal- wie Pufferreservierungsschemata konstruieren. 

116

Dally und Seitz [Dally87] zeigten schließlich, daß Verklemmungen in einem 

Wormhole-Netz nur dann auftreten können, wenn der dazu gehörende Kanalabhängigkeitsgraph 

nicht kreisfrei ist. Der Kanalabhängigkeitsgraph ist das 

Analogon zum Pufferabhängigkeitsgraphen und wird für ein gegebenes Netz 

bestimmter Topologie folgendermaßen gewonnen: 

Im Kanalabhängigkeitsgraphen stellt jeder Knoten einen virtuellen Kanal 

dar, und je zwei Knoten V 1 und V 2 sind dann gerichtet miteinander verbunden, 

wenn ein Paket, das auf einem virtuellen Kanal (=Knoten V 1 ) ankommt, gemäß 

dem verwendeten Kanalreservierungsschema auf dem anderen virtuellen Kanal 

(=Knoten V 2 ) weitergeschickt werden kann. 

Unidirektionaler Ring und Negative-Hop-Schema 

Im folgenden wird als Beispiel für die Sätze von Boppana und Chalasani bzw. 

Dally und Seitz ein Kanalreservierungsschema für den unidirektionalen Ring 

aus 4 Knoten hergeleitet, der blockierungsfrei Daten über Wormhole Routing 

überträgt. Wie beim Negative-Hop-Pufferreservierungsschema, das bei Storeand-Forward 

Routing angewandt wird, werden im ersten Schritt des Verfahrens 

die Knoten des Rings in die Klassen 0 und 1 eingeteilt. Im zweiten Schritt werden 

entsprechend zu den Pufferklassen virtuelle Kanäle verschiedener Klassen 

gebildet. Zu beachten ist dabei, daß folgende Regel gilt: Beim Kanalreservierungsschema 

wechselt ein Paket von Kanalklasse a zur "höheren" Klasse b, 

wenn es von einem Knoten der Klasse 1 zu einem Knoten der Klasse 0 übertragen 

wird (=negativer Übergang). Bei einem positiven Übergang bleibt das Paket 

in derselben Kanalklasse. 

Im Gegensatz zu den drei Pufferklassen des Negative-Hop-Schemas, die für 

verklemmungsfreien Datenverkehr im unidirektionalen Store-and-Forward- 

Ring aus 4 Knoten nötig waren, sind hier nur zwei Kanalklasssen a und b erforderlich. 

Der Grund liegt darin, daß im Beispiel die maximale Entfernung drei 

Kanalübertragungen und zwei Zwischenknoten beträgt, wobei an dem einen 

Zwischenknoten ein positiver und an dem anderen Zwischenknoten ein negativer 

Übergang stattfindet. Nur beim Zwischenknoten mit dem negativen Übergang 

muß die Kanalklassse gewechselt werden, so daß insgesamt 2 Kanalklassen 

ausreichen. Der unidirektionale Ring und sein dazu gehöriger Kanalabhängigkeitsgraph 

sind in Bild 3.23 dargestellt. 

Da in Bild 3.23 keine geschlossenen Kreise existieren, ist das zum Negative- 

Hop-Schema analoge Kanalreservierungsschema verklemmungsfrei. Wiederum 

läßt sich das Resultat auf Ringe beliebiger Größe erweitern, wenn die Anzahl 

der Kanalklassen entsprechend der Pufferklassenzahl des Negative-Hop- 

Schemas berechnet wird. Ebenso sind alle Netze mit Wormhole Routing und 

entsprechender Kanalklassenzahl verklemmungsfrei, die aus Ringen aufgebaut 

sind. 

Dally und Seitz [Dally87] verbesserten dieses Ergebnis für den Fall von k-nären 

n-Kuben, die aus Wrap Around-Verbindungen in Form von unidirektionalen 

Ringen bestehen und die ein spezielles von Dally und Seitz entwickeltes 

Wormhole Routing-Verfahren benützen. Sie zeigten, daß unter diesen Randbe- 

117

a 

b 

0 

b 

a 

a 

b 

1->0 

b 

a 

1 

1 

0->1 

0->1 

a 

b 

0 

b 

a 

a 

b 

1->0 

b 

a 

Bild 3.23: Unidirektionaler Ring mit zwei Kanalklassen und Kanalabhängigkeitsgraph. 

dingungen zwei Kanalklassen für Verklemmungsfreiheit ausreichen. Dies ist 

insofern bemerkenswert, als daß die Kanalklassenzahl unabhängig von der 

Ringgröße ist. 

3.10.7 Deadlock-freies, adaptives Store-and-Forward Routing 

Bei adaptivem Store-and-Forward Routing muß man unterscheiden, ob beim 

Weg durch das Netz Umwege, wie sie z.B. beim Backtracking entstehen können, 

erlaubt sind oder nicht. Adaptive Store-and-Forward Verfahren mit minimaler 

Weglänge können über die bekannten Pufferreservierungsschemata verklemmungsfrei 

betrieben werden, sofern ihr Pufferabhängigkeitsgraph kreisfrei 

ist und genügend Pufferklassen vorhanden sind. 

Ist eine jedoch nicht-minimale Weglänge erlaubt, kann das Hop-, Negative- 

Hop- oder ein anderes Pufferreservierungsschema nicht eingesetzt werden, weil 

ein Paket eine nicht vorhersagbare Zahl von Zwischenknoten passieren kann, 

so daß sich die Anzahl der Pufferklassen nicht bestimmen läßt. Dementsprechend 

basieren Store-and-Forward-Routingverfahren wie das sog. Chaos- 

Routing [Konstantin91], die zugleich nicht-minimal, adaptiv und verklemmungsfrei 

sind, nicht auf Reservierungschemata. Sie enthalten entweder Zufallselemente, 

die eine Ursache-Wirkung-Beziehung, wie sie bei Deadlocks 

existieren, aufheben, oder sie beruhen auf separaten Gegenmaßnahmen zur 

Deadlock-Vermeidung. 

Chaos Routing 

Chaos-Routing ist eine Kombination von Store-and-Forward Routing, Deflection 

Routing [Baran64], das im nächsten Abschnitt erläutert wird, und zentraler 

Pufferung; virtuelle Kanäle werden nicht verwendet. Jeder Knoten hat für 

jeden physikalischen Kanal einen Puffer für je ein Sende- und ein Empfangspaket. 

Zusätzlich gibt es noch einen für alle Kanäle gemeinsamen FIFO-Puffer 

mit Platz für mehrere Pakete. Solange bei keinem Knoten ein Kanal belegt ist, 

wandern die Pakete deterministisch gemäß Store-and-Forward durch das Netz. 

118

Sobald ein Sendekanal für ein Paket nicht zur Verfügung steht, wird dieses in 

dem zentralen FIFO-Speicher zwischengelagert. Parallel dazu wird das vorderste 

Paket des FIFOs ausgelesen und auf dem gewünschten Sendekanal gegeben, 

sofern dieser frei ist. Ist über längere Zeit kein Kanal frei, droht auch der Zentralspeicher 

voll zu werden. Dann wird diesem ein zufällig ausgewähltes Paket 

entnommen und es auf irgendeinem freien Kanal abgeschickt, um wieder Pufferplatz 

zu gewinnen (Aufgrund dieses Zufallelements kam die Namensgebung 

Chaos-Routing zustande). 

Chaos Routing ist verklemmungfrei, weil jeder Knoten stets in der Lage ist, 

ein neues Paket aufzunehmen, denn seine Puffer laufen nie über. Es ist aber 

auch frei von ewig kreisenden Paketen, weil es sehr unwahrscheinlich ist, daß 

ein und dasselbe Paket mehrere Male dem zentralen FIFO zufällig, d.h. außerhalb 

der Reihe entnommen wird, um es auf einem ebenso zufällig ausgewählten 

Kanal weiterzuschicken. 

Deflection Routing 

Ein anderes nicht-wegminimales, adaptives und verklemmungsfreies Routing- 

Verfahren ist das Deflection Routing, das auch als Hot Potatoe Routing bezeichnet 

wird. Bei diesem Verfahren wird die Methode angewandt, daß anstelle 

eines besetzten Sendekanals, der für den Weitertransport benötigt wird, ein beliebiger 

andere Kanal, der gerade frei ist, zum Abschicken des Pakets dient. 

Trotz dieses starken Zufallselements, das dem Hot Potatoe Routing auch seinen 

Namen gab, ist dieses Verfahren unter bestimmten Bedingungen 

[Greenberg92] effizient bei der Datenübertragung. Beim Deflection Routing 

gelangt ein Paket deshalb zum Ziel, weil bei jedem Zwischenknoten, den das 

Paket auf seinem (zufälligen) Weg durch das Netz passiert, erneut versucht 

wird, das Paket die richtige Richtung, d.h. zum Empfänger hin zu transportieren. 

Allerdings kann es bei Deflection Routing passieren, daß ein Paket beliebig 

lange im Netz kreist, was als Livelock bezeichnet wird, sofern nicht entsprechende 

Gegenmaßnahmen getroffen sind, z.B. in der Art, daß in die falsche 

Richtung geschickte Pakete gegenüber "normalen" Paketen bevorzugt werden. 

3.10.8 Deadlock-freies, adaptives Wormhole Routing 

Bei adaptivem Wormhole Routing muß wie bei Store-and-Forward Routing unterschieden 

werden, ob nicht-minimale Wege erlaubt sind oder nicht. wegminimale 

Verfahren können über Reservierungen von virtuellen Kanälen verklemmungsfrei 

gemacht werden, allerdings ist hier die benötigte Kanalzahl 

wesentlich höher als bei deterministischen Verfahren. Bei nicht eingeschränkter 

Wegewahl, d.h. voller Adaptivität steigt bei einigen Wormhole-Verfahren 

[Linder91, Boppana93b] die Zahl der virtuellen Kanäle exponentiell an, 

obwohl sie wegminimal sind, wie Tabelle 3.2 zeigt. Damit sind diese Methoden 

in der Praxis zu aufwendig für eine Implementierung. 

119

Anzahl virtueller Kanäle k-närer n-Kubus n-dimensionales Gitter 

bei unidirektionalen Links n+1 - 

bei bidirektionalen Links 2 n (pro Richtung) 2 n-1 (pro Richtung) 

Tabelle 3.2: Zahl der benötigten virtuellen Kanäle bei Deadlock-freien, adaptiven Wormhole 

Routing-Verfahren nach Linder und Boppana [Linder91, Boppana93b]. 

Es gibt jedoch nicht-wegminimale Wormhole Routing-Verfahren, die mit geringem 

Aufwand implementierbar sind und die deadlockfrei arbeiten. Sie beruhen 

auf dem sog. Turn-Modell, das die Beweglichkeit eines Pakets in einem 

Netz gezielt einschränkt und dadurch sowohl Deadlocks als auch eine aufwendige 

Implementierung vermeidet. 

Turn-Modell 

Im folgenden soll exemplarisch ein nicht-wegminimales, Deadlock-freies, adaptives 

Wormhole Routing-Verfahren für den Spezialfall von n-dimensionalen 

Gittern erläutert werden, das keine virtuellen Kanäle benötigt. Es basiert auf der 

Beobachtung, daß im regelmäßigen Gitter zyklische Deadlocks dann vermieden 

werden können, wenn man für die Pakete bestimmte Richtungswechsel 

ausschließt [Stricker91]. 

In Bild 3.24a sind die beiden Deadlock-Szenarien dargestellt, die es prinzipiell 

gibt: Der Deadlock-Kreis im Uhrzeiger- und im Gegenuhrzeigersinn. Zusätzlich 

sind in Bild 3.24b die Richtungswechsel gezeigt, die Datenpakete machen 

müssen, um diese Kreise zu erzeugen. 

Nach dem Turn-Modell von Glass und Ni [Glass92] genügt es für ein Paket in 

einem ebenen Gitter, einen Richtungswechsel sowohl im Uhrzeigersinn, z.B. in 

Ostsüdrichtung, als auch im Gegenuhrzeigersinn, z.B. Nordwestrichtung, auszuschließen, 

um Deadlocks zu vermeiden. Dies ist eine einfache und zugleich 

wirkungsvolle Methode der Deadlock-Vermeidung. 

Eine Konsequenz dieses Modells ist beispielsweise, daß bei Wormhole Routing 

Sende- und Empfangsknoten voneinander verschieden sein müssen, da Pakete 

nicht zum Ursprungsknoten zurückkehren können. Dies ist außer für Testzwecke 

auch nicht nötig. 

Zu beachten ist weiterhin, daß die in Bild 3.24a abgebildeten Deadlock-Kreise 

vom Prinzip her topologieunabhängig sind, da bei allen Netzen, in die man 

Kreise eingebetten kann, auch Verklemmungen entstehen können. 

Das Turn-Modell kann auf mehr als 2 Raumdimensionen erweitert werden. Die 

Erweiterung auf n-dimensionale Gitter erfolgt dergestalt, daß man berücksichtigt, 

daß in einem n-dimensionalen Gitter n(n-1) ebene Kreise möglich sind, 

die jeweils aus vier 90-Grad Richtungswechseln bestehen. 

Der Grund für den Faktor n(n-1) liegt darin, daß man 2 Dimensionen pro 

Kreis benötigt und daß für die erste Dimension n und für die zweite (n-1) Mög- 

120

1 2 

1 2 

a) 

4 

3 

4 

3 

Nordost 

Ostsüd 

Westsüd 

Nordwest 

b) 

Westnord 

Südwest 

Südost 

Ostnord 

Bild 3.24: Die beiden Deadlock-Szenarien (a) und ihre Richtungswechsel in der Ebene (b). 

lichkeiten zur Etablierung des Kreises zur Verfügung stehen. Dabei muß man 

einen Unterschied bzgl. der Reihenfolge der Dimensionen machen: Die Ebene, 

die durch das Dimensionpaar (i, j) definiert ist, unterscheidet sich von der (j, i)- 

Ebene (i, j = x,y,z,...) darin, daß sie die entgegengesetzte Kreisrichtung repräsentiert 

(positiver bzw. negativer Umlaufsinn). Glass und Ni [Glass92] zeigten, 

daß es zur Verklemmungsfreiheit genügt, in jedem der n(n-1) Kreise einen einzigen 

Richtungswechsel auszuschließen. 

Der Ausschluß bestimmter Richtungswechsel kann auf verschiedene Arten 

erfolgen. Eine einfache Methode ist das sog. Negative First-Verfahren. 

Negative First-Verfahren 

Das Verfahren soll anhand des Falles erläutert werden, daß man im 2-D Gitter 

den Ostsüd- und den Nordwestwechsel ausschließen möchte. Dazu wird das 

Routing-Verfahren in zwei getrennten Phasen durchgeführt. In der ersten Phase 

werden Datenpakete nur in negativer, d.h. in (-x)- und (-y)-Richtung und in der 

zweiten Phase nur in positiver Richtung (+x) und (+y) übertragen. Die Ostsüdund 

Nordwestwechsel lassen sich auch als (+x-y)- bzw. (+y-x)-Wechsel beschreiben, 

woran man erkennen kann, daß diese Wechsel eine Routing-Reihenfolge 

erfordern würden, die zuerst in positiver und dann in negativer Richtung 

abläuft. Aufgrund des vorgebenen umgekehrten Ablaufs sind die unerwünschten 

Richtungswechsel unterbunden. 

In Bild 3.25 ist als zweites Beispiel ein ebenes Gitter gezeigt, auf das das Negative 

First-Verfahren angewandt wird. Es ist darin die Menge der potentiell 

wählbaren Kanäle zwischen den Knoten 1 und 2 eingezeichnet, wobei die (-x)- 

bzw. (-y)-Phase des Routing-Verfahrens auf einen Paketübergang begrenzt ist. 

Je nach Verkehrsbelastung im Gitter kann an jedem Zwischenknoten auf dem 

121

Weg vom Sender zum Empfänger ein Kanal ausgewählt werden. Nordwestund 

Ostsüdwechsel sind, wie man sich überzeugen kann, nicht vorhanden. 

Dementsprechend können auch keine Deadlock-Zyklen existieren. 

4 

3 

2 

2 

1 

1 

y 

0 

0 

1 

2 

3 

4 

x 

Bild 3.25: Routingpfade nach dem Negative First-Verfahren im ebenen Gitter. 

Das dem Negative First-Verfahren zugrunde liegende Prinzip läßt sich folgendermaßen 

beschreiben: 

• Zuerst wird das Paket vom Sendeknoten um n (n = 0, 1, 2,..) (negative) Wechsel 

vom Zielknoten entfernt. 

• Danach strebt das Paket in der minimalen Zahl von (positiven) Wechseln auf 

den Empfängerknoten zu. 

Die Bewegung des Datenpakets kann mit einem Pendel vergleichen werden, 

das in der 1. Phase des Verfahrens vom Startknoten ausgelenkt wird und in der 

2. Phase in Richtung des Zielknotens zurückschwingt. Das bedeutet, daß nur die 

negative Phase dem Datenpaket Gelegenheit gibt, sich vom Ziel zu entfernen, 

sofern die Verkehrssituation das erfordert. Rückwege wie beim Backtracking 

sind nicht möglich. 

Im Beispiel nach Bild 3.25 sind S(1|2) und E(3|3) die Koordinaten des Sendebzw. 

Empfangsknotens in der x-y Ebene. Die Position der größtmöglichen Ablenkung, 

die am Ende der 1. Phase erreicht wird, hat die Koordinaten S'(0|2) 

3 

bzw. S'(1|1). Daraus erhält man einen Differenzvektor D = E – S' = ⎛ ⎞ 

⎝1⎠ 

2 

bzw. D = ⎛ ⎞ , um den das Paket in der 2. Phase voranschreiten muß. Es spielt 

⎝3⎠ 

keine Rolle, in welcher Reihenfolge die Übergänge in (+x)- und (+y)-Richtung 

durchgeführt werden. 

122

n-dimensionales Negative First-Verfahren 

Das Negative First-Verfahren läßt sich auf n Dimensionen erweitern. In einem 

k-nären, n-dimensionalen Gitter ohne Wrap Around-Enden seien S = s n s n- 

1 ,...,s 1 der Sende- und E = e n e n-1 ,...,e 1 der Empfangsknoten, wobei S und E in 

Koordinatenschreibweise zur Zahlenbasis k (0 ≤ s i ,s j < k) dargestellt sind, und 

die i-te Ziffer die Koordinate entlang der i-ten Dimension angibt. Mit S' sei der 

maximale Pendelausschlag am Ende der ersten Phase bezeichnet, wobei für S' 

gelten soll: S' = s n 's n-1 ',...,s 1 '. Dann ist die Zahl der Schritte, die in der zweiten 

Phase des Verfahrens in jeder Dimension bis zum Zielknoten zurückgelegt werden 

muß: 

⎛ e n 

– s' n ⎞ 

⎜ 

⎟ 

⎜e n – 1 

– s' n – 1 ⎟ 

Gl. 3.15: D = ⎜ 

⎟ . 

⎜ … ⎟ 

⎜ 

⎟ 

⎝ e 1 

– s' 1 ⎠ 

Wiederum spielt die Reihenfolge der Dimensionen und die Zahl der Schritte innerhalb 

einer Dimension keine Rolle. Was zählt ist, daß am Ende der 2. Phase 

die notwendige Zahl der Schritte in jeder Dimensionen zurückgelegt ist. Für S' 

sind die folgenden Bedingungen zu erfüllen: 

Gl. 3.16: ( s , 

i 

' ≤ s i 

∧ s i 

' ≤ e i 

) 

d.h. S' darf nicht "rechts" bzw. "oberhalb" von Sender und Empfänger sein. 

Wegminimales Negative First-Verfahren 

n 

∧ 

i = 1 

Das Turn-Modell in Kombination mit dem Negative First-Verfahren läßt sich 

auch als Deadlock-freie, adaptive Routingmethode mit minimaler Weglänge 

betreiben. In Bild 3.25 beispielsweise sind die Koordinatendifferenzen in x- 

und y-Richtung zwischen Knoten 2 und Knoten 1 positiv, so daß in diesem Fall 

die Zahl der Paketübergänge der negativen Phase auf Null reduziert werden 

könnte. Jeder der verbleibenden Pfade ist dann zugleich wegminimal. Im Allgemeinfall 

kann der Empfängerknoten auch "links" bzw. "unterhalb" des Sendeknotens 

liegen, so daß die negative Phase unbedingt erforderlich ist. Generell 

muß für Wegminimalität die Zahl der Paketübergänge in der negativen Phase 

in jeder Dimension so gewählt werden, daß das Ziel in der positiven Phase mit 

der kleinsten Zahl von Schritten erreicht werden kann. 

123

p-cube Routing 

Wenn das Turn-Modell zusammen mit dem Negative First-Verfahren auf binäre 

n-Kuben als einem Spezialfall k-närer, n-dimensionaler Gitter angewandt 

wird, spricht man vom p-cube Routing [Glass92]. Die Weglänge beim p-cube 

Routing kann wahlweise minimal oder nicht minimal sein. 

Beispiel: 

Sei S = 101 die binäre Adresse eines Sendeknotens in einem 3-D Kubus und E 

= 010 die Adresse des Empfängers, dann ist für wegminimales Routing eine 

Negativphase der Länge 2 und eine Positivphase der Länge 1 erforderlich, um 

vom Sender zum Empfänger zu gelangen, da die Bits der Wertigkeit 2 2 und 2 0 

von 1 auf 0 (negative Richtung) und das 2 1 Bit von 0 auf 1 (positive Richtung) 

geändert werden müssen. Dazu sind die beiden Pfade 101->001->000->010 

bzw. 101->100->000->010 alternativ geeignet. 

Bei nicht-wegminimalem p-cube Routing können die Routing-Phasen länger 

als minimal nötig dauern. Ein Beispiel dafür lautet: S = 111, E = 110, Pfad: 111- 

>011->010->110. S' ist hier 010. 

Numerierungs-Routing 

Eine dritte Möglichkeit, bestimmte Richtungswechsel auszuschließen, besteht 

darin, die Kanäle einer gegebenen Topologie auf eine besondere Art zu numerieren 

[Dally87]. Die Numerierung erfolgt so, daß jeder erlaubte Richtungswechsel 

einem Übergang von einem Kanal mit niedriger Nummer zu einem Kanal 

mit höherer Nummer entspricht. Übergänge von höheren zu niedrigeren 

Kanalnummern sind nicht erlaubt. Jeder Knoten darf nur einmal besucht werden, 

Rückwege wie beim Backtracking sind verboten, Sende- und Zielknoten 

müssen verschieden sein. Ein Pfad zwischen Sender und Empfänger besteht bei 

diesem Verfahren aus einer streng monoton steigenden Sequenz von Kanalnummern, 

wodurch die "schädlichen" Richtungswechsel ausgeklammert 

und Verklemmungsfreiheit garantiert wird. 

Wichtig ist festzustellen, daß es für sehr viele Topologien eine solche Numerierung 

gibt. Umgekehrt ist die Blockierungsfreiheit einer bestimmten Topologie 

dadurch bewiesen, daß das Numerierungsschema möglich ist [Dally87]. 

In Bild 3.26 ist eine Numerierung für ein ebenes Gitter [Varma94] und in Bild 

3.27 für einen 3-dimensionalen Würfel [Varma94] gezeigt, bei denen durch Befolgen 

der Übergangsregel bestimmte Richtungswechsel ausgeschlossen sind. 

Voraussetzung für Verklemmungsfreiheit ist bei beiden Beispielen, daß in den 

Knoten getrennte Sende- und Empfangspuffer für je ein Flit vorhanden sind. 

Der Vorteil des Numerierungsverfahrens gegenüber dem Negative First-Verfahren 

liegt darin, daß keine zwei verschiedenen Phasen durchlaufen werden 

müssen. Diese Routing-Methode ist dadurch schneller, sie erfordert jedoch eine 

Initialisierungzur Festlegung der Kanalnumerierung. 

124

3 

10 

17 

2 

44 

45 9 

4 

37 30 

38 16 31 23 24 

11 18 

1 

43 

46 8 

5 

36 29 

39 15 

12 

32 22 

19 

25 

keine 


Richtungswechsel 

0 

42 

47 7 

6 

35 28 

40 14 33 21 26 

13 20 

41 34 

27 

Bild 3.26: Verklemmungsfreies Routing im 2-D Gitter durch spezielle Kanalnumerierung. 

110 

0 

111 

4 

5 

5 

14 0 

1 1 5 

100 

0 

4 

010 1 011 

3 2 3 4 4 4 

2 

1 

1 

2 

000 001 

3 

keine 


Richtungswechsel 

Bild 3.27: Verklemmungsfreies Routing im 3-D Würfel durch Numerierung. 

125

3.11 Theorie statischer Graphen 

(Cayley-Graphenmodell) 


Im Jahre 1989 wurde von S. B. Akers und B. Krishnamurthy [Akers89] eine 

Theorie der statischen Netze veröffentlicht, die einen bedeutenden Fortschritt 

auf diesem Gebiet darstellt. Eine Vielzahl bekannter sowie zukünftiger Graphen, 

die knotensymmetrisch sind, können nach dieser Theorie einheitlich spezifiziert 

werden. Die Theorie basiert darauf, daß man die Elemente spezieller 

algebraischer Gruppen, der sog. Permutationsgruppen, mit den Knoten eines 

symmetrischen Graphen identifiziert, ähnlich, wie dies bereits bei der Konstruktion 

des Star-Graphen gezeigt wurde. In dieser Sichtweise sind zwei Knoten 

dann miteinander verbunden, wenn ihre korrespondierenden Gruppenelemente 

durch Permutation auseinander hervorgehen. 

Der Vorteil der einheitlichen Darstellung aller knotensymmetrischen Graphen 

nach der Methode von Akers und Krishnamurthy liegt darin, daß man im 

voraus aus den Eigenschaften von Permutationsgruppen auf die Eigenschaften 

vieler knotensymmetrischer Graphen schließen kann. Damit muß man Sätze 

über knotensymmetrische Graphen unterschiedlicher Topologie nicht mehr einzeln 

beweisen, sondern kann topologieübergreifende Aussagen über eine ganze 

Graphenklasse machen. Dies ist der entscheidende Fortschritt dieser Theorie. 

Die Theorie von Akers und Krishnamurthy besteht aus zwei Teilen. In dem 

ersten Teil werden die sog. Cayley-Graphen vorgestellt, die auf Permutationsgruppen 

beruhen. Damit lassen sich nicht nur solche bekannte Graphen wie 

Barrelshifter, Hypercube und Cube-Connected-Cycles auf Cayley-Graphen zurückführen, 

sondern es können auch neue Graphen wie Star-Graph, Bubble- 

Sort-Graph, Pancake-Graph [Akers89] usw. erzeugt werden. In einem zweiten, 

allgemeinen Teil der Theorie werden die Cayley-Graphen so erweitert, daß 

damit alle knotensymmetrischen Graphen erfaßt werden können. 

Die Forschungsarbeiten auf dem Gebiet der Cayley-Graphen wurden von 

Akers und Krishnamurthy nicht abgeschlossen, sondern erst initiiert. Es ist zu 

erwarten, daß aus der Theorie der Cayley-Graphen weitere Topologien und 

Graphen besonderer Eigenschaften gefunden werden. 

Leider sind zum Verständnis der speziellen und der allgemeinen Cayley-Graphentheorie 

gewisse Kenntnisse der mathematischen Gruppentheorie erforderlich, 

so daß die Arbeit von Akers und Krisnamurthy nicht leicht zugänglich 

ist. Der Aufwand für die Einarbeitung in diese Theorie ist jedoch aufgrund deren 

Bedeutung gerechtfertigt. Im folgenden wird deshalb eine knapp gefaßte 

Darstellung desjenigen Teils der Gruppentheorie gegeben, der für Cayley-Graphen 

unbedingt benötigt wird. Zur Vertiefung der mathematischen Grundlagen 

der Cayley-Graphen wird darüberhinaus z.B. auf [Böhme92] verwiesen. Zur 

Ergänzung ist weiterhin eine Darstellung der Graphentheorie, wie sie z.B. in 

[Chartrand93] enthalten ist, empfehlenswert. 

126

3.11.2 Gruppentheorie für Cayley-Graphen 

Definition einer Gruppe 

Zur Definition algebraischer Gruppen beginnt man mit der Definition von algebraischen 

Strukturen: 

Def. 3.6: Algebraische Strukturen sind nichtleere Mengen M, sog. Träger, mit 

mindestens einer algebraischen Verknüpfung *, für die gilt: *:(a,b)→a*b ∈M 

(mit a,b∈M). 

D.h., die Verknüpfung zweier Elemente einer Trägermenge gibt wieder ein Element 

der Trägermenge. Diese Eigenschaft wird auch als die Abgeschlossenheit 

von M bezüglich der Verknüpfung * bezeichnet. Auf einer algebraischen Struktur 

läßt sich eine Halbgruppe definieren: 

Def. 3.7: Die algebraische Struktur (H, *) heißt Halbgruppe, wenn * bzgl. M 

abgeschlossen ist und wenn gilt: 

∧ 

a, b, 

c∈ 

M 

[( a ⋅ b) ⋅ c = a ⋅ ( b ⋅ c) 

] 

(=assoziativ). 

Beispiele für assoziative Verknüpfungen sind die Addition bzw. die Multiplikation 

der natürlichen Zahlen. Entsprechend sind (N,+) und (N,·) zwei Halbgruppen. 

Aus der Halbgruppe folgt durch die Hinzunahme weiterer Eigenschaften 

die Definition einer Gruppe: 

Def. 3.8: Die algebraische Struktur (G,*) heißt Gruppe, wenn außer der Abgeschlossenheit 

und der Assoziativität noch ein neutrales Element e und ein inverses 

Element a -1 existiert, für die gilt: 

e 

∨ ∧ ( e ⋅ a = a⋅ 

e = a) 

und ∧ ∨ ( a – 1 ⋅ a = a ⋅ a – 1 = e) 

. 

∈ G 

a ∈ G 

a ∈ G 

a – 1 ∈ G 

(∨ heißt: "Es existiert genau ein".) Aus der Definition des neutralen Elements 

e resultiert die Definition des inversen Elements a -1 . Daraus folgt wiederum, 

daß die Gleichung a ⋅ x = b die Lösung x = a – 1 ⋅ b hat. Zusätzliche Eigenschaften 

kennzeichnen höhere algebraische Strukturen. 

Def. 3.9: Eine Gruppe heißt Abelsche oder kommutative Gruppe, wenn zusätzlich 

das Kommutativgesetz ( a ⋅ b = b ⋅ a) 

gilt. 

∧ 

a, 

b∈ 

G 

127

Für nicht Abelsche Gruppen gilt das Kommutativgesetz nur für die Spezialfälle 

a*e=e*a und a*a -1 =a -1 *a. Beispiele für kommutative Gruppen sind die ganzen 

positiven und negativen Zahlen bzgl. der Addition (Z,+) mit e = 0 und a -1 = -a 

sowie die rationalen Zahlen ohne die Null bzgl. der Multiplikation (Q \ 0,·)mit 

e = 1 und a -1 = 1/a. 

Nach der Definition mathematischer Gruppen geht es nun darum, eine allgemeine 

Darstellung für endliche Gruppen (=Gruppen mit endlich vielen Elementen) 

zu finden, da Cayley-Graphen endlich viele Knoten haben. Für diesen 

Zweck erweisen sich Permutationen von Zahlenanordnungen als besonders 

nützlich, deshalb wird im folgenden der Begriff der Permutation in der Gruppentheorie 

und verschiedene Permutationsschreibweisen erläutert. 

Definitionen von Permutationen 

Aus der Kombinatorik ist der Begriff der Permutationen bereits bekannt. Dort 

heißt jede Anordnung von n Elementen eine Permutation dieser Elemente, wobei 

die Anzahl aller Permutationen von n Elementen gleich 

1 ⋅2 ⋅3 ⋅ … ⋅ n = n! ist. In der Gruppentheorie wird eine Permutation zusätzlich 

als Abbildung interpretiert. Die Permutation 321 beispielsweise, die aus der 

"natürlichen" Anordnung 123 entstanden ist, definiert in der Gruppentheorie 

die zyklische Abbildung 1→ 3, 2 → 2, 

3 → 1. Permutationsabbildungen sind 

für die Gruppentheorie deshalb wichtig, weil sie die Konstruktion endlicher 

Gruppen ermöglichen und deren Darstellung vereinfachen. Somit müssen zum 

Verständnis der Cayley-Graphen die Permutationsfunktionen näher erläutert 

werden. 

Für die Spezifikation von Permutationen gibt es verschiedene Möglichkeiten, 

die sich jeweils für einen bestimmten Zweck besonders eignen. Die übersichtlichste 

Darstellungsform für die Permutation 

p: M → M mit 1 → p( 1) , 2 → p( 2) 

, …, 

n → p( n) 

ist die Matrizenschreibweise 

p 

= 

⎛ 1 

⎝p( 1) 

2 

p( 2) 

… 

… 

n ⎞ , 

pn ( ) ⎠ 

bei der zugeordnete Elemente jeweils untereinander stehen. Die Matrizenschreibweise 

ist folgendermaßen zu lesen: Die Zahl 1 (= 1. Element in der 1. 

Zeile der Matrix) wird abgebildet auf, d.h. ersetzt durch p(1), die Zahl 2 wird 

ersetzt durch p(2), 3 durch p(3), usw. Die Matrizenschreibweise definiert Permutationen 

also als die Abbildung der geordneten Zahlenfolge 1,2,3,.. auf Permutationen 

dieser Folge. 

128

Aufgrund der Tatsache, daß Permutationen bijektiv, d.h. umkehrbar eindeutig 

sind, folgt: 

∧ 

i, 

j∈ 

M ∧ i≠ 

j 

pi () ≠ pj (). 

Die Matrizenschreibweise läßt sich auch als Tabelle bzw. als Adresse-Inhaltsbeziehung 

interpretieren, bei der die erste Zeile das Suchkriterium (=Adresse) 

darstellt und die zweite Zeile den dazu gehörenden Inhalt. In dieser Interpretation 

ist es nicht notwendigerweise erforderlich, daß die Adressen in aufsteigender 

Reihenfolge sortiert sind, sondern sie können ihrerseits permutiert sein. 

Ein Beispiel für eine sortierte Permutation ist: 

p 

= 

⎛1 2 3 4⎞ 

. 

⎝4 1 2 3⎠ 

Ein Beispiel für eine unsortierte Permutation lautet: 

p' 

= 

⎛2 1 4 3⎞ 

. 

⎝1 4 3 2⎠ 

Beide Permutationen sind zueinander identisch. 

Eine Variante der Matrizenschreibweise ist die Vektorschreibweise, bei der 

die zweite Zeile der sortierten Matrix als Vektor geschrieben wird. Beispielsweise 

ist p = (4123) die Vektorschreibweise der oben angegeben, sortierten Permutation. 

Aus der Matrizendarstellung läßt sich als weitere Darstellungsform die Zyklenschreibweise 

ableiten, die für das obige Beispiel p = (1432) lautet und die 

trotz identischer äußerer Form von der Vektorschreibweise zu unterschieden 

ist. Um Verwechslungen zu vermeiden, wird deshalb im weiteren nur die Zyklenschreibweise 

und nicht die Vektorschreibweise verwendet. Der Unterschied 

zwischen Vektor- und Zyklenschreibweise besteht darin, daß bei der 

Vektorschreibweise die Elemente der sortierten Zahlenfolge 1, 2, 3, ..., bzw. 0, 

1, 2, 3, ... durch die Elemente eines Vektors ersetzt werden, während bei der Zyklenschreibweise 

die Elemente des Zyklus auf sich selbst abgebildet (ersetzt) 

werden. 

Die Zyklenschreibweise p = (1432) wird gelesen als: "Ziffer 1 wird ersetzt 

durch, d.h. abgebildet auf Ziffer 4, Ziffer 4 wird ersetzt durch Ziffer 3, Ziffer 3 

wird ersetzt durch Ziffer 2 und Ziffer 2 wird im Sinne einer Modulo-Beziehung 

ersetzt durch Ziffer 1." Aufgrund der Modulo-Beziehung rührt auch die Namensgebung 

Zyklenschreibweise. 

Im Allgemeinfall sind in der Zyklenschreibweise auch kurze Zyklen von z.B. 

von nur einem oder zwei Elementen sowie die Aneinanderreihungen von Zyklen 

erlaubt. Die Permutation 

129

p 

= 

⎛1 2 3 4 5⎞ 

⎝1 3 2 5 4⎠ 

läßt sich beispielsweise durch das "Produkt" der Zweierzyklen p = (1)(23)(45) 

ausdrücken. Die Reihenfolge der Zyklen spielt hier keine Rolle, weil die Zyklen 

ziffernfremd sind, d.h. keine Ziffer taucht mehrfach auf. Üblicherweise werden 

Einerzyklen weggelassen und Zweierzyklen als Vertauschung oder auch als 

Transposition bezeichnet. Zyklen mit zwei oder mehr Elementen heißen zyklische 

Vertauschung - ein Begriff der u.a. aus der Geometrie von Dreiecken bekannt 

ist. 

Zyklische Vertauschung von Elementen 

Als Beispiel einer zyklischen Vertauschung sollen die Ziffern 123 und die Permutation 

(123) betrachtet werden. Das Resultat der Permutation lautet 231 und 

wird gelesen: "2 wird ersetzt durch 3, 3 wird ersetzt durch 1 und 1 wird ersetzt 

durch 2". Dies entspricht einer zyklischen Linksverschiebung der Ziffern um 

eine Stelle. Eine entsprechende Rechtsverschiebung mit dem Resultat 312 wird 

durch die Permutation (132) hervorgerufen. 

In Bild 3.28 ist die zyklische Verschiebung am Beispiel der Dreiecksvertauschung 

dargestellt. Bei der Dreiecksvertauschung ist zu beachten, daß die Rotation 

der Ziffern im Uhrzeigersinn eine zyklische Abbildung (Ersetzung) im 

Gegenuhrzeigersinn bedeutet. 

wird 

abgebildet auf 

vorher: 

1 

2 3 

wird 


wird 


nachher: 

2 

3 1 

Bild 3.28: Zyklische Dreiecksvertauschung. 

Eine technische Anwendung der zyklischen Vertauschung stellt ein zum Ring 

rückgekoppeltes Schieberegisters dar, wie es bereits im 1. Kapitel vorgestellt 

wurde. Die Wirkung eines nach links schiebenden Schieberegisterrings läßt 

sich mit Hilfe der Permutation p L = (123...n) beschreiben. Die entsprechende 

Permutation für die Rechtsverschiebung um eine Stelle lautet: 

p R =(1n (n-1) ... 3 2). 

130

Verkettungen von Permutationen 

Die Hintereinanderausführung mehrer Permutationen wird als Verkettung bezeichnet. 

Der Grund, warum es Sinn macht, Permutationen zu einem "Produkt" 

zu verküpfen, liegt in folgendem Satz über die Verkettung mehrerer Permutationen 

[Böhme92]: 

Satz 3.7: Jede Permutation von wenigstens zwei Elementen läßt sich als "Produkt" 

(nicht notwendigerweise ziffernfremder) Zweierzyklen (Transpositionen) 

darstellen. 

Beispiel: 

Zur Erläuterung dieses Satzes soll die Permutation p 1 = (1234) dienen, die eine 

Abbildung der Ziffern 1234 auf die Ziffern 2341 bewirkt. Dasselbe Resultat 

läßt sich auch durch das Produkt p 2 = (12)(13)(14) erzielen, das aus nicht ziffernfremden 

Zyklen besteht, weil die Ziffer 1 dreimal verwendet wird. 

Bei Produkten aus nicht ziffernfremden Zyklen sind die Transpositionen 

streng geordnet von links nach rechts auszuführen. In obigem Beispiel wird somit 

die Ziffer 1 durch die Permutation p 2 über ein dreimaliges Vertauschen von 

links nach rechts "weitergereicht", und die übrigen Ziffern werden um eine Position 

nach links versetzt. 

Als zweites Beispiel eines Produkts aus nicht ziffernfremden Zyklen soll der 

nach links (Gegenuhrzeigersinn) schiebende Registerring dienen. Er läßt sich 

als das Produkt p L =(12)(13)...(1n) spezifizieren. Das entsprechende, nicht ziffernfremde 

Produkt für den nach rechts schiebenden Registerring lautet: p R = (n 

(n-1)) (n (n-2))...(n 1). 

Zu beachten ist, daß die Zweierzyklen-Spezifikation im Gegensatz zur Matrizen- 

oder Zyklenschreibweise nicht eindeutig ist. So läßt sich beispielsweise 

(123) sowohl als (12)(13) als auch als (23)(21) schreiben. Beim letztgenannten 

Zweierzyklus wird zuerst die Ziffer 3 auf ihren endgültigen Platz transportiert 

und danach 1 und 2 vertauscht. 

Die fehlende Eindeutigkeit erlaubt, ein und dieselbe Permutation durch Produkte 

verschiedener Transpositionen auszudrücken. Es zeigt sich jedoch, daß 

für eine bestimmte Permutation die Anzahl der sie erzeugenden Transpositionen 

stets entweder gerade oder ungerade ist [Böhme92]. 

Beispielsweise hat die Permutation p = (123) = (12)(13) = (23)(21) in beiden 

Produkten eine geradzahlige Anzahl von Transpositionen, während die Permutation 

q = (1234) = (41)(42)(43) = (12)(13)(14) = (23)(24)(21) = (34)(31)(32) 

in Produkte ungeradzahlig vieler Produktterme zerlegbar ist. 

Permutationsschreibweise für Cayley-Graphen 

Für Cayley-Graphen ist es das Ziel, eine besonders kompakte Darstellung der 

Permutationen zu verwenden. Dazu wird die Matrizenschreibweise dahinge- 

131

hend modifiziert, daß die erste Zeile der Matrix weggelassen und die zweite 

1 2 3 4 

Zeile ohne Klammern geschrieben wird. Aus p = ⎛ 

⎞ 

⎝4 1 2 3⎠ 

beispielsweise wird so 4123. Diese Schreibweise ist sehr ähnlich der Vektorschreibweise, 

nur unterliegt sie nicht deren Einschränkungen bzgl. der Verknüpfung 

von Vektoren. Die kompakte Darstellungsform kann ebenfalls als Positions-/Inhaltsbeziehung 

interpretiert werden. Die Deutung gemäß einer 

Positions-/Inhaltsbeziehung erlaubt, die Verknüpfung mehrerer Permutationen 

zu einem Produkt einfach durchzuführen und deshalb wird sie für die Spezifikation 

von Cayley-Graphen eingesetzt. 

Beispiel: 

Die Permutation 4123 ist folgendermaßen zu lesen: "Auf die Position 1, d.h. 

ganz links kommt die Ziffer 4, auf die Position 2 die Ziffer 1, auf die Position 

3 die Ziffer 2, usw." Ein anderes Beispiel ist die Permutation 123..n, bei der Ziffer 

und Adreßposition identisch sind. 

Konstruktion endlicher Gruppen 

Weil die Cayley-Graphen endliche Gruppen repräsentieren, geht es nach der 

Definition von Permutationen, deren Schreibweisen und Verknüpfungen nun 

darum, zu zeigen, daß man aus Permutationen endliche Gruppen konstruieren 

kann. Um dies besser einzusehen, wird im ersten Schritt eine spezielle Gruppe 

definiert, die aus Permutationen als Elementen besteht. Im zweiten Schritt wird 

die Analogie (Isomorphismus) zwischen Permutationsgruppen einerseits und 

allen endlichen Gruppen andererseits gezeigt. Daraus ergibt sich im dritten 

Schritt nach einem Satz, daß alle endliche Gruppen auf Permutationsgruppen 

zurückgeführt werden können. 

Konstruktion einer Permutationsgruppe 

Für die Konstruktion einer Permutationsgruppe muß eine Verknüpfungsoperation 

zwischen den Elementen einer Menge, die in diesem Fall Permutationen 

sind, definiert werden. Als Verknüpfungsoperation eignet sich die Verkettung, 

d.h. Hintereinanderausführung von Permutationen. Da Permutationen in der 

Gruppentheorie als Abbildungen gedeutet werden, greift man für die Definition 

der Verkettung auf die Definition von ineinandergeschachtelten Abbildungen 

zurück. Dabei gilt, daß die Verkettung "°" zweier Permutationen p ° q von 

rechts nach links ausgeführt wird, so daß p ° q = p(q) ist. (Lies: "p verknüpft q 

ist gleich p angewandt auf q"). 

Beispielsweise liefert die Verkettung von 

p ⎛1 2 3 4⎞ 

1 2 3 4 

= und q = ⎛ 

⎞ 

⎝4 1 2 3⎠ 

⎝3 4 1 2⎠ 

132

das Resultat 

p ° q = ⎛1 2 3 4⎞. 

⎝2 3 4 1⎠ 

Die Verkettung erfolgt, indem man jede Ziffer in der zweiten Zeile von q als 

Adresse in der ersten Zeile von p auffaßt. Die Verkettung entspricht somit einem 

zweimaligen Tabellennachschlagen bzw. einer indirekten Adressierung. 

Aufgrund dieser Definition ergibt sich, daß auch mehrfache Verkettungen möglich 

sind. 

Neben der Matrizenschreibweise eignet sich die kompakte Schreibweise von 

Permutationen besonders gut für die Ausführung einer Verkettung, wie man an 

dem Produkt p ° q =4123° 3412=2341 sehen kann. 

Ein zweites Beispiel für die Ausführung einer Verkettung lautet: 

p ° q = 4213 ° 3412 = 1342. 

Dies wird folgendermaßen gelesen: "Position 1 wird ersetzt durch Ziffer 3 (q- 

Term), Position 3 wird ersetzt durch Ziffer 1 (p-Term)". Daraus ergibt sich in 

der Position 1 des Resultats die Ziffer 1. Die zweite Ziffer des Resultats berechnet 

sich zu: "Position 2 wird ersetzt durch Ziffer 4 (q-Term), Position 4 wird ersetzt 

durch Ziffer 3 (p-Term)". Daraus ergibt sich die Ziffer 3 in der Position 2 

des Resultats. Die dritte Ziffer des Resultats resultiert aus: "Position 3 wird ersetzt 

durch Ziffer 1 (q-Term), Position 1 wird ersetzt durch Ziffer 4 (p-Term)". 

Daraus ergibt sich die Ziffer 4 in der Position 3 des Resultats, u.s.w. 

Nach der Einführung des Verkettungsoperators kann man folgenden Satz angeben 

[Böhme92], der sagt, wie man eine Permutationsgruppe konstruiert: 

Satz 3.8: Die Menge (P,°) aller n! Permutationen einer Menge M von n Elementen 

bildet eine Gruppe bzgl. der Verkettung ° als Verknüpfung. Die Permutationsgruppe 

heißt symmetrische Gruppe S n . 

Die symmetrische Gruppe S n ist abgeschlossen bzgl. der Verkettung "°" und hat 

das neutrale Element "1 2 3 .. n". Zu jeder Permutation p existiert das korrespondierende 

inverse Element p -1 . Darüberhinaus gilt das Assoziativgesetz für 

die Verkettung dreier Permutationen. 

Isomorphismus zwischen der Permutationsgruppe S n und allen übrigen 

Gruppen 

Es läßt sich ein Zusammenhang zwischen den Permutationselementen von S n 

und den Elementen beliebiger anderer endlicher Gruppen G herstellen, indem 

man eine isomorphe 4 Abbildung ρ von S n auf G definiert. Dabei gilt folgender 

wichtiger Satz [Böhme92]: 

4. 

isomorph heißt "gleichgestaltig", d.h. die Eigenschaften von S n werden durch die Abbildung ρ nicht 

verändert. 

133

Satz 3.9: Jede endliche Gruppe G ist einer Permutationsgruppe isomorph (läßt 

sich durch Permutationen darstellen). 

Dieser Satz wird als Darstellungssatz nach Cayley bezeichnet und erklärt, warum 

Permutationen in der Gruppentheorie besonders bedeutsam sind. Aus diesem 

Grund wählten auch Akers und Krishnamurthy die Bezeichnung „Cayley- 

Graphen" für ihre Theorie aus. 

Bei Cayley-Graphen spielen die sog. Untergruppen einer Gruppe eine wichtige 

Rolle und sollen deshalb im folgenden erläutert werden. 

Untergruppen einer Gruppe 

Def. 3.10: Eine Gruppe (U,°) heißt Untergruppe der Gruppe (G,°), wenn U Teilmenge 

von G ist und für U die Gruppenaxiome (Abgeschlossenheit, neutrales 

und inverses Element sowie Assoziativität) erfüllt sind. 

Zur Konstruktion von Untergruppen kann man folgende Sätze [Böhme92] heranziehen: 

Satz 3.10: Ist ∅ ≠ U ⊂ G, so ist (U,°) genau dann Untergruppe von (G,°), 

wenn U bzgl. ° abgeschlossen ist und jedes Element a ∈ U sein Inverses wieder 

in U hat: ∈ . 

Aus Satz 3.10 folgt, daß (U,°) ein neutrales Element hat und assoziativ ist, wenn 

(U,°) abgeschlossen ist und die inversen Elemente existieren. Man kann zeigen, 

daß (U,°) sogar dann Untergruppe von (G,°) ist, wenn nur die Abgeschlossenheit 

gegeben ist, denn bei den Permutationen folgen aus der Abgeschlossenheit 

die übrigen Gruppenaxiome. Deshalb gilt: 

Satz 3.11: Ist ∅ ≠ U ⊂ G, so ist (U,°) genau dann Untergruppe von (G,°), wenn 

U bzgl. ° abgeschlossen ist. 

Beispiel: 

a – 1 U 

Ein Beispiel für die Anwendung von Satz 3.11 bildet die Menge der "geraden" 

Permutationen A n , die aus einer geradzahligen Anzahl von Transpositionen bestehen. 

Sie stellen eine Untergruppe zu S n dar, weil die Verkettung zweier Permutationen 

mit gerader Zyklenzahl wieder eine gerade Permutation liefert, also 

abgeschlossen ist. Die geradzahligen Permutationen A n heißen auch alternierende 

Gruppe. Beispielsweise lautet die alternierende Gruppe A 3 zur 

symmetrische Gruppe S 3 : A 3 = {(1), (12)(13), (31)(32)}. Die Abgeschlossenheit 

von A 3 läßt sich durch Ausführung aller Verkettungen leicht überprüfen. 

Ferner gelten die folgenden wichtigen Sätze über Untergruppen [Böhme92], 

die die Konstruktion von Untergruppen erleichtern: 

134

Satz 3.12: Jede Permutationsgruppe ist Untergruppe einer symmetrischen 

Gruppe. 

Satz 3.13: Bei endlichen Gruppen ist die Anzahl der Elemente einer Untergruppe 

stets Teiler der Anzahl der Elemente der Gruppe (=Satz v. Lagrange). 

So hat beispielsweise A 3 genau 3 Elemente, und die Zahl 3 teilt die 3!=6 Elemente 

von S 3 ohne Rest. 

Mit dem in den vorigen Kapiteln erläuterten Basiswissen über Gruppentheorie 

kann man jetzt die Konstruktion von Cayley-Graphen angeben. 

3.11.3 Definition von Cayley-Graphen 

Die Idee von Akers und Krishnamurthy war es, Permutationen aus S n mit den 

Knoten eines Graphen zu identifizieren, und die Kanten des Graphen als die 

Verkettung " ° " zweier Permutationen aufzufassen. Daraus resultierten die Cayley-Graphen, 

deren erweitertes Modell sogar die einheitliche Konstruktion aller 

knotensymmetrischen Graphen erlaubt. Zur Definition von Cayley-Graphen 

werden spezielle Permutationen, die sog. Generatoren, verwendet, die es erlauben, 

Untergruppen von S n zu erzeugen. Diese wiederum sind folgendermaßen 

definiert: 

Def. 3.11: Die Permutationen 

p 1 

, p 2 

, …, 

p m 

∈ S n 

( m < n) 

heißen Generatoren 

von U, wenn sie durch Verknüpfung ° eine Untergruppe (U, ° ) von S n oder S n 

selbst erzeugen. Es gilt dann: ( U , ° ) ⊆ S n 

und m 

Zu U gehören die Generatoren selbst sowie alle zwei- und mehrfachen Verknüpfungen 

von Generatoren, sofern sie unterschiedliche Elemente liefern: 

U 

= 

m< 

n 

∪ 

i = 1 

{ p i 

} 

m < n 

∪ 

∪ { p i° p j, } ∪ { p i° p j° p k} 

∪ … 

ij , = 1 

Damit lautet die Definition der Cayley-Graphen: 

m< 

n 

ijk , , = 1 

Def. 3.12: Die Elemente einer durch Generatoren erzeugten Untergruppe 

( U , ° ) ⊆ S n von S n sind die Knotenines Cayley-Graphen. Es führt genau dann 

eine gerichtete Kante von Knoten u i 

∈ U zu Knoten u j 

∈ U( 1 ≤ i, 

j≤ 

U ), 

wenn es einen Generator p k 

∈ U( 1 ≤ k ≤ m 

= u j 

. 

∪ 

135

3.11.4 Konstruktion von Cayley-Graphen 

Das erste Problem bei der Konstruktion von Cayley-Graphen stellt die Wahl der 

Generatoren dar. Dies soll hier nicht erörtert werden, sondern es wird auf die 

entsprechende Literatur verwiesen [Akers84]. Unter der vereinfachenden Annahme, 

daß die Generatoren eines zu erzeugenden symmetrischen Graphen bereits 

bekannt sind, gibt es zwei Möglichkeiten, diesen zu konstruieren. 

Bei der ersten Methode werden die Generatoren solange sowohl untereinander 

als auch mit sich selbst verknüpft, bis durch die Verkettungen keine neuen 

Permutationselemente mehr entstehen. Dabei sind Mehrfachverknüpfungen 

von Permutationen zugelassen. Die daraus entstehende Untergruppe U von S n 

ist dann bzgl. der Verkettung abgeschlossen. Jedes Permutationselement wird 

mit einem Knoten des Graphen identifiziert, und je zwei Knoten sind miteinander 

verbunden, wenn einer der gegebenen m Generatoren einen Knoten des 

Knotenpaares auf den anderen Knoten abbilden kann. 

Nach dieser Methode sind bei großen Knotenzahlen relativ viele Verkettungen 

durchzuführen, damit alle Knoten erzeugt und die Eigenschaft der Abgeschlossenheit 

erzielt wird, so daß die Methode in der Praxis nur zur Konstruktion 

von Cayley-Graphen geringer Knotenzahl geeignet ist. 

Die zweite Methode besteht darin, mit einem der m Generatoren zu beginnen 

und ihn als Startknoten für den zu konstruierenden Graphen zu betrachten. Danach 

werden durch Verkettung des Generators mit sich selbst und den übrigen 

(m-1) Generatoren alle m Nachbarknoten des Startknotens erzeugt, und der 

Startknoten wird mit jedem seiner Nachbarknoten durch eine gerichtete Kante 

verbunden. Schließlich wird rekursiv von jedem Nachbarknoten aus derselbe 

Vorgang wiederholt. Sobald zwei gleiche Permutationen entstehen, werden sie 

zu einem gemeinsamen Knoten verschmolzen. Das Verfahren terminiert, sobald 

jeder Knoten mit m Nachbarn verbunden ist. 

3.11.5 Spezielle Eigenschaften von Cayley-Graphen 

Abschließend folgen noch einige Sätze [Akers89] über Eigenschaften von Cayley-Graphen, 

die ihre Konstruktion erleichtern. 

Satz 3.14: Ein Cayley-Graph vom Grad m wird durch eine von m Generatoren 

p 1 

, p 2 

, …, 

p m 

∈ S n 

( m < n) 

erzeugte Untergruppe der symmetrischen Gruppe 

S n spezifiziert. 

Cayley-Graphen sind dann ungerichtete Graphen, wenn Satz 3.15 gilt: 

Satz 3.15: Ein Cayley-Graph ist ungerichtet, wenn es für je zwei benachbarte 

Knoten u i 

, u j 

∈ U zwei Generatoren p k 

, p l 

∈ U gibt, so daß gilt: u i° p k 

= u j 

und u j° p l 

= u i 

. 

136

Der Satz 3.15 sagt, daß es bei einem ungerichteten Cayley-Graphen zu jeder gerichteten 

Kante eine Kante in Gegenrichtung geben muß, so daß man die antiparallelen 

Kanten zu einer ungerichteten Kante zusammenfassen kann. Weiterhin 

folgt aus Satz 3.15: 

Satz 3.16: Ein Cayley-Graph aus S n ist ungerichtet, wenn es für je zwei benachbarte 

Knoten u i 

, u j 

∈ U zwei Generatoren p k 

, p l 

∈ U gibt, so daß gilt: 

– 1 

p k 

= p l 

. Die Permutation p l heißt inverser Generator zu p k . 

Beweis: Man multipliziere die Gl. u j°p l 

= u i 

von rechts mit p l 

≠ e , dann kann 

man u j auflösen nach u j 

= u – 1 

i °p l 

. Dies setzt man ein in u i° p k 

= u j 

, worauf 

man u i° p k 

= u i ° p l 1 bzw. – 

= 

1 erhält. 

Zur Vereinfachung der Konstruktion von ungerichteten Cayley-Graphen 

reicht es deshalb, nur eine Kante von einem Knoten zu seinem Nachbarn ohne 

Rückrichtung zu berechnen. 

3.11.6 Beispiele für Cayley-Graphen 

Im folgenden werden drei Konstruktionsbeispiele für Cayley-Graphen dargestellt, 

die alle knotensymmetrisch ist, nämlich der Barrel Shifter, ein 3-D-Würfel 

und die Cube Connected Cycles in drei Dimensionen. Jeder Graph erfordert 

einen eigenen Satz von Generatoren. 

Barrel Shifter 

Um den Graphen eines Barrel-Shifters zu erzeugen, bei dem jeder Knoten mit 

seinen linken und rechten Nachbarn und dem gegenüberliegenden Knoten Daten 

austauschen kann, geht man von folgenden Generatoren aus: p 1 = 1324, 

p 2 = 2143 und p 3 = 4321. 

Daraus werden zur Erzeugung der Knoten des Graphen die 3 2 Verkettungen 

p ij = p i 

° p j (1 ≤ i, j ≤ 3) berechnet: p 1 

° p 1 = 1234, p 1 

° p 2 = 3142, p 1 

° p 3 = 4231, 

p 2 

° p 2 = 1234, p 2 

° p 1 = 2413, p 2 

° p 3 = 3412, p 3 

° p 3 = 1234, p 3 

° p 1 = 4231, 

p 3 

° p 2 = 3412. 

Dann wird aus p 1 , p 2 , p 3 und ihren Verkettungen die Menge U aller verschiedener 

Elemente gebildet: U = {1324, 2143, 4321, 1234, 2413, 4231, 3142, 

3412}. Wie man durch die Berechnung endlich vieler Verkettungen zeigen 

kann, ist U bzgl. "°" abgeschlossen und dadurch eine Untergruppe von S 4 (siehe 

dazu Satz 3.11). Jedes Element u i 

∈ U( 1 ≤ i ≤8) 

stellt deshalb einen Knoten 

in einem Cayley-Graphen dar. Weiterhin teilt nach dem Satz von Lagrange 

(Satz 3.13) die Ordnung von U die Ordnung von S 4 . Dies ist erfüllt, weil 4!/8 = 

3 ist. 

137

Im nächsten Schritt werden zur Erzeugung der Kanten des Barrel-Shifters die 

Verkettungen u i 

° p 1 , u i 

° p 2 , u i 

° p 3 ( 1 ≤ i ≤ 8) 

gebildet. Zur Verdeutlichung 

der Konstruktion sind in Bild 3.29 alle daraus entstehenden 24 gerichteten Kanten 

graphisch dargestellt. 

Bild 3.29 läßt sich auch dadurch erzeugen, daß man z.B. das Element 1234 

als Startknoten wählt und dessen Nachbarknoten (1324, 4321 und 2143) 

konstruiert. Von dort aus werden deren Nachbarknoten erzeugt (3142, 3412, 

4231 und 2413), so daß man alle Knoten in nur zwei Schritten gewinnen kann. 

Bei diesem Verfahren sind dann alle Kanten gefunden, wenn jeder Knoten m=3 

Nachbarn hat. 

p8 

p1p1 

1234 

p8p2 

p1 

1324 

p8p1 

p8p3 

p2p2 

2143 

p2 

p4p2 

p1p2 

p1p3 

p2p3 

p6p1 

p2p1 

p4 

3142 

p4p3 

p6p3 

2413 

p6 

p7p2 

p4p1 

p7p3 

p5p2 

p5p3 

p6p2 

p3p3 

p7 

3412 

p7p1 

p3p1 

4231 

p5 

p3p2 

4321 

p3 

p5p1 

Bild 3.29: Erzeugung eines Barrel Shifters als Cayley-Graph. 

Die Generatoren in Bild 3.29 sind zu sich selbst invers, da p 1 

° p 1 = p 2 

° p 2 = 

p 3 

° p 3 = 1234 = e ist. Deshalb gibt es zu jedem Generator einen inversen Generator, 

und man kann man je zwei gerichtete, antiparallele Kanten zu einer ungerichteten 

Kante zusammenfassen und erhält so den endgültigen Barrel Shifter 

für 8 Knoten gemäß Bild 3.30. 

138

1234 

p1 1324 

p2 2143 

3142 

2413 

p1 = 1324 

p2 = 2143 

p3 = 4321 

3412 

4231 

4321 

Bild 3.30: Ungerichteter Cayley-Graph aus S 4 als Barrel Shifter. 

p3 

In den weiteren Beispielen wird auf den Zwischenschritt zur Erzeugung gerichteter 

Kanten verzichtet und die ungerichtete Darstellung bevorzugt, da sich 

im folgenden je zwei antiparallele Kanten zu einer ungerichteten Kante zusammenfassen 

lassen. 

3-D Würfel 

Der 3-dimensionale Würfel wird als Cayley-Graph wie im vorigen Beispiel, 

aber mit den Generatoren p 1 = 213456, p2 = 124356 und p3 = 123456 erzeugt. 

Diese Permutationen erzeugen eine Untergruppe von S 4 mit 8 Elementen, die 

in Bild 3.31 zusammen mit ihren Verknüpfungen dargestellt sind. Auch hier 

sind die Generatoren zu sich selbst invers. 

p3 

213456 124356 123465 

214356 

p2 

p1 = 213456 

p2 = 124356 

p3 = 123456 

Bild 3.31: 3-D Würfel als Cayley-Graph von S 6 . 

p1 

139

Wichtig ist festzustellen, daß alle mehrdimensionalen Würfel (Hypercuben) 

ebenfalls als Cayley-Graphen darstellbar sind. 

3-D Cube-Connected-Cycles 

Zur Konstruktion der 3-D Cube-Connected-Cycles werden die Generatoren p 1 

= 2143, p 2 = 1342 und p 3 = 1423 verwendet. Diese Generatoren erzeugen nicht 

eine Untermenge von S 4 , sondern S 4 selbst. Der Graph besteht deshalb aus 4! = 

24 Knoten. Um alle 24 Knoten zu erhalten, muß man mehrfache Verknüpfungen 

der Art p 1 ° p 2 ° p 3 usw. durchführen. In Bild 3.32 ist der korrespondierende 

Graph dargestellt (nur die Generatoren sind eingezeichnet). 

Auch höherdimensionale Cube-Connected-Cycles können als Cayley-Graphen 

dargestellt werden. 

Die Beispiele haben gezeigt, daß die Wahl der Generatoren der entscheidende 

Punkt bei konkreten Cayley-Graphen darstellt. Bislang sind Generatoren nur 

für eine begrenzte Zahl statischer Topologien bekannt. 

p3 

p2 

p1 

p1 = 2143 

p2 = 1342 

p3 = 1423 

Bild 3.32: 3-D Cube-Connected-Cycles als Cayley-Graph von S 4 . 

3.11.7 Routing in Cayley-Graphen 

Das Routing-Problem ist für die Graphengruppe der Cayley-Graphen prinzipiell 

gelöst. Das heißt, daß die Frage, auf welchem Weg ein Datenpaket in einem 

beliebigen Cayley-Graphen von einem Sende- zu einem Empfangsknoten gelangt, 

sich allgemein beantworten läßt. 

Leider ist das im weiteren dargestellte Routing-Verfahren [Akers89] relativ 

kompliziert, so daß in der Praxis die bekannten, einfacheren Verfahren nach 

wie vor ihre Berechtigung haben. Trotzdem ist es wichtig zu wissen, daß es ein 

allgemein anwendbares Routing-Verfahren gibt, das auch bei zukünftigen Cayley-Graphen, 

die noch erfunden werden, gilt. Das Verfahren beruht darauf, 

daß man jeden Pfad in einem Cayley-Graphen auf einen Standardfall zurück- 

140

führen kann, nämlich auf den Pfad von einem beliebigen Startknoten zu dem 

Knoten, der von dem neutralen Element e repräsentiert wird. 

Aufgrund der Definition der Cayley-Graphen sind zwei Knoten a 1 und a 2 im 

Graphen (U,°) dann miteinander verbunden, wenn es einen Generator g 1 aus 

(U,°) gibt, der a 1 auf a 2 gemäß a 1 ° g 1 = a 2 abbildet. Ein Pfad von einem Knoten 

a 1 zu einem nicht benachbarten Knoten a n entspricht einer Sequenz S 1 von (n- 

1) Generatoren g 1 , g 2 ,...,g n-1 , die den Knoten a 1 auf a 2 , a 2 auf a 3 , a 3 auf a 4 usw. 

bis a n-1 auf a n abbilden. 

Da die Knoten a 1 und a n beliebige Knoten eines Cayley-Graphen sind, können 

sie mit den Sende- und Empfangsknoten einer beliebigen 

Interprozessorkommunikation identifiziert werden. Das für alle Cayley-Graphen 

gleiche Routing-Problem besteht deshalb darin, die Sequenz S 1 zu bestimmen. 

Dazu wird eine isomorphe, d.h. gestaltserhaltende Abbildung des Graphen 

– 1 

auf sich selbst durchgeführt. Mit Hilfe der Permutation a wird der 

Startknoten a 1 auf a 1 ' = a 1 

° a -1 n 

∈ U 

n , der Zielknoten a n auf das neutrale Element e 

und alle dazwischenliegenden Knoten a 2 ,...,a n-1 auf andere Knoten von (U, °) 

abgebildet. Die genannten isomorphen Abbildungen sind in jedem Cayley-Graphen 

möglich, weil (U, °) aufgrund seiner Gruppeneigenschaft abgeschlossen 

ist und weil ein neutrales und ein inverses Element existieren. Im ersten Schritt 

des für alle Cayley-Graphen gültigen Verfahrens wird das Routing von a 1 zu a n 

somit auf das Routing von a 

' 

1 zu e zurückgeführt. 

Im zweiten Schritt wird zunächst S 2 als eine Sequenz von Permutationen 

g 1 ' = g 1 

° a n -1 , g 2 ' = g 2 

° a n -1 , usw. bis g n-1 ' = g n-1 

° a n -1 (g i '∈U) 

betrachtet, für die gilt: a 1 ' ° S 2 = e. S 2 ist also ein Pfad von a 1 ' zu e. Nach der 

Rückführung des Routing-Problems auf einen Standardfall kann man die Abbildung 

a als das Sortieren der Permutation a ' 1 

' → e 

1 interpretieren, da das Ergebnis 

der Abbildung die Zifferfolge 1234... darstellt. Das Routing-Problem 

a 1 

' → e läßt sich aus diesem Grunde in ein Sortierproblem umwandeln, das 

durch Ordnen der Ziffern von a 1 ' = a 1 

° a 

-1 

n mit Hilfe von g 1 ', g 2 ',..., g n-1 ' gelöst 

werden kann. 

Im dritten Schritt wird die Sequenz S 2 unter Berücksichtigung der Randbedingung, 

daß S 2 als Pfad in (U, °) existieren muß, mit Hilfe bekannter Sortieralgorithmen 

wie Bubble Sort etc. bestimmt. 

Im letzten Schritt werden die Elemente g i ' von S 2 mit Hilfe von g i ' ° a n = g i 

auf Generatoren von (U, °) zurückabgebildet, womit die Sequenz S 1 = g 1 , 

g 2 ,...,g n-1 gefunden und das Routing-Problem a 1 

' → allgemein gelöst ist. 

a n 

141

3.11.8 Allgemeine Eigenschaften von Cayley-Graphen 

Die Eigenschaften, die im folgenden in knapper Form als Definitionen und Sätze 

in Anlehnung an die Arbeit von Akers und Krisnamurthy [Akers89] aufgelistet 

werden, gelten für alle Topologien, die sich als Cayley-Graphen beschreiben 

lassen. Dazu zählen nicht nur die Graphen der meisten statischen Netze, 

sondern auch spezielle Topologien wie Star-Graph, Bubble Sort-Graph und 

Pancake-Graph, die erst durch das gruppentheoretische Konzept der Cayley- 

Graphen bekannt wurden. Die wichtigste Eigenschaft aller Cayley-Graphen ist 

die der Knotensymmetrie: 

Satz 3.17: Jeder Cayley-Graph ist knotensymmetrisch. 

Zu beachten ist, daß die Umkehrung des Satzes nicht gilt. Der Petersen Graph 

[König35] beispielsweise ist zwar symmetrisch, läßt sich jedoch nicht als Cayley-Graph 

darstellen. Dies ist erst im erweiterten Cayley-Graphenmodell möglich. 

Knotensymmetrie erlaubt ein einfaches Routing, da es keine ausgezeichneten 

Knoten gibt, sowie eine, im Prinzip jedenfalls, gleichmäßige Kantenauslastung, 

weil jeder Knoten gleich viele Kanten aufweist. Insbesondere läßt sich ein für 

alle Cayley-Graphen einheitliches Routing-Schema aufstellen, das im vorigen 

Kapitel erläutert wurde. 

Die zweite Form von Symmetrie, die in einem Graphen auftreten kann, ist die 

Kantensymmetrie. Zur Feststellung, ob ein Cayley-Graph kantensymmetrisch 

ist, dient der folgende Satz: 

Satz 3.18: Ein Cayley-Graph (U, °), der durch die Menge M von Generatoren 

mit M = { g 1 

, g 2 

, …, 

g m 

}( m < n) 

als Untergruppe von S n ( U ⊆ S n 

) bestimmt 

ist, ist kantensymmetrisch, wenn es für jedes Paar g i , g j eine Permutation 

p(g i ,g j ) ∈S n gibt, die g i auf g j und M auf M abbildet. 

Beispiele kantensymmetrischer Cayley-Graphen sind der Hypercube und der 

Star-Graph. 

Wichtig ist die Anwort auf die Frage, wie Cayley-Graphen einer bestimmten 

Größe aus kleineren Cayley-Graphen zusammengesetzt werden können (rekursive 

Konstruktion). Zur Beantwortung dieser Frage müssen zwei neue Begriffe 

eingeführt werden: 

Def. 3.13: Ein Cayley-Graph heißt hierarchisch, wenn seine Generatoren dergestalt 

in einer Sequenz g 1 

, g 2 

, …, 

g m 

angeordnet werden können, daß für jedes 

i ( 1 ≤ i ≤ m) der Generator g i nicht Element der Untergruppe ist, die von 

den ersten (i-1) Generatoren g 1 

, g 2 

, …, 

g i – 1 

erzeugt wird. 

142

Wenn die Voraussetzung der Hierarchie gegeben ist, gilt der folgenden Satz 

bzgl. der Zusammensetzung großer Cayley-Graphen aus kleineren: 

Satz 3.19: Jeder hierarchische Cayley-Graph läßt sich rekursiv konstruieren. 

Die hierarchische Konstruktion ist seit langem für den Hypercube, einem Spezialfall 

der Cayley-Graphen, bekannt. Doch für Cayley-Graphen gibt es eine 

noch strengere Form der Hierarchie: 

Def. 3.14: Ein Cayley-Graph heißt streng hierarchisch, wenn er für jede beliebige 

Generatorsequenz hierarchisch ist. 

Der n-dimensonaler Hypercube beispielsweise kann entlang jeder Dimension 

in zwei (n-1)-dimensionale Hypercuben zerlegt werden. Deshalb ist er, ebenso 

wie der Star-Graph, streng hierarchisch. 

Cayley-Graphen haben gemäß Satz 3.20 bzgl. der Fehlertoleranz optimale 

Eigenschaften, weshalb sie ursprünglich auch entwickelt wurden. 

Satz 3.20: Hierarchische Cayley-Graphen sind maximal fehlertolerant, d.h. bei 

einem Cayley-Graphen vom Grad m können bis zu m-1 Kanten entfernt werden, 

ohne daß der Graph in zwei Teile zerfällt. 

Der Satz 3.20 ist in der Praxis bedeutend, weil er sagt, daß Cayley-Graphen sich 

ähnlich gut wie BIBD-Graphen bzgl. der Fehlertoleranz verhalten. 

3.11.9 Erweiterung des Cayley-Graphenmodells 

Die Erweiterung des Cayley-Graphen Modells erlaubt, alle statischen Verbindungsnetzwerke, 

die knotensymmetrisch sind, als Cayley-Graph zu definieren. 

Für die Erweiterung des Cayley-Graphenkonzepts ist es notwendig, weitere Definitionen 

und Sätze aus der Gruppentheorie anzugeben [Böhme92]: 

Def. 3.15: Zerlegt man eine Menge A in paarweise disjunkte, nicht leere Teilmengen 

A i , so heißen die Teilmengen eine „Klassenzerlegung" von A, gemäß: 

A 

= 

n 

∪ A i 

∧ ∧ [ A i 

∩ A j 

= ∅ ∧ A i 

≠ ∅] 

. 

i = 1 

n 

i, 

j 

i ≠ j 

Def. 3.16: Verknüpft man alle Elemente einer Untergruppe (U, °) der Gruppe G 

von links mit einem festen Gruppenelement , so heißt die entstehende Teilmenge 

A g 

= g°U = { x x = g°u ∧ u ∈ U} 

eine linke Nebenklasse von (U, °). 

Eine entsprechende Verknüpfung von rechts heißt rechte Nebenklasse von 

(U °). 

143

Die praktische Bedeutung der linken bzw. rechten Nebenklassen liegt in folgendem 

Satz: 

Satz 3.21: Die Vereinigung aller linken (rechten) Nebenklassen A i einer Untergruppe 

der Gruppe G ist eine Klassenzerlegung von G: G = . 

Nach der Definition der Nebenklassen einer Untergruppe, kann man den Zusammenhang 

zwischen Nebenklassen und Cayley-Graphen angegeben: 

Satz 3.22: Die linken (rechten) Nebenklassen einer Untergruppe von G sind 

Knoten von Subgraphen des Cayley-Graphen von G. 

Beispiel: 

n 

∪ A i 

i = 1 

Gegeben seien die Generatoren p 1 = 213, p 2 = 321, p 3 = 132. Daraus wird die 

Gruppe (G, °) mit G = {e, p 1 , p 2 , p 3 , p 4, p 5 } und e = 123, p 4 = 312, p 5 = 231 

erzeugt, die identisch zu S 3 ist ( G ⊆ S 3 

). Gewählt wird die Untergruppe (U, °), 

mit U = {e, p 1 }. Damit werden die linken Nebenklassen von (U, °) bestimmt: 

e ° U = U, p 1 

° U={p 1 , e}, p 2 

° U={p 2 , p 5 }, p 3 

° U={p 3 , p 4 }, p 4 

° U={p 4 , p 3 }, 

p 5 

° U={p 5 , p 2 }. Die Klassenzerlegung von G lautet somit: 

G = A 1 

∪ A 2 

∪ A 3 

mit A 1 

= { e, 

p 1 

}, A 2 

= { p 2 

, p 5 

}, 

A 3 

= { p 3 

, p 4 

} . 

In Bild 3.33 sind der korrespondierende Cayley-Graph und die Knoten der linken 

Nebenklassen eingezeichnet, die drei Subgraphen in Form einfacher Geraden 

definieren. 

Mit den dargestellten Definitionen und Sätzen kann man das erweiterte Cayley- 

Graphen Modell angeben [Akers89]: 

Satz 3.23: Jeder knotensymmetrische Graph G läßt sich als Quotient G=Z/N i 

zweier Cayley-Graphen Z und N i (Z) darstellen. N i (Z) wird durch die Knoten 

der i-ten linken Nebenklasse einer Untergruppe von Z bestimmt. 

Zur Erläuterung des erweiterten Cayley-Graphen Modells ist folgendes zu sagen: 

• N i (Z) ist der Graph, der aus der i-ten linken Nebenklasse von Z entsteht und 

damit ein Subgraph von Z. 

• Der Quotient Z und N i berechnet sich so, daß die von N i definierten Subgraphen 

von Z zu jeweils einem (Sammel)knoten zusammengefaßt, d.h. kontrahiert 

werden. Dabei bleiben die Kanten, die von den Subgraphen ausgehen 

oder auf ihnen enden, nach der Kontraktion erhalten und entspringen bzw. enden 

anschließend auf den Sammelknoten. 

144

A1 

e 

p1 

p2 

A2 

p4 

p5 

A3 

p3 

Bild 3.33: Cayley-Graph von S 3 mit Subgraphen A 1 , A 2 , A 3 . 

Beispiel: 

Die Quotientenbildung zweier Graphen wird exemplarisch anhand des Cayley- 

Graphen von S 3 gezeigt. Die symmetrische Gruppe S 3 (in Bild 3.34a dargestellt) 

wird durch die Subgraphen der linken Nebenklassen einer Untergruppe 

von S 3 "dividiert" (Bild 3.34b), worauf man den Quotienten G (Bild 3.34c) erhält. 

Dabei werden je zwei benachbarte Knoten des Sechsecks von S 3 auf einen 

Sammelknoten kontrahiert, so daß der Quotientengraph aus drei Sammelknoten 

besteht. Parallel verlaufende Kanten werden schließlich zu einer Kante 

zusammengefaßt so daß man ein einfaches Dreieck als Quotientengraph erhält 

(c). 

e 

e 

p1 

p2 

p1 

p2 

p4 

p5 

p4 

p5 

p3 

p3 

a) 

b) c) 

Bild 3.34: Reduktion von S 3 (a) durch die Subgraphen aller linken Nebenklassen einer Untergruppe 

von S 3 (b) zum Quotientengraph (c). 

145

4 Dynamische Verbindungsnetzwerke 


Mehrstufige Netze, die man auch als dynamische oder indirekte Netze bezeichnet, 

bestehen aus Schaltern, die in Netzstufen organisiert sind. Sie benötigen 

definitionsgemäß mindestens eine Schalterstufe, um Daten vom Sender 

zum Empfänger zu übermitteln. In der Technik haben mehrstufige Netze auf 

verschiedenen Gebieten Bedeutung erlangt: Als Koppelnetz in den Vermittlungseinrichtungen 

der Telekommunikation zur Verschaltung von Telefon- und 

Datenanschlüssen, als Switch bei Arbeitsplatzrechnern zur LAN- oder WAN- 

Vernetzung und als Verbindungsnetzwerk in der Rechnerarchitektur zur Kopplung 

von Prozessoren oder Rechenknoten. 

Speziellere Anwendungsgebiete für mehrstufige Netze sind in den Experimenten 

der Hochenergie- und Plasmaphysik zu finden, die dynamische Netze 

zur rekonfigurierbaren Erfassung von Daten nützen, die von physikalischen und 

technischen Sensoren aus z.B. einem Plasma herrühren [Hertweck90]. Des weiteren 

werden sie in der Automatisierungstechnik zur Steuerung und Regelung 

komplexer technischer Anlagen eingesetzt, bei denen die Steuerung auf paralleler 

Rechentechnik beruht und wo eine flexible Verschaltung von Rechenknoten 

und Stellgliedern erforderlich ist [Richter95a]. 

Historisch gesehen wurden zuerst in der Telekommunikation die Funktion, 

der Aufbau und die Eigenschaften mehrstufiger Netze beschrieben. Danach 

wurden die Topologien in die parallele Rechentechnik übernommen und weiterentwickelt. 

Neuere dynamische Netze zeichnen sich zumeist durch verbesserte 

Eigenschaften wie kleinerer mittlerer Durchmesser, höhere Fehlertoleranz, 

usw. aus. 

Insgesamt kann man sagen, daß die Entwicklung mehrstufiger Netze bis heute 

nicht abgeschlossen ist. Dementsprechend schwierig ist es, eine Theorie aufzustellen, 

die alle dynamischen Netze einheitlich beschreibt. Man kann jedoch 

die Kategorie der dynamischen Netze anhand ihrer unterschiedlichen Stufenzahl 

in verschiedene Gruppen einteilen. 

Das Konzept der Banyan-Netze [Lipovski87] beschreibt die Unterklasse derjenigen 

Netzwerke, die logN-Stufen umfassen. (N ist die Zahl der Ein- und 

Ausgänge). Die Klasse der Benes-Netze [Benes65], die aus (2logN-1) Stufen 

bestehen, zeichnen sich dadurch aus, bei Leitungsvermittlung blockierungsfrei 

durch Umordnen interner Wege zu sein [Lee85]. Die Datenmanipulatornetze 

[Feng74] schließlich bestehen aus (logN+1) Stufen, die aus speziellen Schaltelementen 

aufgebaut sind. Darüberhinaus existieren noch einige Sonderformen 

dynamischer Netze wie der Kreuzschienenverteiler und das Clos-Netz 

[Clos53], die aus einer bzw. drei Schaltstufen bestehen. Das einfachste dynamische 

Netz stellt der Kreuzschienenverteiler dar. 

146

Ebenso unterschiedlich wie die Stufenzahl der dynamischen Netze ist deren 

mathematische Beschreibung. Banyan-Netze lassen sich mit Hilfe graphentheoretischer 

Methoden erzeugen und beschreiben, die Benes-Netze benötigen 

Gruppentheorie oder Restklassenarithmetik, und die Datenmanipulatornetze 

erfordern spezielle Hilfsmittel wie das binäre, voll redundante 

Zahlensystem 0, 1 und 1 [Parker84]. Das Routing im Clos-Netz läßt sich noch 

verhältnismäßig einfach über Matrizenrechnung beschreiben. Gleichwohl können 

allen dynamischen Netzen typübergreifende Eigenschaften zugeordnet 

werden. 

4.2 Allgemeiner Aufbau dynamischer Netze 

Im Unterschied zu den statischen Netzen wie Gitter, Hyperkube usw., bei denen 

die Knoten des Netzgraphen Prozessoren oder Rechner darstellen, repräsentieren 

die Knoten in dynamischen Netzen Schalter ohne Rechenfunktion. Die Prozessoren 

oder Rechenknoten werden an die Ein- und Ausgänge des mehrstufigen 

Netzes angeschlossen und sind nicht ein Teil desselben. 

Jeder Rechenknoten ist von jedem anderen direkt, d.h. ohne Umwege, über 

Zwischenknoten erreichbar. Deshalb ist die Latenz beim Datentransport in der 

Regel deutlich geringer als bei statischen Netzen, was dynamische Netze für 

Hochgeschwindigkeitsanwendungen prädestiniert. Bei der nicht-blockierungsfreien 

Kategorie der Banyan-Netze können jedoch, wie bei statischen Netzen 

auch, a priori nicht vorhersagbare Verzögerungen auftreten, sofern die paketvermittelnde 

Betriebsart gewählt wurde und ein hohes Verkehrsaufkommen 

vorliegt. Die Verzögerungen entstehen dadurch, daß zum Pakettransport eine 

Sequentialisierung konkurrierender Datenübertragungen vorgenommen wird. 

Sie hat zur Folge, daß paketvermittelnde Banyan-Netze bei Echtzeitanwendungen 

besondere Sicherheitsmaßnahmen erfordern. 

Benes-Netze werden überwiegend leitungsvermittelnd und mit zentralem 

Routing betrieben und haben deshalb garantierte Durchlaufzeiten. Datenmanipulatornetze 

wurden ursprünglich für die schnelle Manipulation von Bitfeldern 

entwickelt und dienen primär nicht zum Datentransport. Clos-Netz und Kreuzschienenverteiler 

sind in allen Einsatzgebieten zu finden und sind, obwohl sie 

die ältesten dynamischen Netze darstellen, aktueller denn je, da sie kleine und 

konstante Latenzen aufweisen. 

Mehrstufige Netze unterscheiden sich untereinander in der Art der Leitungsführung 

zwischen den Schaltern. Die Verdrahtung der Stufen bestimmt 

die Netztopologie und stellt neben dem Wegewahlalgorithmus und der Zahl der 

vom Netz realisierbaren Verbindungen ein wesentliches Kennzeichen eines dynamischen 

Netzes dar. Häufig ist die Verdrahtung nicht über das ganze Netz 

hinweg einheitlich, sondern ändert sich von Stufe zu Stufe. 

Zur formalen Beschreibung von Netztopologien werden Permutationsfunktionen 

verwendet, die entweder als mathematische Funktion, als Matrix oder in 

der Zyklen- bzw. Zweierzyklenschreibweise spezifiziert werden können. In allen 

Fällen wird das Netzwerk dadurch abstrahiert, daß man es als eine Abbil- 

147

dung eines Eingabevektors auf einen Ausgabevektor auffaßt. Im folgenden 

werden die wichtigsten Permutationsfunktionen erläutert, auf denen dynamische 

Netze beruhen. 

4.3 Permutationsfunktionen für dynamische 

Netzwerke 

Zur Definition der Permutationsfunktionen muß zuerst eine Numerierung der 

Ein- und Ausgänge des Netzes durchgeführt werden, die üblicherweise von 0 

bis N-1 fortlaufend erfolgt. Dann werden alle Eingangs- bzw. Ausgangsadressen 

in einen Eingabevektor I und einen Ausgabevektor O zusammengefaßt. 

Der Ausgabevektor O wird durch Anwendung der Permutationsfunktion f, die 

vom Netz durchgeführt wird, auf jedes Element von I erzeugt: 

Gl. 4.1: 

O 

= (f(0), f(1), ... , f(N-1)). 

Da die Zahl N der Ein- und Ausgänge eines Netzes häufig als Zweierpotenz 

(N =2 n ) gewählt wird, ist es günstig, die Numerierung ebenfalls bzgl. der Zahlenbasis 

2 durchzuführen. In diesem Fall werden die Numerierungen der Einund 

Ausgänge als binäre Adressen bezeichnet. 

Sei I ein Netzeingang (I Element von I ) und O ein Netzausgang (O Element 

von O ), dann lauten deren binäre Darstellung: 

Gl. 4.2: I = i n i n-1 ,...,i 1 , bzw. O = o n o n-1 ,...,o 1 , 

mit i j ,o j ∈ {0,1}, n = 1, 2, 3,..., log 2 N. Der Parameter n kodiert über N = 2 n die 

Netzgröße, d.h. die Zahl der Ein- und Ausgänge. Die von der Verdrahtung der 

k-ten Netzstufe durchgeführte Permutation f k läßt sich auch darstellen als O = 

f k (I). 

Sind f 1 , f 2 ,...,f k die Permutationsfunktionen der Stufen 1 bis k, dann kann man 

die Funktion f des Netzes durch die Einzelpermutationen beschreiben: 

Gl. 4.3: O = f() I = f k 

( f k – 1 

(…( f 2 

( f 1 

() I ))…)) = f 1 

f 2 

…f k 

() I . 

Damit kann man die für Verbindungsnetze typischen Verdrahtungen zwischen 

den Stufen angeben. Man muß beim Ausdruck f 1 f 2 ...f k (I) unbedingt beachten, 

daß die Permutationen von links nach rechts ausgeführt werden. Dies ist im Gegensatz 

zum Verkettungsoperator ° der Cayley-Graphen! 

148

4.3.1 Perfect Shuffle-Permutation 

Das bei dynamischen Netzen am häufigsten verwendete Verdrahtungsschema 

ist die Perfect Shuffle-Permutation σ, die von Stone 1971 [Stone71] erstmals in 

die Disziplin der Parallelverarbeitung eingeführt wurde. Bei der Perfect Shuffle-Permutation 

erhält man den Ausgang O eines Eingangs I durch folgende 

Funktion: 

⎧ 2I für 0 ≤ I < N⁄ 

2 ⎫ 

Gl. 4.4: O = σ() 

I = ⎨ 

⎬, 

⎩( 2I + 1) MOD N für N ⁄ 2 ≤ I < N⎭ 

vorausgesetzt, daß N gerade ist. (Für ungerades N ist σ nicht definiert!). D.h., 

σ entspricht einer Multiplikation der Eingangsadressen um den Faktor 2, um die 

dazugehörenden Ausgangsadressen zu erhalten. 

Die etwas umständliche Darstellung nach Gl. 4.4 kann man für N=2 n vereinfachen, 

indem man die Multiplikation mit 2 durch eine zyklische Rotation der 

Bits von I um eine Position nach links ersetzt: 

σ 

nn−1 1 n−1 1 n 

Gl. 4.5: I = i i ,..., i ⎯ ⎯ → O = i ,..., i i . 

Die Perfect Shuffle-Permutation ist in Bild 4.1 für n = 4 graphisch dargestellt. 

0000 

0001 

0010 

0011 

0100 

0101 

σ 0110 

i n i n-1 

,..., i i 0111 

2 1 1000 

i i ,..., n-1 n-2 

i i 

1001 

1 

n 1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Bild 4.1: Die Perfect Shuffle-Permutation. 

Anhand der graphischen Repräsentation der Perfect Shuffle-Permutation erkennt 

man, daß beim Shuffle-Verdrahtungsschema alle Eingänge der oberen 

Hälfte (0 ≤ I < N/2) auf geradzahlige Ausgänge abgebildet werden, während die 

Eingänge der unteren Hälfte (N/2 ≤ I < N) auf ungeradzahlige Ausgänge zu liegen 

kommen. Dieses Schema ist identisch mit dem Vorgang des Mischens beim 

Kartenspielen, bei dem ein Kartenstapel in zwei (gleich große) Hälften geteilt 

wird, und Karten aus oberer und unterer Hälfte im Sinne einer "Verzahnung" 

abwechselnd aufeinander gelegt werden. 

149

4.3.2 Butterfly-Permutation 

Das zweite für dynamische Netze wichtige Verdrahtungsschema ist die Butterfly-Permutation. 

Bei der Butterfly Permutation β wird in der binären Darstellung 

von I die letzte (n.) Stelle mit der 1. Stelle ausgetauscht, d.h. das Most 

Significant Bit wird durch das Least Significant Bit ersetzt und umgekehrt: 

β 

Gl. 4.6: I = inn i −1,..., i1 ⎯ →O = i1in− 

1,... 

, i2in. 

Dieser Vorgang ist in Bild 4.2 für n=4 exemplarisch gezeigt. Die Butterfly-Permutation 

realisiert ähnlich wie die Shuffle-Permutation eine Durchmischung 

der Verbindungen in zwei Gruppen, abhängig davon, ob die Eingangsadresse 

der Verbindung gerade oder ungerade ist. 

i n i n-1 

i 1 

i i n-1 

,..., i i 

n 

1 2 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

,..., i 2 

β n 

0000 

Bild 4.2: Die Butterfly-Permutation. 

i n i n-1 ,..., i 2 

i ρ 1 n 

i 1 

i 2 ,..., i n-1 i n 

Bild 4.3: Die Reversal-Permutation. 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

150

Die von der schnellen Fouriertransformation bekannte Reversal-Permutation ρ, 

bei der die Reihenfolge der Bits von I gespiegelt wird, spielt bei dynamischen 

Verbindungsnetzwerken fast keine Rolle. Sie wird hier gezeigt (Bild 4.3), um 

die Vielfalt der potentiellen Verdrahtungsmöglichkeiten zu demonstrieren. 

Variationen der Grundpermutationen 

Zu den beiden Grundpermutationen von Shuffle und Butterfly gibt es 2 Varianten, 

die man ebenfalls häufig in mehrstufigen Netzen als Verdrahtungsschema 

findet. Diese Varianten entstehen durch Spiegelung der normalen Shuffle- 

Verdrahtung (sog. inverser Shuffle σ -1 ) und durch die Beschränkung der Permutationsfunktionen 

auf niederwertige Adreßbits von I (sog. Subshuffle). Für 

die Butterfly-Permutation gilt, daß die Umkehrfunktion aufgrund der Spiegelsymmetrie 

mit dem normalen Butterfly identisch ist, so daß sich hieraus keine 

neue Verdrahtung ergibt, wohl aber aus der Beschränkung auf niederwertige 

Adreßbits. 

Die inverse Perfect Shuffle-Permutation σ -1 läßt sich als Divison von I durch 

zwei wie folgt definieren: 

Gl. 4.7: σ – 1 ⎧ I ⁄ 2 

für I gerade ⎫ 

() I = ⎨ 

⎬. 

⎩( ( I – 1) ⁄ 2) + ( N ⁄ 2) 

für I ungerade⎭ 

Wiederum ist N als durch 2 teilbar vorausgesetzt. In binärer Schreibweise erhält 

man σ -1 durch zyklische Rechtsrotation der Bits von I um eine Stelle: 

−1 

σ 

nn−1 1 1 nn−1 2 

Gl. 4.8: I = i i ,..., i ⎯⎯⎯ →O = i i i ,..., i . 

Der Graph der inversen Perfect Shuffle-Permutation ist in Bild 4.4 exemplarisch 

für n = 4 dargestellt. 

0000 0000 

0001 0001 

0010 0010 

0011 0011 

0100 0100 

0101 0101 

σ −1 

0110 0110 

i n i n-1 

,..., i i 0111 0111 

2 1 1000 1000 

i i ,..., 1 n 

i i 

1001 

3 2 

1001 1010 1010 

1011 1011 

1100 1100 

1101 1101 

1110 1110 

1111 1111 

Bild 4.4: Der Graph der inversen Perfect Shuffle-Permutation. 

151

Die Anwendung der Grundpermutationen σ und β auf Teile der Adreßbits von 

I, d.h. auf die unteren (LSB) oder oberen (MSB) k Bits resultieren in den Subshuffle- 

und Supershuffle-Funktionen σ uk und σ ok sowie in den entsprechenden 

Butterfly-Funktion β uk und β ok . (Die Indizes u und o stehen für "unten" bzw. 

"oben"). Diese verallgemeinerten Permutationen, die k als Parameter haben, 

lauten gemäß : 

Def. 4.1: 

σuk 

( inn i 

− 1,..., ik+ 1ikk i 

−1,..., i21 i ) ⎯⎯⎯ 

→( inn i 

− 1,..., ik+ 1ik−1..., i21 

i ik) 

σok 

( ii ,..., i i ,..., ii) ⎯⎯⎯ 

→( i ,..., i ii ,..., ii) 

nn−1 n−( k−1) n−k 21 n−1 n−( k−1) 

nn−k 

21 

βuk 

( ii 

nn−1,.. 

., ik+ 1ikik−1,..., i21 i ) ⎯⎯⎯ 

→( inin− 1..., ik+ 11 

i ik− 

1,..., i2ik) 

βok 

( i i ,..., i i ,..., i i ) ⎯⎯⎯ 

→( i i ,..., i i ,..., i i ) 

n n−1 n−( k−1) n−k 21 n−( k−1) 

n−1 n n−k 

21 

Für dynamische Netze sind ausschließlich Permutationen der niederwertigen 

Bits interessant, da σ ok und β ok keine echte "Durchmischung" der Leitungsbündel 

bewirken, wie man sich anhand des Graphen von σ o2 veranschaulichen 

kann (Bild 4.5). Aus diesem Grunde werden im weiteren nur die Subshufflebzw. 

Subbutterfly-Permutationen σ uk und β uk betrachtet, die vereinfachend als 

σ k und β k bezeichnet werden. (Achtung: Bei den Star-Graphen ist β k anders definiert!) 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

σ o2 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Bild 4.5: Die Supershuffle-Funktion für n=4 und k=2. 

Zu den Subshuffle- bzw. Subbutterfly-Permutationen σ k und β k können auch 

die inversen Abbildungen definiert werden. Dies ist in Def 4.2 zusammenfassend 

dargestellt. 

152

Je nach Parameter k ergeben die Subshuffle-Funktionen völlig unterschiedliche 

Verdrahtungen, wie man in Bild 4.6 anhand von σ k mit k = 4, 3 und 2 sehen 

kann (n = 4). In Bild 4.7 ist derselbe Sachverhalt zur Erläuterung für die Subbutterfly-Funktion 

β k gezeigt. 

Def. 4.2: 

σ 

( i i ,..., i i i ,..., i i ) k 

nn− 1 k+ 1 kk−1 21 ⎯ ⎯→( inn i − 1,..., ik+ 1ik−1..., i21 

i ik) 

σ 

−1 

( inn i ,..., ik ikk 

i ,..., i i ) k 

− 1 + 1 −1 21 ⎯⎯⎯ 

→( inn i − 1,..., ik+ 11 i ikk 

i −1,..., i2) 

βk 

= β 

( ii nn−1,..., 

i i i i i k 

− 1 

k + 1 k k −1,..., 21) ⎯⎯⎯ ⎯→( inn i − 1..., ik + 11 i ik −1,..., i2ik 

) 

Zusammenfassend kann man sagen, daß sich aus den dargestellten Permutationen 

σ k und β k und ihren inversen Abbildungen σ k -1 und β k -1 alle "klassischen" 

logN-Netze im Sinne eines Baukastensystems erzeugen lassen. Wenn 

man zusätzlich noch die Reversal-Permutation erlaubt, lassen sich damit auch 

die Signalflußgraphen aller Formen der FFT konstruieren. 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

σ4 

σ3 

σ2 

Bild 4.6: Die Subshuffle-Funktion σ k für k = 4, 3 und 2 (n = 4). 

Die Subshuffle-Funktionen σ k und β k stellen bereits eine Verallgemeinerung 

der Grundpermutationen σ und β dar, doch ist die Zahl potentieller Erweiterungsmöglichkeiten 

damit noch nicht erschöpft. Ein Grund, nach noch umfassenderen 

Definitionen für σ und β zu suchen, liegt darin, das relativ grobe 

Raster der erlaubten Zahl von Netzein- und -ausgängen zu überwinden und eine 

feinere Abstufung der Netzgröße zu erreichen. Für σ k und β k gilt bzgl. der Zahl 

N der Ein- und Ausgänge: 

N = 2 n , (n ganz), 

was bedeutet, daß für jede Netzerweiterung die Zahl der Netzanschlüsse verdoppelt 

werden muß. 

153

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 0000 

0001 0001 

0010 0010 

0011 0011 

0100 0100 

0101 0101 

0110 0110 

0111 0111 

1000 1000 

1001 1001 

1010 1010 

1011 1011 

1100 1100 

1101 1101 

1110 1110 

1111 1111 

β 4 

0000 0000 

0001 0001 

0010 0010 

0011 0011 

0100 0100 

0101 0101 

0110 0110 

0111 0111 

1000 1000 

1001 1001 

1010 1010 

1011 1011 

1100 1100 

1101 1101 

1110 1110 

1111 1111 

β 3 

β 2 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Bild 4.7: Die Subbutterfly-Funktionen β κ für k = 4, 3 und 2 (n = 4). 

Bei einer anderen Art der Verallgemeinerung von σ und β wird zugelassen, daß 

die Permutationen auf alle Netze übertragen werden können, deren Größe N 

sich als Produkt zweier Zahlen k und s (k, s ganz) darstellen läßt, was eine wesentlich 

feinere Unterteilung erlaubt. D.h. in diesem Fall gilt: 

N=ks, (k, s ganz). 

Die daraus resultierenden Permutationen werden im Kapitel über das Clos-Netz 

[Clos53] vorgestellt. An dieser Stelle wird eine dritte Erweiterungsmöglichkeit 

von σ und β vorgenommen, die darauf beruht, daß beliebige Zahlenbasen b 

(b≥2) erlaubt sind, so daß gilt: 

N = b n , (b, n ganz, b≥2) 

Diese Variante gestattet ebenfalls ein feineres Raster von Netzgrößen sowie 

Einsparungen bzgl. der aufzuwendenen Schalter, aus denen die dynamischen 

Netze bestehen. 

Verallgemeinerte Grundpermutationen 

Moderne Nachfolger der klassischen Netze wenden die Grundpermutationen 

und ihre Umkehrungen auf Zahlenbasen b≥2 an. Dadurch kann man weitere Topologien 

erhalten, die beim Einsatz in mehrstufigen Netzen in neuen Eigenschaften 

wie einer geringeren Stufenzahl resultieren. Die Stufenzahl sinkt 

von n1=log2N auf n2=logbN, was beispielsweise bei 1024 Ein- und Ausgängen 

und b=2 bzw. 4 eine Halbierung der Stufenzahl bedeutet. 

Der Übergang auf eine allgemeine Zahlenbasis bedeutet für den Netzaufbau, 

daß anstelle von Kreuzschaltern Kreuzschienenverteiler der Größe bxb verwendet 

werden. Die Definitionen der Permutationen bleiben im Prinzip erhalten, 

nur das Wort "Bit" muß durch "Ziffer" ersetzt werden. Die Bitverschiebung 

wird deshalb durch eine Ziffernverschiebung abgelöst. Beispielsweise gilt in einer 

ternären Darstellung für I und O: 

154

Gl. 4.9: 

I=(i n i n-1 ,...,i 1 ), bzw. O=(o n o n-1 ,...,o 1 ), mit i j ,o j ∈{0,1,2}, 

wobei sich die Perfect Shuffle-Permutation wie folgt berechnet: 

Gl. 4.10: 

O b 3 

= 

= σ( I b = 3 

) = i n – 1 

i n – 2 

, …, 

i 1 

i n 

mit o j 

∈ {, 01, 

2} 

Entsprechend erhält man die inverse Perfect Shuffle-Permutation durch zyklisches 

Schieben der Ziffern von I um eine Position nach rechts. Die Butterfly- 

Funktion β k,b wird durch Austauschen der 1. (LSB) und k. Ziffer gewonnen, 

und ρ k,b entspricht der Spiegelung der unteren (LSB) k Ziffern zur Basis b. Der 

Graph der ternären und der quaternären Shuffle-Permutation ist in Bild 4.8 für 

den Fall von N = 9, b=3 und k=2 sowie N=16 , b=4 und k = 2 gezeigt. 

Schließlich soll noch erwähnt werden, daß für k = 2 und beliebiges b die 

Shuffle-, Butterfly- und Reversal-Permutationen identisch sind, da bei zweiziffrigen 

Zahlen das Tauschen, zyklisches Verschieben und Spiegeln der Reihenfolge 

der Adreßbits von I zum gleichen Resultat führt. Für k>2 sind jedoch 

alle Permutationen verschieden. 

00 

01 

02 

10 

11 

12 

20 

21 

22 

σ 

2 

für b=3 

00 

01 

02 

10 

11 

12 

20 

21 

22 

00 

01 

02 

03 

10 

11 

12 

13 

20 

21 

22 

23 

30 

31 

32 

33 

σ 

2 für b=4 

00 

01 

02 

03 

10 

11 

12 

13 

20 

21 

22 

23 

30 

31 

32 

33 

Bild 4.8: Der Graph der ternären und quaternären Shuffle-Permutation für N = 9, b=3 und k=2 

bzw. N=16 , b=4 und k = 2. 

Algebra der Permutationen 

Die zuvor definierten Funktionen können miteinander verkettet und darauf eine 

Algebra der Permutationen aufgebaut werden. Beispielsweise ist die Verkettung 

zweier Shuffle-Permutationen σ n definiert als: 

Def. 4.3: 

O 

2 = σ n 

( σ n 

() I ) = ( σ n 

⋅ σ n 

)() I = σ n() 

I 

155

Häufig läßt man den Operanden bei Permutationsfunktionen weg, so daß man 

Def 4.3 auch kürzer schreiben kann als: 

2 

Def. 4.4: σ n 

( σ n 

) = σ n 

⋅ σ n 

= σ n 

. 

Bei der Verkettung allgemeiner Permutationen π 1 , π 2 wird von links nach 

rechts fortschreitend die Gesamtpermutation gemäß Def 4.5 berechnet: 

Def. 4.5: π 2 

( π 1 

) = π 1 

⋅ π 2 

. 

Nach der Definition der Verkettungsoperation werden einige Sätze über Permutationen 

angegeben. Der erste Satz lautet[Hockney85]: 

Satz 4.1: = σ k π uk 

σ k . 

π ok 

In Satz 4.1 ist π ok 

eine beliebige Permutationsfunktion, die auf die k oberen 

Bits einer binären Adresse angewandt wird; π uk 

ist dieselbe Permutation angewandt 

auf die k unteren Bits. Nach diesem Satz ist eine Bitmanipulation der 

k oberen Bits identisch mit einer Manipulation der k unteren Bits, wenn diese 

zuvor durch k-faches, zyklisches Linksschieben nach unten und anschließendes 

Rechtsschieben wieder nach oben gebracht werden. 

Im allgemeinen sind bei dynamischen Netzen nur die unteren Bits einer Eingangs- 

oder Ausgangsadresse interessant, so daß der Index o bzw. u zur Unterscheidung 

nicht benötigt wird. Unter σ k beispielsweise versteht man im weiteren 

das k-fache Produkt von σ uk . (σ ok wird nicht mehr gebraucht.) 

Besonders interessant sind die algebraischen Zusammenhänge zwischen verschiedenen 

Permutationen, die man in weiteren Sätzen ausdrücken kann: 

– 1 

σ k 

k – 1 

σ k 

Satz 4.2: = . 

Dieser Satz besagt, daß (k-1)-faches Linksschieben identisch mit einmaligem 

Rechtsschieben ist. Der folgende Satz erlaubt, die Shuffle-Permutation durch k 

verkettete Butterfly-Permutationen zu ersetzen: 

Satz 4.3: σ k 

= β 1 

β 2 

…β k 

. 

Analoges gilt für die Reversal-Funktion: 

Satz 4.4: ρ k 

= σ 1 

σ 2 

…σ k 

. 

Daneben gibt es noch einige einfache Sätze über das Verhalten der Permutationen 

bei Spiegelungen: 

– 

156

Satz 4.5: = , 

Satz 4.6: = , 

sowie einige Definitionen über Spezialfälle von Permutationen, die in arithmetischen 

Ausdrücken eine Vereinfachung gestatten: 

Def. 4.6: = i, β 1 

= i, 

ρ 1 

= i , 

wobei i die identische Abbildung ist. Neben der Verdrahtung der Schaltstufen, 

die durch Permutationsfunktionen ausgedrückt werden, sind noch die Netzschalter 

von Bedeutung. 

4.4 Schalter in dynamischen Netzen 

4.4.1 Schalteraufbau 

– 1 

β k 

– 1 

ρ k 

σ 1 

β k 

ρ k 

Die Schalter in den Stufen dynamischer Netze bestehen überlicherweise aus 

Schaltelementen der Art, wie sie in Bild 4.9a dargestellt sind. Sie haben jeweils 

zwei Ein- und Ausgänge, die entweder parallel oder gekreuzt gesetzt werden 

können. Aus diesem Grunde werden die Schaltelemente auch als Kreuzschalter 

bezeichnet. Die Aufgabe eines Kreuzschalters ist es, ein an einem Eingang anliegendes 

Datenpaket zu einem der beiden Schalterausgänge zu transferieren. 

Für die Steuerung der Funktionen "=" und "x" wird ein Steuerbit C benötigt, 

dessen Wert angibt, ob der Schalter parallel (C = 0) oder gekreuzt (C = 1) gesetzt 

werden soll. Die Steuerinformation des Schalters wird anhand des gewählten 

Routing-Schemas berechnet. Bei Paketvermittlung wird die Schalterstellung 

in der Regel von jedem Schalter selbständig gemäß der Zieladresse des 

Pakets bestimmt. Bei Leitungsvermittlung existiert eine zentrale Routing-Instanz 

zum Verbindungsaufbau. 

Das Kardinalproblem bei Kreuzschaltern ist, daß es Routing-Konflikte gibt, 

wenn gleichzeitig an beiden Eingängen eines Schalters Daten anliegen, die zum 

selben Ausgang transferiert werden sollen. In diesem Fall wird bei Paketvermittlung 

eine Sequentialisierung des Transfers vorgenommen, indem eines der 

beiden Pakete am Eingang gepuffert wird, bis der gewünschte Ausgang wieder 

frei ist. Bei Leitungsvermittlung erkennt die zentrale Routing-Instanz den Resourcen-Konflikt 

und kann bei Netzen, die durch Umordnen interner Wege 

blockierungsfrei sind, einen alternativen Pfad durch das Netz finden. 

Zu beachten ist, daß Routing-Konflikte dann vermieden werden können, 

wenn zwei gleichzeitig an den Eingängen anliegende Datenpakete komplementäre 

Ausgänge für den Weitertransport benötigen. Auf dieser Tatsache beruhen 

auch die blockierungsfreien Routing-Algorithmen der Leitungsvermittlung. 

157

Eine Erweiterung des Funktionsumfangs von Kreuzschaltern ist dann gegeben, 

wenn neben den beiden Standardschalterstellungen "=" und "x" zusätzlich ein 

Broadcast vom einem der Eingänge zu beiden Ausgängen geschaltet werden 

kann. Dann spricht man von Kreuzschaltern mit Broadcastfunktion oder von 

2x2-Schaltern. Für den Broadcast muß unterschieden werden, ob die Information 

vom oberen oder unteren Eingang dupliziert werden soll. Zur Steuerung 

der vier Funktionen "=", "x", , werden zwei Steuerbits benötigt, wie dies 

in Bild 4.9b dargestellt ist. 

Steuerung 

C = 0 

Steuerung 

C = 1 

a) 

Eingang 

0 

1 

0 

1 

Ausgang 

0 

1 

1 0 

b) 

Steuerung 

C = 00 

0 

0 

Steuerung 

C = 01 

0 

Steuerung 

C = 10 

1 0 0 

Steuerung 

C = 11 

0 

1 

1 

1 

1 

0 

1 

0 

1 1 

Bild 4.9: Kreuzschalter ohne und mit Broadcast (a bzw. b). 

Die volle Verschaltungsmöglichkeit, die zwischen zwei Eingängen und zwei 

Ausgängen prinzipiell möglich ist, liegt dann vor, wenn der 2x2-Schalter in 

Form einer Schaltmatrix aus vier Ein/Aus-Schaltern implementiert ist (Bild 

4.10). In diesem Fall liegt ein Kreuzschienenverteiler der Größe 2x2 vor. 

Steuerung 

C=C C C C 

3 2 1 0 

Eingang 

a 

b 

C 3 

C 2 

C 1 C 0 

c 

d 

Ausgang 

Bild 4.10: Ein Kreuzschienenverteiler als 2x2-Schalter 

Beim Kreuzschienenverteiler kann als neue Funktionalität jeder Ein- und Ausgang 

von der Verdrahtung, die zwischen den Stufen besteht, abgetrennt werden, 

indem der dazugehörige Schalter auf "aus" gestellt wird. Da ein Schalter entweder 

offen oder geschlossen ist, sind vier Bit Steuerinformation nötig, um die 

verschiedenen Zustände zu kodieren. Zu beachten ist, daß bei Verbindungs- 

158

netzwerken nur 8 statt der 16 möglichen Schalterzustände sinnvoll sind, da mindestens 

ein Eingang Daten auf einen Ausgang übertragen muß, da diese sonst 

verloren gehen. Die Verschaltungsmöglichkeiten des Kreuzschienenverteilers 

der Größe 2x2 sind in Tabelle 4.1 angegeben. Die mit "k.V." und "n.e." angegeben 

Zustände brauchen nicht kodiert zu werden. Zur Reduzierung der Zahl 

der Steuerbits können deshalb die 8 erlaubten Zustände von Tabelle 4.1 in 3 

statt 4 Bits verschlüsselt werden. Bei dynamischen Netzen sind auch Schalter 

mit mehr als zwei Ein- und Ausgängen möglich und sinnvoll. Für den Allgemeinfall 

von Schaltern mit f Ein- und s Ausgängen werden Kreuzschienenverteiler 

verwendet, da diese jeden Eingang mit jedem Ausgang verbinden können 

(Bild 4.11). 

C 1 

C 0 

00 01 10 11 

0 = offen 

00 

k.V. b->d b->c b->c,d 

1 = 

geschlossen 

01 

a->d n.e. a->d; b->c n.e. 

k.V. = keine 

Verbindung 

n.e. = nicht 

erlaubt 

C 3 

C 2 

10 

a->c a->c; b->d n.e. n.e. 

11 

a->c,d 

n.e. 

n.e. 

n.e. 

Tabelle 4.1: Die Verbindungsmöglichkeiten eines 2x2 Kreuzschienenverteilers. 

4.4.2 Schalterfunktion 

Die Funktion eines Kreuzschalters nach Bild 4.9a läßt sich mathematisch beschreiben. 

Ist der Schalter auf parallelen Durchgang gesetzt (C = 0), gilt für die 

Ausgangsadresse O eines Datenpakets, das am Eingang I des Kreuzschalters 

anliegt: 

Gl. 4.11: O = o 1 

= I = i 1 

. 

Für den gekreuzten Durchgang (C = 1) muß man die Schalterfunktion mit Hilfe 

der Exchange-Permutation ε beschreiben, die folgendermaßen definiert ist: 

159

1 

. . . 

1 

2 

. . . 

2 

Eingänge 

. . . . . . . . . . . . 

. . . 

f 

. . . 

s 

Ausgänge 

Bild 4.11: fxs-Schalter aus einem Kreuzschienenverteiler. 

Gl. 4.12: O = o 1 

= ε( I = i 1 

) = i 1 

, 

d.h., ε komplementiert das LSB von I. Die Schalterfunktion E(i 1 ,C) wird damit: 

⎧ 

i 1 

für C = 0 

⎫ 

Gl. 4.13: Ei ( 1 

, C) 

= ⎨ 

⎬. 

⎩i 1 

für C = 1⎭ 

Dies läßt sich äquivalent mit Hilfe von Boolscher Algebra formulieren: 

Gl. 4.14: Ei ( 1 

, C) = i 1 

Exor C , 

wobei Exor die Exclusiv-Oder-Operation ist. 

4.4.3 Schaltersteuerung 

Die nächste Frage, die untersucht werden soll, ist, wie das Steuerbit C berechnet 

werden kann. Im Falle des sog. Destination Tag Routings wird von jedem 

Schalter, der von einem Datenpaket durchlaufen wird, anhand der Zieladresse 

des Pakets das Steuerbit berechnet. Insbesondere wird vom k-ten Schalter das 

Bit o k der Zieladresse O ausgewertet, wobei die Schalternummer k je nach 

Netztopologie entweder vom Netzeingang oder vom Netzausgang aus gezählt 

wird. 

Nach diesem Routing-Schema wird für o k = 0 der obere (= gerade) Ausgang 

des Schalters und für o k = 1 der untere (= ungerade) für die Transferierung des 

Datenpakets verwendet. In Abhängigkeit von o k und unter Berücksichtigung 

davon, ob das Datenpaket am oberen oder unteren Eingang des Schalters anliegt 

160

(i 1 = 0 oder i 1 = 1), muß der Schalter entweder parallel oder gekreuzt gesetzt 

werden. Man kann die Funktion eines Kreuzschalters, wie in Tabelle 4.2 dargestellt, 

spezifizieren: 

i 1 

o k O C 

00 0 (gerade) 0 ('=') 

01 1 (ungerade) 1 ('x') 

10 0 (gerade) 1 ('x') 

11 1 (ungerade) 0 ('=') 

Tabelle 4.2: Funktion eines Kreuzschalters. 

Aus der Spezifikation der Schalterfunktion ergibt sich für das Steuerbit C folgende 

Gleichung: 

Gl. 4.15: C = i k Exor o k . 

Mit Gl. 4.14 folgt daraus für E( i 1 ,C): 

Gl. 4.16: E(i 1 ,C) = i k Exor (i k Exor o k ) = o k . 

D.h. E( i 1 ,C) wird zu: 

Gl. 4.17: E(i 1 ,C) = E(i 1 , o k ) = o k , 

hängt also nicht mehr von i 1 und C ab. Dies ist ein wichtiges Resultat, weil es 

bedeutet, daß die Routing-Funktion eines Kreuzschalters beim Destination Tag 

Routing darin liegt, das LSB der Eingangsadresse I des Datenpakets durch das 

Bit o k der Zieladresse O auszutauschen. Die Schalterfunktion E(i 1 , o k ) eines 

Kreuzschalters bewirkt damit folgende Abbildung: 

1 k 

Gl. 4.18: I = i i ,..., i i ⎯⎯⎯ ⎯ →O = i i ,..., i o . 

4.4.4 Schaltergruppen 

Ei ( , o ) 

nn−1 2 1 nn−1 2 

Zum Schluß sei noch der Spezialfall behandelt, daß die Schalter einer Netzstufe 

eine Gruppe bilden und daß alle Schalter der Gruppe gleichartig gesetzt werden. 

In Bild 4.12 sind 4 Schalter gezeigt, die synchron gemäß des Steuerbits C gesetzt 

werden. Schaltergruppen dieser Art finden in den sog. Data-Manipulator- 

Netzen [Feng74] Verwendung, die noch behandelt werden. 

Für C = 1 stehen die Schalter auf "x". Für diesen Fall gilt für die Exchange- 

Permutation ε, die von den Kreuzschaltern durchgeführt wird: 

k 

161

Steuerung 

C 

E 

i 

n 

g 

ä 

n 

g 

e 

A 

u 

s 

g 

ä 

n 

g 

e 

Bild 4.12: Steuerung aller Kreuzschalter einer Schaltstufe mit einem Steuerbit C. 

Gl. 4.19: O = o n 

o n – 1 

, …, o 1 

= ε( I = i n 

i n – 1 

, …, 

i 1 

) = i n 

i n – 1 

, …, 

i 1 

. 

Der Graph von ε ist in Bild 4.13 für n = 3 gezeigt. 

000 

001 

010 

011 

100 

101 

110 

111 

000 

001 

010 

011 

100 

101 

110 

111 

Bild 4.13: Die Exchange-Permutation ε für n=3. 

Sind in einer Netzstufe Schalter mit jeweils 2 k ( k ≥ 1 ) Ein- und Ausgängen eingebaut, 

die gleichzeitig entweder parallel oder gekreuzt werden müssen, erfolgt 

von ε κ die Komplementierung des k-ten. Bit gemäß Gl. 4.20: 

Gl. 4.20: 

O = o n 

o n – 1 

, …, o 1 

= ε k 

( I = i n 

i n – 1 

, …, 

i k 

, …, 

i ) = i n 

i n – 1 

, …, 

i k 

, …, i1 

. 

Die dazu gehörende Permutation ist in Bild 4.14a für n = 3, k = 2 und in Bild 

4.14b für k = 3 gezeigt, und ihre Schalterrealisierung ist in Bild 4.15 dargestellt. 

4.5 Die klassischen logN-Netze 


Zu den in diesem Buch als "klassische logN-Netze" bezeichneten Verbindungsnetzwerke 

gehören das Banyan-Netz [Goke73], das Omega-Netz [La- 

1 

162

000 

001 

010 

011 

100 

101 

110 

111 

000 000 

001 001 

010 010 

011 011 

100 100 

101 101 

110 110 

111 111 

a) b) 

000 

001 

010 

011 

100 

101 

110 

111 

Bild 4.14: Die allgemeine Exchange Permutation ε κ für k = 2, n = 3 (a) und k = 3 (b). 

Steuerung C 

Steuerung C 

4x4 

8x8 

4x4 

a) 

b) 

Bild 4.15: 4x4- und 8x8-Schalter für die Permutationen nach Bild 4.14. 

wrie75], das Flip-Netz [Batcher76], der Indirect Binary n-Cube [Pease77], der 

Generalized Cube [Siegel78] und das Baseline-Netz [Wu80a]. Diese Netze 

wurden in der genannten Reihenfolge in weniger als einem Jahrzehnt erfunden. 

Die bereits vor 1973 bekannten Clos- [Clos53] und Benes-Netze [Benes65] 

zählen in diesem Sinne nicht zu den logN-Netzen, weil sie aus 3 bzw. aus 

(2logN-1) Stufen bestehen. 

Die logN-Netze haben eine Reihe interessanter Eigenschaften, z.B. sind ihre 

Topologien bis auf eine Reversal-Stufe am Ein- oder Ausgang identisch mit den 

Signalflußgraphen der verschiedenen Formen der Fast Fourier Transformation 

(FFT). Sie bestehen weiterhin aus der kleinsten Zahl von Stufen, die für die Erreichbarkeit 

jedes Ausgangs von einem beliebigen Eingang notwendig ist, was 

bedeutet, daß man von jedem Eingang einen vollständigen Binärbaum zu allen 

Ausgängen konstruieren kann. 

Alle logN-Netze lassen sich aus den im vorigen Kapitel beschriebenen 

Kreuzschaltern sowie den Verdrahtungsschemata der Shuffle-, inversen Shuffle- 

oder Butterfly-Permutation aufbauen. Sie bestehen in jeder Stufe aus (N/2) 

2x2-Schaltern, bei insgesamt log 2 N Stufen. Zwar können logN-Netze jeden 

Eingang i mit jedem Ausgang j (i, j = 0,1,...,N-1 = 2 n -1) verbinden, jedoch nicht 

für alle Eingänge gleichzeitig, weshalb sie auch als nicht-blockierungsfreie 

Netze bezeichnet werden. Diese Terminologie stammt aus der Zeit, als Verbindungsnetzwerke 

ausschließlich zur Leitungsvermittlung eingesetzt wurden. 

Heutzutage werden die logN-Netze in der Regel im Modus der Pa- 

163

ketvermittlung betrieben, was es erforderlich macht, daß an jedem Kreuzschaltereingang 

ein Paketpuffer vorhanden ist, der im Blockierungsfall Daten zwischenspeichert. 

Traditionell wird bei Leitungsvermittlung eine zentrale Wegewahl 

durchgeführt, während die modernere Paketvermittlung mit dezentralem 

Routing arbeitet. 

4.5.2 Shuffle-Exchange- und Omega-Netz 

Das erste Beispiel eines klassischen logN-Netzes, das hier erläutert werden soll, 

ist das von Duncan Lawrie 1975 erfundene Omega-Netz [Lawrie75]. Die für 

das Omega-Netz erforderlichen Vorarbeiten hatte H. Stone [Stone71] bereits 

vier Jahre früher mit dem einstufigen Shuffle-Exchange-Netz geleistet, das in 

Bild 4.16 dargestellt ist. Stone zeigte, daß in einem Multiprozessor, der ein solches 

Netz zur Kopplung der Rechenknoten hat, jeder Knoten mit jedem anderen 

in höchsten n = log 2 N Schritten verbunden werden kann (N = 2 n ist die Zahl der 

Prozessoren). Dazu müssen die Daten, die von einem Sendeprozessor zu einem 

Empfangsprozessor geschickt werden sollen, in einer mehrfachen Rückkopplung 

bis zu n-mal im Netz zirkulieren, d.h. vom Ausgang des Netzes zum Eingang 

zurückgespeist werden, bis sie mit Hilfe geeignet eingestellter Schalter 

den Zielprozessor erreichen. 

σ 4 

Eingänge 

Ausgänge 

Rückkopplung 

Bild 4.16: Das Shuffle-Exchange-Netzwerk nach H. Stone für N = 16 Ein-/Ausgänge. 

Der Vorteil der einstufigen Shuffle-Exchange-Anordnung besteht in der effizienten 

Ausnutzung der eingesetzten Hardware. Ihr Nachteil liegt darin, daß kein 

Pipelining bei der Dateneinspeisung möglich ist, da jeder Datentransport n aufeinanderfolgende 

Iterationen benötigt. 

D. Lawrie ersetzte die n-fache Zirkulation im einstufigen Shuffle-Exchange- 

Netz durch eine Kaskade von n hintereinander geschalteten Stufen gemäß Bild 

4.17 und erhielt so das Omega-Netz. 

Die Definition des allgemeinen Omega-Netzes aus n=log2N Stufen lautet: 

164

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

MSB 

zuerst 

σ 4 

σ 4 

σ 4 

σ 4 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Bild 4.17: Das Omega-Netz nach Lawrie für N = 16 Ein-/Ausgänge. 

Def. 4.7: 

Omega-Netz: 

Ω n 

= 

( σ n° E)n 

Das Omega-Netz ist auch heute noch interessant, weil es aus mehreren gleichartigen 

Stufen besteht, was seine Herstellung im Sinne eines modularen Aufbaus 

erleichtert und verbilligt. Alle anderen klassischen Netze haben eine von 

Stufe zu Stufe wechselnde Verdrahtung. 

Routing im Omega-Netz 

Für den Fall, daß das Omega-Netz in Paketvermittlung betrieben wird, erhält jedes 

Datenpaket die binäre Adresse des Zielprozessors als Routing-Information. 

Beim Durchgang durch einen Schalter wird entschieden, ob das Paket den 

Schalter am oberen oder unteren Ausgang verläßt. Beim Omega-Netz bedeutet 

"0" oberer, d.h. gerader Ausgang und "1" ungerader Ausgang. Die Adreßbits 

werden in der Reihenfolge ihrer Wertigkeit von den einzelnen Schalterstufen 

ausgewertet. Die erste Stufe am Eingang des Omega-Netzes wertet das höchstwertige 

Bit (MSB) und die letzte (n.) Stufe am Ausgang das niedrigstwertige 

Bit (LSB) der Zieladresse aus. In Bild 4.17 wird als Beispiel der Pfad von Eingang 

2 (binär 0010) zu Ausgang 13 (1101) bestimmt. Die Routing-Entscheidungen 

der einzelnen Schalter lassen sich zu der Sequenz "unten, unten, oben, 

unten" zusammenfassen. 

Da jeder Netzschalter bzw. jedes Datenpaket seine Routing-Entscheidung 

selbständig trifft, spricht man auch von der Self-Routing-Eigenschaft des Omega-Netzes. 

Self-Routing ist bei Verbindungsnetzwerken außerordentlich günstig, 

da man ohne zentrale Instanz zur Bestimmung der Pfade zwischen Sender 

und Empfänger auskommt. Eine Zentralisierung würde neben zusätzlichem 

schaltungstechnischen Aufwand einen Engpaß bezüglich der Skalierbarkeit der 

Netzgröße darstellen. 

165

Im folgenden soll erläutert werden, warum das Omega-Netz über Self-Routing 

verfügt. Wenn I = (i n i n-1 ,...,i 1 ) und O = (o n o n-1 ,...,o 1 ) die vertikale Position 

eines Datenpakets am Ein-/ bzw. Ausgang des Netzes ist, dann wird das Paket 

beim Durchgang durch das Netz so nach oben oder unten bewegt, wie es der 

Zieladresse O entspricht. 

Zunächst wird durch die 1. Shuffle-Exchange-Stufe eine zyklische Linksrotation 

der Bits von I gemäß I->I' = (i n-1 ,...,i 1 i n ) vorgenommen. Dann wird das 

LSB von I' durch das höchstwertige Bit (MSB) von O im 2x2-Schalter ersetzt, 

da der Schalter anhand des MSB(O) entscheidet, ob das Datenpaket die Stufe 

am geraden (O=0) oder ungeraden Ausgang (O=1) verläßt, d.h. I->I'->I'' = (i n- 

1 ,...,i 1 o n ). Derselbe Vorgang wiederholt sich in der 2. Stufe für das darauffolgende 

Bit (LSB+1), so daß man I (2) = (i n-2 ,...,i 1 o n o n-1 ) hat. 

Nach Durchlaufen aller n Stufen sind in den Schaltern sämtliche Herkunftsbits 

von I durch Zielbits von O ersetzt. Zusätzlich haben die n Shuffle-Verdrahtungen 

dafür gesorgt, daß das MSB von O, das in der 1. Stufe auf der LSB-Position 

von I eingesetzt wurde, nach der letzten Stufe bis zur MSB-Position vorgerückt 

ist (nach jeder Stufe um eine Position). Die niederwertigen Bits (LSB 

und folgende) von O durchlaufen weniger Shuffle-Stufen, da sie im Netz erst 

später durch einen entsprechenden Schalter in die Adresse von I eingesetzt werden. 

Damit werden sie auch weniger nach links verschoben - das (MSB-1)-te 

Bit z.B. um (n-1) Stellen - und dadurch entsprechend ihrer Wertigkeit an die 

richtige Position von I gerückt. Nach n Stufen ist I (n) = (o n o n-1 ,...,o 1 ) = O, womit 

der Zielprozessor erreicht ist. 

Der Self-Routing-Vorgang läßt sich für das Omega-Netz formal auch anders 

beschreiben, indem man die Bits von I und O zu einem gemeinsamen Bitfeld B 

der Länge 2n mit B = (i n i n-1 ,...,i 1 o n o n-1 ,...,o 1 ) gruppiert. Dann schiebt man ein 

Fenster, d.h. eine Blende der Länge n um jeweils eine Bitposition über B, beginnend 

mit dem MSB, so daß nacheinander die Werte (i n i n-1 ,...,i 1 ), (i n- 

1,...,i 1 o n ), (i n-2 ,...,i 1 o n o n-1 ),...,(i 1 o n o n-1 ,...,o 2 ), (o n o n-1 ,...,o 1 ) sichtbar werden. 

Die Folge der Werte bestimmt den Pfad P des Datenpakets durch das Netz. Dabei 

ist vorausgesetzt, daß die Ein- und Ausgänge aller Stufen fortlaufend von 0 

bis N-1 numeriert sind. Jede Nummer entspricht einer Adresse aus n Bits, die 

durch Ausblenden aus dem 2n Bits langen Feld B gewonnen wird. 

In Bild 4.17 ist als Beispiel der Weg von 2->13 eingezeichnet. Für das Routing 

bedeutet dies: B = (00101101); P = ((0010), (0101), (1011), (0110), 

(1101)). Das Bitfeld wird auch als Pfadidentifikator (Path Identifier) bezeichnet. 

Beim Vergleich der Pfadidentifikatoren, die von zwei verschiedenen Datenpaketen 

herrühren, kann man oft feststellen, daß es einen oder mehrere gleichlautende 

Sequenzen gibt, die in den Bitfeldern an derselben Position beginnen. 

In Bild 4.18 ist für das Beispiel eines 16x16 Omega-Netzes das 4 Bit lange Fenster 

der Pfadidentifikatoren zweier Datenpakete gezeigt, das nach der 3. Netzstufe 

eine Übereinstimmung der Bitsequenzen zeigt (Ausgang 6). 

Diese Fälle bedeuten eine Konfliktsituation (Kollision), weil die beiden Datenpakete 

beim gleichzeitigen Durchgang durch das Netz am Ausgang 6 der 

166

vorletzten Stufe kollidieren würden. Im Beispiel nach Bild 4.18 sollen gleichzeitig 

Daten von 2->13 und von 0->12 transportiert werden, was in der Doppelbelegung 

des Ausgangs 6 resultiert. 

An diesem Beispiel kann man erkennen, daß das Omega-Netz, und mit ihm 

alle klassischen Netze, zwar die Eigenschaft der vollständigen Erreichbarkeit 

haben, aber nicht für alle Eingänge gleichzeitig, d.h., sie sind nicht blockierungsfrei. 

Ihr Vorteil ist, daß sie aus der kleinstmöglichen Zahl von Stufen bestehen, 

so daß sie besonders kostengünstig sind. 

4.5.3 Das Flip-Netz 

00101101 

00001100 

Bild 4.18: Kollision zweier Pfade im Omega-Netz. 

Nach dem Omega-Netz wurden innerhalb kurzer Zeit weitere Netze bekannt. 

Beispielsweise veröffentlichte K. Batcher [Batcher76] ein Jahr nach Lawrie ein 

gespiegeltes Omega-Netz, das er Flip-Netz nannte. Durch die Spiegelung sind 

beim Flip-Netz die Shuffle- durch die Unshuffle Permutationen ersetzt und die 

Reihenfolge von Verdrahtungsstufe und Schalterstufe vertauscht (Bild 4.19). 

0010 

1101 

LSB 

zuerst 

σ 4 

-1 σ 4 

-1 σ 4 

-1 σ 4 

-1 

Bild 4.19: Das Flip-Netz nach Batcher für N = 16. 

Die Definition des allgemeinen Flip-Netzes lautet: 

Def. 4.8: 

Flip-Netz: 

F n 

Ω – 1 – 1 

= = ( E°σ n 

) n 

167

Eine interessante Anwendung des Flip-Netzes liegt darin, als Verdrahtung für 

einen dedizierten FFT-Rechner zu fungieren, da die Flip-Netztopologie mit 

dem Signalflußgraphen der Pease FFT [Pease65] bis auf eine Reversal-Permutation 

in der Eingangsstufe identisch ist (Bild 4.20). Für diese spezielle Anwendung 

wäre es allerdings erforderlich, daß die Schalter des Flip-Netzes 

durch Addier-/Multiplizierwerke ersetzt werden, die die Elementaroperationen 

der FFT ausführen können, was bedeutet, daß das Netz seine Schalterfunktion 

verliert und zu einer statischen Topologie aus Rechenwerken wird. 

Es ist kein Zufall, daß die FFT und die logN-Netze ähnlich aufgebaut sind. 

Über den genauen Zusammenhang zwischen FFT-Signalflußgraphen und 

Verbindungsnetzwerken kann man sich in [Parker80] näher informieren. 

Weiterhin eignet sich das Flip-Netz aufgrund seiner Topologie zur parallelen 

Matrixtransposition und anderen Matrizenoperationen. In Bild 4.21 ist die 

Transposition einer [4,4]-Matrix mit Hilfe einer inversen Perfect Shuffle-Permutation 

exemplarisch dargestellt. Erstmalig verwendet wurde das Flip-Netzwerk 

im STARAN-Rechner [Batcher76, Batcher77]. 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

4 

4 

4 

0 

4 

6 

7 

Reversal Unshuffle Unshuffle Unshuffle Unshuffle 

a 

b 

k 

c 

d 

0 

0 

2 

2 

4 

4 

6 

c = a + bw k 

d = a - bw k 

w = e 2πi/16 

0 

1 

2 

3 

4 

5 

6 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

Bild 4.20: Signalflußgraph der Pease FFT für 16 Punkte. 

Routing im Flip-Netz 

Entsprechend der zum Omega-Netz gespiegelten Topologie erfolgt das Routing 

beim Flip-Netz so, daß in der 1. Stufe das LSB der Zieladresse ausgewertet wird 

und in der letzten Stufe das MSB. Die Art der Auswertung ist identisch zum 

Omega-Netz, d.h. für i j = 0 wird der gerade (obere) und für i j = 1 der ungerade 

Ausgang des Kreuzschalters der Stufe j gewählt. 

168

1,1 

2,1 

3,1 

4,1 

1,2 

2,2 

3,2 

4,2 

1,3 

2,3 

3,3 

4,3 

1,4 

2,4 

3,4 

4,4 

1,1 

3,1 

1,2 

3,2 

1,3 

3,3 

1,4 

3,4 

2,1 

4,1 

2,2 

4,2 

2,3 

4,3 

2,4 

4,4 

1,1 

1,2 

1,3 

1,4 

2,1 

2,2 

2,3 

2,4 

3,1 

3,2 

3,3 

3,4 

4,1 

4,2 

4,3 

4,4 

Bild 4.21: Transposition einer [4,4]-Matrix mit Hilfe von Unshuffle-Permutationen. 

4.5.4 Indirect Binary n-Cube Netz 

Wiederum ein Jahr später (1977) propagierte M. Pease [Pease77] den Indirect 

Binary n-Cube (Bild 4.22), der von der statischen Hypercube-Topologie abgeleitet 

wurde. Der Vorteil des Indirect Binary n-Cubes ist, daß er, im Gegensatz 

zum Hypercube, bei N=2 n Prozessoren mit nur einer statt der üblichen n 

Netzwerkschnittstellen (Ports) pro Prozessor auskommt. Dieser Einsparungseffekt 

wurde dadurch erzielt, daß n Schritte durch das Netz nötig sind, um zu einem 

anderen Prozessor zu gelangen, während im Hypercube-Array n Nachbarn 

eines Prozessors in einem Schritt erreichbar sind. 

0010 

1101 

LSB 

zuerst 

β 2 

β 3 

β 4 σ 4 

-1 

Bild 4.22: Der Indirect Binary n-Cube (N=16). 

Die Definition des allgemeinem Indirect Binary n-Cube lautet: 

Def. 4.9: 

Indirect Binary n-Cube: 

– 1 

IC n 

= Eβ 2 

Eβ 3 

⋅… ⋅Eβ n 

Eσ n 

169

Routing im Indirect Binary n-Cube 

In Bild 4.22 ist als Routing-Beispiel der Pfad von Eingang 0010 zu Ausgang 

1101 eingezeichnet, der so bestimmt wird, daß in der 1. Stufe das LSB der Zieladresse 

O ausgewertet wird, in der 2. Stufe das LSB+1 usw. Wiederum bedeutet 

"0" oberer, d.h. gerader und "1" unterer, d.h. ungerader Schalterausgang. 

Das Netz nach Bild 4.22 arbeitet damit wie in Bild 4.23 dargestellt. Dieses 

Ei ( 

iiii 

1, o1) 

β 

4321⎯⎯⎯⎯→iiio 

1⎯⎯2 

→ 

Ei ( o 

iioi 

2, 2) 

β 

43 12⎯⎯⎯⎯→iioo 

3 

43 1 2⎯⎯→ 

Ei ( o 

i4o2oi 

3, 3) 

β 

1 3 ⎯⎯⎯⎯→i4o2oo 

4 

1 3 ⎯⎯→ 

− 

4 4 4 1 

Ei ( , o) 

σ 

oooi 3 2 1 4 ⎯⎯⎯⎯→oooo 

3 2 1 4 ⎯⎯⎯ 

→ 

oooo 4 3 2 1 = O 

Bild 4.23: Funktion eines 16x16 Indirect Binary n-Cube. 

Schema läßt sich auf Netze beliebiger Zweierpotenzen erweitern, wie Bild 4.24 

zeigt 

Ei ( 

1, o1) 

β2 

I = i i ,..., i i ⎯⎯⎯⎯→i i ,..., i o ⎯ ⎯→ 

nn−1 21 nn−1 2 1 

Ei ( 

2, o2) 

nn−1,..., oi 

1 2 

⎯⎯⎯ ⎯→ 

... 

ii 

Ei ( 

n−1, on−1) 

βn 

io ,..., ooi ⎯⎯⎯⎯⎯⎯→io ,..., ooo ⎯⎯→ 

n n−2 2 1 n−1 n n−2 2 1 n−1 

o 

Ei ( 

n, on) σ 

n 

n−1on−2,..., o2o1in 

⎯ →on− 1on−2,..., 

o2o1on 

oo o ,..., oo = O 

n n−1 n−2 2 1 

⎯⎯ ⎯ ⎯⎯⎯ 

→ 

Bild 4.24: Funktion eines Indirect Binary n-Cube mit 2 n Ein- und Ausgängen. 

−1 

Man sieht anhand der Darstellung von Bild 4.24, daß in der letzten Stufe anstelle 

einer nochmaligen β n -Verdrahtung eine Unshuffle-Permutation σ n 

-1 

durchgeführt wird. Die Aufgabe von σ n -1 liegt u.a. darin, dafür zu sorgen, daß 

bei parallelem Durchgang der Kreuzschalter ein beliebiger Eingangsschalter 

der Adresse i (i = 0,1,..,n-1) mit dem Ausgangsschalter derselben Adresse 

verbunden ist. Ein zurückgesetzter Indirect Binary n-Cube, bei dem alle Schalter 

auf "=" stehen, verbindet deshalb ebenso wie ein Omega- oder ein Flip-Netz, 

alle Eingänge direkt mit den korrespondierenden Ausgängen derselben Adresse. 

170

4.5.5 Vergleich Indirect Binary n-Cube und Hypercube 

Es besteht bezüglich der Wegewahl ein Isomorphismus zwischen dem Indirect 

Binary n-Cube, der ein dynamisches Netz darstellt, mit dem Hypercube, einer 

statischen Netztopologie. Der Zusammenhang zwischen beiden Netzen liegt 

darin, daß die Schalter im Indirect Binary n-Cube mit ihrer Exchange-Funktion, 

ähnlich wie die Knoten im Hypercube mit ihrer Routing-Funktion, jedes Bit i k 

einer Adresse I = (i n i n-1 ,...,i k ,...,i 1 ) durch das binäre Komplement NOT(i k ) ersetzen 

können, indem der Schalter, an dem die Adresse I anliegt, auf "x" gestellt 

wird. 

So kann beispielsweise der Eingang (0000) eines Indirect Binary n-Cubes die 

vier Ausgänge (0001)=1, (0010)=2, (0100=4, (1000)=8 durch Kreuzen eines 

Schalters in der 1., 2., 3. oder 4. Stufe erreichen (Bild 4.25a). Genauso kommt 

man von den Eingängen 1, 2, 4 und 8 des Indirect Binary n-Cubes zum Ausgang 

0, indem Schalter der 1., 2., 3. oder 4 Stufe auf "x" gestellt werden (Bild 4.25b). 

Analog kann man im 4-dimensionalen Hypercube die vier Nachbarn eines 

Prozessors I = i 3 i 2 i 1 i 0 durch Komplementieren der Adreßbits i k (k=0,..,3) erreichen. 

Dieser Sachverhalt ist in Bild 4.26 gezeigt. Die Analogie zwischen Hyperkuben 

und Indirect Binary n-Cuben gilt für Netze beliebiger Größe und läßt 

sich im Prinzip auch auf die anderen logN-Netze übertragen, da sie, wie noch 

gezeigt wird, zueinander äquivalent sind. 

4.5.6 Alternative Numerierung der Verdrahtung 

Die bislang verwendete, von oben nach unten fortlaufende Numerierung zur 

Kennzeichnung der Ein- und Ausgänge der Netze ist nicht die einzig mögliche 

Numerierungsweise. Bild 4.27 zeigt einen Indirect Binary n-Cube, bei dem die 

Leitungen so numeriert wurden, daß der Permutationseffekt der Verdrahtung 

zwischen den Stufen verdeckt wird. Dazu wird die Adresse einer Leitung eines 

Schalterausgangs auf den Eingang des Nachfolgeschalters der nächsten Stufe 

übertragen. Zusätzlich wird, wie bereits beim normalen Numerierungschema 

üblich, die Adresse am Eingang eines Schalters zum Ausgang desselben Schalters 

durchgeschleift, so als ob der Schalter auf "=" stünde. Das daraus resultierende 

Numerierungsschema ist in Bild 4.27 für N = 8 gezeigt. 

Am Ende der letzten Stufe in Bild 4.27 sind die Adressen deshalb wieder gemäß 

0, 1, 2,...,N-1 geordnet, weil die Eingangsadressen sortiert sind. Dies wird auf 

die Ausgänge übertragen, wenn alle Schalter parallel gesetzt sind. 

Im alternativen Numerierungsschema läßt sich die Funktion des Indirect Binary 

n-Cube leichter graphisch darstellen, wie man anhand der Beispiele von Bild 

4.28 sehen kann. 

Im Fall a) in Bild 4.28 bleiben die Adreßbits von I unverändert, während in 

den Fällen b) und c) das LSB bzw. MSB von I komplementiert wird. Entsprechend 

sind die am Netz anliegenden Datenpakete gemäß (ab), (cd) bzw. 

(ac) und (bd) vertauscht. 

Anwendungen der Topologie des Indirect Binary n-Cube liegen, ähnlich wie 

beim Flip-Netz, in der festverdrahteten Ausführung der Fast Fourier-Transfor- 

171

0 

1. Stufe 2. Stufe 3. Stufe 4. Stufe 

0 0 0 0 

1 2 4 

8 

0 

1 

2 

4 

a) 

8 

0 

1 

2 

4 

0 0 0 0 

1 2 4 

8 

0 

b) 

8 

β 

2 

β 

3 

β 

4 

σ 

4 

-1 

Bild 4.25: Verbinden von Eingang 0 mit Ausgängen 1,2,4 oder 8 (a) und umgekehrt (b). 

0110 0111 

1110 1111 

0100 

0101 

1100 

1101 

0010 0011 

1010 1011 

0000 0001 

1000 

1001 

Bild 4.26: Adressierung im Hypercube. 

mation, da die Netztopologie bis auf eine Reversal-Permutation am Anfang mit 

dem Signalflußgraphen der Cooley-Tukey-Variante der FFT identisch ist (Bild 

4.29). 

Analog zum Flip-Netz müssen auch hier die Schalter durch Addier-/Multiplizierwerke 

ersetzt und die Topologie als statisches Netz aufgefaßt werden, um 

einen FFT-Prozessor zu erhalten. Weiterhin kommen für den Indirect Binary n- 

172

0 

1 

2 

3 

4 

5 

6 

7 

0 

1 

2 

3 

4 

5 

6 

7 

0 

2 

1 

3 

4 

6 

5 

7 

0 

2 

1 

3 

4 

6 

5 

7 

0 

4 

1 

5 

2 

6 

3 

7 

0 

4 

1 

5 

2 

6 

3 

7 

0 

1 

2 

3 

4 

5 

6 

7 

Bild 4.27: Alternatives Numerierungsschema im Indirect Binary n-Cube. 

Eingang 

Pakete 

a 0 

Ausgang 

Pakete 

0 a 

Eingang 

Pakete 

a 0 

Ausgang 

Pakete 

0 a 

Ausgang 

Pakete 

0 a 

a) 

b 

c 

1 

2 

1 

2 

b 

c 

c 

b 

2 

1 

2 

1 

c 

b 

1 

2 

b 

c 

d 

3 

3 

d 

d 

3 

3 

d 

3 

d 

b) 

a 

b 

c 

d 

0 

1 

2 

3 

0 

1 

2 

3 

b 

a 

d 

c 

b 

d 

a 

c 

0 

2 

1 

3 

0 

2 

1 

3 

b 

d 

a 

c 

0 

1 

2 

3 

b 

a 

d 

c 

a 

0 

0 

a 

a 

0 

0 

c 

0 

c 

c) 

b 

c 

1 

2 

1 

2 

b 

c 

c 

b 

2 

1 

2 

1 

a 

d 

1 

2 

d 

a 

d 

3 

3 

d 

d 

3 

3 

b 

3 

b 

β 2 

σ 2 

-1 

Bild 4.28: Beispiele eines Indirect Binary n-Cube bei alternativer Numerierung. 

Cube all diejenigen Anwendungen bevorzugt in Frage, bei denen sich der 

Graph der Anwendung in eine Hypercube-Topologie einbetten läßt, wie es z.B. 

für Gitter oder Bäume der Fall ist, da sich dann ein vereinfachtes Routing-Schema 

ergibt. 

4.5.7 Generalized Cube 

Wenn man die Topologie des Indirect Binary n-Cube spiegelt, erhält man den 

Generalized Cube (Bild 4.30), der von Siegel und Smith im Jahre 1978 vorgeschlagen 

wurde [Siegel78]. Die Definition des Generalized Cube lautet: 

– 1 

IC n 

Def. 4.10: Generalized Cube: = σ n 

Eβ n 

Eβ n – 1 

⋅… ⋅Eβ 2 

E . 

173

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

0 

1 

2 

3 

4 

5 

6 

7 

0 

2 

4 

6 

0 

2 

4 

6 

0 

4 

0 

4 

0 

4 

0 

4 

0 

0 

0 

0 

0 

0 

0 

0 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

Bild 4.29: Signalflußgraph der Cooley-Tukey FFT (N = 16). 

C 1 C 0 C 1 C0 C 1 C0 C 1 C 0 

0010 

1101 

σ 

MSB 

β 

4 zuerst 4 

β 3 

β 2 

Bild 4.30: Der Generalized Cube für 16 Ein-/Ausgänge. 

Im Generalized Cube sind für die Schalter alle 4 Schaltmöglichkeiten erlaubt, 

die in zwei Bits C 0 C 1 codiert werden. Diese Möglichkeiten sind, neben parallelem 

und gekreuztem Durchgang, der untere und obere Broadcast, bei dem 

einer der beiden Eingänge auf die Ausgänge dupliziert wird. Aufgrund dieser 

erweiterten Möglichkeiten kam auch die Namensgebung Generalized Cube zustande. 

Selbstverständlich ist auch bei allen anderen logN-Netzen aufgrund ihrer 

Äquivalenz ein Broadcast durch Einbau der erweiterten Schalterfunktionalität 

erreichbar. Für den Fall des Omega-Netzes wurde die erweiterte 

Schalterfunktionalität von D. Lawrie erstmalig eingeführt. 

174

Routing im Generalized Cube 

Die mathematische Beschreibung des Routing-Vorgangs ist für das 16x16 Netz 

in Bild 4.31 dargestellt. Sie kann auf beliebiges N erweitert werden. 

σ4 Ei ( 4, o4) 

iiii 4321⎯ 

⎯→iiii 

3214⎯⎯⎯ ⎯→ 

β4 Ei ( 3, o3) 

ii 321 io4⎯⎯→o4213 

i ii ⎯⎯⎯⎯→ 

β3 Ei ( 2, o2) 

oiio 421 3⎯⎯→ooii 

4 312⎯⎯⎯ ⎯→ 

β2 Ei ( 1, o1) 

ooio 4 31 2⎯⎯→oooi 

4 3 2 1⎯⎯⎯⎯→ 

oooo 4 3 2 1= 

O 

Bild 4.31: Routing im 16x16 Generalized Cube. 

Beim Generalized Cube wird, da er durch Spiegelung aus dem Indirect Binary 

n-Cube entstanden ist, in der 1. Stufe das MSB der Zieladresse ausgewertet. 

Zwar ist die Butterfly-Permutation invariant gegenüber Spiegelungen, aber die 

Reihenfolge der Stufen wird durch die Spiegelung umgedreht, so daß sich auch 

beim Routing die Sequenz der relevanten Adreßbits umkehrt. Entsprechend 

lauten die Routing-Entscheidungen für das in Bild 4.30 eingezeichnete Routing-Beispiel: 

"Unten, unten, oben, unten". 

4.5.8 Baseline-Netz 

Zwei Jahre nach der Publikation des Generalized Cubes wurde das Baseline- 

Netz durch C. Wu und T. Feng bekannt gemacht [Wu80a], das aus theoretischen 

und praktischen Gründen besonders interessant ist, da es rekursiv definiert 

werden kann und über ein besonders anschauliches Routing verfügt. Rekursive 

Konstruktion heißt in diesem Fall, daß ein Baseline-Netz der Größe 

NxN aus zwei halb so großen Baseline-Netzen der Größe (N/2) x (N/2) zusammengesetzt 

werden kann und diese wiederum aus vier Netzen der Größe (N/4) 

x (N/4) usw., wobei die Teilnetze jeweils über eine Unshuffle-Verdrahtung verbunden 

sind. Diese Regel gilt solange, bis die Teilnetze die Größe 2x2 erreicht 

haben, also einzelne Kreuzschalter darstellen. Zur Veranschaulichung der rekursiven 

Konstruktionsweise ist der 1. Rekursionsschritt für ein Baseline-Netz 

der Größe NxN in Bild 4.32 dargestellt. 

Die sich aus der Anwendung obiger Konstruktionsregel ergebende Topologie 

ist in Bild 4.33 für N = 16 zusammen mit einem Routing-Beispiel gezeigt. Die 

Definition des allgemeinen Baseline-Netzes lautet: 

– 1 – 1 

– 1 

Def. 4.11: Baseline-Netz: BL n = Eσ n Eσn – 1 ⋅ … ⋅ Eσ 2 E . 

175

Eingänge 

0 

1 

2 

3 

N-2 

N-1 

. 

. 

. 

N/2 x N/2 

Baseline 

Netz 

N/2 x N/2 

Baseline 

Netz 

Ausgänge 

0 

1 

. 

. 

. 

N/2-1 

N/2 

N/2+1 

. 

. 

. 

N-1 

Bild 4.32: Rekursive Konstruktion eines Baseline-Netzes. 

Der rekursive Aufbau bewirkt eine Selbstähnlichkeit der Topologie, wie man 

sie von Fraktalen her kennt und die durch die rekursive Konstruktion zustande 

kommt. Daß es sich beim Baseline-Netz trotzdem um kein Fraktal handelt, liegt 

daran, daß die Konstruktionsregel bei 2x2-Schaltern als den kleinsten Schaltelementen 

abbrechen muß, so daß die Strukturen nicht beliebig verfeinert werden 

können. 

0010 

1101 

MSB 

zuerst 

σ-1 

σ-1 σ-1 

4 3 2 

Bild 4.33: Das Baseline-Netzwerk nach Wu und Feng. 

Die Rekursion hat weiterhin zur Folge, daß das Baseline-Netz aus voneinander 

unabhängigen Teilnetzen besteht, die wiederum aus verschiedenen Subnetzen 

entstanden sind. Aufgrund der Getrenntheit der Teilnetze existiert kein Pfad 

und damit auch keine Routing-Möglichkeit zwischen den Subnetzen derselben 

Rekursionsstufe. Dadurch ist das Routing im Baseline-Netz besonders einfach 

und anschaulich: 

In der ersten Stufe wird anhand der Zieladresse darüber entschieden, ob das 

Datenpaket in die obere oder untere Hälfte der Ausgänge transportiert werden 

soll. In der zweiten Stufe wird festgelegt, in welches Viertel das Paket wandert. 

176

In der 3. Stufe wird das Ziel bis auf Achtel genau plaziert, usw. Nach log 2 N 

Schritten ist auf diese Weise einer von N=2 n Ausgängen ausgewählt. 

Die beschriebene Intervallschachtelung arbeitet nach der Methode der sukzessiven 

Approximation, die in vielen Bereichen der Technik angewandt wird. 

Das der sukzessiven Approximation zugrundeliegende Prinzip ist "divide et impera" 

bzw. "Teile und Herrsche", das besagt, daß man ein komplexes Problem 

solange zu teilen hat, bis es aus genügend kleinen Elementen besteht, so daß seine 

Lösung trivial wird. Im Falle des Baseline-Netzes wird der Adreßbereich der 

Ausgänge solange durch Halbieren verkleinert, bis nach log 2 N Schritten ein 

einziger Ausgang, nämlich der gewünschte, übrigbleibt. 

Die Topologie des Baseline-Netzes hat einen technischen Vorteil, der die 

Realisierung großer Netze vereinfacht. Bei großen Netzen ist die Vermaschung 

der Verdrahtung zwischen den Stufen ein Problem, da die Verdrahtung i.a. über 

mehrere Platinen oder sogar mehrere Gehäuse hinweg durchgeführt werden 

muß, was entsprechende Kabellängen und Steckverbinder erfordert. Beim Baseline-Netz 

hingegen halbieren sich die Kabellängen von Stufe zu Stufe, da das 

Netz aus immer kleineren Teilnetzen besteht, zwischen denen keine Leitung 

verlegt werden muß. Deshalb verläuft die Verdrahtung auch bei großen Baseline-Netzen 

bereits nach wenigen Stufen lokal, d.h. innerhalb derselben Platine 

oder desselben Moduls, und die Steckverbinder zwischen den Moduln können 

entfallen. Das Baseline-Netz hat jedoch trotz seiner Vorzüge in der Praxis bislang 

keine große Anwendung erfahren. 

Routing im Baseline-Netz 

Wie bereits erläutert, wird beim Routing in jeder Stufe des Baseline-Netzes ein 

Bit der Zieladresse ausgewertet, angefangen vom MSB in der 1. Stufe bis zum 

LSB in der letzten Stufe. Die Funktionsweise für das Beispiel nach Bild 4.33 ist 

in Bild 4.34 angegeben. Wiederum kann das Routing-Schema auf beliebige 

Netzgrößen erweitert werden. 

− 

1 4 4 1 

4321 432 4 

− 

2 3 3 1 

4432 443 3 

− 

3 2 2 1 

4 3 4 3 4 3 4 2 

Ei ( , o) 

4 3 2 4 4 3 2 1 

iiii 

oiii 

ooii 

Bild 4.34: Funktion des Baseline-Netzes (N = 4). 

Ei ( , o) 

σ 

⎯⎯⎯⎯→iiio 

⎯⎯⎯ 

→ 

Ei ( , o) 

σ 

⎯⎯⎯⎯→oiio 

⎯⎯⎯ 

→ 

Ei ( , o) 

σ 

⎯⎯⎯⎯→ooio 

⎯⎯⎯ 

→ 

4 1 

oooi ⎯⎯⎯⎯ →oooo = O 

177

4.5.9 Inverses Baseline-Netz 

Genau wie es zum Omega-Netz und zum Indirect Binary n-Cube eine gespiegelte 

Topologie als Gegenstück gibt, kann auch ein inverses Baseline-Netz definiert 

werden. Seine Definition lautet: 

– 1 

BL n 

Def. 4.12: inverses Baseline-Netz: = Eσ 2 

Eσ 3 

⋅ … ⋅ Eσ n 

E . 

Routing im inversen Baseline-Netz 

Im gespiegelten Baseline-Netz wird bei der Wegewahl in der 1. Stufe das MSB 

ausgewertet, da sich durch die Spiegelung sowohl die Topologie der Verdrahtung 

als auch die Reihenfolge der Stufen umgekehrt, so daß sich beide Transformationen 

wieder aufheben. Das gespiegelte Baseline-Netz stellt bzgl. der 

Routing-Reihenfolge der Adreßbits ein Ausnahme dar, da gespiegelte und nicht 

gespiegelte Netztopologie gleich behandelt werden. Die Funktion des inversen 

Baseline-Netzes ist für N =16 in Bild 4.35 angegeben. Sie gilt analog für N>16. 

Die Topologie des Netzes ist in Bild 4.36 zu sehen. 

iiii 

iioi 

iooi 

Ei ( 

1, o4) 

σ2 


⎯ ⎯→ 

4321 432 4 

Ei ( 

2, o3) 

σ3 

⎯⎯⎯ ⎯→iioo 

⎯ ⎯→ 

43 42 43 4 3 

Ei ( 

3, o2) 

σ4 

⎯⎯⎯ ⎯→iooo 

⎯ ⎯→ 

4 4 3 3 4 4 3 2 

Ei ( 

4, o1) 

4 3 2 4 4 3 2 1 


Bild 4.35: Funktion des inversen Baseline-Netzes (N = 16). 

0010 

1101 

MSB 

zuerst 

σ 2 

σ 3 

σ 4 

Bild 4.36: Inverses Baseline-Netz. 

178

4.5.10 Banyan-Butterfly 

Das erste "klassische" logN-Netz war nicht das Omega-Netz aus dem Jahre 

1975, sondern das Banyan-Netz von 1973, das von L. R. Goke und G. J. Lipovski 

[Goke73] beschrieben wurde. Deren Veröffentlichung hat eine besondere 

Bedeutung, weil darin nicht nur eine spezielle Topologie, sondern eine ganze 

Klasse von Netzen beschrieben wird, die die bereits vorgestellten logN-Netze 

als Untermenge enthält. Der Name "Banyan" wurde nach einem ostindischen 

Feigenbaum gewählt, dessen Äste waagrecht und diagonal verlaufen und der an 

die Verdrahtung von Verbindungsnetzwerken erinnern soll. Zur Klasse der Banyan-Netze 

zählen nach der Definition von Goke und Lipovski alle 

Verbindungsstrukturen, bei denen es genau einen Weg von jedem Eingang zu 

jedem Ausgang gibt. Dazu gehören neben den bereits vorgestellten logN-Netzen 

auch Kreuzschienenverteiler, Busse und Baumtopologien. 

Die Klasse der Banyan-Netze ist über die Eigenschaft der Pfadeindeutigkeit 

und nicht über eine bestimmte Topologie definiert. Entsprechend umfaßt sie 

Netze ganz unterschiedlicher Struktur. Jedoch gibt die Definition keine Anleitung, 

wie man diejenigen Topologien finden kann, die die Eigenschaft der Pfadeindeutigkeit 

erfüllen. 

Bevor in einem späteren Kapitel weitere Eigenschaften der Banyan-Netze beschrieben 

werden, soll hier ein spezieller Vertreter der Banyan-Kategorie vorgestellt 

werden, der häufig als Synonym für diese Klasse gilt und der zu den 

"klassischen" logN-Netzen zu rechnen ist. Wegen der Butterfly-Verdrahtungen, 

aus denen dieses Netz besteht, wird es auch als Butterfly-Banyan oder 

kurz als Butterfly bezeichnet. Der Graph dieses Netzes ist für N = 16 in Bild 

4.37 dargestellt. 

0010 

1101 

o 2 

zuerst 

β 

2 

β 

3 

β 

4 

Bild 4.37: Der Butterfly-Banyan (N = 16). 

Man sieht, daß Butterfly- und Indirect Binary n-Cube-Topologie bis auf eine 

Unshuffle-Stufe am Ausgang identisch sind. Der Butterfly hat jedoch aufgrund 

seiner fehlenden Unshuffle-Stufe ebenso wie das Baseline-Netz nicht die Ei- 

179

genschaft der anderen klassischen logN-Netze, daß jeder Eingang i (i = 

0,1,2,...,N-1) mit dem korrespondierenden Ausgang i verbunden ist, wenn alle 

Schalter auf parallelen Durchgang gesetzt sind. Die Definition eines allgemeinen 

Butterfly-Netzes lautet: 

Def. 4.13: Butterfly-Netz: BF n 

= Eβ 2 

Eβ 3 

⋅… ⋅Eβ n 

E . 

Butterfly-Netze sind ein Spezialfall der sog. SW-Banyans, die in einem späteren 

Kapitel ausführlich erläutert werden. 

Routing im Butterfly-Netz 

Die Wegewahl im Butterfly-Netz ist untypisch für die Klasse der logN-Netze. 

Im Butterfly-Netz mit 16 Ein- und Ausgängen, wie in Bild 4.37 beispielsweise, 

wird abweichend zu den bisherigen Netzen in der 1. Stufe das Bit o 2 mit der 

Wertigkeit 2 1 der Ausgangssadresse O, d.h. das (LSB+1)-te Bit für das Routing 

ausgewertet. In den darauffolgenden Stufen werden nacheinander die Bits o 3 , 

o 4 , o 1 , für die Wegewahl herangezogen. Dieses Netz funktioniert so, wie es in 

Bild 4.38 dargestellt ist. 

Ei o 

nn−1 2 1 nn−1 2 2 

( 

1, 2) 

β2 

ii ,..., ii⎯⎯⎯⎯→ii ,..., io ⎯⎯→ 

Ei ( 

2, o3) 

β3 

ii ,..., oi ⎯⎯⎯ ⎯→ii ,..., oo ⎯⎯→ 

nn−1 2 2 nn−1 2 3 

Ei ( 

3, o4) 

β4 

ii ,..., ooi ⎯⎯⎯ ⎯→ii ,..., ooo ⎯ ⎯ → 

nn−1 3 2 3 nn−1 3 2 4 

... 

Ei o 

n n−1 3 2 n−1 n n−1 3 2 

Ei ( 

n 

, o1 

) 

n n−1 3 2 n 

n n−1 2 1 

( 

n−1, n) 

βn 

io ,..., ooi ⎯⎯⎯⎯⎯→io ,..., ooo ⎯ ⎯→ 

oo ,..., ooi ⎯⎯⎯ ⎯ →oo ,..., oo = O 

Bild 4.38: Funktion des allgemeinen Butterfly-Netzes. 

n 

Die Anomalie beim Routing rührt daher, daß beim Butterfly-Netz, ebenso wie 

bei allen anderen Netzen, die keine Verdrahtung nach der letzten Schalterstufe 

haben, in dieser Stufe das LSB der Zieladresse ausgewertet werden muß, um 

zwischen geradem und ungeradem Schalterausgang zu entscheiden. Diese 

Randbedingung gilt unabhängig davon, welches Bit in der 1. Stufe für die Routing-Entscheidung 

relevant ist und welche Topologie das Netz aufweist. 

Zwar hat auch das inverse Butterfly-Netz keine Verdrahtungsstufe nach der 

letzten Schalterreihe, es kann aber in der 1. Stufe aufgrund der zweifachen 

Spiegelung von Topologie und Stufenreihenfolge dasselbe Bit, wie das nicht 

gespiegelte Baseline-Netz auswerten, so daß die Anomalie dort nicht auftritt. 

Beim Butterfly-Netz ist es aufgrund seiner Topologie nicht möglich, in der 1. 

180

Stufe das MSB oder LSB auszuwerten, da die gespiegelte- und die nicht gespiegelte 

Butterfly-Permutation identisch sind und sich demzufolge Topologiespiegelung 

und Stufenreihenfolgespiegelung nicht kompensieren können. 

4.5.11 Inverser Butterfly 

Der inverse Butterfly (Bild 4.39) hat eine dem Baseline-Netz verwandte Struktur 

und benötigt wie dieses das MSB der Zieladresse in der 1. Stufe zum Routen 

der Pakete. Entsprechend kann man hier die Wegewahl ebenfalls nach dem 

Prinzip der sukzessiven Approximation durchführen, da in jeder Stufe die Menge 

möglicher Zieladressen halbiert wird. Die Wegewahl beim inversen Butterfly 

ist analog zu den übrigen logN-Netzen und läßt sich deshalb nicht durch 

Spiegelung aus dem Butterfly-Netz ableiten. Seine Definition lautet: 

– 1 

BF n 

Def. 4.14: inverses Butterfly-Netz: = Eβ n 

Eβ n – 1 

⋅… ⋅ Eβ 2 

E . 

0010 

1101 

MSB 

zuerst 

β 4 

β 3 

β 2 

Bild 4.39: Inverser Butterfly (n = 16). 

4.5.12 Zusammenfassung 

In Tabelle 4.3 sind die Definitionsgleichungen der klassischen logN-Netze zur 

besseren Übersicht zusammengefaßt. Des weiteren findet man in Tabelle 4.4 

die für die Wegewahl nach dem Destination Tag-Verfahren relevanten Routing-Bits 

aufgelistet. In Bild 4.40 schließlich ist exemplarisch für alle Netze das 

Routing-Schema der Baseline-Topologie dargestellt. 

Nach der Definition der logN-Netze geht es im nächsten Kapitel um deren topologische 

und funktionale Äquivalenz. 

181

Netzname 

Definition 

Omega -Netz 

Ω n 

= 

( σ n° E)n 

Flip - Netz 

Indirect Binary n - Cube 

F n 

Ω – 1 – 1 

= = ( E°σ n 

) n 

– 1 

IC n 

= Eβ 2 

Eβ 3 

⋅ … ⋅ Eβ n 

Eσ n 

Generalized Cube 

– 1 

IC n 

= 

σ n 

Eβ n 

Eβ n – 1 

⋅… ⋅Eβ 2 

E 

Baseline - Netz 

– 1 – 1 

1 

BL n = Eσ n Eσn – 1 ⋅ … ⋅ Eσ 2 

– E 

inverses Baseline - Netz 

– 1 

BL n 

= 

Eσ 2 

Eσ 3 

⋅ … ⋅ Eσ n 

E 

Butterfly - Netz 

BF n 

= Eβ 2 

Eβ 3 

⋅… ⋅Eβ n 

E 

inverses Butterfly - Netz 

– 1 

BF n 

= 

Eβ n 

Eβ n – 1 

⋅… ⋅ Eβ 2 

E 

Tabelle 4.3: Definitionsgleichungen der klassischen logN-Netze 

Netztopologie 

Butterfly: o 2 

Baseline: MSB 

Indirect Binary n-Cube: LSB 

Omega: MSB 

gespiegelte Topologie 

inverser Butterfly: MSB 

inverser Baseline: MSB 

Generalized n-Cube: MSB 

Flip: LSB 

Tabelle 4.4: Relevante Routing-Bits der 1. Stufe (MSB = Most Significant Bit der Zieladresse 

O, LSB = Least Significant Bit, i 2 = Bit der Zieladresse O mit Wertigkeit 2 1 ) 

4.6 Äquivalenz der klassischen logN-Netze 


Seit dem Bekanntwerden der ersten logN-Netze zu Beginn der siebziger Jahre 

wurde auch die Frage untersucht, inwieweit die verschiedenen Topologien untereinander 

zusammenhängen. Gemäß der Arbeit von Goke und Lopovski 

182

iiii 

oiii 

ooii 

Bild 4.40: Funktion des Baseline-Netzes (N = 4). 

− 

1 4 4 1 

Ei ( , o) 

σ 


⎯⎯⎯ 

→ 

4321 432 4 

− 

2 3 3 1 

Ei ( , o) 

σ 

⎯⎯⎯⎯→oiio 

⎯⎯⎯ 

→ 

4432 443 3 

− 

3 2 2 1 

Ei ( , o) 

σ 

⎯⎯⎯⎯→ooio 

⎯⎯⎯ 

→ 

4 3 4 3 4 3 4 2 

Ei ( , o) 

4 3 2 4 4 3 2 1 

4 1 


[Goke73] ist ein wichtiges Unterscheidungskriterium, ob es in einem Netz von 

jedem Eingang genau einen Pfad zu jedem Ausgang gibt. Diese Eigenschaft der 

Pfadeindeutigkeit sowie der vollständigen Erreichbarkeit der Ausgänge ist bei 

allen logN-Netze vorhanden, was einen ersten Hinweis auf deren tiefergehende 

Verwandtschaft gibt. Darüberhinaus sind alle logN-Netze in die Klasse der 

nicht-blockierungsfreien Netze einzuordnen, was ihre Gemeinsamkeiten weiter 

unterstreicht und die Frage entstehen läßt, ob von diesen Netzen dieselben Permutationen 

von Verbindungen hergestellt werden können. Für diesen Fall 

könnte man die logN-Netze als funktional äquivalent bezeichnen. 

Die zweite Frage, die man sich stellt, ist, ob sich ein logN-Netz mit Hilfe bestimmter 

Abbildungsfunktionen in ein anderes Netz gleicher Stufenzahl umwandeln 

läßt. Im Falle der gegenseitigen Umwandelbarkeit sind die Netze auch 

topologisch äquivalent. In diesem Kapitel wird die topologische und funktionale 

Äquivalenz der logN-Netze näher untersucht (Siehe dazu auch [Varma94]). 

4.6.2 Definition von topologischer und funktionaler Äquivalenz 

Zur Beantwortung der Frage, wann zwei Netze gleich sind, müssen zuerst die 

Begriffe der topologischen und funktionalen Äquivalenz definiert werden. Dabei 

tritt als besondere Schwierigkeit auf, daß sowohl die Topologie, als auch die 

Menge der vom Netz realisierbaren Permutationen vom jeweiligen Numerierungsschema 

abhängen. Zwei logN-Netze können nur bei gleichem Numerierungsschema, 

das üblicherweise von oben nach unten und von links nach rechts 

fortlaufend erfolgt, miteinander verglichen werden. Sind die Numerierungsschemata 

ungleich, muß eine Permutation der Verdrahtung bei einem 

der beiden Netze durchgeführt werden, um sie aufeinander abzustimmen. 

Ein Beispiel für den Numerierungsabgleich ist in Bild 4.41 gezeigt. Die Verdrahtungen 

der Netze a) und b) sind vordergründig gespiegelt, aufgrund der unterschiedlichen 

Numerierung jedoch identisch. 

Dies bedeutet, daß nicht nur das Verdrahtungsschema ein Netz definiert, sondern 

auch dessen Numerierung. Nur beide Angaben zusammen machen eine 

Topologie eindeutig. Im Grenzfall können sich sogar Verdrahtung und Numerierung 

kompensieren, so daß man die identische Abbildung von Eingängen auf 

Ausgängen erhält (Bild 4.42). 

183

a) b) 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 0000 

0100 0001 

1000 0010 

1100 0011 

0001 0100 

0101 0101 

1001 0110 

1101 0111 

0010 1000 

0110 1001 

1010 1010 

1110 1011 

0011 1100 

0111 1101 

1011 1110 

1111 1111 

σ 

-1 

4 

σ 4 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Bild 4.41: Identische Netze a) und b) wegen gespiegelter Numerierung und Topologie. 

i = 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

0000 

0010 

0100 

0110 

1000 

1010 

1100 

1110 

0001 

0011 

0101 

0111 

1001 

1011 

1101 

1111 

Bild 4.42: Neutrale Abbildung i trotz vorgeblicher Unshuffle-Topologie. 

Die Verflechtung von Verdrahtung und Numerierung gilt bei mehrstufigen 

Verbindungsnetzwerken nur an den Eingangs- und Ausgangsstufen des Netzes. 

Dort bewirkt eine andere Numerierung eine Änderung der Topologie. Beispielsweise 

kann man jeden Eingang eines Netzes mit der Nummer 1 bezeichen 

und ihn mit einem beliebigen Rechenknoten verbinden, oder man kann einen 

beliebigen Ausgang als Nummer 1 bezeichen und fordern, daß dorthin Daten 

geschickt werden sollen, was je nach Numerierung ein anderes Routing erfordert. 

Das Netzinnere ist invariant gegenüber Umnumerierungen. Der Grund dafür 

ist, daß im Innern des Netzes jede Schaltstufe an zwei Permutationsstufen angeschlossen 

ist (Ein- und Ausgang der Stufe). Eine Umnumerierung bewirkt 

deshalb nicht, daß Daten an anderen Schaltern eingespeist werden oder von anderen 

Schaltern entnommen werden, weil die Verbindungen zwischen den 

Schalterstufen sich nicht ändern können, solange die Integrität des Netzes erhalten 

bleibt. 

Um dem Phänomen der zusätzlichen Freiheitsgrade am Ein- und Ausgang eines 

Netzes Rechnung zu tragen, ist es deshalb für die Definition von funk- 

184

tionaler oder topologischer Äquivalenz erforderlich, daß zwei Netze nur bis auf 

eine Umnumerierung der Ein- und Ausgangsstufen gleich sein müssen. Daraus 

resultieren folgende Definitionen der zwei Äquivalenzformen: 

Def. 4.15: Zwei Netze sind dann funktional äquivalent, wenn durch Hinzufügen 

einer Permutation ω 1 am Eingang und einer Permutation ω 2 am Ausgang eines 

der beiden Netze von beiden dieselbe Menge an Permutationen realisiert werden 

kann. 

Def. 4.16: Zwei Netze sind dann topologisch äquivalent, wenn ihre Graphen 

isomorph sind. 

Isomorphismus ist dann gegeben, wenn sich zwei Netze nach Hinzufügen zweier 

Permutationen ω 1 und ω 2 am Ein- bzw. Ausgang eines der beiden Netze 

durch "Umzeichnen" ineinander umwandeln lassen. 

4.6.3 Funktionale Äquivalenz 

Alle log 2 N-Netze bestehen aus insgesamt (N/2)log 2 N Schaltern der Größe 2x2. 

Beschränkt man sich auf einfache Kreuzschalter ohne Broadcast, sind in jedem 

Netz 

Gl. 4.21: 

2 

N 

--- log N 

2 2 

= 

N 

N 

--- 

2 

verschiedene Schalterkombinationen einstellbar. Diese Kombinationen können 

höchstens ebensoviele verschiedene Permutationen von Verbindungen realisieren, 

was bei einer Gesamtzahl von N! Punkt-zu-Punkt-Verbindungen nur einen 

kleinen Bruchteil der möglichen Verbindungen darstellt, sobald N groß wird. 

Die Frage ist nun, ob alle log 2 N-Netze dieselben Permutationen realisieren 

können, wenn man eine Umnumerierung am Ein- und Ausgang zuläßt. Diese 

Frage wurde u.a. von D.K. Pradhan und K.L Kodandapani [Pradhan80] mit ja 

beantwortet. Zum Beweis der funktionalen Äquivalenz der klassischen Netze 

wendeten sie folgende Methode an: 

• Die binären Adressen der Eingänge eines Netzes werden als Eingangsgrößen 

für eine Boolsche Wahrheitstabelle angesehen. 

• Die vom Netz permutierten Eingangsadressen, die als Daten an das Netz angelegt 

werden und am Netzausgang erscheinen, werden als die Ausgangsgrößen 

für die Wertetafel verwendet. 

• Für jede Permutation kann man daraus N Boolsche Funktionen von n Variablen 

erhalten. 

Durch den Vergleich aller Boolschen Funktionen verschiedener klassischer 

Netze zeigten sie deren funktionale Äquivalenz. 

185

4.6.4 Topologische Äquivalenz 

Es gibt mehrere Beweise dafür, daß die klassischen logN-Netze auch topologisch 

äquivalent sind. Beispielsweise folgt bereits aus der Def 4.16, daß die gespiegelten 

Varianten der klassischen logN-Netze zu ihren Urbildern topologisch 

äquivalent sein müssen, da sie durch eine Rechtsdrehung um 180¡ und 

anschließendes Vertauschen von Ein- und Ausgängen in die nicht gespiegelten 

Netze überführt werden können. Dies ist aufgrund der Mittensymmetrie der 

Netze möglich. Die Rechtsdrehung stellt im Gegensatz zur Spiegelung eine topologische 

Äquivalenztransformation dar. 

Um die topologische Äquivalenz aller klassischen logN-Netze (Butterfly, 

Omega, Baseline, Indirect Binary n-Cube) zu beweisen, kann man die Definitionsgleichungen 

der Netze heranziehen und diese gleichsetzen. 

Das Omega-Netz beispielsweise ist als Ω = ( σE) n , definiert, wobei σ die 

Shuffle Permutation darstellt und E die Exchange Permutation ist, die die Funktion 

der 2x2-Schalter repräsentiert; n ist die Stufenzahl. Nach der Definition der 

topologischen Äquivalenz muß man noch die Permutation ω 1 und ω 1 einführen, 

die den Freiheitsgrad beim Numerieren der Ein- und Ausgänge widerspiegeln. 

Dadurch erhält man die erweiterte Definition des Omega-Netzes: 

Gl. 4.22: 

Ω' 

= 

ω 1 

( σE) n ω 2 

Die Gleichsetzung von Omega-Netz und Butterfly-Netz, das durch 

B = Eβ 1 

, Eβ 2 

,…, 

Eβ n 

E definiert ist, liefert: 

Gl. 4.23: ω 1 

( σE) n ω 2 

= Eβ 1 

, Eβ 2 

, …, 

Eβ n 

E . 

Durch algebraische Umformungen läßt sich die Gültigkeit von Gl. 4.23 zeigen. 

Für die Umformungen kann man auf den Satz von Regeln zurückgreifen, die im 

Kapitel über Permutationen angegeben wurden. Gemäß dieser Methode zeigte 

Y. Parker im Jahre 1980 [Parker80], daß für Indirect Binary n-Cube (IC), Flip- 

Netz (F) und Butterfly-Netz (BF) die topologische Äquivalenz gemäß Gl. 4.24 

gilt: 

Gl. 4.24: 

IC n 

= F n 

= BF n 

σ n 

Bereits ein Jahr vor Parker konnte H.J. Siegel [Siegel79] die Äquivalenz einiger 

klassischer Netze durch topologische Umformungen mittels Äquivalenztransformationen 

zeigen. 

186

4.6.5 Transformationen von logN-Netzen 

C. I. Wu und T. Feng definierten im Jahre 1980 [Wu80a] das Baseline-Netz und 

zeigten, daß sich dieses Netz mit Hilfe bestimmter Äquivalenztransformationen 

(=Topologie=erhaltene Abbildungsfunktionen) in die bis dato bekannten logN- 

Netzen überführen läßt. Ihre Methode bestand darin, anzugeben, wie man die 

Schalter der Netzzwischenstufen von Butterfly-, Omega-, Flip-Netz und Indirect 

Binary n-Cube permutieren muß, um daraus die Baseline-Topologie zu erhalten. 

Dieses Verfahren ist besonders interessant und soll deshalb hier erläutert 

werden. 

Wu und Feng stellten sich die Verdrahtung zwischen den Schaltern wie Gummifäden 

vor, so daß man je zwei Schalter in derselben Stufe vertauschen kann, 

ohne die Verdrahtung zwischen den Stufen zu zerstören. Die Permutation von 

Schaltern innerhalb einer Stufe stellt nämlich dann eine Äquivalenztransformation 

dar, wenn die Verbindungen zwischen den Schaltern unverändert bleiben. 

Wenn P i (B) = (p n (B) p n-1 (B) ,...,p 1 (B) ) i die vertikale Position (y-Adresse) eines 

Schalters in der i-ten Stufe eines Butterfly-Netzes aus n Stufen kennzeichnet, 

dann lautet die Vertauschungsregel nach Wu und Feng, um daraus das Baseline-Netz 

zu erhalten (i = 0,1,..n-1): 

Gl. 4.25: 

( BL) 

( BL) p i 

p ( BL ) 

i 

…pn 

– i + 1 

p ( BL ) ( BL ) ( B) ( B) ( B) ( B) 

= ( n– 

i …p1 ) i 

= ( p 1 …pi pn …pi + 1 

) i 

. 

Dies bedeutet, daß nach Gl. 4.25 die i niederwertigen Bits (LSBs) p i (B) ,...,p 1 

(B) 

der y-Adresse der Schalter des Butterfly-Netzes gespiegelt werden müssen, um 

daraus die i höherwertigen Adreßbits (MSBs) der Schalter im Baseline-Netz zu 

erhalten. Dieser Sachverhalt läßt sich auch so formulieren: 

Gl. 4.26: p n (BL) ,...,p n-i+1 (BL) = p 1 (B) ,..., p i (B) . 

Für die verbleibenden (n-i) höherwertigen Adreßbits (MSBs) p n (B) ,...,p i+1 

(B) 

des Butterfly-Netzes gilt, daß sie als (n-i) LSBs im Baseline-Netz wieder 

erscheinen, gemäß Gl. 4.27: 

Gl. 4.27: p n-i (BL) ,...,p 1 (BL) = p n (B) ,...,p i+1 (B) . 

Mit der angegebenen Transformationsregel kann man ein Butterfly- in ein Baseline-Netz 

umgewandeln, wobei der Parameter i die Stufe angibt, die gerade 

transformiert wird. Die entsprechende Transformationsregel für das Omega- 

Netz lautet [Wu80a] (0 ≤ i ≤ n-1): 

Gl. 4.28: 

( BL) 

( BL) ( BL) 

( BL) ( BL) 

( Ω) ( Ω) ( Ω) ( Ω) 

p i 

= ( p n …pn – i + 1 

p n– 

i …p1 ) i 

= ( p i …p1 pi + 1…pn 

) i 

. 

187

Bei der Transformation nach Gl. 4.28 werden die i LSBs des Omega-Netzes 

p i (Ω) ,...,p 1 

(Ω) 

auf MSBs im Baseline-Netz gemäß Gl. 4.29 abgebildet. 

Gl. 4.29: 

p n 

(BL),...,p n-i+1 

(BL)= p i 

(Ω),..., p 1 

(Ω). 

Entsprechend werden die (n-i) MSBs p n (Ω) ,...,p i+1 

(Ω) 

gespiegelt zu LSBs gemäß 

: 

Gl. 4.30: 

p n-i 

(BL),...,p 1 

(BL)= p i+1 

(Ω),...,p n 

(Ω). 

Schließlich kann man das Flip-Netz mit Hilfe folgender Schaltervertauschungen 

in ein Baseline-Netz umwandeln (i = 0,1,..n-1): 

Gl. 4.31: 

( BL) 

( BL) ( BL) 

( BL) ( BL) 

( F) 

( F) ( F) ( F) 

p i 

= ( p n …pn – i + 1 

p n– 

i …p1 ) i 

= ( p n– i + 1 

…p n pn – i…p1 

) i 

. 

Hier werden die i MSBs p n (F) ,...,p n-i+1 (F) in gespiegelter Form als MSBs gemäß 

Gl. 4.30 eingesetzt. Die (n-i) LSBs p n-i (F) ,...,p 1 

(F) 

bleiben erhalten. 

Gl. 4.32: 

p n 

(BL),...,p n-i+1 

(BL)= p n-i+1 

(F),...,p n 

(F). 

Zu jeder angegeben Transformation kann man auch die inverse Transformation 

formulieren, die es gestattet, aus dem Baseline-Netz durch Vertauschen von 

Schaltern jeder Stufe das Butterfly- (Gl. 4.33), Omega- (Gl. 4.34) oder Flip- 

Netz (Gl. 4.35) zu gewinnen. 

Gl. 4.33: 

( B) 

p i 

0 ≤ i < n 

( B) ( B) ( B) ( B) 

( BL) ( BL) ( BL) 

( BL) 

= ( p n …pi + 1pi 

…p1 ) i 

= ( p n– 

i …p1 pn – i + 1 

…p n 

) i 

, 

. 

Die(n-i) LSBs p n-i ,...,p 1 von P (BL) i werden zu MSBs, und die i MSBs p n ,...,p n- 

werden gespiegelt zu LSBs. 

i+1 

Gl. 4.34: 

( B) 

( Ω) ( Ω) p i 

p ( Ω ) ( Ω ) ( BL) ( BL) ( BL) ( BL) 

= ( n …pi + 1pi 

…p1 ) i 

= ( p 1 …pn – i pn …pn – i+ 

1 

) i 

, 

0 ≤ i < n. 

D.h., die (n-i) LSBs von P i (BL) werden gespiegelt zu MSBs und die i MSBs werden 

zu LSBs. 

188

Gl. 4.35: 

( F) 

( F) ( F) 

( F) ( F) 

( BL) 

( BL) ( BL) ( BL) 

p i 

= ( p n …pn – i + 1 

p n– 

i…p1 

) i 

= ( p n– i + 1 

…p n pn – i …p1 ) i 

, 

0 ≤ i < n. 

D.h., die (n-i) LSBs von P i (BL) bleiben unverändert, und die i MSBs werden gespiegelt 

zu MSBs. 

Durch Verketten der Transformationsregeln Gl. 4.25 - Gl. 4.31 mit Gl. 4.33 - 

Gl. 4.35 kann man die klassischen logN-Netz ineinander überführen. Beispielsweise 

wird die i-te Stufe eines Flip-Netzes in die i-te Stufe eines Omega- 

Netz umgewandelt, indem das Flip-Netz zuerst in ein Baseline- und dieses dann 

in ein Omega-Netz transformiert wird (Gl. 4.36). 

( F) 

p i 

( BL) 

p i 

( Ω) 

p i 

Gl. 4.36: → → , 1 ≤ i< 

n. 

Die Verkettung beider Transformationen liefert für die y-Adresse P i 

(Ω) 

eines 

Schalters im Omega-Netz: 

( Ω) 

( F) ( F) Gl. 4.37: p i 

p ( F ) ( F) 

( F) 

= ( 1 …pn – ipn 

– i + 1 

…p n 

) i 

= ρ n 

( p i 

), 

0 ≤ i < n. 

Dies entspricht einer Reversal-Permutation ρ n (P i (F) ) über alle n Bits, da die Abbildung 

unabhängig von i ist. Das bedeutet, daß man Flip- und Omega-Netz ineinander 

umzeichnen kann. Beide entstehen jeweils durch Vertauschen der 

Schalter gemäß der Reversal-Permutation ρ n (P i (F) ). 

Beispiel: 

In Bild 4.43 ist oben das Flip-Netz und unten das Omega-Netz dargestellt, wobei 

die Netzschalter im Graphen durch Knoten symbolisiert sind. Die Schalter 

des Flip-Netzes sind von oben nach unten fortlaufend mit binären Adressen versehen. 

Im Omega-Netz hat der korrespondierende Knoten dieselbe Adresse wie 

im obigen Flip-Netz und kann daran identifiziert werden. So wandert der Knoten 

(001,0) des Flip-Netzes im Omega-Netz an die Position (100). Der Knoten 

(011,3) an der Position (110) im Omega-Netz wird auf die Position (011) abgebildet. 

Im allgemeinen resultiert die Verkettung zweier Vertauschungsregeln in einer 

Abbildungsfunktion, die komplizierter ist als eine einfache Reversal- 

Permutation. So gewinnt man z.B. durch die in Gl. 4.38 dargestellte Umwandlung 

von Omega- in Baseline- und von Baseline- in Butterfly-Topologie eine 

Formel, wie in Gl. 4.39 angegeben. 

189

( Ω) 

p i 

( BL) 

p i 

( B) 

p i 

Gl. 4.38: → → , 0 ≤ i< 

n, 

( B) 

p i 

( Ω) ( Ω) ( Ω) ( Ω) 

p i + 1…pn 

p1 …pi 

Gl. 4.39: = ( ) i 

, 0 ≤ i< 

n. 

Die Formel besagt, daß die i LSBs und die (n-i) MSBs des Omega-Netzes getrennt 

gespiegelt werden müssen, um daraus das Butterfly-Netz zu erhalten. 

Die gegenseitige Umwandelbarkeit von Flip- und Omega-Netz läßt sich auch 

mit Hilfe einer Funktion F, die die Bit-Operatoren AND, OR und NOT verwendet, 

darstellen als: 

Gl. 4.40: 

( B) 

p i 

= 

( Ω) 

Fp ( i 

), mit 

Gl. 4.41: 

( Ω) 

( Ω) 

Fp ( i 

) ρ o, n– 

i 

( p i 

) AND NOT 2 i ( Ω) 

= [ ( – 1) 

] OR [ ρ u, i 

( p i 

)AND( 2 i – 1) 

] 

Die daraus resultierenden Schaltervertauschungen sind in Bild 4.44 graphisch 

dargestellt. 

4.7 Die Klasse der Banyan-Netze 


Die Klasse der Banyan-Netze [Goketal73] ist für alle dynamischen Netzwerke 

von großer theoretischer und praktischer Bedeutung. Sie umfaßt definitionsgemäß 

alle Netze, bei denen es genau einen Weg von jedem Eingang zu jedem 

Ausgang gibt. Das heißt, daß Banyans die Eigenschaft der Pfadeindeutigkeit 

und der vollständigen Erreichbarkeit aller Ausgänge haben. Neben den bereits 

bekannten klassischen logN-Netzen gehören der Bus und der Kreuzschienenverteiler 

sowie einige statische Netze, wie Bäume und Ketten zur Banyan-Klasse, 

da sie diese Eigenschaften aufweisen. 

Weiterhin sind alle blockierungsfreien Netze, wie das Clos- und Benes-Netz 

sowie bestimmte Sortiernetzwerke wie das Batcher-Netz [Batcher68] aus Sequenzen 

hintereinandergeschalteter Banyans aufgebaut. Ferner kann man zeigen, 

daß die Hintereinanderschaltung von zwei zueinander spiegelbildlichen 

Banyans aus der Untergruppe der SW-Banyans ein blockierungsfreies Netz liefert. 

Ein einzelner Banyan ist nicht blockierungsfrei, da bei N Ein- und Ausgängen 

nicht alle N! Permutationen von Verbindungen herstellbar sind. Trotz ihrer 

langen Geschichte ist die Klasse der Banyan-Netze bis heute Gegenstand der 

Forschung. Mathematisch lassen sich Banyans folgendermaßen definieren 

[Hotzel95]: 

190

Flip 

000, 0 

000, 1 

000, 2 

000, 3 

001, 0 

001, 1 

001, 2 

001, 3 

010, 0 

010, 1 

010, 2 

010, 3 

011, 0 

011, 1 

011, 2 

011, 3 

100, 0 

100, 1 

100, 2 

100, 3 

101, 0 

101, 1 

101, 2 

101, 3 

110, 0 

110, 1 

110, 2 

110, 3 

111, 0 

111, 1 

111, 2 

111, 3 

i=0 i=1 i=2 i=3 

ρ (P) 

n i 

000 

000, 0 

000, 1 

000, 2 

000, 3 

000 

001 

100, 0 

100, 1 

100, 2 

100, 3 

001 

010 

010, 0 

010, 1 

010, 2 

010, 3 

010 

011 

110, 0 

110, 1 

110, 2 

110, 3 

011 

100 

001 0 

001, 1 

001 2 

001 3 

100 

101 

101, 0 

101, 1 

101, 2 

101, 3 

101 

110 

011, 0 

011, 1 

011, 2 

011, 3 

110 

111 

111, 0 

111, 1 

111, 2 

111, 3 

111 

Bild 4.43: Umwandlung eines Flip-Netz es in ein Omega-Netz durch Schaltertauschen. 

4.7.2 Definition von Banyans 

Omega 

Def. 4.17: Ein Banyan ist ein endlicher, azyklischer, gerichteter Graph, in dem 

es genau einen Pfad von jedem Eingangs- zu jedem Ausgangsknoten gibt. 

Die ursprüngliche Definition von Goke und Lipovski [Goketal73], die sich auf 

den Begriff des Hasse-Diagramms [Berge62] stützt, lautet: 

191

Omega 

000, 0 

000, 1 

000, 2 

000, 3 

001, 0 

001, 1 

001, 2 

001, 3 

010, 0 

010, 1 

010, 2 

010, 3 

011, 0 

011, 1 

011, 2 

011, 3 

100, 0 

100, 1 

100, 2 

100, 3 

101, 0 

101, 1 

101, 2 

101, 3 

110, 0 

110, 1 

110, 2 

110, 3 

111, 0 

111, 1 

111, 2 

111, 3 

i=0 i=1 i=2 i=3 

F(P ) i 

000 

000, 0 

000, 1 

000, 2 

000, 3 

000 

001 

100, 0 

001, 1 

010, 2 

100, 3 

001 

010 

010, 0 

100, 1 

001, 2 

010, 3 

010 

011 

110, 0 

101, 1 

011, 2 

110, 3 

011 

100 

001, 0 

010, 1 

100, 2 

001, 3 

100 

101 

101, 0 

011, 1 

110, 2 

101, 3 

101 

110 

011, 0 

110, 1 

101, 2 

011, 3 

110 

111 

111, 0 

111, 1 

111, 2 

111, 3 

111 

Butterfly 

Bild 4.44: Umwandlung eines Omega- in ein Butterfly-Netz. 

Def. 4.18: Ein Banyan ist ein Hasse-Diagramm einer partiellen Ordnung, in 

dem es genau einen Pfad von jedem Eingangsknoten zu jedem Ausgangsknoten 

gibt. 

Zu den Hasse-Diagrammen, auf die in dieser Definition Bezug genommen 

wird, muß folgendes gesagt werden: Hasse-Diagramme bestehen aus Knoten 

und gerichteten Kanten und werden aus Graphen abgeleitet, die eine partielle 

Ordnung besitzen. Graphen mit partieller Ordnung sind transitiv, reflexiv und 

antisymmetrisch, wobei die Ordnung im Graphen durch die gerichtete Kante 

"→" dargestellt wird. (Zur Erläuterung dieser Begriffe aus der Graphentheorie 

ist z.B. das Studium von [Chartrand93] empfohlen.) Die Hasse-Diagramme un- 

192

terscheiden sich von den Graphen mit partieller Ordnung dadurch, daß sie intransitiv 

und asymmetrisch sind. In Bild 4.45 ist ein Beispiel einer partiellen 

Ordnung und das dazu gehörende Hasse-Diagramm zu sehen. 

transitive 

Reduktion 

Bild 4.45: Beispiel einer partiellen Ordnung (links) und seines Hasse-Diagramms (rechts). 

Ein Hasse-Diagramm wird aus einem Graphen einer partiellen Ordnung durch 

transitive Reduktion gewonnen. Die transitive Reduktion eliminiert alle Pfeile 

auf sich selbst (Reflexivität) und alle "Abkürzungen" (Transitivität). Man unterscheidet 

bei den Hasse-Diagrammen drei Arten von Knoten, aus denen entsprechend 

auch alle Banyans aufgebaut sind: 

• Eingangsknoten, auf die keine Pfeile zeigen. 

• Ausgangsknoten, von denen keine Pfeile weggehen, und 

• Zwischenknoten im Innern des Banyans mit zu- und abgehenden Pfeilen. 

Alle Banyans haben die Eigenschaft, daß sie aus k-nären Bäumen als Subgraphen 

bestehen. Jeder Subgraph verbindet einen bestimmten Eingangsknoten 

mit allen Ausgangsknoten und hat die Topologie eines Baumes. Umgekehrt läßt 

sich von jedem Ausgangsknoten genau ein Baum konstruieren, der den betreffenden 

Ausgang mit allen Eingängen verbindet. Daraus resultiert die erwähnte 

Eigenschaft, daß es in einem Banyan genau einen Weg von einem bestimmten 

Eingang zu jedem Ausgang gibt, bzw. daß umgekehrt jeder Ausgang eindeutig 

von allen Eingängen erreichbar ist. 

4.7.3 n-Ebenen-Banyans 

Aus der Klasse der Banyan-Netze sind diejenigen besonders wichtig, bei denen 

die Knoten in Ebenen angeordnet sind. In dieser Untergruppe verlaufen die 

Pfeile aufgrund ihrer Intransitivität nur zwischen Knoten benachbarter Ebenen. 

Dadurch wird das Routing besonders einfach, und die Wege von jedem Eingang 

zu jedem Ausgang sind gleich lang (identische Latenz). Diese schichtweise 

Konfiguration wird als n-Ebenen-Banyan bezeichnet. In Bild 4.46 sind zwei 

Beispiele von Graphen gezeigt, die sowohl einen nicht-n-Ebenen-Banyan als 

193

auch einen n-Ebenen-Banyan darstellen. 

Bild 4.46: Beispiele von nicht-n-Ebenen- (links)- und n-Ebenen-Banyans (rechts). 

Die einzelnen Ebenen der Banyan-Graphen sind analog zu den Stufen der logN- 

Netze. Traditionell werden Banyans, aufgrund ihrer Beziehung zu den Hasse- 

Diagrammen, jedoch vertikal von unten nach oben und nicht von links nach 

rechts wie die logN-Netze gezeichnet. Zur Vereinfachung in der zeichnerischen 

Darstellung können weiterhin die Pfeile der Hasse-Diagramme optional als ungerichtete 

Kanten gezeichnet werden, da a priori feststeht, daß es sich um gerichtete 

Graphen handelt, bei denen die generelle Signalflußrichtung als von 

unten nach oben verlaufend festgelegt ist. 

Schließlich bestehen per definitionem n-Ebenen-Banyans aus n Ebenen von 

Pfeilen und somit aus (n+1) Knotenebenen; Eingangs- und Ausgangsknoten 

werden dabei mitgezählt. Die Knotenebenen werden von 0 bis n durchnumeriert. 

Durch die Schichtung des n-Ebenen-Banyans hat jeder Weg von einem 

Eingang zu einem Ausgang die Länge n. 

Die Zahl der gerichteten Kanten, die auf einen Knoten zulaufen, wird als fan 

in f bezeichnet, und die Zahl, der von einem Knoten abgehenden Kanten heißt 

spread s. Fan in und spread müssen nicht konstant sein, sondern können sich 

von Ebene zu Ebene ändern. Sind s und f konstant, aber nicht notwendigerweise 

gleich, spricht man von regelmäßigen, d.h. regulären Banyans. Regelmäßige 

Banyans werden mit dem Tripel (f, s, n) charakterisiert. 

Ist die Zahl der Knoten in allen Ebenen konstant, handelt es sich um rechteckige 

Banyans. Die Eigenschaften der Regelmäßigkeit und der Rechteckigkeit 

treten unabhängig voneinander auf und können miteinander kombiniert werden, 

so daß man insgesamt 4 verschiedene Varianten innerhalb der Untergruppe 

der n-Ebenen-Banyans hat: 

• regelmäßig und rechteckig 

• unregelmäßig und rechteckig 

• regelmäßig und nicht-rechteckig 

• unregelmäßig und nicht-rechteckig 

Bei einem regelmäßigen und rechteckigen Banyan gilt: s = f =const. In Bild 

194

4.47 sind zwei Beispiele regelmäßiger und rechteckiger n-Ebenen-Banyans gezeigt. 

Es handelt sich um Banyans mit f = s = 2 und 3. Der Buchstabe N bezeichnet 

die Anzahl der Knoten pro Ebene. 

N=4, n=2, s=f=2 

N=9, n=2, s=f=3 

Bild 4.47: Beispiele für regelmäßige und rechteckige Banyans. 

In Bild 4.48 sieht man verschiedene unregelmäßige, rechteckige Banyans. Regelmäßige 

und nicht-rechteckige Banyans sind in Bild 4.49 dargestellt. 

N=6, n=2 

1. Ebene: s = f =2 

1 1 

2. Ebene: s = f =3 

2 2 

N=6, n=2 

1. Ebene: s = f =3 

1 1 

2. Ebene: s = f =2 

2 2 

Bild 4.48: Beispiele für unregelmäßige und rechteckige Banyans. 

Unregelmäßige und nicht-rechteckige Banyans schließlich zeigt Bild 4.50. 

Im darauffolgenden Bild 4.51 sind Gegenbeispiele dargestellt, die keine Banyans 

sind, weil von einigen Eingängen entweder kein Pfad zu bestimmten 

Ausgängen existiert oder weil mehr als ein Pfad vorhanden ist. 

Anhand der gezeigten Beispiele wird die Vielzahl der Topologien deutlich. 

4.7.4 Bekannte Banyans 

Für n = 1 gibt es genau einen Banyan mit s = f = 2 (Bild 4.52), der bereits von 

195

N =4 

N =4 

3 3 

N =6 

N =8 

2 2 

n=2, s=2, f=3 

N =9 

1 1 

N =16 

n=2, s=2, f=4 

Bild 4.49: Beispiele für regelmäßige und nicht-rechteckige Banyans. 

N =4 

3 3 

N =4 

N =6 

2 2 

N =8 

n=2, s=2 

Ebene 1: f 1=2 

Ebene 2: f =3 

2 

N =6 

1 1 

N =8 

n=2, s=2 

Ebene 1: f 

1=2 

Ebene 2: f =4 

2 

Bild 4.50: Beispiele für unregelmäßige und nicht-rechteckige Banyans. 

Bild 4.51: Beispiele für Graphen, die keine Banyans sind. 

anderen Gebieten her bekannt ist. Dieser Banyan wird beispielsweise von D. 

Knuth [Knuth84] als Bowtie bezeichnet. In der Terminologie der schnellen 

Fourier-Transformation heißt er Butterfly. 

Banyans mit n = 1 und beliebigen f und s sind unter dem Namen Kreuzschienenverteiler 

in der Telefonvermittlungstechnik seit mehr als 100 Jahren be- 

196

Bild 4.52: Einziger Banyan der Größe n=1 und f=s=2. 

kannt (Bild 4.53). Sie zählen in der Telekommunikation und bei Parallelrechnern 

nach wie vor zu den wichtigsten dynamischen Verbindungstopologien. 

s Ausgangsknoten mit fan in f 

. . . 

. . . 

f Eingangsknoten mit spread s 

(f,s,1)-Banyan 

= 

s Ausgänge 

. . . 

fxs- 

Kreuzschienen= 

verteiler 

f Eingänge 

. . . 

Bild 4.53: Ein (f,s,1)-Banyan ist ein Kreuzschienenverteiler. 

Weiterhin wurden von Goke und Lipovski [Goke73] und von Lipovski und Malek 

[Lipovki87] zwei bestimmte Banyan-Kategorien veröffentlicht, die beide 

zur Untergruppe der n-Ebenen-Banyans zählen, aber auf verschiedenen Konstruktionsweisen 

beruhen und topologisch voneinander unabhängig sind. Das 

sind der Switch Banyan (SW-Banyan) und der Cylindrical Cross Hatched-Banyan 

(CC-Banyan). Diese Banyan-Typen sind für n=f=s=2 in Bild 4.54 dargestellt. 

(2,2,2)-SW 

Banyan 

(2,2,2)-CC 

Banyan 

inverser 

(2,2,2)-CC 

Banyan 

Bild 4.54: (2,2,2)-SW- und CC-Banyans. 

Es zeigt sich, daß das Spiegelbild zum SW-Banyan (inverser SW-Banyan) 

identisch zum normalen SW-Banyan ist, weil dieser aufgrund seiner Mittensymmetrie 

durch topologieerhaltendes Drehen um 180° in einen gespiegelten 

197

SW-Banyan überführt werden kann. Anders sind die Verhältnisse beim CC-Banyan: 

Hier verhalten sich Bild und Spiegelbild wie die linke und rechte Hand 

zueinander, stellen also zwei verschiedene Topologien dar. 

Sowohl SW- als auch CC-Banyan bestehen aus Eingangs-, Ausgangs- und 

Zwischenknoten sowie den Verdrahtungsebenen und können mit regelmäßigem 

oder unregelmäßigem spread und fan in konstruiert werden. Im regelmäßigem 

Fall lassen sie sich eindeutig durch die Angabe von "(f, s, n)-SW" bzw. 

"(f, s, n)-CC" charakterisieren. 

Während für n=f=s=2 genau drei verschiedene Banyans existieren, die 

topologisch verschieden sind, gibt es für n=3 und f=s=2 einen großen Sprung in 

der Zahl möglicher Banyans: Laut E. Hotzel [Hotzel95] existieren 325 dreistufige, 

binäre Banyans, die außer der Typangabe SW- bzw. CC-Banyan keinen 

eigenen Namen mehr haben und von denen 168 topologisch unabhängig sind. 

Alle 325 Banyans realisieren darüber hinaus unterschiedliche Mengen von 

Permutationen, so daß sie auch funktional verschieden sind. Für n>3 ist die genaue 

Zahl der Banyans bereits nicht mehr bekannt. Man weiß nur, daß sie zwischen 

2 2n – 1 

– 13 und 2 ( n – 1)2 

2 n – 1 

liegt [Hotzel95]. 

4.7.5 Dualität der Banyans 

Nach Lipovski und Malek [Lipovski87] kann jeder Banyan auf zwei verschiedene 

Arten interpretiert werden: In der ersten Interpretation stellen die Knoten 

des Banyans fxs-Schalter dar, und die Kanten zwischen den Knoten entsprechen 

der Verdrahtung zwischen den Schaltern verschiedener Ebenen. Diese Interpretation 

wird auch als Aktivknotenmodell bezeichnet, weil jeder Knoten eine 

Schaltfunktion ausübt. 

In der zweiten Interpretationsweise, die für Banyans möglich ist, sind die 

Knoten des Graphen Anschlußpunkte für Leitungen (sog. "Lötstützpunkte") 

und die Kanten repräsentieren Ein/Ausschalter. Hier haben die Knoten keine 

Schaltfunktion (= Passivknotenmodell). 

In Bild 4.55 ist exemplarisch ein SW-Banyan aus 3 Ebenen mit f=s=2 gezeigt, 

der gemäß des Aktivknotenmodells interpretiert und in Bild 4.56 als 

logN-Netz dargestellt wird. Die Knotenein- und ausgänge haben dazu je zwei 

Leitungen zum Anschluß an Prozessoren oder Rechner. 

Man sieht, daß die Topologie des (2, 2, 3)-SW-Banyans in dieser Interpretation 

bis auf eine Unshuffle-Stufe am Ausgang identisch mit dem bereits bekannten 

Indirect Binary n-Cube [Pease77] ist. Daß dieses aus dem Banyan abgeleitete 

Netz auch ohne Unshuffle-Stufe am Ausgang funktionieren kann, zeigt Bild 

4.57, in dem das Routing in diesem Graphen für den Fall von 16 Ein- und Ausgängen 

exemplarisch dargestellt ist. 

Das Passivknotenmodell erlaubt eine besondere Optimierung vorzunehmen: In 

einem separaten Schritt können die Knoten benachbarter Ebenen und deren 

Kanten zu sxf-Schaltern zusammengefaßt werden, um dadurch eine Vereinfachung 

der Netzstruktur zu erreichen. Beispielsweise kann man zwei gegenüber- 

198

E 

i 

n 

g 

ä 

n 

g 

e 

A 

u 

s 

g 

ä 

n 

g 

e 

Bild 4.55: (2, 2, 3)-SW-Banyan. 

β 2 

β 3 

β 4 

Bild 4.56: (2, 2, 3)- SW-Banyan in der Aktivknoteninterpretation. 

E(i 

i 4 i 3 i 2 i 1 ,o 2 ) 

β 

1 ⎯ ⎯ ⎯ ⎯ → i 4 i 3 i 2 o 2 

2 ⎯ ⎯ → 

E(i 

i 4 i 3 o 2 i 2 ,o 3 ) 

β 

2 ⎯ ⎯ ⎯ ⎯ → i 4 i 3 o 2 o 3 3 ⎯ ⎯ → 

E(i 

i 4 o 3 o 2 i 3 ,o 4 ) 

β 

3 ⎯ ⎯ ⎯ ⎯ → i 4 o 3 o 2 o 4 4 ⎯ ⎯ → 

E(i 

o 4 o 3 o 2 i 4 ,o 1 ) 

4 ⎯ ⎯ ⎯ ⎯ → o 4 o 3 o 2 o 1 

Bild 4.57: Funktion des (2, 2, 3)-SW-Banyans in der Aktivknoteninterpretation. 

liegende Knotenpaare aus zwei benachbarten Ebenen zu einem 2x2-Schalter 

zusammenfassen; so, wie dies in Bild 4.58a dargestellt ist. In der Verallgemeinerung 

dieses Schrittes ist die Zusammenfassung auch dann erlaubt, wenn das 

Knotenpaar in derselben Ebene nicht direkt benachbart ist (Bild 4.58b). Einzige 

Voraussetzung dabei ist, daß Quadrupel der Struktur im Netz existieren, die 

zu 2x2-Schaltern verschmolzen werden können. 

Zur Banyan-Optimierung ist zu sagen, daß jeder Banyan, der nach dem Passivknotenmodell 

interpretiert wird, umgezeichnet werden kann, d.h. daß alle 

Knotenquadrupel in 2x2-Schalter umwandelbar sind. Je 4 Kanten in "Schmet- 

199

lassen sich dabei zu einem 2x2-Schalter zusammenfas- 

terlings"-Topologie 

sen. 

a) 

= 

b) = 

Bild 4.58: Zusammenfassung von Ein-/Ausschaltern in Schmetterlings-Topologie. 

Beispiel: 

Das Zusammenfassen von Banyan-Knoten zu 2x2-Schaltern ist in Bild 4.59 für 

den Graphen des (2, 2, 3)-Banyans exemplarisch gezeigt. Aus seinen vier Knotenebenen 

entsteht so ein 3 stufiges Netz (Bild 4.59b). 

1. Knoten 

Spalte 

2. Knoten 

Spalte 

3. Knoten 

Spalte 

4. Knoten 

Spalte 

a) 

E 

i 

n 

g 

ä 

n 

g 

e 

A 

u 

s 

g 

ä 

n 

g 

e 

Aus 1.+2. 

Knoten 

Spalte 

Aus 2.+3. 

Knoten 

Spalte 

Aus 3.+4. 

Knoten 

Spalte 

b) 

E 

i 

n 

g 

ä 

n 

g 

e 

0 

1 

2 

3 

0 

1 

2 

3 

A 

u 

s 

g 

ä 

n 

g 

e 

β 2 

β 2 

β 3 

β 3 

Bild 4.59: (2, 2, 3) Banyan in der Passivknoteninterpretation. 

200

Die nach Bild 4.59b entstandene Topologie kann durch Verketten der beiden 

mittleren Permutationen β 2 und β 3 zu einer einzigen Verdrahtungsstufe weiter 

vereinfacht werden. Wird dieser Schritt durchgeführt, erhält man eine zu den 

klassischen logN-Netzen ähnliche Topologie, die in Bild 4.60 dargestellt ist. 

0 

1 

2 

3 

0 

1 

2 

3 

β 2 

σ 3 

β 3 

σ 3 

β 2 

β 3 

Bild 4.60: Der (2, 2, 3)-SW-Banyan in der 2. Interpretation nach Verketten der beiden mittleren 

Verdrahtungen. 

Das Verketten der Verdrahtungen entspricht dem Satz, daß = gilt, der 

bereits vom Kapitel über die Algebra der Permutationen bekannt ist. Damit 

kann das optimierte Netz für den Fall von n = 3 analytisch definiert werden: 

Def. 4.19: N neu 

= Eβ 2 

Eσ 3 

Eβ 3 

. 

Die Topologie N neu , die aus dem (2, 2, 3 )-SW-Banyan gewonnen wurde, ist ein 

korrekt funktionierendes logN-Netz, wie man anhand des in Bild 4.61 

dargestellten Routing-Schemas erkennen kann: 

E(i 

i 3 i 2 i 1 ,o 1 ) 

β 

1 ⎯ ⎯ ⎯ ⎯ → i 3 i 2 o 1 ⎯ ⎯ 2 

→ 

E(i 

i 3 o 1 i 2 ,o 2 ) 

σ 

2 ⎯ ⎯ ⎯ ⎯ → i 3 o 1 o 2 ⎯ ⎯ 3 

→ 

E(i 

o 1 o 2 i 3 ,o 3 ) 

β 

3 ⎯ ⎯ ⎯ ⎯ → o 1 o 2 o 3 ⎯ ⎯ 3 

→ 

o 3 o 2 o 1 

Bild 4.61: Funktionsweise des Netzes N neu für 8 Ein-/Ausgänge. 

N neu wiederum läßt sich durch ein die Netztopologie erhaltendes Vertauschen 

des 1. und 2. Kreuzschalters in der 3. Spalte auf den bekannten Indirect 

Binary n-Cube zurückführen (Bild 4.62). 

Das bedeutet, daß die 2. Interpretation des (2,2,3)-SW-Banyan identisch ist 

zum 3 stufigen Indirect Binary n-Cube inklusive einer Unshuffle-Permutation 

am Ausgang. In analoger Weise lassen sich SW-Banyans mit mehr als 3 Ebenen 

in eine äquivalente Darstellung als Indirect Binary n-Cube umwandeln. 

Insgesamt kann gesagt werden, daß ein n-Ebenen-Banyan, der gemäß des 

201

0 

1 

2 

3 

0 

2 

1 

3 

β 2 

β 3 

σ 3 

Bild 4.62: Das Netz N neu als vollständiger Indirect Binary n-Cube. 

Passivknotenmodells interpretiert wird, in ein logN-Netz aus n Schaltstufen 

umgewandelt werden kann. Die Zahl der Eingangs- und Ausgangsknoten im 

Banyan entspricht dabei der Zahl der Ein- und Ausgänge beim logN-Netz. Im 

Aktivknotenmodell dagegen ist die Zahl der Eingänge des logN-Netzes das f- 

fache der Eingangsknotenzahl und die Zahl der Ausgänge entspricht dem s-fachen 

der Ausgangsknotenzahl. Die Anzahl der Stufen des logN-Netzes ist in 

diesem Fall um 1 größer als die Ebenenzahl des Banyans, da definitionsgemäß 

nicht die Zahl der Knoten-, sondern der Verdrahtungsebenen gezählt wird. Ein 

n-Ebenen-Banyan aus (n+1) Knotenebenen resultiert also in einem (n+1)-stufigen 

logN-Netz. 

4.7.6 Beispiel eines kommerziellen Banyan-Netzes 

Es gibt relativ wenige kommerzielle Implementierungen eines Banyan-Netzes. 

Die "Fat Tree"-Topologie des CM5-Rechners von Thinking Maschines Corp. 

[Hillis85] stellt eine solche dar. In Bild 4.63 ist das Netz einer 64-Prozessor 

CM5 dargestellt, das aus einer Vielzahl von 4x2-Kreuzschienenverteiler besteht, 

die untereinander jeweils fest verdrahtet sind. 

. . . 

1 2,3, 

4 

Bild 4.63: Verdrahtung einer 64-Prozessor CM5 in Fat Tree-Topologie. 

202

Ersetzt man in dieser Topologie die Kreuzschienenverteiler durch die Knoten 

eines Banyans, erkennt man, daß es sich bei Bild 4.63 um einen regelmäßigen, 

nicht rechteckigen n-Ebenen Banyan handelt mit f=4, s=2 und n=2. Der Graph 

dieses Banyans ist in Bild 4.64 abgebildet. Die Prozessoren der CM-5 werden 

. . . 

Bild 4.64: Fat Tree als Banyan. 

. . . 

mit beiden Ports an benachbarte Eingabeknoten in der untersten Knotenebene 

angeschlossen und die Kanäle bidirektional betrieben. Dadurch entsteht eine 

Netztopologie, die die Kommunikation zwischen räumlich benachbarten Prozessoren 

begünstigt. 

4.8 Switch-Banyans 

Die bekanntesten Vertreter aus der Kategorie der n-Ebenen-Banyans sind die 

Switch- und Cylindrical Cross Hatched-Banyans von Goke und Lipovski 

[Goke73], abgekürzt SW- und CC-Banyans. 

Um die Definition von SW-Banyans angeben zu können, müssen zuvor die 

Begriffe des elementaren Weges und der Korrespondenzfunktion [Lipovski87] 

eines Graphen vorgestellt werden. 

Def. 4.20: Ein elementarer Weg der Länge i ist eine Folge von Kanten zwischen 

zwei Knoten s0 und si, gemäß s0->s1->s2,...,->si so, daß kein Knoten zweimal 

durchlaufen wird. 

Def. 4.21: Die Korrespondenzfunktion G(i, A) einer Menge A von Knoten in 

einem Graphen ist die Knotenmenge, die am Ende eines elementaren Weges der 

Länge i ausgehend von einem Knoten a ∈ A liegt. Ist i

(0≤i

Der (2,2,4)-SW-Banyan entsteht durch Verdoppeln des (2,2,3)-Banyans und 

durch Verbinden beider Teile in einer zusätzlichen Butterfly-Verdrahtungsebene. 

Dieser Konstruktionsschritt läßt sich für jede gegebene Ebenzahl n anwenden, 

um daraus (n+1)-Ebenen SW-Banyans zu erhalten. SW-Banyans mit 

f=s>2 können in analoger Weise dadurch gewonnen werden, daß man mit einem 

(f>2,s=f,1)-Ebenen SW-Banyan anfängt und diesen f-fach repliziert. Die 

Butterfly-Permutation wird dann zur Basis f durchgeführt, so wie es im Abschnitt 

"Verallgemeinerte Grundpermutationen" beschrieben ist. Mit dieser 

Methode kann man relativ einfach beliebige (f,s=f,n)-SW-Banyans erhalten. 

Als nächstes werden zwei weitere Konstruktionsweisen, die nicht auf dem 

Replizieren einer Grundstruktur beruhen, exemplarisch für einen zwei-Ebenen- 

SW-Banyan beschrieben. Die angegebenen Methoden können auf n>2 Ebenen 

erweitert werden. Bemerkenswert ist, wie beide Konstruktionsweisen denselben 

Graphen liefern, obwohl sie auf verschiedenen Prinzipien basieren. 

In Bild 4.66 ist die Konstruktionsweise eines (2,2,2) SW-Banyans gezeigt, 

die auf Bäumen als Grundelemente beruht [Lipovski87] und die in drei Schritten 

abläuft: Zuerst geht man von einem inversen Baum der Höhe 2 aus (Bild 

4.66a) und verdoppelt seine Spitze (Bild 4.66b). Danach werden die darunterliegenden 

Knoten ebenfalls verdoppelt und baumartig miteinander verbunden 

(Bild 4.66c). Schließlich ergibt die Überlagerung aller Teilbäume im letzten 

Schritt den SW-Banyan, wobei durch Umsortieren der beiden mittleren Knoten 

in der obersten Knotenebene dafür gesorgt wird, daß es zueinander parallel verlaufende 

Kanten gibt (Bild 4.66d). 

a) b) c) d) 

Bild 4.66: Konstruktion eines (2, 2, 1)- SW-Banyans aus Bäumen. 

Diese Konstruktion benützt den Satz, daß der Subgraph, der in einem Banyan 

einen beliebigen Eingangsknoten mit allen Ausgangsknoten verbindet, ein 

Baum ist. 

Die dritte Art, SW-Banyans zu konstruieren, liegt in der rekursiven Ersetzung 

von Knoten durch Kreuzschienenverteiler, die ebenfalls als Banyan dargestellt 

werden [Lipovski87]. Um einen n-Ebenen-Banyan zu erzeugen, sind (n-1) Rekursionsstufen 

erforderlich. Man beginnt beim kleinsten SW-Banyan, den es 

gibt, dem 1-Ebenen-SW-Banyan, und ersetzt darin alle Knoten mit f zulaufenden 

und s abgehenden Pfeilen durch Banyan-Kreuzschienenverteiler der Größe 

fxs. Daraus erhält man nach dem Zusammenfassen zweier benachbarter 

Knotenebenen einen 2-Ebenen-SW-Banyan, bei dem wiederum alle Knoten 

durch (fxs)-Kreuzschienenverteiler ersetzt werden. Danach werden benachbar- 

205

te Knotenebenen zu jeweils einer Ebene zusammengefaßt, so daß man einen 3- 

Ebenen-SW-Banyan hat, usw. Der beschriebene Vorgang wird solange wiederholt, 

bis man den gewünschten n-Ebenen-SW-Banyan erhält. 

Die dritte Konstruktionsweise benützt den Satz, daß jeder Banyan auch dann 

ein Banyan bleibt, wenn jeder Knoten mit f zulaufenden und s abgehenden Pfeilen 

durch einen (f,s,1)-SW-Banyan ersetzt wird, da durch diese Operation die 

Eigenschaft der Pfadeindeutigkeit nicht verloren geht. 

In Bild 4.67 ist der Vorgang für einen 2-Ebenen-Banyan mit f=s=2 gezeigt. 

Man startet mit dem (2,2,1)-Banyan (Bild 4.67a), und ersetzt jeden Knoten 

durch einen (2,2,1)-Banyan (= Kreuzschienenverteiler) (Bild 4.67b). Dann vereinigt 

man die Knoten der beiden mittleren Knotenebenen zu einer einzigen 

Knotenebene (Bild 4.67c), wodurch die Kanten zwischen diesen Knoten entfallen. 

Im letzten Schritt sortiert man die beiden mittleren Knoten der obersten 

Knotenebenen so um, daß parallele Kanten entstehen, wodurch der (2,2,2)-SW- 

Banyan erscheint (Bild 4.67d). 

a) 

(2,2,1)-Banyan 

b) 

Rekursives 

Ersetzen 

c) 

Streichen der urspr. 

Kanten und Verschmelzen 

der mittleren Knoten 

d) 

Umsortieren 

in parallele 

Kanten 

Bild 4.67: Rekursive Konstruktion eines (2,2,2)-SW-Banyans aus einem (2,2,1)-SW-Banyan. 

Die Konstruktion läßt sich auf die Erzeugung von (f, s, n)-SW-Banyans erweitern, 

wenn jeder Knoten im Ausgangsgraphen als fxs-Kreuzschienenverteiler 

expandiert wird. 

Routing in regelmäßigen und rechteckigen SW-Banyans 

Das Routing in einem regelmäßigen und rechteckigen SW-Banyan mit dem Tripel 

(f, s=f=const., n) verläuft ähnlich wie das Routing in den klassischen logN- 

Netzen, d.h., die Zieladresse kann dezentral für die Wegewahl herangezogen 

werden. 

Numeriert man die Knoten in jeder Ebene in einem Banyan-Graphen von links 

nach rechts fortlaufend von 0 bis N-1 zur Zahlenbasis s, dann wird der Pfad 

durch den Graphen so bestimmt, daß jeder Knoten einer Ebene eine Ziffer der 

Zieladresse auswertet, beginnend mit der niedrigstwertigen Ziffer in der Ebene 

0. Ist in der i-ten Ebene die i-te Ziffer gleich 0, wird der Knoten am Ausgang 0 

(ganz links) verlassen, bei 1 wird der Ausgang 1 gewählt, bei 2 der Ausgang 2, 

206

usw. Bei dem gewählten Numerierungsschema entspricht der höchste Ziffernwert 

(=s-1) dem Ausgang, der ganz rechts am Knoten anliegt. In Bild 4.68 

ist ein Routing-Beispiel für den Weg "Eingang 7 (binär 111) nach Ausgang 2 

(010)" in einem (2,2,3)-SW-Banyan dargestellt. Die Routing-Reihenfolge der 

Ausgangskanäle lautet: "Links, rechts, links". 

000 001 010 011 100 101 110 111 

0 

1 

010 heißt: 

"links, 

rechts, 

links" 

(LSB 

zuerst) 

000 001 010 011 100 101 110 111 

Bild 4.68: Routing in einem (2,2,3)-SW-Banyan. 

0 

Beim Routing in SW-Banyans bestimmt die Zieladresse den Pfad im Netz, ohne 

daß dazu die Position des Eingangsknotens berücksichtigt werden muß, d.h., es 

handelt sich bei der Zieladresse um eine absolute Routing-Adresse. 

Spezielle SW-Banyan-Eigenschaften 

SW-Banyans besitzen zwei Eigenschaften, die Bedeutung sowohl für die Architektur 

von Parallelrechnern als auch für Vermittlungseinrichtungen der Telekommunikation 

haben. Die erste Eigenschaft betrifft die Erzeugung blokkierungsfreier 

Netze aus zwei hintereinandergeschalteten Subnetzen, die 

ihrerseits nicht blockierungsfrei sind. Auf dieser Eigenschaft beruht das bekannte 

Benes-Netz [Benes65] sowie das doppelte Baseline- [Wu80a] und das 

Lee-Netz [Lee85], die noch erläutert werden. Die zweite Eigenschaft erlaubt, 

die in parallelen Programmen vorhandene Datenlokalität in der Netztopologie 

zu berücksichtigen und dadurch die Interprozessorkommunikation zu beschleunigen. 

Die Blockierungsfreiheit beruht auf folgendem Satz: 

Satz 4.7: Jede Kaskadierung zweier Banyans, die sich in ein topologisch äquivalentes 

Benes-Netz, doppeltes Baseline-Netz oder Lee-Netz umwandeln läßt, 

liefert ein durch Umordnen interner Wege blockierungsfreies Netz. 

Durch die Hintereinanderschaltung zweier Banyans, die den Bedingungen von 

Satz 4.7 genügt, erhält man ein Mehrpfadnetz, d.h., es existiert mehr als ein 

207

Pfad zwischen jedem Ein- und Ausgang, das aufgrund der Alternativen in der 

Wegewahl die neue Eigenschaft hat, blockierungsfrei zu sein. Blockierungsfreiheit 

ist beispielsweise für Echtzeitanwendungen von großer praktischer Relevanz, 

da nur in diesem Fall eine bestimmte maximale Durchlaufzeit durch das 

Netz garantiert werden kann. Darüberhinaus wird durch die Redundanz in der 

Wegewahl zusätzlich Fehlertoleranz gewonnen. 

Von Satz 4.7 abgeleitet existieren zwei Vermutungen, die bislang nicht bewiesen 

werden konnten. Sie sollen hier der Vollständigkeit halber aufgeführt 

werden und um zu zeigen, daß die Theorie der dynamischen Netze noch nicht 

abgeschlossen ist: 

• "Jede Hintereinanderschaltung zweier spiegelsymmetrischer Banyans ist 

durch Umordnen interner Wege blockierungsfrei", bzw. 

• "Jede Hintereinanderschaltung zweier gleicher, bzw. zweier verschiedener 

Banyans gleicher Knotenzahl ist durch Umordnen interner Wege blockierungsfrei". 

Die zweite spezielle Eigenschaft der SW-Banyans betrifft die Lokalität in der 

Netztopologie, die zu einer Beschleunigung der Interprozessorkommunikation 

führen kann. Um diese Eigenschaft zu nutzen, ist es erforderlich, die unidirektionale 

Banyan-Struktur so zu modifizieren, daß auf allen Kanälen (Kanten des 

Banyans) Daten bidirektional transferiert werden können. In diesem Fall werden 

die Knoten der obersten Banyan-Ebene nicht mehr zur Datenausgabe verwendet; 

vielmehr werden Sende- und Empfangsdaten an der Eingangsknotenebene 

gelesen und geschrieben. Alle Knoten werden so modifiziert, daß sie 

in der Lage sind, Datenpakete "nach unten", d.h. in Richtung der Eingangsknoten 

zurückzusenden. Alle Knoten im derart betriebenen SW-Banyan dienen potentiell 

zum "Zurückspiegeln" einlaufender Nachrichten nach unten. In Bild 

4.69 sind drei Kommunikationsbeispiele für diesen Modus gezeigt: 

• Von Knoten 0 mit Knoten 1 (binär 001), 

• Von Knoten 0 mit Knoten 2 (010) und 

• Von Knoten 0 mit Knoten 4 (100). 

Die Lokalität in der Kommunikation zeigt sich darin, daß mit abnehmender Distanz 

der Kommunikationspartner in x-Richtung die benötigte Knotenebene (y- 

Richtung) ebenfalls niedriger wird. Im Beispiel nach Bild 4.69 läuft die Kommunikation 

von Knoten 0 nach 4 über die Ebene 3, von 0 nach 2 über Ebene 2 

und von 0 nach 1 über Ebene 1. Damit kann die Kommunikation umso schneller 

ablaufen, je "näher" die kommunizierenden Knoten sind, weil die Latenz des 

Datentransfers sinkt. Die Topologie des (2, 2, 3)-SW-Banyans des Beispiels 

gruppiert in der Knotenebene 1 die Menge der Eingangsknoten in vier Zweiergruppen, 

in der Knotenebene 2 die Menge der Zweiergruppen in zwei Vierergruppen, 

und in der obersten Ebene werden beide Vierergruppen zu einer Achtergruppe 

zusammengefaßt. Die Entfernung (Pfadlänge) innerhalb einer 

Zweiergruppe ist am kleinsten, gefolgt von der Entfernung zwischen zwei 

Zweier- und zwei Vierergruppen, usf. 

208

000 001 010 011 100 101 110 111 

Knoten= 

ebene 3 

Knoten= 

ebene 2 

Knoten= 

ebene 1 

000 001 010 011 100 101 110 111 

Knoten= 

ebene 0 

Bild 4.69: Lokalität der Kommunikation im bidirektionalen (2, 2, 3)-SW-Banyan. 

Allgemein werden in n-Ebenen SW-Banyans mit zunehmender Ebenenzahl immer 

mehr Knoten zu einer übergeordneten Gruppe zusammengefaßt. Innerhalb 

einer Gruppe kann eine lokale Kommunikation schneller durchgeführt werden 

als zwischen den Gruppen. Anwendungen mit Datenlokalität können diese Eigenschaft 

durch geeignetes Plazieren der kommunizierenden Prozesse nutzen. 

4.8.1 CC-Banyans 

Neben den Switch-Banyans (SW-Banyans) sind die Cylindrical Cross Hatched-Banyans 

und deren Verallgemeinerung die Conical Cross Hatched-Banyans 

[Lipovski87] bekannt. Die beiden letzteren werden im folgenden zu der 

Gruppe der CC-Banyans zusammengefaßt. 

Allgemein betrachtet, sind für die Konstruktion beliebiger Banyans drei 

verschiedene Parameter maßgebend, die die Verdrahtung zwischen den Knotenebenen 

bestimmen: 

• die Regularität, 

• die Rechteckigkeit und 

• die Mittelsymmetrie. 

Die bereits beschriebenen SW-Banyans beruhen auf Mittelsymmetrie. Die 

Klasse der CC-Banyans dagegen ist nicht mittelsymmetrisch, man hat hier 

wrap-around-Verbindungen, die der CC-Topologie einen "modulo-mäßigen" 

Charakter verleihen. 

Alle obigen drei Verdrahtungsparameter können untereinander kombiniert 

werden, so daß es insgesamt 8 verschiedene Möglichkeiten gibt, Banyans zu 

konstruieren. Bild 4.70 zeigt eine anhand dieser Parameter vorgenommene 

Klassifikation der Banyan-Netze. 

SW-Banyans haben nach dieser Klassifikation einen regelmäßigen Aufbau, 

sind rechteckig und mittelsymmetrisch. CC-Banyans sind regelmäßig, aber 

209

Banyan-Netze 

Regularität 

regelmäβig 

nicht regelmäβig 

Rechteckigkeit 

rechteckig 

nicht rechteckig 

Mittelsymmetrie 

mittelsymmetrisch 

nicht 

mittelsymmetrisch 

Bild 4.70: Klassifikation der Banyans. 

nicht mittelsymmetrisch. Die zylindrischen CC-Banyans unterscheiden sich 

von den konischen CC-Banyans darin, daß sie zusätzlich rechteckig sind. Andere 

Banyans sind nicht regelmäßig aufgebaut. 

Definition von zylindrischen CC-Banyans 

Bei zylindrischen CC-Banyans gilt f=s=const. Die Menge der zylindrischen 

CC-Banyans läßt sich anhand von Def 4.23 mathematisch bestimmen 

[Goke73]. In dieser Definition ist zu beachten, daß zwischen Knoten- und Verdrahtungsebenen 

unterschieden wird. Für konische Banyans, d.h. für f≠s, gibt 

es eine konstruktive Methode der Erzeugung [Lipovski87], auf die im nächsten 

Kapitel eingegangen wird. 

Def. 4.23: Seien 

0 1 N – 1 

V i 

, Vi , … , Vi 

die Knoten in der Knotenebene i eines 

CC-Banyans aus n Verdrahtungsebenen (N=s n , s=f=const.), dann ist ein bel. 

Knoten mit dem Knoten der Knotebene i+1 verbunden, wenn gilt: 

Beispiel: 

V i 

k 

l = ( k + ms i )modN 

l 

V i + 1 

für beliebige m (0≤m≤s-1). 

In einem CC-Banyan mit s=f=2, d.h., einem binären, zylindrischen CC-Banyan 

mit zwei Verdrahtungsebenen kann der freie Parameter m von Def 4.23 die 

Werte 0 und 1 annehmen. Daraus ergeben sich für jede Knotenebene dieses speziellen 

Banyans folgende Beziehungen: 

• Knotenebene 0: Ein Knoten V k 0 ist mit den Knoten V k k+1 

1 (m=0) und V 1 

(m=1) der Ebene 1 verbunden, die zueinander benachbart sind. 

• Knotenebene 1: Ein Knoten V k 1 ist mit den Knoten V k k+2 

2 (m=0) und V 2 

(m=1) verbunden, die in der Ebene 2 die Distanz 2 haben. 

• Knotenebene 2: Ein Knoten V 

k 

2 ist mit den Knoten V 

k 

3 (m=0) und V 

k+4 

3 

(m=1) verbunden, die in der Ebene 3 die Distanz 4 haben, u.s.f. 

210

Die graphische Repräsentation des binären, zylindrischen CC-Banyans ist dadurch 

gekennzeichnet, daß für alle Knoten V i 

k 

je zwei Kanten existieren, von 

denen die erste vertikal und die zweite "schräg" nach oben verläuft. Dieser 

Sachverhalt ist in Bild 4.71 für N=8, s=2 und n=3 dargestellt. Darin sind die 

wrap-around-Verbindungen erkennbar, die den Banyan zyklisch und deshalb 

nicht-mittelsymmetrisch machen. Ebenso wird die Regularität dieser Banyan- 

Struktur sichtbar. 

Bild 4.71: (2,2,3)-Cylindrical Cross Hatched-Banyan. 

Allgemein gilt, daß die Graphen binärer CC-Banyans mit beliebiger Verdrahtungsebenenzahl 

n die Eigenschaft haben, daß sich der Abstand zwischen den 

( k + s i ) MOD N 

+ 

k 

beiden Knoten V i+1 und V i 1 

der Knotenebene (i+1), mit denen der 

k-te Knoten V 

k 

i der Knotenebene i verbunden ist, von Ebene zu Ebene verdoppelt. 

Beginnt man in der Knotenebene 0 mit dem Knoten V k 0 , dann haben die 

mit V k 0 verbundenen Knoten der Knotenebene 1 den Abstand 1. Wählt man die 

Knotenebene i=1 als Start, erhält man den Abstand 2, u.s.f. Die Konstruktion 

des zylindrischen (2,2,n)-Banyans hat somit eine gewisse Ähnlichkeit zu einem 

Barrel Shifter, der Zahlen (in diesem Fall Knotenadressen) um Zweierpotenzen 

verschieben kann. Für die Graphen nicht-binärer, zylindrischer CC-Banyans 

mit (s,s,n), s>1 gilt: 

• Ein Knoten V 

k 

0 der Knotenebene 0 ist nicht nur mit den Knoten V 

k 

1 (m=0) 

und V k+1 

1 (m=1) verbunden, sondern mit allen Knoten der Adresse 

( k + m) MOD N 

V 1 

(0≤m≤s-1), so daß sich insgesamt s Kanten ergeben, die von 

V 

k 

0 ausgehen, von denen eine vertikal und (s-1) schräg verlaufen. 

211

• In der Knotenebene 1 münden alle Kanten, die in der Ebene 0 vom Knoten 

V 0 

k 

beginnen, in Knoten, die zueinander benachbart sind. In höheren Ebenen 

(i>1) erhöht sich der Abstand der Knoten, auf die die Kanten zulaufen, auf 

die Distanz s i . 

Der Graph nicht-binärer, zylindrischer CC-Banyans kann in diesem Sinne mit 

einem Barrel Shifter verglichen werden, der Zahlen um s i Stellen (s>1, i≥0) verschiebt. 

Konstruktion von konischen Banyans 

Nicht-rechteckige, d.h. konische CC-Banyans (f(s) sind relativ aufwendig in ihrer 

Konstruktion. Im folgenden soll deshalb nur die Erzeugung eines (f, s, 2)- 

CC-Banyans erläutert werden, die bereits vier verschiedene Phasen erfordert 

[Lipovski87]. 

In der 1. Phase beginnt man mit der obersten, d.h. 2. Ebene des konischen 

CC-Banyans, die als Abwicklung eines fxs-Kreuzschienenverteilers auf einen 

Kegelstumpf aufgefaßt wird. In Bild 4.72a ist ein Kegelstumpf mit einem 

Kreuzschienenverteiler für f=3 und s=2 dargestellt, wobei eine Kante kreisförmig 

gezeichnet ist, um den "modulo-mäßigen" Charakter dieser Verbindung 

herauszustreichen. Im 2. Teil der 1. Phase erzeugt man s Kopien des fxs-Kreuzschienenverteilers, 

die um jeweils 360°/s 2 gegeneinander gedreht sind (Bild 

4.72b). 

360° 

0° 

360° 

0° 

Ein fxs 

Kreuzschienenverteiler 

s verschobene 

fxs Kreuzschienenverteiler 

a) b) 

Bild 4.72: Konstruktion der 2. Ebene eines (3,2,2)-CC-Banyans. 

Durch das Kopieren und Drehen um den Winkel 360°/s 2 wird die Bogenlänge 

zwischen benachbarten Knoten des ursprünglichen Kegelstumpfs gleichmäßig 

mit Knotenkopien belegt. 

In der 2. Phase werden zur Erzeugung der unteren, d.h. 1. Ebene des CC-Banyans 

insgesamt f Kreuzschienenverteiler so aneinandergehängt, daß der Ausgang 

der wrap-around-Verbindung des i-ten (0≤i

gur auf einem zweiten Kegelstumpf so abgerollt, daß alle Knoten gleichmäßig 

auf dem Umfang verteilt sind (Bild 4.73b). 

a) 

360° 0° 

b) 

360° 

0° 

Bild 4.73: Erzeugung der 1. Ebene des (3,2,2)-CC-Banyans. 

In der 3. Phase werden die beiden Kegelstümpfe so aufeinandergesetzt, daß die 

Knoten der Schnittstellen miteinander verschmelzen. Dies ist deshalb möglich, 

weil beide Schnittstellen gleich viele Knoten haben (oben fxs und unten sxf). 

Dieser Vorgang ist in Bild 4.74 dargestellt. 

360° 0° 

360° 0° 

360° 

0° 

Bild 4.74: Zusammensetzen von 1. und 2. Ebene. 

Die Projektion von Bild 4.74 auf eine Ebene erzeugt in der vierten Phase den (f, 

s, 2)-CC-Banyan (Bild 4.75) in einer 2-dimensionalen Darstellungsweise. 

Die geschilderte vierphasige Konstruktion des konischen (3,2,2)-CC-Banyans 

kann auf weitere Ebenen und andere Parameter f und s ausgedehnt werden, um 

so beliebige konische CC-Banyans zu erhalten. Ist f=s, wird aus dem Konus ein 

Zylinder und man erhält rechteckige (zylindrische) CC-Banyans, wie sie bereits 

beschrieben wurden. 

Die praktische Bedeutung von konischen CC-Banyans liegt darin, daß sich 

für f>s Datenkonzentratoren (Multiplexer) aufbauen lassen, wie sie z.B. in der 

213

Bild 4.75: (3,2,2)-Conical Cross Hatched-Banyan. 

Telefonvermittlungstechnik oder bei der Datenübertragung verwendet werden. 

s 

Durch geeignete Wahl von f, s und n läßt sich der Konzentrationsfaktor - 

⎝⎠ 

⎛⎞ n 

f 

beliebig einstellen. In Bild 4.75 beispielsweise werden 9 Eingänge auf 4 Ausgänge 

konzentriert. Entsprechend können für f

was dem Wert (011) in Zweierkomplementdarstellung entspricht. Damit lautet 

die Wegewahl: "Rechter Ausgang (=1), rechter Ausgang(=1), linker Ausgang 

(=0)", wobei man mit dem LSB beginnt. In Bild 4.76 ist das Routing-Beispiel 

7->2 dargestellt. 

Bei den binären CC-Banyans (s=f=2) sind deshalb relative Adressen für das 

Routing erforderlich, weil die Verdrahtung zwischen den Stufen einer Shift- 

Permutation entspricht, die so definiert ist, daß zu jedem Knoten der Adresse k 

aus der Ebene i die Zahl 1,2,4,... in der Ebene (i+1) hinzuaddiert wird, unabhängig 

vom Wert k. Allgemein gilt, daß in Ebene i der Wert 2 i hinzuaddiert 

wird. Die binäre Shift Permutation ist definiert als: 

Gl. 4.43: 

V i 

= (( a n – 1 

a n – 2 

, …, 

a 0 

) + 2 i ) MOD 2 n 

0 1 2 3 4 5 6 7 

0 

1 

1 

0 1 2 3 4 5 6 7 

LSB 

zuerst 

Bild 4.76: Routing-Beispiel im (2,2,3)-Cylindrical Cross Hatched-Banyan. 

Beim Routing ist in der i-ten Knotenebene zu entscheiden, ob es nötig ist, die 

horizontale Position um 2 i Knoten zu verschieben (=Ausgang 1), oder ob die 

Position unverändert bleiben kann (=Ausgang 0). Für allgemeine Zahlenbasen 

s in (f, s, n)-CC-Banyans wird die Basis Zwei durch Basis s ersetzt. 

Zusammenfassend kann gesagt werden, daß das Routing in regelmäßigen und 

rechteckigen (s, f, n)-SW- und CC-Banyans bis auf die Verwendung von absoluten 

bzw. relativen Adressen gleich ist. Beide Male werden die Ziffern der Zieladresse 

bzw. der um die Herkunftsadresse verminderten Zieladresse zur Routing-Entscheidung 

herangezogen. In beiden Fällen muß die Spezifikation der 

Adressen zur Zahlenbasis s erfolgen, die mit den s Ausgängen eines Knotens 

identifiziert wird. Dies wird als Ziffern-Routing bezeichnet. 

215

4.8.2 Delta-Netze 

Im Prinzip können auch Banyan-Netze, die nicht SW- oder CC-Topologie haben, 

Ziffern-Routing aufweisen. Aus diesem Grunde faßt man alle Banyans mit 

dieser Eigenschaft zu einer neuen Untermenge zusammen, die als die Kategorie 

der Delta-Netze bezeichnet wird. Der Begriff Delta-Netz wurde 1979 von J. H. 

Patel [Patel79] geprägt und zunächst in einem engeren Sinne für zwei spezielle 

Netzstrukturen verwendet. Die heutige Definition der Delta-Netze ist weiter gefaßt: 

Def. 4.24: Jeder regelmäßige n-Ebenen-Banyan, bei dem das Routing zifferngesteuert 

abläuft, wird als Delta-Netz bezeichnet. 

Insbesondere gehören auch die klassischen logN-Netze zur Delta-Netzkategorie. 

Clos- und Benes-Netzwerke dagegen sind nicht darin enthalten, da bei ihnen 

das Routing nicht zifferngesteuert und damit deterministisch abläuft, sondern 

Freiheitsgrade beinhaltet. 

Delta-Netze beruhen auf der Voraussetzung, daß sich von jedem Eingang zu 

jedem Ausgang ein Baum von konstantem Verzweigungsgrad s durch das Netz 

legen läßt. Die Ebenen des Baumes entsprechen dabei den Ziffern der Zieladresse. 

Die Werte der Ziffern legen die Äste des Baumes in jeder Ebene fest, 

d.h., es wird anhand der Ziffer entschieden, welcher Knotenausgang im Banyan 

zu beschreiten ist. In der untersten Ebene wird, abhängig von der Topologie des 

Netzes, entweder die höchst- (MSD) oder niedrigstwertige Ziffer (LSD) für die 

Routing-Entscheidung herangezogen. Nachfolgende Ebenen verwenden nachfolgende 

Ziffern. An jedem Knoten kann die Routing-Entscheidung dezentral 

und parallel zu anderen Knoten getroffen werden. 

Beispielsweise verwenden Omega-, Generalized Cube- und Baseline-Netze, 

die aus sxs-Schaltern bestehen, zum Routing in der 1. Stufe das MSD zur Basis 

s, während das Flip- und Indirect Binary n-Cube-Netz das LSD benützen. SWund 

CC-Banyan werten in der untersten Knotenebene ebenfalls das LSD aus. 

Beim Butterfly-Netz wird ausnahmsweise die zweitniedrigste Ziffer (LSD+1) 

für die Wegewahl verwendet. Die Gründe dafür sind im Kapitel über klassische 

logN-Netze beschrieben. 

Konstruktion spezieller Delta-Netze 

Es sind zwei spezielle Delta-Netze bekannt [Patel79], deren Konstruktion hier 

erläutert werden soll. Das erste Netz ist ein nicht-regelmäßiger, nicht-rechtekkiger 

Banyan aus 2 Knotenebenen mit fan in f und spread s in der Eingangsebene 

bzw. mit fan in k und spread s in der Ausgangsebene. Die Eingangsebene besteht 

aus k Knoten, die in Form von fxs-Kreuzschienenverteilern expandiert 

werden. Die Ausgangsebene enthält s Knoten in Form von kxs-Kreuzschienenverteilern. 

Dazwischen verlaufen ks=sk Verbindungen. Das Netz hat N 1 =f*k 

Ein- und N 2 =s 2 Ausgänge, wobei k ein freier Parameter ist, der die Netzgröße 

216

estimmt. Man kann das Netz auch als einen kxs-Kreuzschienenverteiler in Banyan-Schreibweise 

auffassen, dessen Knoten durch fxs- bzw. kxs- 

Kreuzschienenverteiler ersetzt werden. Der Graph dieses Netzes ist für k=f=3 

und s=4 in Bild 4.77 gezeigt. Bei diesem Delta-Netz bestimmt die zweiziffrige 

Zieladresse zur Basis 4 das Routing. Dabei legt die 1. Ziffer (MSD) fest, an welchem 

Ausgang der 1. Stufe das Paket erscheint. Dadurch wird der Schalter der 

2. Stufe festgelegt, zu dem das Paket transportiert wird, da aufgrund der gewählten 

Verdrahtung der Ausgang j eines Schalters der 1. Stufe mit dem j-ten 

Schalter der 2. Stufe verbunden ist. Die zweite Ziffer (LSD) bestimmt, zu welchem 

Schalterausgang innerhalb des j-ten Schalters das Datenpaket transferiert 

wird. Nach zwei zifferngesteuerten Routing-Schritten ist das Ziel erreicht. 

00 

01 

02 

10 

11 

12 

21 

22 

23 

Stufe 1 

0 

1 

2 

3 

k mal fxs Kreuz= 

schienenverteiler 

Stufe 2 

00 

01 

02 

03 

10 

11 

12 

13 

20 

21 

22 

23 

30 

31 

32 

33 

s mal kxs Kreuz= 


Bild 4.77: Spezielles 2-Ebenen Delta-Netz aus fxs- und kxs-Kreuzschienenverteilern. 

In Bild 4.77 ist exemplarisch das Routing-Beispiel (02) 3 -> (11) 4 eingezeichnet. 

Beide Male wird der Ausgang 1 des jeweiligen Kreuzschienenverteilers gewählt. 

Das gezeigte, spezielle 2-Ebenen-Delta-Netz kann von jedem Eingang aus 

alle Ausgänge erreichen, aber nicht für alle Eingänge gleichzeitig. Es ist nicht 

blockierungsfrei, da es zur Klasse der Banyan-Netze zählt. 

Patel berichtete 1979 von einem anderen speziellen Delta-Netz [Patel79], das 

aus Kreuzschaltern aufgebaut ist. Es gehört zur Kategorie der regelmäßigen und 

rechteckigen Banyan-Netze mit f=s=const. In Bild 4.78 ist dieses Netz und sein 

Spiegelbild für N=8 und f=s=2 dargestellt. Zusätzlich ist das Routing-Beispiel 

(110) 2 -> (011) 2 eingezeichnet, das zeigt, daß bei diesem Netz in der 1. Stufe 

das MSB der Zieladresse zum Routing verwendet wird. 

Das zweite spezielle Delta-Netz läßt sich folgendermaßen konstruieren 

[Patel79]: 

217

011 

110 

Delta-Netz 

inverses Delta-Netz 

Bild 4.78: Spezielles Delta-Netz und sein Spiegelbild für n=f=s=2. 

• Man legt, beginnend vom 1. Kreuzschalter oben links, einen Verdrahtungsbaum 

zu allen Ausgängen (Bild 4.79a). 

• Danach werden sukzessive neue Verdrahtungsbäume von einem neuen Eingang 

zu allen Ausgängen gelegt, wobei sich verschiedene Bäume überlagern 

dürfen (Bild 4.79b und c). 

• Wichtig ist, daß ein Eingang eines Schalters der Stufe i entweder nur mit oberen 

oder nur mit unteren Ausgängen von Schaltern der Stufe (i-1) verbunden 

ist. Sind alle Eingänge derart verdrahtet, ist die Konstruktion beendet (Bild 

4.79d). 

Die geschilderte Generierung des zweiten Patelschen Delta-Netzes läßt sich auf 

beliebige Parameter N und (f=s)>2 erweitern. Die Bedingung, die dabei beachtet 

werden muß, ist, daß das Ziffernrouting bewahrt wird. 

Für die Konstruktion bedeutet dies, daß alle Eingänge eines Schalters der i- 

ten Stufe von derselben Ausgangsposition von Schaltern der (i-1)-ten Stufe herrühren 

müssen, also zum Beispiel vom j-ten Ausgang eines Schalters der Stufe 

(i-1). 

Zwischen benachbarten Ebenen ist jedes Verdrahtungsmuster erlaubt, vorausgesetzt, 

daß ein eindeutiger Weg von jedem Eingang zu jedem Ausgang existiert 

und daß in der Ebene i die Ziffer i der absoluten oder relativen Zieladresse 

zur Basis s zum Routing verwendet werden kann. Die i-te Ziffer wird dabei entweder 

vom LSD oder vom MSD aus gezählt. 

Eigenschaften von Delta-Netzen 

Das erste spezielle Delta-Netz hat als besondere Eigenschaft, daß es identisch 

mit der linken oder rechten Hälfte eines Clos-Netzes [Clos53] ist. Das heißt, 

daß die Verdrahtung dieses Delta-Netzes der verallgemeinerten Shuffle-Permutation 

entspricht, die im Kapitel über Clos-Netze vorgestellt wird. Diese Permutation 

gruppiert k Leitungsbündel zu s Leitungen am Eingang einer Verdrahtungsstufe 

in s Bündel zu k Leitungen am Ausgang um. Im Beispiel von Bild 

4.77 haben wir 3 Bündel zu 4 Leitungen am Eingang der Verdrahtungsstufe und 

4 Bündel zu 3 Leitungen an ihrem Ausgang. Das bedeutet, daß das erste spezielle 

Delta-Netz auf die bekannte Shuffle-Permutation zurückgeführt werden 

kann. 

218

a) 

b) 

c) 

d) 

Bild 4.79: Konstruktion des zweiten, speziellen Delta-Netzes (N=8, f=s=2). 

Das zweite Patelsche Delta-Netz hat als besondere Eigenschaft, daß sein Graph 

und der Graph des inversen, zweiten Patelschen Delta-Netzes topologisch voneinander 

verschieden sind. Sie lassen sich nicht durch Drehen um 180° und anschließendes 

Vertauschen von Ein- und Ausgängen ineinander überführen. Die 

beiden Topologien verhalten sich wie die linke und rechte Hand, bzw. wie Bild 

und Spiegelbild zueinander. Diese Eigenschaft stellt insofern etwas Besonderes 

dar, als daß alle klassischen logN-Netze topologisch identische, inverse Netze 

haben. 

Im weiteren wird gezeigt, daß auch das zweite Patelsche Delta-Netz auf eine 

bekannte Netzstruktur zurückgeführt werden kann; in diesem Fall auf einen zylindrischen 

CC-Banyan. Der Beweis läuft in 3 Schritten ab: 

• Man beginnt damit, daß Bild und Spiegelbild des zweiten Patelschen Delta- 

Netzes sich topologisch von allen klassischen logN-Netzen unterscheiden, da 

sie nicht mittelsymmetrisch sind. Andererseits weiß man seit [Varma94], daß 

es bei N=8 Ein- und Ausgängen, d.h. bei 4 Banyan-Knoten, nur drei topologisch 

unabhängige Netzstrukturen geben kann. Nach dem über Banyan-Netze 

Gesagten sind diese 3 Topologien der (2, 2, 2)-SW-Banyan, der (2, 2, 2)- 

CC-Banyan und der inverse (2, 2, 2)-CC-Banyan. 

• Wie bereits gezeigt wurde, läßt sich der (2, 2, 2)-SW-Banyan in einen Indirect 

Binary n-Cube umwandeln und ist somit topologisch identisch zu allen klassischen 

logN-Netzen. 

• Daraus muß man schließen, daß sich entweder der (2, 2, 2)-CC-Banyan oder 

der inverse (2, 2, 2)-CC-Banyan topologieerhaltend in das zweite Delta-Netz 

abbilden lassen. Daß dies tatsächlich der Fall ist, wird in Bild 4.80 gezeigt. 

Dazu wird zuerst ein topologieerhaltendes Vertauschen der beiden Schalter 1 

und 2 der obersten Netzstufe durchgeführt. Danach werden die Kreuzschalter 

als Knoten eines Banyan-Netzes interpretiert. Ein topologisch äquivalentes 

219

Umzeichnen der Kanten liefert schließlich den (2, 2, 2)-CC-Banyan, womit 

die Behauptung bewiesen wurde. Entsprechend kann man zeigen, daß das inverse 

zweite Patelsche Delta-Netz sich in den inversen (2, 2, 2)-CC-Banyan 

überführen läßt. 

1 2 2 1 

Bild 4.80: Äquivalenz des speziellen Delta-Netzes mit dem CC-Banyan. 

4.9 Data Manipulator- oder PM2I-Netzwerke 

Ungefähr zur selben Zeit wie die logN-Netze, aber unabhängig von diesen, 

wurden Netze entwickelt, die nicht zur Banyan-Kategorie zählen und die als 

Data Manipulator- oder PM2I-Netzwerke bezeichnet werden. (PM2I steht für 

Plus/Minus 2 i .) Bei diesen Netzen hatte man nicht das Ziel, eine pfadeindeutige 

Topologie zu entwickeln, sondern es ging darum, einen Satz besonders nützlicher 

Permutationen, die u.a. für Bit-Manipulationen und in der parallelen Programmierung 

benötigt werden, mit Hilfe einer elektronischen Schaltung zu realisieren. 

Datenmanipulatornetze verbinden jeden Eingang i mit jedem Ausgang 

j (i, j = 0,1,2,...,N-1), für i ≠ j auch über alternative Pfade, allerdings nicht für 

alle Eingänge gleichzeitig, weshalb sie in die Kategorie der nicht-blockierungsfreien 

Netze fallen. Sie realisieren, in Abhängigkeit von der Funktionalität 

der Schaltelemente, aus denen sie bestehen, eine mehr oder weniger große Untermenge 

aller potentiellen N! Permutationen von Verbindungen. 

Datenmanipulatornetze können vorteilhaft bei leitungsvermittlender Betriebsweise 

eingesetzt werden, wenn Fehlertoleranz gefordert ist, weil zwischen Einund 

Ausgängen unterschiedlicher Adreßnummer ( i≠ 

j) alternative Wege existieren. 

Zur Datenmanipulatorkategorie zählen das Fengsche Netz [Feng74], 

der Augmented Data Manipulator von Siegel [Siegel81] und das Gamma-Netz 

von Parker und Raghavendra [Parker84]. 

Die zu Datenmanipulatornetzen synonyme Bezeichnung Plus-Minus-2 i -Netze 

rührt daher, daß am Ausgang jedes Netzschalters, drei statt der üblichen zwei 

Alternativen zur Wegewahl existieren. Diese Alternativen sind: 

• gerade aus, 

• um 2 i mod N Positionen nach oben (die sog. "Plus- Richtung") und 

220

• um 2 i mod N Positionen nach unten ("Minus-Richtung"). 

Der Parameter i wird dabei von der jeweiligen Stufe festgelegt. In der 1. Stufe 

ist i = N/2 (N = Zahl der Ein-/Ausgänge), in der 2. Stufe ist i = N/4, usw. 

Datenmanipulatornetze bestehen aus N Schaltern pro Stufe bei insgesamt 

(log 2 N)+1 Stufen, wobei jeder Schalter im Netzinnern drei Ein- und drei Ausgänge 

aufweist, und die Schalter der ersten und letzten Stufe mit einem Einbzw. 

Ausgang versehen sind. Die verschiedenen Netze unterscheiden sich 

hauptsächlich in der Funktionalität ihrer Schalter und nicht in ihrer Verdrahtung. 

Als Schaltelemente werden entweder einfache Multiplexer/Demultiplexer 

mit gemeinsamer Steuerung verwendet, so wie es beim Fengschen Netz der Fall 

ist, oder es gibt Schalter mit individueller Steuerung (Siegel), oder es werden 

Kreuzschienenverteiler der Größe 3x3 eingesetzt (Parker). 

In Bild 4.81 ist der Fengsche Datenmanipulator dargestellt. Die mit den 

Buchstaben a-n versehenen Leitungen der oberen Netzseite sind "modulo-mäßig" 

mit den korrespondierenden Leitungen der unteren Seite verbunden. Bei 

diesem Netz werden die N Schalter jeder Stufe in zwei Gruppen von Schaltern 

mit jeweils geraden und ungeraden Adressen unterteilt, wobei alle Schalter einer 

Gruppe gemeinsam gesetzt werden. Die Zahl der realisierbaren Permutationen 

ist dadurch stark eingeschränkt, die Steuerung hingegen vereinfacht. Die 

resultierende Exchange-Permutationsfunktion der Schaltstufen ist im Kapitel 

"Schalter in dynamischen Netzen" näher beschrieben. 

Der Fengsche Datenmaipulator war ursprünglich nur für Bitoperationen konzipiert; 

entsprechend können die Schalter zu einer Zeit nur Daten von einem ihrer 

drei Eingänge einlesen und auf einen der drei Ausgänge ausgeben. 

d 

c 

b 

a 

h 

g 

f 

j 

e i 

l 

k m 

n 

E 

i 

n 

g 

ä 

n 

g 

e 

0 

1 

2 

3 

4 

5 

6 

7 

0 

1 

2 

3 

4 

5 

6 

7 

A 

u 

s 

g 

ä 

n 

g 

e 

h 

g 

f 

e 

d 

c 

b 

a 

l j n m 

k 

i 

Bild 4.81: Data Manipulator und Augmented Data Manipulator. 

221

Der Augmented Data Manipulator nach Siegel (ADM) ist von der Topologie 

her identisch zum Fengschen Netz. Er unterscheidet sich darin, daß es für jeden 

Schalter eigene Steuerbits gibt, die eine individuelle Richtungswahl erlauben. 

Allerdings kann ebenso nur je ein Ein- und Ausgang pro Schalter aktiv sein. 

Siegel definierte zusätzlich den Inverse Augmented Data Manipulator (IADM), 

der ein gespiegelter ADM ist. 

Die Topologie des Gamma-Netzes [Parker84] entspricht der eines IADM, 

d.h., eines gespiegelten Feng-Netzes (Bild 4.82). Das Gamma-Netz besteht aus 

individuell steuerbaren 3x3 Schaltern, die als Kreuzschienenverteiler ausgelegt 

sind, so hier daß die Einschränkungen der anderen Datenmanipulatornetze wegfallen. 

Es kann unter Verwendung eines einfachen "Self-Routing"-Verfahrens 

viele Permutationen realisieren, die bei parallelen Programmen als Kommunikationsmuster 

auftreten, wie z.B. die "Nearest Neighbour"-Kommunikation. 

Allerdings ist hier, auch im Vergleich zu den klassischen logN- 

Netzen, der schaltungsmäßige Aufwand am größten, da N(log 2 N+1) 

Kreuzschienenverteiler der Größe 3x3 notwendig sind, im Gegensatz beispielsweise 

zu (N/2)(log 2 N) Kreuzschaltern. 

Die Wegewahl im Gamma-Netz erfolgt mit Hilfe des binären, voll redundanten 

Zahlensystems 0, 1 und 1, das für eine bestimmte Zieladresse mehrere 

äquivalente, numerische Darstellungen erlaubt. Damit kann man sowohl die 

Wegealternativen zwischen Sender und Empfänger als auch die drei Ausgänge 

pro Schalter erfassen. Es bedeutet 0 gerader Ausgang, 1 oberer und 1 unterer 

Schalterausgang. Aus der Differenz von Ziel- und Herkunftsadresse wird die 

Routinginformation gebildet. In der ersten Stufe des Gamma-Netzes wird das 

LSD verwendet. Die Zieladressen werden durch das Polynom (a n-1 2 n-1 

+....+a 1 2 1 +a 0 2 0 ) mod 2 n mit a n ={0,1,-1}dargestellt (1=-1). So ist beispielsweise 

5-2=3 durch 011, 101, 111, 101 oder 111 repräsentiert [Varma94]. 

n 

m 

l 

k 

h 

g 

j f 

i e 

d 

c 

b 

a 

0 

1 

2 

3 

4 

5 

6 

7 

0 

1 

2 

3 

4 

5 

6 

7 

m 

n 

j 

i 

l 

k 

d 

c 

b 

a 

h 

g 

f 

e 

Bild 4.82: Gamma-Netz nach Parker (N=8). 

222

4.10 Das Clos-Netz 


Selten hat eine Entwicklung die Disziplin der Verbindungsnetzwerke stärker 

beeinflußt als die des Closschen Koppelnetzes [Clos53]. Obwohl ursprünglich 

von Charles Clos, einem Ingenieur bei den AT&T Bell Labs für die Telekommunikation 

erfunden, hat sich das Clos-Netz sowohl für Parallelrechner als 

auch für verteilte Systeme bzw. Rechnernetze als wichtige Verbindungsstruktur 

erwiesen. 

Bekannte Beispiele von Parallelrechnern, die Clos-Netze verwenden, sind die 

IBM GF11 Maschine mit einem Netz aus 576 Ein-/und Ausgängen, der MasPar 

MP-2 Rechner mit einer Verbindungsstruktur für bis zu 16384 Prozessoren und 

die IBM SP-2 Maschine mit bis zu 512 Arbeitsplatzrechnern. 

In den Vermittlungseinrichtungen der Telekommunikation werden Clos-Netze 

zur analogen und digitalen Nachrichtenvermittlung eingesetzt, so z.B. im 

BISDN-Netz (Broadband Integrated Services Digital Network) zur Sprachvermittlung 

oder in ATM basierten Wide Area-Netzen (WANs) zur Datenvermittlung. 

Beispielsweise beruht das ATOM System der Fa. NEC, ein BISDN-Koppelnetz, 

auf einer Clos-Verbindungsstruktur [NEC91]. 

Daß Clos-Netze auch für lokale Netzwerke (LANs) wichtig sind, zeigt die 

Tatsache, daß sie vom American National Standards Institute (ANSI) als Norm 

für die Verbindung von Prozessoren vorgeschlagen wurden, zusammen mit 

dem Fiber Channel, der zur Anbindung der Peripherie empfohlen wird. Ein 

kommerzielles Beispiel auf diesem Gebiet ist ein Produkt der Fa. Ancor, die ein 

Clos-basiertes Koppelnetz als Vermittlungseinrichtung in Fiber Channel LANs 

entwickelt hat [Anderson92]. 

Auch in Zukunft werden Clos-Netze bei der Vermittlung photonischer statt 

elektronischer Datenströme eine Rolle spielen. Verschiedene Entwicklungen 

auf dem Gebiet der photonischen Verbindungsstrukturen deuten darauf hin. So 

existiert bereits heute ein Prototyp eines Clos-Netzes auf optischer Basis von 

der Größe 128x128 [Burke91]. 

Die Bedeutung der Clos-Netze für Telekommunikation, lokale Netzwerke 

und Parallelrechner manifestiert sich auch in der Zahl der aus dem Clos-Netz 

abgeleiteten Verbindungsstrukturen, die in den letzten Jahrzehnten veröffentlicht 

wurden. Dazu zählen u.a. auch das Benes-Netz [Benes65]. 

Die Konsequenzen der Closschen Erfindung kann man sich anhand der Situation 

veranschaulichen, die anfangs der 50er Jahre herrschte, bevor dieses 

Netz entwickelt wurde. Damals gab es das Problem, daß immer mehr Personen, 

Firmen und Institutionen Telefonanschlüsse wollten, die untereinander zu vernetzen 

waren. Die in dieser Zeit in der Telefonvermittlungstechnik verwendeten 

Koppelfelder beruhten auf (unvollständig) miteinander verschalteten 

Kreuzschienenverteilern, die ihrererseits für sehr große Netze ungeeignet waren, 

weil die Zahl der Kontakte in der Schaltmatrix mit dem Quadrat der Zahl 

der Ein- und Ausgänge ansteigt, d.h. eine Komplexität von O(N 2 ) aufweist. 

223

Eine Matrix der Größe 4096x4096 erfordert beispielsweise 16 Mio. Schalter, 

was aus technischen und finanziellen Gründen nicht realisierbar ist. Andere kostengünstige 

Verbindungsstrukturen wurden deshalb gesucht. 

C. Clos gelang mit seiner Erfindung im Jahre 1953 eine Reduktion der Schalterzahl 

des obigen Beispiels von 4096 Ein- und Ausgängen auf ca. 800 Tsd. 

Schalter, was nur ca. 5% des ursprünglichen Aufwandes entspricht und sich 

technisch realisieren läßt. Die Komplexität des Verbindungsproblems hatte sich 

von O ( N 2 ) beim Kreuzschienenverteiler auf O ( N N) 

beim Clos-Netz verringert. 

Durch die Erfindung von C. Clos wurde es möglich, die die Kreuzschienenverteiler 

enthaltenden Koppelfelder kostengünstig aufzubauen. 

4.10.2 Aufbau des Clos-Netzes 

Die Clossche Verbindungsstruktur ist in Bild 4.83 dargestellt. Das Clos-Netz 

besteht aus drei hintereinandergeschalteten Stufen kleinerer Kreuzschienenverteiler, 

die als Eingangs-, Mittel- und Ausgangsstufe bezeichnet werden, wobei 

die Eingangs- und Ausgangsstufe jeweils k Kreuzschienenverteiler der Größe 

fxs bzw. sxf enthalten, und die Mittelstufe aus s Kreuzschienenverteilern der 

Größe kxk besteht. Die Eingangs- und Mittelstufe sowie die Mittel- und Ausgangsstufe 

bilden jeweils für sich regelmäßige und nicht-rechteckige Banyan- 

Netze, die zifferngesteuert sind (Delta Netze). Die Verdrahtung zwischen den 

Stufen ist spiegelsymmetrisch zur Mittellinie und besteht aus einer allgemeinen 

Perfect Shuffle- bzw. allgemeinen inversen Perfect Shuffle-Permutation für 

N=ks=sk Elemente. 

N=fxk Eingänge 

N Ausgänge 

0 

1 

... 

f-1 

0 

0 

1 

... 

s-1 

0 

1 

... 

k-1 

0 

0 

1 

... 

k-1 

0 

1 

... 

s-1 

0 

0 

1 

... 

f-1 

0 

1 

... 

f-1 

1 

0 

1 

... 

s-1 

0 

1 

... 

k-1 

1 

0 

1 

... 

k-1 

0 

1 

... 

s-1 

1 

0 

1 

... 

f-1 

0 

1 

... 

f-1 

k-1 

0 

1 

... 

s-1 

0 

1 

... 

k-1 

s-1 

0 

1 

... 

k-1 

0 

1 

... 

s-1 

k-1 

0 

1 

... 

f-1 

k mal fxs Kreuz= 


Bild 4.83: Das Clos-Netz. 

s mal kxk Kreuz= 


k mal sxf Kreuz= 


224

4.10.3 Die allgemeine Perfect Shuffle-Permutation 

Die allgemeine Perfect Shuffle-Permutation σ allg.,k,s bewirkt, daß eine Durchmischung 

der ankommenden und abgehenden Leitungen erfolgt, denn sie bildet 

k Leitungsbündel (Blöcke) zu je s Leitungen (Elemente) auf s Leitungsbündel 

zu je k Leitungen ab. Sie ist definiert als: 

Def. 4.25: 

. 

σ allg, k, s 

() i 

= 

⎧ ik MOD ks für 0 ≤ i< 

s 

⎪ 

⎪ ( ik + 1) MOD ks für s ≤ i < 2s 

⎨ 

⎪ 

… 

⎪ 

⎩( ik + ( k – 1) 

) MOD ks für ( k – 1)s≤ 

i< 

ks 

⎫ 

⎪ 

⎪ 

⎬ 

⎪ 

⎪ 

⎭ 

σ allg.,k,s stellt im wesentlichen eine abschnittsweise Multiplikation der Adressen 

i der Eingänge mit der Zahl k der Blöcke der Eingangsstufe dar, wobei noch 

ein Offset zur Unterscheidung der multiplizierten Blöcke erforderlich ist. Sie 

wird z.B. auch zur Transposition von [kxs] Matrizen auf [sxk] Matrizen angewandt, 

was einer Umordnung von Zeilenadressen in Spaltenadressen entspricht. 

Die allgemeine inverse Perfect Shuffle-Permutation bildet s Blöcke zu je k 

Elementen auf k Blöcke zu je s Elementen ab und ist, wie in Def 4.26 angegeben, 

ebenfalls abschnittsweise definiert. σ -1 allg.,k,s entspricht damit einer Matrixtransposition 

von [sxk] Matrizen auf [kxs] Matrizen. Die Def 4.26 bedeutet, 

daß die Ausgänge einer Verdrahtungstufe, die gemäß der Permutation σ allg.,k,s 

mit den Eingängen der Stufe verbunden sind, zugleich als Eingänge der Permutation 

σ -1 allg.,k,s(i) verwendet werden können, wenn die Parameter k und s ihre 

Rollen tauschen. 

Def. 4.26: 

. 

–1 

σ allg, k, 

s 

() i 

= 

⎧ is MOD sk für 0 ≤ i < k ⎫ 

⎪ 

⎪ 

⎪ ( is + 1) MOD sk für k ≤ i< 

2k ⎪ 

⎨ 

⎬ 

⎪ 

… 

⎪ 

⎪ 

⎪ 

⎩( is + ( s – 1) 

) MOD sk für ( s – 1)k ≤ i < sk⎭ 

Der Rollentausch ist deshalb möglich, weil gilt: 

–1 

σ allg, k, 

s 

Gl. 4.44: = . 

σ allg, s, 

k 

Das heißt, daß man die inverse Permutation aus der normalen Permutation 

durch Vetauschen von k und s gewinnen kann. Das Verdrahtungsschema der 

225

allgemeinen Perfect Shuffle-Permutation ist in Bild 4.84 für beliebige k,s zusammen 

mit den Blockgrenzen s graphisch dargestellt. 

0 

1 

... 

s-1 

. . . 

. . . 

0 

1 

... 

k-1 

s 

s+1 

... 

2s-1 

. . . 

k 

k+1 

... 

2k-1 

... 

... 

(k-1)s 

(k-1)s+1 

... 

ks-1 

(s-1)k 

(s-1)k+1 

... 

sk-1 

Bild 4.84: Die allgemeine Perfect Shuffle-Permutation. 

In einer zu Def 4.25 und Def 4.26 alternativen Schreibweise lassen sich die Permutationsfunktionen 

σ allg.,k,s und σ -1 allg.,k,s durch eine zyklische Links- oder 

Rechtsverschiebung um jeweils eine Ziffer darstellen, ähnlich wie man es von 

der nicht-verallgemeinerten Shuffle-Permutation gewohnt ist. Dies setzt allerdings 

voraus, daß erstens ein spezielles Numerierungsschema verwendet wird 

und daß zweitens diese Numerierung entweder zur Zahlenbasis s oder k vorgenommen 

wird. 

Das spezielle Numerierungsschema ist in Bild 4.85a für den Fall von 

N=ks=4x3, bzw. N=sk=3x4 exemplarisch gezeigt. Die Eingangsseite der 

Shuffle-Verdrahtung von 12 Leitungen ist in 4 Dreierbündeln organisiert, und 

entsprechend darf die niederwertige Ziffer (LSD) der Numerierung die Zahlen 

0, 1 und 2 durchlaufen, während die höherwertige Ziffer (MSD) alle einstellige 

Zahlen zur Basis 4 annimmt (0, 1, 2 und 3). Der Ausgang der Verdrahtung besteht 

seinerseits aus 3 Viererbündeln, so daß hier beim LSD die Ziffern 0-3 und 

beim MSD die Ziffern 0-2 erlaubt sind. Bei dieser für Ein-/und Ausgang getrennten 

Numerierungsweise erhält man die eine Art aus der anderen durch 

Links- bzw. Rechtsverschieben der Ziffern. In Bild 4.85b ist derselbe Fall zur 

Zahlenbasis 3 dargestellt. Hier tauschen Rechts- und Linksverschiebung ihre 

Rollen. 

Es seien k und s zwei verschiedene Zahlenbasen in der Art, daß für die Gesamtzahl 

N der Ein- bzw. Ausgänge einer allgemeinen Shuffle-Verdrahtung 

gilt: 

N = ks. 

226

N=4*3 

Basis 4 

00 

01 

E 02 

i 10 

n 11 

g 12 

a 20 

n 21 

g 22 

30 

31 

32 

N=3*4 

Basis 4 

00 

01 

02 

03 

10 

11 

12 

13 

20 

21 

22 

23 

A 

u 

s 

g 

a 

n 

g 

N=4*3 

Basis 3 

000 

001 

E 002 

i 010 

n 011 

g 012 

a 020 

n 021 

g 022 

100 

101 

102 

N=3*4 

Basis 3 

000 

001 

002 

010 

100 

101 

102 

110 

200 

201 

202 

210 

A 

u 

s 

g 

a 

n 

g 

Linksverschieben 

Rechtssverschieben 

a) 

Rechtssverschieben 

Linksverschieben 

b) 

Bild 4.85: Die allgemeine Perfect Shuffle-Permutation für N=12 zur Basis 4 und 3 (Bild a 

bzw. b). 

Weiterhin seien I und O die Adressen eines Ein- bzw. Ausganges, die sich folgendermaßen 

zur Basis k bzw. s darstellen lassen: 

I = (i n i n-1 ,...,i 1 )k = (j m j m-1 ,...,j m )s 

O = (o n o n-1 ,...,o 1 )k = (p m p m-1 ,...,p m )s. 

Mit Hilfe der Ziffern i n -i 1 und o n -o 1 von I und O zur Basis k bzw. j m -j 1 und p m - 

p 1 zur Basis s, die gemäß der zuvor erläuterten, spezifischen Numerierungsschemata 

vergeben werden, kann man für die allgemeine Shuffle-Verdrahtung 

und ihrer Inversen alternative Definitionen angeben: 

Def. 4.27: 

( ii ,..., ii) ⎯⎯⎯ ⎯ →( oo ,..., oo) = ( i ,..., iii) 

Def. 4.28: 

( oo ,..., oo) ⎯⎯⎯ ⎯ →( ii ,..., ii) = ( ooo ,..., o) 

Def. 4.29: 

nn−1 2 1 k σ n n−1 2 1 k n−1 2 1 n k 

allg., ks , 

n n−1 2 1 k −1 

σ n n−1 2 1 k 1 n n−1 2 k 

allg., ks , 

( j j ,..., j j ) ⎯⎯⎯⎯⎯ 

→( p p ,..., p p ) = ( j j j ,..., j ) 

m m −1 2 1 s σ m m −1 2 1 s 1 m m −1 2 s 

allg., sk , 

227

Def. 4.30: 

( p p ,..., p p ) ⎯⎯⎯⎯⎯→ 

( j j ,..., j j ) = ( p ,..., p p p ) 

m m −1 2 1 s −1 

σ m m −1 2 1 s m −1 2 1 m s 

allg. ,, sk 

Der Vorteil dieser Definitionsart liegt in der einfacheren mathematischen 

Handhabung. Auch hier gilt wieder die Beziehung σ -1 allg.,k,s = σ allg.,s,k sowie 

σ allg.,k,s = σ -1 allg.,s,k . Zu bemerken ist an dieser Stelle noch zweierlei: 

• Die Definitionen legen nur die Shuffle-Permutationen über alle n bzw. m Digits 

einer Numerierung fest, nicht jedoch über Teilmengen von Digits, so wie 

es die bereits erläuterten Sub- bzw. Supershuffle-Funktionen tun. Eine Kombination 

von Sub- oder Supershuffle mit Verdrahtungen von N=ks Ein-/Ausgängen 

ist möglich, soll jedoch hier nicht durchgeführt werden. 

• Die Definitionen unterscheiden sich von den im Kapitel über die klassischen 

logN-Netze erläuterten allgemeinen Shuffle-Permutationen u.a. hinsichtlich 

der Zahl der Ein-/Ausgänge, auf die sie angewandt werden. Im einen Fall gilt 

N=ks (k, s ganz), und im anderen Fall hat man N=b n (b, n ganz). 

Nach der Definition der Verdrahtung und des Aufbaus des Clos-Netzes soll nun 

die wichtige Frage erörtert werden, unter welchen Bedingungen ein Clos-Netz 

blockierungsfrei ist. 

4.10.4 Blockierungsfreie Clos-Netze 

C. Clos [Clos53], M. C. Paull [Paull62] und V. Benes [Benes62a] beschäftigten 

sich vor 3 Dekaden mit der Frage, wann ein Clos-Netz blockiert und formulierten 

in diesem Zusammenhang 3 verschiedene Grade von Verbindungsqualitäten, 

die ein Netz aufweisen kann: 

• absolut blockierungsfrei (strictly non blocking), 

• bedingt blockierungsfrei (wide sense non blocking) und 

• blockierungsfrei durch neues Routing (rearrangeable non blocking). 

Das Verdienst von Clos [Clos53] war es zu zeigen, daß sich das Clos-Netz für 

eine bestimmte Kombination der Parameter f und s wie ein Kreuzschienenverteiler 

absolut blockierungsfrei verhält, bei freilich erheblich niedrigeren Kosten. 

Später bewies V. Benes [Benes62B, Benes65], unter welchen Bedingungen 

das Clos-Netz bedingt blockierungsfrei bzw. blockierungsfrei durch 

Umordnen interner Wege ist. 

Im Clos-Netz kann die Verbindungsqualität durch geeignete Wahl der Parameter 

s und f konfiguriert werden. 

Absolute Blockierungsfreiheit 

Für 

s ≥ 2f – 1 

ist das Clos-Netz absolut blockierungsfrei, da stets mindestens 

228

ein freier Weg vom Sender zum Empfänger existiert, ohne daß vorhandene 

Wege umgelegt werden müssen. Dies ist allerdings die teuerste Implementierung 

des Clos-Netzes, da mit großem s die Zahl der Schalter in der Mittelstufe 

entsprechend zunimmt, zugleich ist es aber auch die mit der geringsten Latenz, 

da das Routing trivial wird. 

Bedingte Blockierungsfreiheit 

Für 3f ⁄ 2 ≤ s < 2f – 1 ist das Clos-Netz dann blockierungsfrei, wenn eine bestimmte 

Routing-Strategie gewählt wird: Zum Legen neuer Verbindungen 

müssen zuerst alle nur teilweise belegten Schalter der Mittelstufe benutzt werden, 

bevor ein unbelegter Schalter verwendet werden darf. Vorhandene Wege 

können bestehen bleiben. 

Diese Routing-Strategie ist relativ leicht zu erfüllen und dementsprechend 

einfach in der Implementierung. Nachteilig ist allerdings, daß das Feststellen, 

ob partiell belegte Schalter vorhanden sind, nur von einer zentralisierten Steuerung 

vorgenommen werden kann, was naturgemäß einen Engpaß bzgl. der Skalierbarkeit 

darstellt. 

Blockierungsfreiheit durch Umordnen 

Für f ≤ s< 

3f ⁄ 2 ist das Clos-Netz blockierungsfrei durch neues Routing, 

was bedeutet, daß für jeden neuen Weg eine Reihe bestehender Wege durch das 

Netz umgelegt werden muß. Man kann zeigen, daß dies für bis zu Min(f-1,s-1) 

bestehender Wege erforderlich ist [Paull62, Benes62b]. Diese Implementierung 

ist zwar vom Routing her die aufwendigste, aber auch die kostengünstigste. Besonders 

große Kostenersparnis hat man für f = s = N. Dann wird die Zahl 

K der Kreuzungspunkte, die wesentlich die Kosten des Clos-Netzes bestimmen, 

K = ( 3 ⁄ 2)N N. 

Für s< 

f ist das Clos-Netz i.a. nicht blockierungsfrei, da es weniger Ausgänge 

als Eingänge in der Eingangsstufe gibt. 

Alle Resultate beruhen auf der stillschweigenden Annahme, daß erstens das 

Netz leitungsvermittelnd betrieben wird und daß zweitens das Routing von einer 

zentralen Instanz, der Netzsteuerung, vorgenommen wird. 

Transiente Blockierungen 

In der Praxis kommt es bei Clos-Netzen, die im Modus der Leitungsvermittlung 

betrieben werden, für den Fall f ≤ s< 

3f ⁄ 2 häufig zu transienten Blockierungen, 

weil das Netz dergestalt inkrementell betrieben wird, daß zusätzlich zu 

den Verbindungen, die zum Zeitpunkt t 0 eingestellt sind, neue Verbindungen 

zum Zeitpunkt t 1 gewünscht sind, weil die Interprozessorkommunikation wechselt 

oder weil neue Telefonanrufe getätigt werden. Dazu müssen die Wege 

durch das Netz umgelegt werden (Rerouting), weil es sich um eine neue Permutation 

von Verbindungen handelt, was zur Folge hat, daß das Netz während der 

229

Zeit, die für das Setzen der Schalter benötigt wird, nicht zur Verfügung steht. 

Für viele Anwendungen ist ein Rerouting nicht oder nur durch Zusatzaufwand 

tragbar, da es eine feste Folge von Routing und Kommunikation voraussetzt, 

wie sie nur z.B. in einem SIMD-Rechner eingehalten werden kann, da 

dort eine synchrone Kommunikation nach festgelegtem Muster abläuft. In 

MIMD-Rechnern dagegen ist eine Flußkontrolle der Datenströme erforderlich, 

die vor jedem Routing aktiviert werden muß, um die Kommunikation zu stoppen. 

Alternativ können auch Nachrichtenspeicher verwendet werden, die in der 

Art eines FIFO-Puffers die einlaufenden Daten bis zur erneuten Betriebsfähigkeit 

des Netzes zwischenspeichern. 

Bei Telefongesprächen gibt es überhaupt keine Möglichkeit, alle Teilnehmer 

gleichzeitig zu unterbrechen, deshalb sind bei dieser Anwendung nur die beiden 

ersten Implementierungen des Clos-Netzes interessant, insbesondere dann, 

wenn keine Puffer zum Zwischenspeichern der Sprache zur Verfügung stehen. 

Wird das Clos-Netz im Modus der Paketvermittlung betrieben, ist eine zentrale 

Routing-Instanz nicht mehr möglich, aber auch nicht mehr nötig, weil jedes 

Paket eine eigene Zieladresse trägt, die lokal ausgewertet wird. Stationäre 

Verbindungen müssen nicht mehr geschaltet werden. In diesem Fall hat das 

Clos-Netz, das aus zwei hintereinandergeschalteten Banyan-Netzen besteht, 

aufgrund der Redundanz in der Wegewahl die Möglichkeit des adaptiven Routings. 

Üblicherweise wird dann auch s=f gewählt, so, wie es z.B. beim Verbindungsnetz 

der IBM SP2 der Fall ist. 

Schließlich gibt es bei Clos-Netzen noch eine hybride Betriebsweise, wo nur 

für die Dauer der Übermittlung einer Nachricht, die in einzelne Datenpakete 

verpackt sein kann, ein permanenter Weg zwischen Sender und Empfänger etabliert 

wird. Dies wird als Nachrichtenvermittlung bezeichnet. Hierbei ist wieder 

zentrales Routing und ein Clos-Netz mit s=f möglich, vorausgesetzt, daß entweder 

synchrone Kommunikation, Flußkontrolle oder FIFO-Speicher vorhanden 

sind. 

4.10.5 Routing im Clos-Net 

Im Clos-Netz kann das Routing bei Paketvermittlung im Gegensatz zur Leitungsvermittlung 

sehr einfach durchgeführt werden, da auch im Falle von s=f 

eine Vielzahl von Wegen für den Transfer der Datenpakete zur Verfügung stehen. 

Bedingung ist allerdings, daß transiente Blockierungen nicht-deterministischer 

Dauer tolerierbar sind, was bei Echtzeitanwendungen beispielsweise 

nicht der Fall ist. Wird bei Paketvermittlung eine garantierte maximale Durchlaufzeit 

gefordert, muß das Routing wie bei Leitungsvermittliung zentral berechnet 

werden. Ist ein Echtzeitverhalten nicht erforderlich, kann das Routing 

dezentral und parallel an jedem Kreuzschienenverteiler erfolgen. Dann ist auch 

adaptive Wegewahl möglich, weil im Clos-Netz alternative Pfade existieren. 

Ganz anders sind die Verhältnisse, wenn Leitungsvermittlung gewünscht 

wird und aus Kostengründen der Fall s=f vorliegt. Dann muß die Liste der Verbindungswünsche 

als Ganzes realisiert werden, was eine zentrale Routing-Instanz 

impliziert und komplexe Routing-Methoden erfordert. Dafür gibt es meh- 

230

ere Möglichkeiten, wie z.B. die Matrixdekomposition oder die Kantenfärbung, 

die sich zum Routing von Punkt-zu-Punkt-Verbindungen eignen. Andere Verfahren, 

wie die Signalflußgraphen-Methode nach Varma [Varma93] oder die 

Methode nach Yang [Yang91] können auch Multicast-Verbindungen herstellen. 

Hier sollen nur die Matrixdekomposition und das Kantenfärben erläutert 

werden. 

Routing-Voraussetzungen 

Das leitungsvermittelnde Routing beim Clos-Netz basiert darauf, für jede zu legende 

Verbindung denjenigen Kreuzschienenverteiler (Schalter) der Mittelstufe 

zu bestimmen, über den das zu verbindende Ein/Ausgangspaar zusammengeschaltet 

werden soll. Dabei spielt es keine Rolle, mit welchem der s 

Schalter der Mittelstufe der Eingang oder Ausgang verbunden ist. Entscheidend 

ist, daß die beiden Schalter der Eingangs- und Ausgangsstufe, an denen das zu 

verbindende Ein-/Ausgangspaar angeschlossen ist, Zugang zu demselben 

Schalter in der Mittelstufe haben, weil sie nur dort miteinander verbunden werden 

können. Das heißt, das Routing beim (f=s)-Clos-Netz basiert darauf, für jedes 

Schalterpaar in der Eingangs- und Ausgangsstufe einen Schalter in der Mittelstufe 

festzulegen. Insgesamt kann jeder Schalter der Mittelstufe für k 

verschiedene Verbindungen verwendet werden, für jedes Ein/Ausgangspaar 

kann er jedoch nur genau einen Verbindungswunsch erfüllen. 

Für das Routing spielt es keine Rolle, an welcher konkreten Stelle am Ein-/ 

Ausgangsschalter das zu verbindende Ein/Ausgangspaar angeschlossen ist, da 

innnerhalb der Schalter jede Verbindung möglich ist. D.h., der am Ein-/Ausgangsschalter 

anliegende Ein-/Ausgang muß für das Routing nicht betrachtet 

werden, was das Routing-Verfahren erheblich vereinfacht, da nur Schalter und 

nicht die wesentlich zahlreicheren Netzein-/ausgänge berücksichtigt werden 

müssen. 

Gleichwohl ist das Routing beim Clos-Netz deshalb nicht trivial, weil jedes 

Ein-/Ausgangsschalterpaar für eine neue Verbindung Zugang zum selben 

Schalter der Mittelstufe haben muß. Zwar stehen dafür s Wege, d.h. Schalter der 

Mittelstufe, zur Verfügung, diese müssen aber so untereinander verteilt werden, 

daß der Zugang zu einem bestimmten Mittelstufenschalter nicht durch eine andere 

Verbindung bereits belegt ist. 

Das Problem, das es zu lösen gilt, ist zu erreichen, daß es eine nichtleere 

Schnittmenge von Mittelstufenschaltern gibt, die von beiden Schaltern eines 

Ein-/Ausgangsschalterpaares zum Legen einer neuen Verbindungen verwendet 

werden kann. Das bedeutet, daß das Routing "im Ganzen" durchgeführt werden 

muß, was eine zentrale Routing-Instanz voraussetzt. Das beschriebene Verteilungsproblem 

läßt sich durch Zerlegen der Menge von Verbindungen in Teilmengen 

lösen. 

Gegeben sei ein (f=s)-Clos-Netz mit N=ks Ein-/Ausgängen und eine Menge 

W von Verbindungswünschen, die gemäß 

231

Gl. 4.45: W = {( e i 

→ a j 

), 

0 ≤ ij , < s} ( W ≤ N) 

, 

spezifiziert sind und bei denen e i ein Schalter der Eingangsstufe und a j ein 

Schalter der Ausgangsstufe darstellt. Weiterhin sei m l ein Schalter der Mittelstufe 

(0≤l

ter der Ausgangsstufe widerspiegelt. 

Beispiel: 

In einem Clos-Netz mit 9 Ein-/Ausgängen und f=s=3 sollen die Leitungen für 

folgende Verbindungswünsche (Permutationen) gelegt werden: 

W 

= 

⎧( 0→ 

0) , ( 1 → 3) ,( 2 → 2) ,( 3 → 8) 

⎫ 

⎨ 

⎬ 

⎩( 4→ 

1) , ( 5 → 5) , ( 6 → 7) , ( 7 → 6) , ( 8 → 4) 

⎭ 

Im ersten Schritt wird dazu aus den Verbindungswünschen der Permutationsvektor 

(0 3 2 8 1 5 7 6 4) aufgestellt. Im zweiten Schritt ist festzustellen, welche 

Ein- und Ausgänge über welche Schalter der Ein- und Ausgangsstufe verbunden 

werden müssen. Dazu wird der Permutationsvektor in eine 3-zeilige Matrix 

umgewandelt, in der die 1. und 3. Zeile die Schalter der Ein- bzw. Ausgangsstufe 

repräsentieren und in der die 2. Zeile die Permutation enthält: 

⎛ 

⎜ 

⎜ 

⎜ 

⎝ 

000111222 

032815764 

010201221 

⎞ 

⎟ 

⎟ . 

⎟ 

⎠ 

Im dritten Schritt wird in dieser Matrix gezählt, wie oft die Schalter der Einbzw. 

Ausgangsstufe miteinander zu verbinden sind. Daraus resultiert die Verbindungsmatrix: 

⎛ 

⎜ 

⎜ 

⎜ 

⎝ 

210 

⎞ 

⎟ 

111⎟ 

. 

⎟ 

012⎠ 

Im vierten Schritt wird die Verbindungsmatrix in eine Summe von s Untermatrizen 

zerlegt, die die Schalterstellungen der s Kreuzschienenverteiler der 

Mittelstufe repräsentieren. Als Randbedingung muß dabei beachtet werden, 

daß von den Kreuzschaltern nur Punkt-zu-Punkt-Verbindungen realisiert werden 

dürfen. Daraus folgt, daß jede Untermatrix entweder 0 oder 1 als Elemente 

enthält (=verbunden oder nicht verbunden) und daß in jeder Zeile und jeder 

Spalte nur eine einzige 1 stehen darf. Für das Beispiel lautet eine mögliche Zerlegung 

der Verbindungsmatrix: 

233

⎛ 

⎜ 

⎜ 

⎜ 

⎝ 

210 

111 

012 

⎞ 

⎟ 

⎟ 

⎟ 

⎠ 

= 

⎛ 

⎜ 

⎜ 

⎜ 

⎝ 

100 

010 

001 

⎞ 

⎟ 

⎟ 

⎟ 

⎠ 

⎛ 

100 

⎞ ⎛ 

⎜ ⎟ ⎜ 

+ ⎜ 001⎟ 

+ ⎜ 

⎜ ⎟ ⎜ 

⎝ 010⎠ 

⎝ 

010 

100 

001 

⎞ 

⎟ 

⎟ . 

⎟ 

⎠ 

Nach dem Beweis der Blockierungsfreiheit des (s=f)-Clos-Netzes durch V. Benes 

ist es sicher, daß es mindestens eine solche Zerlegung gibt. In der Regel existieren 

sogar eine Vielzahl von Zerlegungen, so daß an dieser Stelle eine Nichteindeutigkeit 

in der Wegewahl besteht. 

Jede der Untermatrizen repräsentiert einen Schalter der Mittelstufe des Clos- 

Netzes, der insgesamt k Punkt-zu-Punkt-Verbindungen realisieren kann. Die 

Punkt-zu-Punkt-Verbindung vom Eingang i zum Ausgang j eines Schalters der 

Mittelstufe wird dabei durch eine 1 in der i-ten Zeile und j-ten Spalte der entsprechenden 

Untermatrix festgelegt. Nach dem 4. Schritt des Routing-Verfahrens 

steht fest, wie die Ein-/Ausgangspaare auf die Schalter der Mittelstufe aufgeteilt 

sind und wie deren Schalterstellungen lauten. Im 5. und letzten Schritt 

werden die Schalter der Mittelstufe mit den dazu gehörenden Ein- und Ausgängen 

verbunden. Aufgrund der gemachten Zerlegung in Schritt 4 ist dies zwar 

immer möglich, aber nicht eindeutig, so daß an dieser Stelle ebenfalls ein Freiheitsgrad 

existiert. Die für das Beispiel gewählten Verbindungen sind in Bild 

4.86 dargestellt. 

Eingangs= 

stufe 

Mittel= 

stufe 

Ausgangs= 

stufe 

0 

3 

2 

8 

1 

5 

7 

6 

4 

0 

1 

2 

3 

4 

5 

6 

7 

8 

Bild 4.86: Routing Beispiel für das 9x9 Clos-Netz. 

Das gezeigte Beispiel läßt sich in analoger Weise auf beliebige Netzgrößen erweitern. 

Kantenfärben 

Für das Kantenfärben wird die Verbindungsmatrix graphisch dargestellt. Jeder 

Knoten des Graphen bezeichnet dabei einen Schalter der Ein-/oder Ausgangs- 

234

stufe und die Kanten des Graphen repräsentieren die Verbindungen zwischen 

den Schaltern. Der Übersichtlichkeit halber zeichnet man die Knoten der Eingangsstufe 

links und die Knoten der Ausgangsstufe rechts, so daß ein bipartiter 

(zweiteiliger) Graph entsteht. Da i.a. mehr als eine Verbindung zwischen zwei 

Knoten (Schaltern) existiert, handelt es sich um einen bipartiten Multigraphen. 

Das wesentliche an der Methode des Kantenfärbens ist, daß der Multipgraph in 

s normale Graphen zerlegt wird, wobei die Topologie jedes Untergraphen den 

Verbindungen eines der s Kreuzschienenverteilers der Mittelstufe entspricht. 

Beispiel: 

Der Multigraph der Verbindungspermutation (0 3 2 8 1 5 7 6 4) eines Clos-Netzes 

aus 3x3-Kreuzschienenverteilern ist in Bild 4.87 gezeigt. 

Eingangsstufe 

0->0 

Ausgangsstufe 

Schalter 0 

2->2 

1->3 

Schalter 0 

Schalter 1 

4->1 

5->5 

3->8 

Schalter 1 

8->4 

Schalter 2 

6->7 

7->6 

Schalter 2 

Bild 4.87: Multigraph der Permutation (0 3 2 8 1 5 7 6 4). 

Die Zerlegung in Untergraphen erfolgt dergestalt, daß man den Kanten, die an 

jedem Knoten des bipartiten Graphen anliegen, verschiedene Farben gibt. Kanten 

verschiedener Knoten, die die gleiche Farbe haben, bilden jeweils einen Untergraphen. 

Dabei brauchen die Knoten eines Untergraphen nicht zusammenhängend 

zu sein. Bei N=ks Verbindungswünschen hat jeder der k Knoten 

maximal s verschiedene Kanten, so daß sich daraus s Farben bzw. Untergraphen 

ergeben. Da es an jedem Knoten eines Untergraphen nur eine Kante einer 

Farbe gibt, repräsentieren die Untergraphen die Schalter der Mittelstufe und 

ihre Kanten sind die von den Schaltern zu realisierenden Punkt-zu-Punkt-Verbindungen. 

In Bild 4.88 ist das Kantenfärben und die daraus resultierende Zerlegung für 

das Routing-Beispiel von Bild 4.87 dargestellt. Der Vorteil des Kantenfärbens 

im Gegensatz zur Matrizenzerlegung ist, daß die Untergraphen direkt den 

Schalterstellungen der Mittelstufe des Clos-Netzes entsprechen, wie ein Vergleich 

von Bild 4.88 mit Bild 4.86 zeigt. Das Beispiel der Graphenzerlegung ist 

ebenfalls auf beliebige Netzgrößen erweiterbar. 

Die Erfindung des Clos-Netzes hatte eine Reihe von Variationen und Wei- 

235

0 

1 

0 

1 

= + + 

2 2 

Bild 4.88: Graphenzerlegung durch Kantenfärben. 

terentwicklungen zur Folge. So wurden z.B. von Masson und Jordan [Masson72] 

nicht-rechteckige Clos-Netze untersucht, die unterschiedlich viele Einund 

Ausgänge haben und zusätzlich Broadcast- bzw. Multicast-Fähigkeit aufweisen. 

D. Koppelman [Koppelma88] studierte Clos-Netze, bei denen jeder 

Schalter unterschiedlich groß und die Zahl der Verbindungen zwischen zwei 

Schaltern >1 sein kann. Das wichtigste Netz, das aus dem Clos-Netz entstand, 

ist jedoch das Benes-Netz [Benes65], das im nächsten Kapitel erläutert wird. 

4.11 Das Benes-Netz 

Benes war sich der Bedeutung der Erfindung von Charles Clos bewußt und 

wollte die Zahl der Kreuzungspunkte, aus denen die Schalter des Clos-Netzes 

bestehen, weiter reduzieren, um gegenüber dem äquivalenten Kreuzschienenverteiler 

der Komplexität O(N 2 ) einen noch höheren Einsparungseffekt zu erzielen. 

Nach der Überlegung von V. Benes war die größte Einsparung dann zu 

erzielen, wenn man möglichst kleine Kreuzschienenverteiler verwendet. Die 

kleinsten und einfachsten Kreuzschienenverteiler haben zwei Ein- und zwei 

Ausgänge und entprechen in ihrer Funktion den Kreuzschaltern, die an anderer 

Stelle bereits erläutert wurden. 

4.11.1 Kostenminimierung 

Man kann dann möglichst viele Kreuzschalter in ein Clos-Netz einbauen, wenn 

die Zahl der Ein- und Ausgänge des Netzes eine Zweierpotenz ist. Deshalb verwendete 

V. Benes im ersten Verbesserungsschritt Clos-Netze der Größe N=2 n , 

die aus Kreuzschaltern in der Eingangs- und Ausgangsstufe bestehen. Durch 

diese Maßnahme sind die Kosten für diese Stufen minimiert. 

Als Nebeneffekt erforderte die Wahl von N/2 Kreuzschaltern der Größe 2x2 am 

Ein- und Ausgang des Clos-Netzes, daß in der Mittelstufe zwei Kreuzschienenverteiler 

der Größe (N/2xN/2) eingesetzt werden. Dies ist exemplarisch 

in Bild 4.89 für den Fall N=8 gezeigt. 

Im zweiten Verbesserungschritt ersetzte V. Benes die beiden großen Schalter 

der Mittelstufe durch je ein Clos-Netz, da dafür weniger Koppelpunkte benötigt 

werden. Im entscheidenden dritten Schritt werden die Kreuzschienenverteiler, 

aus denen die Clos-Netze der Mittelstufe bestehen, solange rekursiv durch kleinere 

Clos-Netze mit Kreuzschaltern am Ein- und Ausgang ersetzt, bis das ganze 

236

1 2 

9 

7 

6 

8 8 

4 5 

10 

Bild 4.89: 1. Schritt in der Konstruktion des Benes-Netzes. 

Netzwerk nur noch aus Kreuzschaltern besteht. Man erhält dann eine Topologie 

wie in Bild 4.90. 

0 

1 

2 

3 

4 

5 

6 

7 

0 

1 

2 

3 

4 

5 

6 

7 

Bild 4.90: Benes-Netz für N=8 Ein-/Ausgänge. 

Zur vollständigen Ersetzung aller Kreuzschienenverteiler durch Kreuzschalter 

sind log 2 N Schritte erforderlich, so daß das Benes-Netz aus 2log 2 N-1 Stufen 

besteht, da jede Ersetzung in einer Eingangs-, Mittel- und Ausgangsstufe resultiert, 

wobei alle Mittelstufen rekursiv ersetzt werden. Die Rekursion terminiert, 

wenn die kleinstmöglichen Clos-Netze erreicht sind, die aus je 6 Kreuzschaltern 

bestehen. 

Der erzielte Einsparungseffekt ist bemerkenswert: Für N=4096 Ein-/Ausgänge 

beispielsweise sind statt der beim Clos-Netz notwendigen 800 000 Koppelpunkte 

(Ein-/Ausschalter) nur noch ca. 188 000 Ein-/Ausschalter nötig, was 

≈75% weniger Aufwand ist und damit auch geringere Kosten bedeutet. Dabei 

muß man berücksichtigen, daß das Clos-Netz dieser Größe bereits 95% Einsparung 

gegenüber dem ursprünglichen Kreuzschienenverteiler erbracht hat, so 

daß durch die Benes-Erfindung nur noch ca. 1% der Koppelpunkte erforderlich 

sind. Ab jetzt waren selbst große blockierungsfreie Netze realisierbar, da die 

Komplexität der Netzstruktur sich von O(N 2 ) auf O(NlogN) reduziert hatte. 

Die Bedeutung des Benes-Netzes wird auch dadurch veranschaulicht, daß man 

sie mit der Erfindung der schnellen Fouriertransformation (FFT) [Cooley65] 

vergleicht, die ebenfalls im Jahre 1965 gemacht wurde und die dieselbe Reduktion 

der Komplexität bei der Berechnung der diskreten Fourierreihe erbracht hat 

(von O(N 2 ) auf O(NlogN) Multiplikationen). Bekanntermaßen sind durch die 

237

FFT eine Vielzahl neuer Algorithmen und Methoden entstanden. 

Beiden Erfindungen liegt das Divide-et-Impera- (divide and conquer) Prinzip 

zugrunde, das besagt, daß ein Problem solange in Unterprobleme zu zerteilen 

ist, bis die Lösung der Unterprobleme einfach genug wird. Das Gesamtproblem 

ist dann gelöst, wenn man es schafft, die Einzellösungen zu einer Gesamtlösung 

zusammenzusetzen. 

4.11.2 Aufbau des Benes-Netzes 

Gegeben ist ein Benes-Netz der Größe 4x4 sowie die Menge W={(0→0), 

(1→3), (2→1), (3→2)} von Verbindungswünschen. Gesucht sind die Schalterstellungen 

des Benes-Netzes. 

Zur Lösung des Routing-Problems wird zunächst versucht, für das einfachste 

aller Benes-Netze (4x4 Netz) die beiden Verbindungen "Eingang 0 mit Ausgang 

0" und "Eingang 2 mit Ausgang 1" von Hand, d.h. ohne besondere Routing-Methode 

zu legen. 

Dazu wird im 1. Schritt der Eingang 0 (E0) mit dem Ausgang 0 (A0) verbunden, 

indem die Schalter 1.1, 1.2 und 1.3 auf "=" gesetzt werden. Dadurch ist 

die obere Hälfte der Mittelstufe (oH) mit denjenigen Schaltern der Eingangs- 

Das Benes-Netz besteht aus (N/2) Kreuzschaltern in insgesamt (2log 2 N-1) Stufen, 

die miteinander gemäß der Subshuffle-Permutationen σ uk 

– 1 

bzw. σ uk 

verdrahtet 

sind. Die Subshuffle-Permutation wird auf die unteren k Bits (k = n, n- 

1, ..., 2) der Adressen der Kreuzschalterein-/ausgänge angewandt. Das Benes- 

Netz besteht in der linken Hälfte aus einem Baseline-Netz und in der rechten 

Hälfte aus einem inversen Baseline-Netz, wobei die letzte Stufe des linken Baselines 

oder die erste Stufe des rechten Baselines redundant ist und weggelassen 

werden kann. 

4.11.3 Routing im Benes-Netz 

Das Routing im Benes Netz hängt ebenso wie beim Clos-Netz entscheidend davon 

ab, ob Leitungsvermittlung oder Paketvermittlung verwendet werden soll. 

Bei Paketvermittlung kann die Wegewahl von den Kreuzschaltern dezentral 

und parallel anhand der Zieladresse vorgenommen werden. Alternative Wege 

werden allerdings von einem einfachen "self routing"-Schema nicht berücksichtigt. 

Paketvermittlung ist aufgrund des doppelten Hardware-Aufwandes, 

den das Benes-Netz gegenüber einem Banyan-Netz benötigt, und der daraus resultierenden 

doppelten Latenzzeit nicht gebräuchlich; zumal der Vorteil des 

Benes-Netzes, den seine Blockierungsfreiheit darstellt, erst bei einem zentralisierten 

Routing-Verfahren zum Tragen kommt. Bei Leitungsvermittlung ist die 

Wegewahl trotz der alternativen Wege, die zur Verfügung stehen, relativ komplex 

und erfordert eine besondere Methodik. Ein Beispiel soll die Problematik 

aufzeigen, der man beim leitungsvermittelnden Benes-Netz begegnet: 

Beispiel: 

238

und Ausgangsstufe verbinden, an denen E0 und A0 anliegen. 

Im 2. Schritt wird versucht, Eingang 2 (E2) mit Ausgang 1 (A2) ebenfalls über 

oH zu verbinden, indem Schalter 2.1 auf "=" gesetzt wird. Dies mißlingt allerdings, 

weil Schalter 1.2 bereits durch Schritt 1 auf die untere Hälfte der Mittelstufe 

(uH) festgelegt ist (Bild 4.91a). 

a) 

1. E0->A0 

über oH 

0 

2. E2->A1 2 

über uH geht 

nicht 

1.1 

2.1 

oH 

1.3 1.2 

? 

uH 

0 

1 

b) 

1. E0->A0 

über oH 

3. E3->A2 

über oH 

0 

2 

3 

oH 

1.1 

1.3 1.2 

2.1 2.2 

2.3 

uH 

0 

1 

2 

2. A1->E2 

über uH 

Bild 4.91: Routing-Beispiel im Benes-Netz a) nicht erfolgreich b) erfolgreich. 

Bild 4.91b zeigt dieselben Verbindungswünsche (E0->A0, A1->E2) mit erfolgreichem 

Routing. Schritt 1 ist dabei identisch zum vorigen Versuch. Jetzt 

wird hingegen berücksichtigt, daß A1 durch Schritt 1 bereits auf uH festgelegt 

ist, somit wird der Schalter von E2 ebenfalls auf die uH, d.h. auf "x" gestellt. 

Schließlich wird der Schalter in der uH, an dem A1 und E2 anliegen, so gesetzt, 

daß E2 und A1 zusammengeschaltet sind ("x"). Jetzt kann auch E3 mit A2 verbunden 

werden, wenn berücksichtigt wird, daß E3 durch Schritt 2 bereits auf 

oH festgelegt ist. Dementsprechend wird Schalter 2.3 so gesetzt, daß er mit oH 

verbunden ist. Da der Schalter in der oH, an dem dann E3 und A2 anliegen, bereits 

auf "=" gesetzt ist, ist E3 mit A2 verbunden. 

Das Routing ist geglückt, es ist jedoch offensichtlich, daß größere Benes-Netze 

eine andere Routing-Methode als die dargestellte erfordern. 

Erste Routing-Methode 

Das Routing im Benes-Netz ist nicht grundlegend verschieden vom Routing im 

Clos-Netz, da seine Topologie aus dem Clos-Netz abgeleitet wurde. Deshalb 

läßt sich Kantenfärben und Matrixdekomposition auch beim Benes-Netz anwenden, 

wobei die Schalter stufenweise von außen nach innen gesetzt werden. 

Im ersten Schritt werden die Kreuzschalter der ersten und letzten Stufe eines 

NxN-Benes-Netzes berechnet und gesetzt. Dazu sind die Schalterstellungen der 

239

eiden Mittelstufen der Größe (N/2xN/2), die beim Benes-Netz in Form zweier 

Subnetze vorhanden sind, mit Hilfe eines der beiden Closschen Routing-Verfahren 

zu bestimmen. 

Im zweiten Schritt werden die Schalterstellungen der Kreuzschalter der zweiten 

und vorletzten Stufe berechnet, wozu wiederum eine Matrixdekomposition 

oder ein Kantenfärben durchzuführen ist. Als Vorgabe für den zweiten Schritt 

werden die im ersten Schritt berechneten Stellungen der Subnetze verwendet. 

Sie definieren die Verbindungswünsche, die von den inneren Stufen zu realisieren 

sind. 

Im dritten Schritt sowie allen folgenden werden die beschriebenen Vorgänge 

solange wiederholt, bis alle Kreuzschalter gesetzt sind. Dabei ist zu beachten, 

daß das Routing ab dem zweiten Schritt gleichzeitig in der oberen und unteren 

Hälfte des Benes-Netzes durchgeführt werden kann, da das Netz ab der zweiten 

Stufe in die beiden Subnetze zerfällt. Dasselbe gilt für die 4 Viertel der 3. Stufe, 

die 8 Achtel der 4.Stufe, usw., die aus zunehmend kleineren Subnetzen bestehen. 

Zweite Routing-Methode (Looping-Routing) 

Eine andere Methode der Wegewahl, das sog. Looping-Routing, wurde 1971 

von D. Opferman und N. Tsao-Wu angegeben [Opfermann71]. Dieses Verfahren 

erfordert weniger Rechenschritte als das zuvor erläuterte mehrfache Kantenfärben 

bzw. Matrizenzerlegen. 

Das Looping-Routing-Verfahren beruht auf dem Ursache/Wirkungsprinzip, 

das sich dergestalt äußert, daß am Anfang ein Kreuzschalter am Eingang des 

Netzes willkürlich festgelegt wird, was aufgrund der Netzredundanz möglich 

ist, und daß dann eine Kette von Wirkungen, d.h. daraus resultierende Schalterstellungen 

gebildet werden, wobei man beim Schaltersetzen jeweils zwischen 

erster und letzter Stufe des Benes-Netzes hin-und herpendelt. Die Namensgebung 

"Schleifen"-Routing drückt diese Pendelbewegung aus. 

Die Schalterstellung des ersten festgesetzten Schalters am Eingang wird zum 

Setzen eines korrespondierenden Schalters am Ausgang verwendet, dieser wiederum 

bewirkt ein dieser Ursache entsprechendes Setzen am Eingang, worauf 

erneut ein Ausgangsschalter gesetzt wird, usw. Die Kette endet, wenn alle 

Schalterstellungen der ersten und letzten Stufe bestimmt sind. Danach wird derselbe 

Vorgang auf die beiden halb so großen Subnetze im Innern der Benes-Topologie 

angewandt. 

Jeder Schalter am Ein- und Ausgang wird so gesetzt, daß berücksichtigt wird, 

ob der betreffende Schalterausgang des Vorgängerschalters mit dem oberen 

oder unteren Subnetz der Benes-Topologie verbunden ist. Nur wenn beide Ausgänge 

eines zu verbindenden Ein-/Ausgangsschalterpaares mit dem selben 

Subnetz verbunden sind, können Daten übertragen werden. 

Beispiel: 

Gegeben ist ein Benes-Netz mit N=8 Ein-/Ausgängen sowie die Permutation 

240

(0 7 6 5 4 3 2 1), für die die Wege durch das Netz zu legen sind. Gesucht sind 

wiederum die Schalterstellungen. 

Der erste Lösungsschritt besteht darin, daß zum Setzen der Schalter der ersten 

und letzten Stufe des Benes-Netzes der Mittelteil durch zwei Subnetze oH (obere 

Hälfte) und uH (untere Hälfte) der Größe N/2xN/2 ersetzt wird, so wie es in 

Bild 4.92 gezeigt ist. In dieser Phase erscheint das Benes-Netz wie ein 3-stufiges 

Clos-Netz, wodurch das Wegewahlproblem in seiner Komplexität abgenommen 

hat. 

0-> 0 

1-> 7 

2-> 6 

3-> 5 

1 

10 

oH 

3 

12 

7 

2 

6 

0 

1 

2 

3 

4-> 4 

5-> 3 

8 

9 

4 

5 

6-> 2 

7-> 1 

4 

5 

uH 

11 

6 

7 

Bild 4.92: Routing in der Ein- und Ausgangsstufe. 

Im zweiten Lösungsschritt werden die Schalterstellungen der Eingangs- und 

Ausgangsstufe nach einem merstufigen Verfahren gewonnen (Die einzelnen 

Schritte des Verfahrens entsprechen dabei den Ziffern in Bild 4.92): 

1. Man beginnt bei einem beliebigen Schalter der Eingangsstufe, z.B. dem 

Schalter links oben und setzt ihn ebenfalls beliebig, z.B. auf "=". Eingang 

0 (E0) wird dadurch mit der oberen Hälfte der Mittelstufe (oH) verbunden 

(E0 -> oH) und Eingang 1 (E1) mit der unteren Hälfte (E1 -> uH). 

2. In der Ausgangsstufe wird der Schalter von A0 so gesetzt, daß ihn E0 erreichen 

kann, d.h. er steht auf "=". 

3. Die Mittelstufe oH wird so gesetzt, daß E0 und A0 verbunden sind. 

4. Der Schalter von E7 wird als Konsequenz von Schritt 2 auf uH gestellt, d.h. 

auf "=", damit er A1 erreichen kann. Die Position von E6 ist damit auf die 

Mittelstufe oH festgelegt (E6 -> oH). 

5. Die Mittelstufe uH wird so gesetzt, daß E7 und A1 verbunden sind. 

6. A2 wird auf "=" gesetzt, damit er mit E6 verbunden werden kann. A3 ist 

damit auf uH festgelegt. 

7. Die Mittelstufe oH wird so gesetzt, daß E6 und A2 verbunden sind. 

8. E5 wird auf "=" gesetzt, damit er A3 erreichen kann. In uH werden E5 und 

A3 verbunden. E4 ist auf oH festgelegt. 

9. A4 wird auf "=" gesetzt. E4 und A4 werden in oH verbunden. A5 ist auf die 

Mittelstufe uH festgelegt. 

10. E3 wird auf "=" gesetzt. E3 und A5 werden in uH verbunden. E2 ist auf die 

241

Mittelstufe oH festgelegt. 

11. A6 wird auf "=" gesetzt. A6 wird mit E2 in der oH verbunden. A7 ist auf 

die Mittelstufe uH festgelegt. 

12. E1 ist bereits auf "=" gesetzt. A7 wird mit E2 in der Mittelstufe uH verbunden. 

Damit sind alle Schalter der Ein- und Ausgangsstufe festgelegt und die Verbindungswünsche 

für die Mittelstufen (Subnetze) bestimmt. In der nächsten 

Phase des Verfahrens werden die Schalter der zweiten und der vorletzten Stufe, 

in jeder der Subnetze getrennt, nach dem gleichen Schema festgelegt. Man 

schreitet solange von außen nach innen fort, bis alle Stufen bestimmt sind und 

erhält dann eine Schalterkonfiguration wie in Bild 4.93. 

Insgesamt arbeitet Looping-Routing richtungsmäßig entgegengesetzt zum 

Kantenfärben bzw. zur Matrixdekomposition, bei dem die Schalter von innen 

nach außen gesetzt werden. 

0 

7 

6 

5 

4 

3 

2 

1 

0 

1 

2 

3 

4 

5 

6 

7 

Bild 4.93: Routing-Beispiel im Benes-Netz. 

Man kann zeigen, daß das Looping-Routing für alle Verbindungswünsche widerspruchsfrei 

terminiert [Opferman71], d.h., es kann bei N Ein-/Ausgängen 

alle N! Permutationen von Verbindungen realisieren. Unter der Voraussetzung, 

daß das Benes-Netz mit dem Looping-Routing oder einem gleichwertigen Verfahren 

betrieben wird, ist dieses Netz blockierungsfrei. 

Genau wie das Kantenfärben bzw. die Matrixdekomposition ist das Looping- 

Routing aufgrund der Wahlfreiheiten, die man beim Setzen einiger Schalter hat, 

nicht eindeutig. 

Die Erfindung des Benes-Netzes inspirierte Wissenschaftler zu Entwicklungen 

von Topologien anderer (2log 2 N-1)-stufiger Netze sowie deren Routing- 

Algorithmen. Darüberhinaus hat das Benes-Netz Fragen bzgl. der Blockierungsfreiheit 

beliebiger (2log 2 N-1)-stufiger Netze aufgeworfen, die bis heute 

Gegenstand der Forschung sind. Im nächsten Abschnitt sollen aus diesen Arbeiten 

das doppelte Baseline-Netz, das Lee-Netz und das doppelte Omega-Netz 

präsentiert werden. 

242

4.11.4 Benes-ähnliche Netze 

Es gibt bislang eine relativ kleine Zahl namentlich bekannter Netze, die eine 

Benes-ähnliche Struktur aufweisen und von denen zusätzlich ein Routing-Verfahren 

bekannt ist, das bei N Eingängen alle N! Permutationen von Verbindungen 

legen kann. Gemeinsames Kennzeichen dieser Netze ist, daß sie aus zwei 

Teilen mit insgesamt (2log 2 N-1) Schalterstufen bestehen und daß sie ihre Blokkierungsfreiheit 

bei Leitungsvermittlung durch Umordnen interner Pfade erreichen. 

Man kann zeigen, daß (2logN-1) Stufen zugleich das Minimum für alle 

blockierungsfreien Netze darstellen, die aus 2x2-Schaltern aufgebaut sind. 

Einige Benes-ähnliche Netze lassen sich durch topologische Äquivalenztransformation 

in das Benes-Netz überführen bzw. aus diesem herleiten, womit 

automatisch deren Blockierungsfreiheit bewiesen ist. Ist das nicht der Fall, ist 

die Blockierungsfreiheit dann bewiesen, wenn man ein Routing-Verfahren für 

die jeweilige Netzstruktur für alle N! Permutationen von Verbindungen gefunden 

hat. 

Allgemein kann man drei verschiedene Gruppen von Topologien unterscheiden: 

Die erste Gruppe besteht aus zwei zueinander spiegelbildlichen, 

logN-stufigen Banyan-Netzen. Zu dieser Gruppe zählen das Benes- und das 

Lee-Netz [Lee85]. Die zweite Gruppe besteht aus zwei gleichen log 2 N-Netzen, 

was für die technische Realisierung günstig ist, da nur ein Typ von Netzmodul 

produziert und getestet werden muß. Zu dieser Gruppe zählen das doppelte Baseline- 

[Wu80a] sowie das doppelte Omega-Netz, dessen Blockierungsfreiheit 

allerdings noch nicht bewiesen werden konnte. Die dritte, bislang nur vermutete 

Gruppe besteht aus der Serienschaltung zweier beliebiger logN-stufiger, regelmäßiger 

und rechteckiger Banyans. Wichtig ist festzustellen, daß ein Netz, das 

aus der Kaskadierung zweier logN-Netze entstanden ist, topologisch etwas anderes 

darstellt, als die beiden Einzelnetze, aus denen es besteht. So läßt sich 

etwa das doppelte Omega-Netz nicht in das Benes-Netz überführen, obwohl die 

Bestandteile, Baseline- bzw. Omega-Netz, topologisch identisch sind. 

Doppeltes Baseline 

Das erste Netz aus der Kategorie der Benes-ähnlichen Netze erfanden Wu und 

Feng im Jahre 1980 [Wu80a]. Sie zeigten, daß eine Anordnung aus zwei hintereinandergeschalteten 

Baseline-Netzen genauso blockierungsfrei durch Umordnen 

interner Wege ist, wie das Benes-Netz selbst (Bild 4.94a). 

Beim doppelten Baseline ist eine der beiden mittleren Schalterstufen redundant 

und kann deshalb weggelassen werden. Man erhält dann ein Netz wie in Bild 

4.94b. Das doppelte Baseline-Netz hat zwei technische Vorteile: 

Die Verdrahtung wird von Stufe zu Stufe "lokaler", was bedeutet, daß in den 

inneren Stufen kurze Kabellängen zur Verdrahtung genügen, und daß dort 

Steckverbinder zwischen Gehäusen oder Platinen entfallen. Dieser elektrische 

und kostenmäßige Vorteil rührt von der Subshuffle-Verdrahtung her, deren 

Adreßbereich sich von Stufe zu Stufe halbiert. Zusätzlich besteht das Netz aus 

243

a) 

0 

1 

2 

3 

4 

5 

6 

7 

2x2-Schalter 

0 

1 

2 

3 

4 

5 

6 

7 

b) 

Bild 4.94: Das doppelte Baseline-Netz nach Wu und Feng für N=8 Ein-/Ausgänge. 

zwei baugleichen Modulen. Durch die Verdopplung der Stückzahl werden Produktion 

und Test der Module verbilligt und vereinfacht. Allerdings wird das 

doppelte Baseline-Netz trotz seiner Vorteile bislang nicht eingesetzt, was an 

seinem relativ komplexen Routing liegen mag. Ein parallelisierbarer Routing- 

Algorithmus ist z.B. in [Richter92] zu finden. 

Lee-Netz 

Fünf Jahre nach der Arbeit von Wu und Feng über die Verkettung zweier spiegelbildlicher 

Baseline-Netze konnte K. Y. Lee einen Beweis für die Blockierungsfreiheit 

der Serienschaltung von Omega- und Flip-Netz finden [Lee85]. 

Die daraus entstehende Topologie ist in Bild 4.95 dargestellt. Wie bei den anderen 

Benes-ähnlichen Netzen ist auch hier eine Netzstufe in der Mitte redundant 

und kann weggelassen werden. Das Routing-Schema für das Lee-Netz 

basiert auf Restklassenarithmetik. K. Y. Lee hat gezeigt, daß sich dieses Schema 

für die ganze Gruppe zueinander spiegelsymmetrischer Banyan-Netze eignet 

[Lee85]. 

0 

7 

6 

5 

4 

3 

2 

1 

0 

1 

2 

3 

4 

5 

6 

7 

Bild 4.95: Das Lee-Netz für N=8. 

244

Doppeltes Omega-Netz 

Bislang ist die Blockierungsfreiheit des doppelten Omega-Netzes nur für N≤8 

Ein-/Ausgänge bewiesen, jedoch nicht für beliebige Netzgrößen [Varma94]. 

Das doppelte Omega-Netz hat den Vorteil, aus einer Sequenz gleicher Verdrahtungsstufen 

zu bestehen, die als einzelne Module implementiert werden können, 

was Produktion und Test eines großen Netzes dieser Art vereinfacht. Allerdings 

hat man hier nicht wie beim doppelten Baseline-Netz den zusätzliche 

Effekt abnehmender Vermaschung der Verdrahtung. 

Im Jahre 1988 wurde für N>8 gezeigt, daß (3log 2 N-4) Stufen ausreichend für 

Blockierungsfreiheit sind [Varma88, Linietal 89]. Diese Stufenzahl ist allerdings 

noch zu hoch, um den technischen Vorteil der homogenen Struktur des 

doppelten Omega-Netzes nutzen zu können. Weitere Verbesserungen der Stufenzahl 

erscheinen möglich. 

Allgemein kann man sagen, daß Benes-ähnliche Netze aufgrund der heute 

üblichen Paketvermittlung nur geringe Bedeutung haben, was durch ihre relativ 

hohen Latenzzeiten und dem zentralen Routing-Schema verstärkt wird. 

4.12 Zusammenfassung dynamische Netze 

Dynamische Netze bestehen aus Schaltern und deren Verdrahtung, die eine Sequenz 

aus einem oder mehreren Banyan-Netzen bilden. Die Teilnehmer, Prozessoren, 

Rechenknoten oder Rechner erscheinen nicht explizit im Netzgraphen, 

sondern werden an die Netzein- und Ausgänge angeschlosssen. 

Dynamische Netze lassen sich formal durch gerichtete Graphen, den Hasse- 

Diagrammen [Berge62], darstellen. Für die Interpretation der Knoten eines 

Hasse-Diagramms gibt es zwei Möglichkeiten: Entweder repräsentieren die 

Knoten die Schalter im Netz oder sie stellen die Anschlüsse (Lötpunkte) der 

Schalter dar. Im letzteren Fall werden die Kanten des Hasse-Diagramms als 

Ein-/Ausschalter interpretiert; im ersten Fall sind sie die Verbindungen (Kabel) 

zwischen den Schaltern. Typische Vertreter der dynamischen Netze sind der 

Kreuzschienenverteiler, die logN-Netze, das Clos- und das Benes-Netz. Die 

letzten beiden haben redundante Wege zwischen jedem Sender-/Empfängerpaar 

und sind bei Leitungsvermittlung blockierungsfrei. 

4.13 Hybride Netze 

Alle Verbindungsnetzwerke, die aus einer Mischung von statischem und dynamischem 

Netz bestehen, kann man als hybride Netze bezeichnen. Der Grund 

für die Verwendung hybrider Netztopologien liegt darin, die spezifischen Vorzüge 

von statischen und dynamischen Netzen zu vereinigen. Typische statische 

Netze wie Ringe, Gitter und Hyperkuben haben den Vorteil einfacher Topologie 

und Implementierung, während dynamische Netze wie Banyans oder 

Kreuzschienenverteiler eine geringe Latenz beim Datentransport aufweisen, 

245

die zudem unabhängig von der jeweiligen Zieladresse ist. Die Kombination beider 

Netzarten kann zu Netzen mit insgesamt besseren Eigenschaften führen. 

Es gibt zwei Arten, hybride Netze aufzubauen. Bei der ersten Art wird in einem 

statischen Netz einer oder mehrere Knoten mit f zulaufenden und s abgehenden 

Kanten durch ein dynamisches Netz der Größe fxs ersetzt. Bei der 

zweiten Art werden in einem dynamischen Netz einer oder mehrere fxs-Kreuzschienenverteiler, 

aus denen das dynamische Netz besteht, durch ein statisches 

Netz aus mindestens f+s Knoten ausgetauscht. 

Hybride Netze sind hauptsächlich auf dem Gebiet der Telekommunikation 

und der lokalen und globalen Netzwerke zu finden. Bei lokalen Netzen beispielsweise 

sind Ethernet-, Token Ring- oder ATM-Stränge, die in Gebäuden 

verlegt sind, über "Switche", d.h. über fxs-Kreuzschienenverteiler gekoppelt. 

Beim Telefonnetz sind die in der Erde fest installierten Leitungen über Koppelfelder 

verbunden, die ihrerseits dynamische Netze darstellen. Im weiteren 

soll als Beispiel für ein hybrides Netz die Gitter/Kreuzschienenverteiler-Topologie 

erläutert werden, die in der parallelen Rechentechnik eingesetzt wird. 

4.13.1 Gitter/Kreuzschienenverteiler-Topologie 

Der n-dimensionale Gitter/Kreuzschienenverteiler wurde erstmals von W. Giloi 

und S. Montenegro im Rahmen des sog. TICNET beschrieben [Monteneg88, 

Giloi89, Monteneg89]. In Bild 4.96a) ist als Beispiel für diese Topologie 

ein ebener Gitter/Kreuzschienenverteiler dargestellt. Jede Zeile und Spalte 

des Gitters des Beispiels besteht aus einem Kreuzschienenverteiler der Größe 

4x4 (Bild 4.96b und c). Die Zahl V der Knoten ist V = 4x4, und die Zahl K der 

Kanten des Graphen beträgt K = 4+4. Der Vorteil dieser hybriden Topologie 

liegt darin, daß die Distanz d zwischen allen Knotenpaaren unabhängig von der 

Anzahl der Netzknoten ist. Im Falle des ebenen Gitters wird d ≤ 2 . 

= 

a) b) c) 

Bild 4.96: Der hybride Gitter/Kreuzschienenverteiler in der Ebene. 

Die in Bild 4.96 gezeigte Topologie kann auf n Dimensionen der Ausdehnung 

l pro Dimension erweitert werden. Dazu sind in jeder Ebene des n-dimensio- 

246

nalen Raumes Kreuzschienenverteiler der Größe lxl erforderlich. Die Distanz 

im n-dimensionalen Gitter ist unabhängig von l stets ≤ n, und die Zahl V der 

Knoten beträgt: 

Gl. 4.50: V = l n . 

Insgesamt können also l n Prozessoren an die Kreuzschienenverteiler angeschlossen 

werden, wobei jeder Prozessor n Ports (Netzwerkanschlüsse) benötigt. 

Die Zahl K der Kanten, d.h. die Anzahl der Kreuzschienenverteiler, die 

zum Aufbau eines n-dimensionalen Gitters benötigt werden, beträgt: 

Gl. 4.51: K = nl n-1 . 

4.13.2 Vorteile des Gitter/Kreuzschienenverteilers 

Der n-dimensionale Gitter/Kreuzschienenverteiler hat neben topologischer 

auch wirtschaftliche Vorteile, wie nachstehende Kostenrechnung zeigt. 

Die Gesamtkosten G des Netzes ergeben sich aus den Kosten C pro Kreuzschienenverteiler 

und aus deren Anzahl K gemäß G = CK. Die Zahl K kann dabei 

nach Gl. 4.51 berechnet werden. Die Kosten C, die jeder Kreuschienenverteiler 

verursacht, belaufen sich auf: 

Gl. 4.52: C = αl 2 , 

wobei α eine Proportionalitätskonstante ist. Die Gesamtkosten betragen also: 

Gl. 4.53: G = αl 2 nl n-1 . 

Daraus und aus Gl. 4.50 erhält man für G: 

Gl. 4.54: 

Für die Entfernung d ergibt sich aus : 

G = αnVl. 

Gl. 4.55: d ≤ log l V. 

Aus den Ergebnissen gemäß Gl. 4.54 und Gl. 4.55 kann man folgende Schlüsse 

ziehen: 

• Die Gesamtkosten des Gitter/Kreuzschienenverteilers hängen bei gegebener 

Prozessorzahl nur linear und nicht quadratisch von der Größe der Kreuzschienenverteiler 

ab. 

• Die Entfernung zwischen zwei Knoten im n-dimensionalen Gitter/ 

Kreuzschienenverteiler ist bei gegebener Prozessorzahl umso kleiner, je größer 

die Zahl der Anschlüsse pro Kreuzschienenverteiler ist. 

• Für n=2, l = 2 erhält man die geringsten Kosten, aber die größte Latenz. Für 

den jeweiligen Anwendungsfall kann man Kosten gegen Latenz abwägen. 

247

• Für l = 2 wird aus der Gitter/Kreuzschienenverteiler-Topologie ein binärer 

Hyperkubus. 

Die Ergebnisse sollen anhand zweier Beispiele illustriert werden, bei denen diese 

Topologie mit einem Benes-Netz und einem binären Hyperkubus verglichen 

wird. Alle Netze haben jeweils gleiche Größe und sind blockierungsfrei. 

1. Beispiel 

In einem 2-D Gitter/Kreuzschienenverteiler sind N = 16384 Prozessoren miteinander 

zu verschalten. Dazu werden 256 Kreuzschienenverteiler der Größe 

128*128 benötigt. Die Gesamtzahl der Ein-/Ausschalter (Koppelpunkte) im 

Netz beträgt 2 22 . 

Ein Benes-Netz gleicher Größe, das aus 27 Schalterstufen besteht, benötigt 

13*2 14 Kreuzschalter. Wenn jeder Kreuzschalter durch einen 2x2-Kreuzschienenverteiler 

ersetzt wird, der wiederum aus 4 Koppelpunkten besteht, benötigt 

man ≈ 2 20 Koppelpunkte. Das Benes-Netz ist also um den Faktor 4 billiger, 

die Distanz jedoch um den Faktor 13,5 größer, da das Verhältnis der 

Durchlaufzeiten 27:2 Schritte beträgt. 

Beim Hyperkubus benötigt man 14 Schritte durch das Netz, was um den Faktor 

7 größer ist als bei der hybriden Topologie. Der Hyperkubus benötigt zwar 

keine Koppelpunkte, aber es werden 14 Ports im Vergleich zu 7 Ports pro Prozessor 

benötigt, was einen erheblichen Kostenfaktor darstellt. 

Darüberhinaus läßt sich ein Kreuzschienenverteiler der Größe 128*128 in ein 

Silizium-Chip integrieren, so daß alle 16 K Prozessoren über 256 Chips miteinander 

verbunden werden können. Schließlich ist die Verdrahtung der Kreuzschienenverteiler-Chips 

einfacher als die Verdrahtung des Benes-Netzes. 

2. Beispiel 

Es sind N = 2 16 Prozessoren in einem 4-D Gitter/Kreuzschienenverteiler zu verschalten. 

Dazu werden 4*16 3 = 2 14 Kreuzschienenverteiler der Größe 16*16 

benötigt. Die Gesamtzahl der Koppelpunkte beträgt wiederum 2 22 , was diesmal 

ungefähr dem Aufwand eines gleichgroßen Benes-Netzes, das aus 31 Stufen 

besteht, entspricht. Für die maximale Distanz sind im hybriden Netz jedoch nur 

4 statt 31 Schritte erforderlich. 

Allerdings benötigt das 4-D Netz 4 Netzwerkanschlüsse pro Prozessor, während 

das Benes-Netz mit einem Port auskommt. Die Ports können jedoch parallel 

betrieben werden, was als Multiport-Betriebsweise bezeichnet wird und 

den Durchsatz pro Prozessor entsprechend erhöht. Im entsprechenden Hypercube 

werden maximal 16 Schritte durch das Netz benötigt, und jeder Prozessor 

hat 16 Ports, was die 8-fache Latenz und die 4-fache Portzahl bedeutet. 

Zusammenfassend kann man sagen, daß die Gitter/Kreuzschienenverteiler- 

Topologie in beiden Fällen bzgl. Latenz und Kosten günstiger abschneidet. 

248

5 Beispiele kommerzieller Verbindungsnetze 

5.1 Das Verbindungsnetzwerk der Cray T3D/ 

T3E 


Im Jahre 1989 wurde von Cray Research ein Projekt initiiert, das zum Ziel hatte, 

einen großen und sehr leistungsfähigen Parallelrechner zu bauen. Bereits drei 

Jahre später wurde das Produkt, das aus diesem Projekt entstanden war, als "the 

world's first production oriented massively parallel system" angekündigt, und 

im darauffolgenden Jahr (1993) wurde die erste Cray T3D ausgeliefert. Im Jahre 

1996 erschien das Nachfolgemodell T3E, die voraussichtlich 1997 die 

"Schallmauer" der 1 TFLOPS-Grenze erstmalig durchbricht. Die auf einem 3 

dimensionalen Torus als Verbindungsnetzwerk, auf Standard-Mikroprozessoren 

und auf CMOS beruhende T3D/E bedeutete eine Neuorientierung der Firma 

Cray in ihrer Tradition als Vektorrechnerhersteller. 

5.1.2 Überblick der Leistungsdaten 

Die Cray T3D [Cray94, Oed94] besteht in der größten Ausbaustufe aus 1024 

Rechenknoten zu je 2 Prozessoren vom Typ DEC alpha 21064 [Sites92], von 

denen jeder max. 150 MFLOPS leistet. Daraus ergibt sich eine additive Rechenleistung 

von 300 GFLOPS im Maximalausbau. Es lassen sich bis zu 64 

MB Hauptspeicher pro Prozessor installieren, so daß die größte Maschine über 

128 GB RAM verfügt. Die Halbierungsbandbreite des Verbindungsnetzwerks 

beträgt 38 GB/s bei einem 512 Prozessorsystem. Das Netz ist in ECL-Technologie 

implementiert und hat eine Zykluszeit von 6,6 ns für den Transfer eines 

Datenpakets zwischen zwei Knoten. Die Rechenknoten und der Hauptspeicher 

sind in der preisgünstigeren (und langsameren) CMOS Technik aufgebaut. 

Die Leistungsdaten für die Cray T3E sind im Vergleich zur T3D in Tabelle 

5.1 aufgelistet. Man sieht, daß bei der T3E die Rechenleistung gegenüber der 

T3D vervierfacht wurde. Dem gegenüber ist nur eine Verdreifachung der Halbierungsbandbreite 

zu verzeichnen, was zeigt, daß sich die Übertragungsrate 

bereits am oberen Ende des technisch (und finanziell) Machbaren bewegt. Um 

die Balance zwischen Rechenleistung und Kommunikationsleistung aufrecht 

zu halten, wurde bei der T3E die Zahl der Netzwerkschnittstellen verdoppelt, 

so daß jeder Prozessor einen eigenen Netzwerkanschluß aufweist. 

249

Rechnertyp T3D T3E 

Prozessor DEC 21064 DEC 21164 

Leistung/Prozessor [MFLOPS] 150 600 [Lauber1995] 

max. additive Rechenleistung [GFLOPS] 300 1200 

max. Hauptspeicher/Prozessor [GB] 0,064 2 

max. Hauptspeicher [TB] 0,128 4 

Halbierungsbandbreite (512 Proz.) [GB/s] 38 122 [Lauber1995] 

Netzzykluszeit [ns] 6,6 2,2 

Tabelle 5.1: Leistungsdaten der Cray T3E im Vergleich zur T3E. 

5.1.3 Aufbau der T3D, T3E 

Die T3D/E besteht aus Mikroprozessor-Rechenknoten, die über zwei voneinander 

getrennte Verbindungsnetzwerke miteinander verschaltet sind: einem Datentransfernetz 

und einem Synchronisationsnetz. Das Datentransfernetz ist als 

3-dimensionale Torustopologie realisiert, während das Synchronisationsnetz 

auf einem partitionierbaren Binärbaum beruht. 

Datennetz 

In Bild 5.1 ist der Datentransfertorus der Cray-Parallelrechner in seinen 3 Dimensionen 

graphisch dargestellt. Der Torus hat entlang der x-Richtung eine 

Ausdehnung von bis zu 16 Knoten, während in y- und z-Richtung max. 8 Knoten 

möglich sind. Da jeder Knoten aus 2 Prozessoren besteht, können bis zu 

2048 Prozessoren miteinander verschaltet werden. 

Die Verbindungen im Torus bestehen aus Ringen, die pro Zeiteinheit je ein 

Sender-/Empfängerpaar zulassen, also busähnlichen Charakter aufweisen. Im 

Maximalausbau der Maschine existieren 8*8 Ringe in x- und 16*8 Ringe in y- 

und z-Richtung, so daß insgesamt 320 Kommunikationsringe zur Prozessorkopplung 

zur Verfügung stehen, die simultan Daten übertragen können. 

Für die T3D gilt: Alle Knoten können bidirektional in jede der drei Raumrichtungen 

Daten mit einer Geschwindigkeit von 300 MB/s pro Dimension und 

Richtung transferieren, so daß ein Knoten max. 1,8 GB/s an Datenverkehr aufweist 

(900 MB/s senden und empfangen). Die T3E erreicht den 6-fachen 

Durchsatz, da die Zahl der Netzwerkschnittstellen pro Knoten verdoppelt und 

die Datenrate verdreifacht wurde. Der summierte Durchsatz über alle Netwerkschnittstellen 

beträgt beim größten T3D-System aus 1024 Knoten 1,8 TB/s. Die 

rechnerische Halbierungsbandbreite des Maximalsystems beträgt 8*8*300 

MB/s = 19 GB/s beim Durchschneiden an der schmalsten Stelle (8*8) sowie 38 

GB/s sonst. 

250

z 

y 

x 

. 

. 

. 

. 

. 

. 

. .. . . . 

. . . . .. 

. . . 

. .. 

. . . 

. 

. . . 

. 

. 

. 

. . . 

. 

. 

. . . 

. 

. 

. 

Bild 5.1: Der Datentransfertorus der Cray-Parallelrechner. 

Bis zu 16 Knoten teilen sich in x-Richtung denselben Kommunikationsring, so 

daß, wenn alle Knoten auf diesem Ring gleichzeitig senden, pro Dimension und 

Knoten 300 MB/s/16 = 19 MB/s übertragen werden können. Dabei ist zu beachten, 

daß bei der T3D nur ein Prozessor pro Knoten zu einer Zeit senden kann. 

Die korrespondierenden Zahlen für die T3E sind zum Vergleich in Tabelle 5.2 

dargestellt. 

Rechnertyp T3D T3E 

Datenrate/Kanal [MB/s] 300 900 

Durchsatz/Knoten (Senden+Empf.) [GB/s] 1,8 10,8 

summierter Durchsatz (1024 Knot.) [TB/s ] 1,8 11 

Halbierungsbandbreite 1 (1024 Knot.) [GB/s ] 19 58 

Halbierungsbandbreite 2 (1024 Knot.) [GB/s ] 38 116 

Datenrate/Prozessor/Ring (x-Richtung) [MB/s ] 19 57 

Tabelle 5.2: Datenraten im Torus. 

Man sieht, daß bei beiden Parallelrechnern der potentielle Durchsatz summiert 

über alle Netzwerkschnittstellen, d.h. die Datenmenge, die die Prozessoren erzeugen 

und verbrauchen könnten, deutlich höher liegt, als das, was das Netz zu 

251

transportieren in der Lage ist. Das Verhältnis zwischen maximalem potentiellen 

und tatsächlichen Verkehr beträgt bei der T3D 1,8 TB/s:38 GB/s = 50:1 und bei 

der T3E 100:1. 

Synchronisationsnetz 

Das Synchronisationsnetzwerk der Cray-Maschinen dient zur Unterstützung 

der parallelen Programmierung mit Hilfe spezielle Synchronisationsfunktionen 

und wird nicht zum Datentransfer verwendet. Hier werden Statusbits der Art 

"Berechnung fertig ausgeführt" oder "Beginn einer parallelen Schleife" übertragen. 

Um einen schnellen Broad- bzw. Multicast auf dem Synchronisationsnetz 

zu ermöglichen, wurde von Cray eine Baumtopologie als Verbindungsschema 

ausgewählt. Die Rechenknoten bilden die Blätter eines binären Baumes, der bei 

1024 Knoten aus 10 Ebenen ( =log 2 1024 ) besteht. 

Der Synchronisationsbaum läßt sich im Multiuser-Betrieb für mehrere Programme, 

die gleichzeitig auf derselben Maschine bearbeitet werden, in einzelne 

Teilbäume partitionieren. In Bild 5.2 ist der Synchronsationsbaum für den Fall 

von 3 Ebenen (8 Knoten) sowie eine der möglichen Aufteilungen in Unterbäume 

dargestellt. 

a) b) 

Bild 5.2: Synchronisationsbaum, komplett (a) und partitioniert (b). 

Alle Unterbäume arbeiten bidirektional, so daß Datentransfers von den Blättern 

zur Spitze und umgekehrt stattfinden können, wobei die Richtung zu den Knoten 

einen Multicast-/Broadcast implementiert, während die Rückrichtung für 

den inversen Multicast-/Broadcast zuständig ist. In Bild 5.3 sind die beiden 

Übertragungsrichtungen und ihre technische Realisierung dargestellt. 

Für den inversen Multicast werden UND- bzw. ODER-Gatter eingesetzt, 

während der normale Multicast über 1-zu-2-Multiplexer realisiert ist. An der 

Spitze eines Unterbaumes können Synchronisationsinformationen von einer 

Richtung zur anderen überwechseln. Dadurch ist es möglich, einen inversen 

Multicast, der für das Sammeln von Statusinformationen zuständig ist, mit einem 

normalen Multicast zu kombinieren, um den ermittelten Status allen Prozessoren 

zurückliefern. 

Das Besondere an der inversen Multicast-Funktion ist, daß vom Benutzerprogramm 

dynamisch ausgewählt werden kann, ob der inverse Multicast über 

252

normaler 

Multi-/Broadcast 

. . . 

Knoten Ebene 

inverser 

Multi-/Broadcast 

. . . 

. . . 

. . . 

Gatter/Multiplexer Ebene 

. . . 

1 zu 2 

Multiplexer 

AND/ 

OR Gatter 

Bild 5.3: Die Bestandteile des Synchronisationsnetzes. 

UND- bzw. Oder-Gatter realisiert wird. Dies erlaubt einen flexiblen Einsatz 

dieser Funktion. 

Der Grund für die Verwendung zweier Netze, nämlich Datentransfer- und 

Synchronisationsnetz, liegt darin, daß Datenaustausch und Synchronisation, die 

die Basisfunktionen paralleler Programmierung darstellen, entgegengesetzte 

Anforderungen an die Netzopologie stellen. 

Eine einfach zu programmierende Interprozessorkommunikation erfordert, 

daß die Bandbreite der Knoten unabhängig von der Knotenposition im Netz ist. 

Das bedeutet, daß alle Knoten gleichberechtigt sein müssen, was einen knotenymmetrischen 

Graphen voraussetzt. 

Zur effizienten Prozeßsynchronisation muß eine Barrierenfunktion vorhanden 

sein, um auf die Terminierung aller Prozessoren warten zu können, die an 

einer gemeinsamen Rechnung beteiligt sind, ohne, daß dafür Rechenzeit durch 

Polling verbraucht wird. Nach Terminierung eines parallelen Programmteils 

muß der nachfolgende Rechenabschnitt über einen Multicast synchron getriggert 

werden. Beide Funktionen lassen sich am besten in einer Baumtopologie 

implementieren, die den Nachteil hat, nicht knotensymmetrisch zu sein. 

Wegen der unterschiedlichen Anforderungen wird die Interprozessorkommunikation 

über einen Torus abgewickelt, der eine dem Hypercube vergleichbare, 

gleichmäßige Kommunikationsleistung aufweist, während die Prozeßsynchronisation 

auf partitionierbaren Binärbäumen beruht. Darüber hinaus erlauben 

getrennte Netzwerke auch gleichzeitigen Austausch von Rechen- und 

Synchronisationsdaten, was die Leistung des Gesamtsystems erhöht. 

Die Binärbäume des Synchronisationsnetzwerkes erleichtern die Prozeßsynchronisation 

in mehrfacher Hinsicht: Der Multicast-Baum, der aus einer 

Kaskade von Multiplexern besteht, kann nicht nur synchron bei allen Knoten 

die Ausführung eines Programmteils initiieren, sondern auch dieses vorzeitig 

terminieren (=Abort-Funktion). Der inverse Multicastbaum kann, nachdem er 

auf UND-Funktionalität gesetzt wurde, zur Implementierung paralleler Schleifen 

eingesetzt werden. Jeder Prozessor, der seinen Anteil am gemeinsamen 

253

Schleifenkörper beendet hat, setzt ein "ready"-Bit, und die UND-Verknüpfung 

aller Bits informiert einen die Schleife kontrollierenden, übergeordneten Prozessor 

über die Schleifenbeendigung. 

Bei Verwendung der ODER-Funktionalität im inversen Multicastbaum können 

Anwendungen wie verteilte Datenbanken in ihrer Ausführung stark beschleunigt 

werden: Über den Datentransfertorus wird beispielsweise allen Prozessoren 

ein in einer Datenbank zu suchender Eintrag mitgeteilt. Der erste Prozessor, 

der den Eintrag gefunden hat, setzt ein "found"-Bit, und die Kaskade 

von ODER Gattern teilt dies dem Master-Prozessor mit, worauf die noch suchenden 

Prozessoren vorzeitig terminiert werden. Die geschilderten Vorgänge 

von Multicast und inversem Multicast dauern auf der T3D extrem kurz. In nur 

1μ 

s wird eine Prozeßsynchronisation über bis zu 2048 Prozessoren durchgeführt, 

so daß die vom Netzwerk bedingten Zeitverluste bei der Prozeßsynchronisation 

vernachlässigbar sind. 

Neben den dargestellten Beispielen und Funktionen, die sehr schnell in Hardware 

vom Synchronisationsnetzwerk ausgeführt werden können, gibt es noch 

eine Reihe anderer Prozeduren, die mit Unterstützung des Synchronisationsnetzes 

beschleunigt werden. So benützen einige INTRINSIC-Funktionen 

des Cray FORTRAN-Compilers, die die Summe, das Produkt, das Maximum 

oder Minimum der Elemente eines Vektors berechnen, dieses Netz. Verschiedene 

in parallelen, numerischen Anwendungen häufig vorkommende Aufgaben 

können so effizient bearbeitet werden. 

Berechnet man die maximale Distanz zweier Knoten im Torus, so kann man 

für den Weg entlang einer Raumdiagonalen (8+4+4)=16 Knoten angeben, während 

die größte Entfernung im Binärbaum log21024 = 10 Knoten beträgt. Da 

beide Entfernungen sowohl von der Zahl der Schritte als auch von der Latenzzeit 

in der selben Größenordnung liegen, kann man sagen, daß Kommunikation 

und Synchronisation in der Geschwindigkeit aufeinander abgestimmt 

sind, so daß beide Netze im Vergleich zueinander ein ausgewogenes 

Bild ergeben. 

Netzwerkanschlüsse 

In Bild 5.4 ist in mehreren Ausschnittsvergrößerungen die Position und der 

Aufbau der Netzwerkanschlüsse innerhalb der Cray-T3D dargestellt. Ausgehend 

vom 3-dimensionalen Torus, der in Form eines Würfels dargestellt ist, erkennt 

man in der ersten Ausschnittsvergrößerung, wie die beiden Prozessoren 

eines Knotens an einen gemeinsamen Router angeschlossen sind (getrennt bei 

T3E). Der Router bildet die Schnittstelle zum Torus mit seinen 3 Raumrichtungen. 

Er inspiziert einlaufende Pakete nach ihrer Zieladresse und entnimmt diese 

für den Fall übereinstimmender Adressen dem Netz. Bei Nichtübereinstimmung 

wird das Paket solange in x-Richtung zu einem benachbarten Router weitergereicht, 

bis die x-Koordination dieses Routers mit der x-Koordinate des 

Zielknotens identisch ist. Danach wird der Vorgang entlang der y- und z-Richtung 

wiederholt, bis das Paket am Ziel ist, woraus auch die Bezeichnung x-y-z- 

Routing resultiert. 

254

Betrachtet man einen Prozessor näher, erkennt man, daß er aus den Komponenten 

Prozessorelement, DMA-Einheit und Netzwerk-Interface besteht. Das 

Prozessorelement enthält neben dem Speicher und einer zum Prozessor externen 

Speicherverwaltung (MMU) den DEC alpha-Prozessor als Rechenwerk. 

Die MMU ist ein relativ komplexes Modul, dessen primäre Aufgabe es ist, 

aus den höherwertigen Adreßbits des Prozessors zu erkennen, ob das gewünschte 

Datum im lokalen DRAM existiert oder ob es aus dem Speicher eines 

anderen Prozessors geholt werden muß. Weiterhin sind in der Spezial-MMU 

die Komponenten des Synchronisationsnetzwerks untergebracht (UND/ODER- 

Verknüpfung sowie 1-zu-2-Multiplexer), wobei die Partitionierung der Bäume 

an das Netzwerk-Interface ausgelagert ist. Schließlich wird von der MMU die 

atomare Funktion des unteilbaren Tauschens (atomic swap) implementiert, auf 

die später eingegangen wird. 

. 

... 

. 

.. . . 

. . . 

. . . . . . 

. . . 

. . . 

. . . 

. 

. 

... 

... 

. 

... 

. 

Proz. 

1 

- x 

+ z 

+ y 

Router 

- y 

+ z 

+x 

Proz. 

2 

-x 

-y 

-z 

Transmit 

x-Router +x 

y-Router +y 

z-Router +z 

Receive 

Prozessor 

Element 

DMA 

Einheit 

gemeinsam 

mit Proz. 1 

Netzwerk 

Interface 

DEC 

alpha 

DRAM 

Spezial MMU 

zusätzliche 

Adreβ= 

übersetzung 

Binärbaum 

Synchronisierung 

unteilbares 

Tauschen 

Fetch & 

Increment 

Platz für 

4000 

Nachrichten 

Binärbaum 

Partionierung 

Bild 5.4: Aufbau der Cray T3D, ihrer Knoten und Netze. 

Die DMA-Einheit ist sowohl für den prozessorunabhängigen Transfer größerer 

Speicherbereiche zuständig, die zwischen den Lokalspeichern zweier Prozessoren 

ausgetauscht werden, als auch für den Transfer von Nachrichten, die in ei- 

255

ner Warteschlange im Lokalspeicher eines Prozessors stehen. Je zwei Prozessoren 

eines Knotens teilen sich eine DMA-Einheit und einen Router. Dadurch 

entstehen Engpässe, die bei der T3E dadurch behoben werden, daß jeder Prozessor 

ein eigenes Interface bekommt. Ebenso wird dort die gemeinsame 

DMA-Einheit durch einen Satz Transferregister ersetzt, auf die entfernte Prozessoren 

so zugreifen können als wären sie lokal. 

Im Netzwerk-Interface sind eine Sende- und Empfangswarteschlange vorhanden, 

die jeweils bis zu 4000 Datenpakete aufnehmen können. Sobald vom 

Prozessor eine Nachricht abgesetzt ist, wird diese vom Netzwerk-Interface 

überlappend zum weiterarbeitenden Prozessor übertragen, sobald sie in der 

Warteschlange an der Reihe ist. Die Sendepuffer sorgen, solange sie Nachrichten 

enthalten, für eine kontinuierliche Netzauslastung, unabhängig vom 

momentanen Zugriffsverhalten des Prozessors. Im Netzwerk-Interface wird 

weiterhin entschieden, ob ein bestimmter Prozessor Teil eines Synchronisationsunterbaums 

ist. Schließlich ist hier der Sitz einer zweiten systemweit unteilbaren 

Operation, dem Fetch&Increment-Befehl, der ebenfalls später erläutert 

wird. 

Zusammenfassend kann gesagt werden, daß der größte Teil komplexer Hardware 

bei der Cray T3D/E im Verbindungsnetzwerk steckt und damit auch ein 

Hauptteil der Entwicklungskosten. (Die teuerste Einzelkomponente in der Produktion 

ist der Speicher.) 

Weiterhin gilt, daß die Cray ist hinsichtlich des Daten- und des Synchronisationsnetzes 

in weiten Grenzen skalierbar ist. Sowohl Torus- als auch Baumtopologie 

bleiben bei ansteigender Netzgröße in ihrer Struktur unverändert, die 

Zahl der Ringe und die Baumtiefe nimmt linear bzw. sublinear zu. 

5.1.4 Kommunikationsmechanismen 

Bei der Cray T3D/E sind beide Standardprogrammiermodelle, d.h. gemeinsame 

Variablen und Botschaftenaustausch möglich. Sie werden unter Zuhilfenahme 

von Compiler-Direktiven bzw. Programmbibliotheken angesprochen. Die T3D 

unterstützt darüberhinaus vier verschiedene Synchronisationsmechanismen im 

Verbindungsnetzwerk in Hardware. 

Für den Programmierer bietet Cray die Sprache C++ und den MPP FORT- 

RAN Compiler an, der Teile von FTN 90, FTN D u. Vienna FTN implementiert 

und zusätzlich Funktionen aus dem bekannten Cray Auto-, Micro- und Macro 

Tasking enthält. 

Weiterhin existiert im Rahmen der CRAFT 90 Programmierumgebung PVM 

3.0, MPI und PARMACS als Programmiermodell sowie "data passing", das 

eine lmplementierung von Botschaftenaustausch auf niedriger Ebene darstellt. 

Schließlich gibt es über die Funktionen put und get die Möglichkeit, sehr 

schnell auf den Speicher eines anderen Prozessors zugreifen zu können (=gemeinsame 

Variable). Nach Aussage von Cray verhalten sich die Geschwindigkeiten 

für die Kommunikation über gemeinsame Variablen und 

Botschaftenaustausch qualitativ wie in Bild 5.5 angegeben, d.h. die PVM Bibli- 

256

othek erfordert mehr Software-Zusatzaufwand im Hintergrund, was größere 

Startup-Zeiten, größere Latenz und kleineren Maximaldurchsatz zur Folge hat. 

Andererseits bietet PVM dem Programmierer neben den üblichen Send/ 

Receive-Bibliotheksprogrammen eine Vielzahl unterstützender Funktionen. 

Beispiele dafür sind pvm_barrier, pvm_bcast und pvm_mcast für Prozeßsynchronisation, 

pvm-reduce für Datenreduktionsoperationen und pvm-spawn zur 

Prozeßerzeugung. 

summierter 

Durchsatz 


PVM-Bibliothek 

Zahl der Prozessoren 

Bild 5.5: Durchsatz bei gemeinsamen Variablen und Botschaftenaustausch nach [Camp95]. 

Gemeinsame Variablen sind mittels der Speicherverwaltungen (MMUs) in den 

Rechenknoten implementiert, so daß alle Lokalspeicher zu einem großen 

Adreßraum nach dem NUMA-Modell vereinigt werden. Allerdings ist der Speicher 

nicht Cache-konsistent, d.h., daß im System verteilte Kopien einer Variablen 

nicht automatisch auf dem neuesten Stand gehalten werden. Der Benutzer 

muß deshalb auf Kopien gemeinsamer Variablen verzichten und diese unter 

Umgehung des Cache direkt aus dem Speicher lesen oder beim Schreiben einer 

gemeinsamen Variablen alle veralteten Duplikate "von Hand" invalidieren. 

Das Schreiben und Lesen gemeinsamer Variablen, die in entfernten Lokalspeichern 

residieren, kann überlappend zur Ausführung von Berechnungen erfolgen, 

die diese Variablen nicht benötigen. Weiterhin können in den Rechenknoten 

durch die DMA-Einheiten simultan zum Rechnen Botschaften bis 

zur Länge von 256 K Worten á 64 Bit zwischen einem Sender und mehreren 

Empfängern verschickt werden. Dadurch ergibt sich neben dem Synchronisations-Multicast, 

der im Binärbaum implementiert ist, ein zweiter Multicast für 

Daten. 

5.1.5 Routing 

Sowohl Botschaftenaustausch als auch gemeinsame Variablen beruhen implementierungstechnisch 

betrachtet auf Paketvermittlung mit Virtual-Cut- 

Through Routing. Wie die Paketvermittlung im Cray-Netz abläuft, ist in Bild 

5.6 für den Fall, daß der Prozessor 1 Werte aus dem Lokalspeicher von Prozessor 

2048 lesen möchte, exemplarisch erläutert. 

257

Prozessor 

1 

M 

M 

U 

Router 

1 

Router 

1024 

M 

M 

U 

Prozessor 

2048 

Adresse als Lese= 

anforderung 

Speicherinhalt 

als Antwort 

Bild 5.6: Kommunikation zweier Router beim entfernten Speicherzugriff. 

Die Leseanforderung des 1. Prozessors wird automatisch, nachdem von der 

MMU erkannt wurde, daß es sich um einen nichtlokalen Zugriff handelt, vom 

Router des 1. Knotens in ein Datenpaket übersetzt, das durch den Torus zum 

korrespondierenden Router des 1024. Knotens geschickt wird. Alle Vorgänge 

laufen dabei autonom zur CPU ab und brauchen weder von ihr angestoßen noch 

überwacht werden. Die Antwort vom 1024. Knoten wird, wie es in Bild 5.7 dargestellt 

ist, als Paket verpackt zurückgeschickt. 

1 

Daten= 

paket: 

}1 Phit 

1 2 ... 6 

1 2 ... 4 

... 

1 2 ... 4 

Header 

Wort 1 

Wort 4 

Bild 5.7: Pakete mit einer Größe von bis zu 4 Speicherworten. 

Bis zu vier adreßmäßig aufeinanderfolgende Speicherworte können in einem 

Datenpaket übertragen werden. Auf der Ebene des physikalischen Transports 

werden 16 Bit-Worte durch das Netz transferiert, die, falls erforderlich, über einen 

Flußsteuerungsmechanismus angehalten werden könnnen. Die 16 Bit-Einheiten 

werden von Cray als Physical Transfer Units (Phits) bezeichnet. Ein Datenpaket 

kann bis zu 22 Phits enthalten. Zusätzlich zu jedem Phit werden noch 

8 Steuerbits übertragen. 

Die Zahl von 44 Datenbytes, die pro Paket gesendet werden, ist vergleichbar 

mit der 53 Byte langen ATM-Zelle, die in der Telekommunikation verwendet 

wird und kann im Fall der T3D als Kompromiß zwischen geringer Latenz einerseits 

und großer Bandbreite andererseits angesehen werden. 

Zusammenfassend kann aufgrund der Hardware-Zusatzeinrichtungen im Daten- 

und Synchronisationsnetz wie DMA, automatischer Zugriff auf entfernte 

Speicher, Reduktions- und Multicast-Funktionen gesagt werden, daß bei der 

T3D Wert auf die Optimierung der Interprozessorkommunikation gelegt wurde. 

Dies drückt sich auch in der Tatsache aus, daß neben den bereits dargestellten 

Funktionen zwei weitere Synchronisationsmechanismen in Hardware implementiert 

sind, die im folgenden näher erläutert werden. 

258

5.1.6 Synchronisationsmechanismen 

Insgesamt gibt es bei der Cray T3D vier Hilfsmittel zur Prozeßsynchronisation, 

die in Hardware realisiert sind und von denen zwei bereits dargestellt wurden. 

Diese Hilfsmittel sind: 

• UND/ODER-Synchronisation 

• Multi-/Broadcast-Synchronisation 

• Fetch&Increment-Synchronisation mit Zugriffskonfliktauflösung durch das 

Netz 

• Netzweites, unteilbares Tauschen von Speicherinhalten (Atomic Swap) 

Fetch&Increment Netzfunktion 

Zur Erläuterung des Fetch&Increment-Befehls wird zuerst die Wirkung des Befehls 

auf das Fetch&Increment-Register eines Cray-Prozessors dargestellt und 

danach seine Anwendung in der parallelen Programmierung erläutert. 

In Bild 5.8 ist der Fetch&Increment-Befehl exemplarisch für den Fall gezeigt, 

daß drei Prozessoren gleichzeitig auf das Fetch&Increment-Register eines 

vierten Prozessors zugreifen wollen. 

vorher: 

Prozessor 

0 

Prozessor 

1 

Prozessor 

2 

g leichzeitig er 

Lesezug rif f 

Fetch &Increment 

Register =0 

Netz 

liest 

nur 1mal 

nachher: 

Prozessor 

0 

Prozessor 

1 

2 0 1 

Fetch &Increment 

Register =3 

Prozessor 

2 

Netz 

schr eibt 

nur 1mal 

Bild 5.8: Fetch&Increment Synchronisation. 

Für den Fall des Mehrfachzugriffs werden die Zugriffswünsche vom Netzwerk- 

Interface desjenigen Prozessors registriert, der das Fetch&Increment-Register 

beherbergt, und zu einem einzigen Zugriff auf das Register zusammengefaßt. 

Diese Zugriffskonfliktauflösung vermeidet Staus im Netz (Hot Spots). 

Das Netzwerk-Interface führt die gleichzeitigen Fetch&Increment-Zugriffe 

so aus, daß einem beliebigen ersten Prozessor der ursprüngliche Wert des Registers 

mitgeteilt wird und daß alle anderen Prozessoren einen jeweils um 1 erhöhten 

Wert erhalten. Anschließend wird vom Netzwerk-Interface der letzte 

übermittelte Wert in das Register zurückgeschrieben, so daß insgesamt nur eine 

259

Lese- und eine Schreiboperation durchgeführt werden muß, unabhängig von 

der Zahl zugreifender Prozessoren. Dies wird auch als Combining bezeichnet, 

da mehrere Schreib-/Lesezugriffe und Increment-Operationen zusammengefaßt 

werden. Das Combining erfolgt schaltungstechnisch an der Stelle im Netz, 

an der die Zugriffe zusammenlaufen, also am Netzwerk-Interface des betreffenden 

Knotens. 

Durch das Netz-Combining lassen sich erhebliche Geschwindigkeitssteigerungen 

bei der Prozessorsynchronisation erzielen, wie folgender Ausschnitt aus 

einem Cray FORTRAN-Programm zeigt: 

CDIR$ DO SHARED (Index1) ON Feld1(Index1) 

DO Index1=1,n ! n Prozessoren gleichzeitig 

Feld1(Index1) = 0 ! paralleles Initialisieren 

END DO 

Bei diesem Code-Teil wird parallel auf die gemeinsame Variable Feld1 zugegriffen, 

um sie mit Null zu initialisieren. Da alle Prozessoren zur selben Zeit 

den Schleifenzähler Index1 lesen wollen, ist es günstig, diesen in ein 

Fetch&Increment-Register zu legen, so daß jeder Prozessor vor einem Schleifendurchlauf 

eine neue Feldadresse zur Initialisierung zugewiesen bekommt. 

Die automatische Inkrementierung um 1 durch den Fetch&Increment-Befehl 

stellt sicher, daß nach Terminierung des Programms alle Feldelemente auf Null 

initialisiert wurden. 

Neben der Vergabe passender Indexwerte zur parallelen Abarbeitung einer 

Schleife kann die Fetch&Increment-Operation auch vorteilhaft zur systemweit 

eindeutigen Allozierung von Prozeß-und Prozessorkennummern verwendet 

werden. Die Kennummernvergabe ist aufgrund der Hardware-Implementierung 

der Operation zur Laufzeit eines parallelen Programms möglich. Damit kann 

das Betriebssystem beispielsweise eine dynamische Umkonfigurierung zur besseren 

Lastverteilung oder zur Kompensation von Hardware-Ausfällen während 

der Programmausführung vornehmen. 

Atomic Swap 

Durch Ausführung des Atomic Swap-Befehls wird der Inhalt eines speziellen 

Atomic Swap-Registers in einem Rechenknoten mit dem Wert einer Speicherzelle 

ausgetauscht, die nicht lokal zum betreffenden Rechenknoten ist. In Bild 

5.9 ist die Wirkung des systemweiten, unteilbare Tauschens von Speicherinhalten 

(Atomic Swap) graphisch dargestellt. Die Atomic Swap-Register sind 

physikalisch in der Memory Management Unit der Rechenknoten untergebracht. 

Die Funktion des unteilbaren Tauschens kann zur Verriegelung (Lokking) 

gemeinsamer Daten verwendet werden, die für den wechselseitigen Ausschluß 

gleichzeitig zugreifender Prozessoren sorgt. 

Die Atomic Swap-Operation soll anhand eines Cray FORTRAN Beispiels erläutert 

werden: 

260

vorher: 

lokales 

Tausch 

Register 

= x 

entfernte 

Speicher 

zelle 

= y 

nachher: 

lokales 

Tausch 

Register 

= y 

entfernte 

Speicher 

zelle 

= x 

Bild 5.9: Die Atomic Swap-Operation. 

CDIR$ SHARED Wert1, Wert1Lock 

IF (.NOT. TEST_LOCK(Wert1Lock) THEN 

! Testen und Schreiben von Wert1Lock 

Wert1 = 0 ! exclusives Schreiben von Wert1 

CALL CLEAR_LOCK(Wert1Lock) 

ELSE 

PRINT*, "Wert1 momentan nicht verfuegbar" 

ENDIF1 

Im Beispiel wird die gemeinsame Variable Wert1 exklusiv von einem Prozessor 

geschrieben. Dazu wird die Semaphore Wert1Lock verwendet. Die Operationen 

TEST_LOCK und CLEAR_LOCK, die auf die Semaphore wirken, 

werden mit Hilfe des Atomic Swap-Befehls implementiert, da garantiert werden 

muß, daß nur ein Prozessor zu einer Zeit die Semaphore liest oder schreibt. 

Durch das unteilbare Tauschen wird in einem einzigen Schritt der Wert der 

Semaphoren, der am Anfang 0 ist, durch den Wert 1 ersetzt (ausgetauscht), so 

daß ein eventueller zweiter, gleichzeitig zugreifender Prozessor in den ELSE- 

Zweig seiner IF-Abfrage gerät und so die gemeinsame Variable Wert1 nicht beschreiben 

kann. 

5.1.7 Ergebnisse 

Welche Ergebnisse haben die aufwendigen, hardwaremäßigen Einrichtungen 

der Cray im Verbindungsnetzwerk netto für den Anwender gebracht? Dazu ist 

in Tabelle 5.3 die Kommunikationsleistung der Maschine, gemessen am ping 

pong-Test [Hockney91] und ihre Rechenleistung, gemessen an der LINPACK- 

Anwendung, aufgelistet. 

In den Meßergebnissen nach [Oed94] sind die maximal erreichbare Nettodatenrate 

r ∞ , die Bytezahl n 1/2 , bei der die Hälfte von r ∞ erreicht wird und die 

Startup-Zeit aufgelistet, die die verstrichene Zeit zwischen Aufruf des Sendeunterprogramms 

und Beendigung der korrespondierenden Empfangsroutine 

darstellt. Aufgrund von Tabelle 5.3 zeigt sich, daß die Cray T3D bei der 

Interprozessorkommunikation zwischen zwei Benutzerprozessen ca. 1/3 ihrer 

Hardware-Datenrate erreicht. Desweiteren wird beim LINPACK-Rechentest 

bei 256 Prozessoren ca. die Hälfte der maximalen Rechenleistung erzielt. Bei 

der Cray T3D trägt zur Effizienz bei der Programmausführung das extrem 

261

schnelle Daten- und Synchronisationsnetz bei, das Multicast-/inversen Multicast-, 

Reduktions-, Swap- und Fetch-Operationen in Hardware realisiert. Diese 

Funktionen können vor allem bei größeren Prozessorzahlen (ab ca. 256) ein Absinken 

der Effizienz verhindern. 

Ping-Pong-Kommunikationstest: 

r∞ [MB/s] n 1/2 [B] Start Up 

unidirek. (P1 zu P2) 106 von 300 161 1,5 µs 

bidirektional P1 mit P2 188 " 600 250 1,3 µs 

LINPACK-Rechentest (256 Prozessoren, Problemgröße 38912): 

21 GFLOPS von 38 möglichen 

Tabelle 5.3: Kommunikations- und Rechenleistung der T3D nach [Oed94]. 

Folgende Maßnahmen, die ebenfalls zur Effiziensteigerung beitragen, sind 

beim Verbindungsnetzwerk der Cray T3D nicht implementiert: 

• Mehrfachverkehr auf den Ringen (Slotted Ring Protocol). Zu jedem Zeitpunkt 

kann auf jedem Ringsegment ein Datenpaket unterwegs sein, was bis 

zu 16 gleichzeitige Pakete auf einem Ring aus 16 Teilnehmern erlauben würde. 

• Netzweite, automatische Cache-Konsistenz gemeinsamer Variablen. Das 

Schreiben einer gemeinsamen Variablen invalidiert ohne Zutun des Benutzers 

Kopien gemeinsamer Variablen, die in anderen Prozessor-Caches gehalten 

werden. 

• Automatisches Verbergen der Latenzzeiten des Speichers. Multithreading 

beispielsweise würde beim Zugriff auf das Netz auf einen anderen Prozeßfaden 

umschalten. Bislang muß der Benutzer durch eine explizite "READ 

AHEAD Direktive" vorausschauend Variable anfordern. 

5.2 Das Verbindungsnetzwerk der IBM SP2 


Im Jahre 1990 initiierte IBM in Kingston, New York, das Forschungsprojekt 

"Vulcan" [Stunkel94b]. Zwei Jahre später wurde das "Highly Parallel Supercomputing 

Systems Laboratory (HPSSL)" gegründet und der erste Vulcan-Prototyp 

fertiggestellt, der den direkten Vorläufer der SP1-Maschine darstellt. 

262

1993 erschien die SP1 als das erste kommerzielle Parallelrechnerprodukt der 

Fa. IBM auf dem Markt, das ein Jahr später durch das Nachfolgemodell SP2 abgelöst 

wurde. In dem ersten Jahr ihres Erscheinens wurde die SP1 70 mal verkauft, 

was als großer wirtschaftlicher Erfolg galt. Zu diesem Zeitpunkt hatte 

IBM bereits 8 Jahre Erfahrung in der Entwicklung von Forschungsparallelrechnern 

hinter sich, bevor man in den wissenschaftlich-technischen und 

kommerziellen Parallelrechnermarkt einstieg. 


Die IBM SP2 [IBM95] besteht aus bis zu 512 POWER/2 Prozessoren zu je 266 

MFLOPS Rechenleistung pro Prozessor, so daß sich bei der größten SP2-Maschine 

insgesamt ca. 136 GFLOPS an summierter Rechenleistung ergeben. Jeder 

Prozessor der SP2 kann mit maximal 2 GB Hauptspeicher ausgerüstet werden, 

was in 1024 GB Hauptspeicher für den größten Rechner resultiert. Das 

Verbindungsnetzwerk der IBM SP2 hat eine Halbierungsbandbreite von 

512*40 MB/s = 20 GB/s. In Tabelle 5.4 sind die wichtigsten Daten der SP2 im 

Vergleich zur Cray T3D dargestellt. 

Rechnertyp IBM SP2 Cray T3D 

Prozessoren bis 512 POWER/2 bis 2048 DEC alpha 

max. Leistung/Prozessor [MFLOPS] 266 150 

max. summierte Leistung [GFLOPS] 136 300 

max. Hauptspeicher/Prozessor [GB] 2 0,064 

max. Hauptspeicher [GB ] 1024 128 

Halbierungsbandbreite [GB/s] 20 38 

Tabelle 5.4: Leistungsdaten IBM SP2 und Cray T3D im Vergleich. 

Das Nachfolgemodell der SP2 weist 4 Prozessoren pro Knoten vom Typ PowerPC 

630 auf, die über eine Buskopplung und gemeinsamen Speicher mit Cache-Kohärenz 

zusammengeschaltet sind (Symmetric Multiprocessing). Zwischen 

den Knoten wird wie bei der SP2 Botschaftenaustausch basierend auf 

Kanalkommunikation verwendet. 

5.2.3 Aufbau 

Jede SP2 besteht neben einem Bedienrechner vom Typ RS/6000 aus 4 Hauptkomponenten: 

Dem Wirtsknoten, der im Bedienrechner untergebracht ist, den 

Rechenknoten in separaten Gehäusen, den Ein/Ausgabeknoten, die über eigene 

Platten verfügen sowie dem Verbindungsnetzwerk, das von IBM als High Performance 

Switch bezeichnet wird. Das Prinzipschaltbild der SP2 ist in Bild 5.10 

263

dargestellt. 

DRAM 

MSMU 

IBM RS/6000 

Wirtsrechner 

µChan. 

CNTRL 

Wirtsknoten 

PROC. 

SP2 

Netz= 

werk 

Ein-/Ausgabeknoten 

DRAM 

MSMU 

DRAM 

MSMU 

PROC. 

PROC. 

DASD 

CNTRL 

PROC. 

Rechenknoten 

Platten= 

lauf= 

werke 

Bild 5.10: Prinzipschaltbild der IBM SP2. 

Jeder Rechenknoten der SP2 stellt einen eigenen Arbeitsplatzrechner dar, bestehend 

aus Prozessor, Speicher und Netzwerkschnittstelle. Anstelle einer eigenen 

Festplatte wird über das Netz auf die Platten des Bedienrechners oder auf 

die Laufwerke der Ein/Ausgabeknoten zugegriffen. Zur Vereinfachung der Bedienung 

und der Programmentwicklung läuft auf allen Rechenknoten das RS/ 

6000-Betriebssystem AIX [IBM94], ein UNIX Derivat. 

Der Wirtsknoten besteht aus den Komponenten Prozessor, Speicher, Netzwerkschnittstelle 

und Bedienrechneradapter. Die Netzwerkschnittstelle (Memory 

and Switch Management Unit) ist mit der einen Seite über einen Micro 

Channel Controller an den internen Bus des Wirtsrechners angeschlossen und 

erlaubt, mit diesem Daten mit einer Geschwindigkeit von bis zu 80 MB/s aus- 

264

zutauschen. Die andere Seite der Netzwerkschnittstelle speist Daten in den 

High Performance Switch ein. 

Sowohl die Rechen- als auch die Ein/Ausgabeknoten sind Varianten des Wirts- 

Knotens. Bei den Rechenknoten gibt es einen (optionalen) zweiten Prozessor, 

die Ein/Ausgabeknoten haben an dieser Stelle einen Platten-Controller mit 

Laufwerken. 

Die Memory and Switch Management Unit (MSMU), die im Wirts-, Rechenund 

Ein-/Ausgabeknoten verwendet wird, besteht neben einem DRAM-Controller 

aus zwei Warteschlangen für das Senden bzw. Empfangen von Datenpaketen. 

Die MSMU ist als kundenspezifisches Gatearray aus ungefähr 185 000 

Gattern aufgebaut. Sie stellt das Bindeglied zwischen Knotenprozessor und 

Verbindungsnetzwerk dar. 

Netzwerkanschlüsse 

Jeder Netzwerkanschluß sowie der ins Netz führende Kanal kann bidirektional 

mit einer Geschwindigkeit von 40 MB/s Daten senden und empfangen (=Hardware-Transfergeschwindigkeit). 

Daraus ergeben sich 40 GB/s (=2 Richtungen*40 

MB/s*512 Proz.) an summierter Bandbreite über alle Netzwerkschnittstellen 

einer voll ausgebauten SP2-Maschine. 

Die Hardware-Latenzzeit zwischen Senden und Empfangen eines Pakets beträgt 

0,5μs [Kuzela95] bei Rechnern aus bis zu 80, bzw. 0,875μs von 81 bis 512 

Knoten. Die Software-Latenz zwischen zwei Benutzerprozessen liegt bei ca. 

40μs [Bala94] bei Verwendung der IBM eigenen Kommunikationsbibliothek 

"External User Interface/Message Passing Library" (MPL/EUI-h). PVM und 

MPI stehen ebenfalls zur Verfügung, haben jedoch eine größere Latenzzeit bei 

der Datenübertragung als EUI/h. 

Die Netzwerkschnittstelle ist eine vom POWER-Prozessor des Rechenknotens 

unabhängige Einheit, die neben einer Intel i860 CPU, zwei DMA-Einheiten 

für Blocktransfers sowie einen FIFO-Speicher enthält. Die Aufgabe des Intel-Prozessors 

ist die Programmierung der Blocktransfereinheiten, die Berechnung 

der CRC-Prüfsummen der Datenpakete sowie die Erkennung und 

Behebung von Blockierungen und Schaltfehlern im Verbindungsnetzwerk. 

Durch die CPU in der Netzwerkschnittstelle wird der Rechenknoten von Kommunikationsaufgaben 

freigestellt und steht der (parallelen) Anwendung des Benutzers 

voll zur Verfügung. Das Blockschaltbild der Netzwerkschnittstelle 

[Stunkel94c] ist in Bild 5.11 dargestellt. 

Switch Chip 

Das Verbindungsnetzwerk [Agerwala95] der SP2 besteht aus nur zwei verschiedenen 

Grundelementen, den MSMU Chips auf den Knotenplatinen und 

den Vulcan Switch Chips [Stunkel94a, Stunkel94b, Stunkel94c] auf den Netzplatinen. 

Jedes Switch Chip enthält einen 8x8 Kreuzschienenverteiler, einen 

Datenpuffer pro Ein- und Ausgang sowie einen für alle Eingänge zentralen 

Speicher (Bild 5.12). 

265

DRAM 

(8 MB) 

Micro 

Channel- 

Bus 

Micro Channel- 

Schnittstelle 

Sende-FIFO 

Empfangs-FIFO 

Memory and Switch 

Management Unit 

(MSMU) 

High Performance 

Switch Link 

1. Blocktransfer= 

einheit 

2. Blocktransfer= 

einheit 

Intel 

i860 

(40 MHz) 

Bild 5.11: Die Netzwerkschnittstelle der SP2. 

Der Aufbau des Switch Chips wurde mit Hilfe von Warteschlangenmodellen 

(Queueing Theory Models) auf Durchsatz optimiert. Die Verwaltung der insgesamt 

16 Ein/Ausgabepuffer sowie des Zentralspeichers ist aufwendig gestaltet, 

um trotz der relativ niedrigen Datenrate von 40 MB/s, die durch die CMOS- 

Technologie der Chips vorgegeben ist, einen akzeptablen Durchsatz zu erzielen.Verschiedene 

Varianten von Speicherplatzallozierung sowie eine Behandlung 

von Spezialfällen zur fairen Arbitrierung wurden auf dem Chip in Hardware 

realisiert. Insgesamt kümmern sich 10 verschiedene Scheduler um die 17 

Puffer, die über 10 verkettete Listen verwaltet werden. Es werden zwei verschiedene 

Paketprioritäten in den Warteschlangen unterstützt. 

Der Vorläufer des Vulcan Switch Chip war für das geplante aber von IBM 

nie realisierte Teraflop-Projekt TF1 entworfen worden und mußte für seinen 

Einsatz in der SP1/2 mit einer zusätzlichen externe Beschaltung versehen werden. 

Der unidirektionale 8x8 Switch Chip ist extern so beschaltet, daß sich daraus 

ein bidirektionaler 4x4-Schalter ergibt (Bild 5.13), wie er für die SP2 benötigt 

wird. 

High Performance Switch 

Ebenso aufwendig wie der interne Aufbau eines Switch Chips ist das Netzwerk 

selbst. Zur Erreichung hoher Zuverlässigkeit sind die Switch Chips des Netzwerks 

doppelt vorhanden, um im laufenden Betrieb des Rechners durch einen 

Vergleich der Logikpegel zweier korrespondierender Switch Chips feststellen 

zu können, ob die betreffenden Ausgänge denselben Wert aufweisen. Eine 

Nichtübereinstimmung bedeutet einen Defekt und erfordert einen Teiletausch. 

Dazu ist ein Abschalten der Maschine erforderlich. (Das Tauschen von Platinen 

im laufenden Betrieb wird vom Betriebssystem nicht unterstützt.) 

266

8 

Flow 

Control 

CRC 

Check 

Receiver 

1 

FIFO 

31x1 flit 

Route 

Control 

8 64 

Deserializer 

Switch Chip 

Central 

Queue 

64 

Serializer 

Transmitter 

1 

8 

FIFO 

7x1 flit 

Bypass 

Arbi 

tration 

Flow 

Control 

CRC 

Gene 

rator 

8 

. 

. 

. 

Receive 

Arbi 

tration 

Transmit 

Arbi 

tration 

Dual Port 

RAM 

128 x 8 flit 

8 

. 

. 

. 

8 

Flow 

Control 

CRC 

Check 

Receiver 

8 

FIFO 8 

31x1 flit 

Route 

Control 

Deserializer 

64 

. 

. 

. 

Crossbar 

8 x 8 

. 

. 

. 

64 

8 

Serializer 

Transmitter 

8 

8 

FIFO 

7x1 flit 

Bypass 

Arbi 

tration 

Flow 

Control 

CRC 

Gene 

rator 

8 

Bild 5.12: Der Switch Chip der IBM SP1/2. 

4 


Kanäle 

4 Kanäle 

(Empfangen) 

4 Kanäle 

(Senden) 

8 

1 

8 

1 

. . . 

8 

1 

8 

1 

. . . 

8 

1 

Receive Transmit 

Port 0 

Port 0 

Port 1 

Port 1 

Port 3 

Port 4 

Switch 

Chip 

. . . . . . 

Port 3 

Port 4 

. . . . . . 

Port 7 

Port 7 

8 

1 

8 

1 

. . . 

8 

1 8 

1 

. . . 

8 

1 

4 Kanäle 

(Senden) 

4 Kanäle 

(Empfangen) 

4 


Kanäle 

Bild 5.13: Die Beschaltung des Switch Chips. 

Weiterhin gibt es für das Netz einen Service-Modus mit speziellen Testbefehlen, 

der in periodischen Zeitintervallen durchlaufen wird, um die Funktion 

des Netzes zu prüfen. Als Besonderheit ist zu erwähnen, daß nicht nur die Datenleitungen 

des Netzes mit CRC-Bits, sondern auch die Steuerleitungen zwischen 

den Switch Chips mit einer Prüfsumme gesichert sind. Schließlich trägt 

die relativ niedrige Datenrate von 40 Mb/s pro Leitung zum Schutz vor Übertragungsfehlern 

bei. 

267

Beim Verbindungsnetzwerk der SP2 sind je 8 Switch Chips (und ihre redundanten 

Komponenten) auf einer Platine untergebracht, die als Netzplatine 

(Switch Board) bezeichnet wird. Jedes Switch Board stellt ein bidirektionales 

Clos-Netz [Clos53] dar. Die für eine Clos-Topologie üblichen drei Stufen (Eingangs-, 

Mittel- und Ausgangsstufe) sind bei den SP2-Netzplatinen auf zwei reduziert, 

da die Eingangsstufe wegen der bidirektionalen Übertragung gleichzeitig 

als Eingangs- und Ausgangsstufe genutzt wird. 

Das Verdrahtungsschema einer Netzplatine ist in Bild 5.14 dargestellt. Jedes 

Switch Board eignet sich zur Verschaltung von bis zu 32 Knoten. 

Rechenknoten 

1 Switch Chip 

1 

2 

3 

16 

. . . 

zu 

weiteren 

Switch 

Chips 

oder 

Rechen= 

Knoten 

Netzwerkplatine 

Bild 5.14: Netzwerkplatine für bis zu 32 Knoten. 

Ab einer Größe von mehr als 32 Knoten ist es erforderlich, mindestens zwei 

Netzplatinen hintereinander zu schalten. Zur Erläuterung der Kaskadierung ist 

in Bild 5.15 das Verdrahtungsschema einer 64 Knoten-SP2 dargestellt. 

Das bei 64 Knoten unübersichtliche Verdrahtungsschema kann dadurch vereinfacht 

werden, daß je 16 Knoten, die an eine Netzplatine angeschlossen sind, 

als eine Einheit betrachtet werden, die durch gebündelte Linkleitungen miteinander 

verbunden sind. Diese abstrakte Sichtweise ist in Bild 5.16 gezeigt, in 

dem zusätzlich angegeben ist, aus wie vielen einzelnen Links eine gebündelte 

Linkleitung besteht. Die abstrahierte Sichtweise von gebündelten Linkleitungen 

und Sechzehnereinheiten läßt sich auch zur Darstellung anderer Verdrahtungsschemata 

einsetzen, wie man anhand von Bild 5.17 für den Fall von 48 

Prozessoren sehen kann. 

Für den Maximalausbau von 512 Knoten kann die Verdrahtung der Clos- 

Struktur auf bis zu 16x2 Netzplatinen erweitert werden, die in einer zweistufige 

Hierarchie von Clos-Netzen zusammengeschaltet werden (Bild 5.18). Diese 

Konfiguration hat für 512 Knoten die kleinstmögliche Latenz beim Datenaustausch. 

Hierarchische Netzstrukturen werden nicht nur von IBM bei der SP2 sondern 

beispielsweise auch von Thinking Maschines Corporation beim Fat Tree-Konzept 

der CM5 verwendet. In der Telekommunikation ist es der einzige Weg, ko- 

268

1 

2 

3 

16 

. . . 

1 

2 

3 

16 

. . . 

1 

2 

3 

. . . 

16 

1 

2 

3 

. . . 

16 

Bild 5.15: Verdrahtungsschema für 64 Knoten. 

4 

4 

6 

6 

4 4 

Bild 5.16: Abstrakte Darstellung einer 64 Knoten-SP2. 

8 

8 

8 

Bild 5.17: Abstraktes Verdrahtungsschema einer 48 Knoten-SP2. 

steneffiziente Verbindungsstrukturen aufzubauen, die üblicherweise in Orts-, 

Knoten-, und Hauptvermittlungseinrichtungen gegliedert sind. Bei der SP2 

wird im Gegensatz zur CM5 die Bandbreite der Datenübertragung von Hierarchieebene 

zu Hierarchieebene gewahrt, so daß die Maschine prinzipiell skalierbar 

ist. Da das Verdrahtungsschema der SP2 jedoch von der Zahl der zu kop- 

269

is 16 * 16 

Rechen= 

knoten 

1 

2 

3 

. . . 

16 

1 

2 

3 

. . . 

16 

4er-Gruppe 

16er-Gruppe 

bis 16 * 16 

Rechen= 

knoten 

1 

2 

3 

. . . 

16 

1 

2 

3 

. . . 

16 

1 

2 

3 

. . . 

16 

1 

2 

3 

. . . 

16 

. . . 

. . . 

. . . 

1 

2 

3 

. . . 

16 

1 

2 

3 

. . . 

16 

Bild 5.18: 2 stufige Hierarchie von Clos-Netzen beim Maximalausbau der SP2. 

pelnden Prozessoren abhängt, ist die SP2 nur in dem Sinne skalierbar, daß Knoten 

und Netzplatinen von einer bestimmten Maschinengröße zur nächsten 

weiterverwendet werden können, aber nicht die Verdrahtung dazwischen. 

Ganz allgemein spielt bei einem Parallelrechner neben der Zuverlässigkeit, 

die beim SP2-Netz durch redundante Auslegung der Komponenten und durch 

Sicherungsbits von Daten- und Steuerleitungen erzielt wurde, die Skalierbarkeit 

aller Komponenten eine wichtige Rolle. 

270

5.2.4 Lokalität in der Netzstruktur 

Bei der SP2 existieren im Verbindungsnetz Unterschiede bzgl. der Zugriffszeit 

auf einzelne Prozessoren, die sich in verschiedenen Hardware-Latenzzeiten bei 

der Interprozessorkommunikation ausdrücken. 

Auf der Ebene der Switch Chips sind vier Kanäle eines Kreuzschienenverteilers 

an je 4 Rechenknoten angeschlossen. Dadurch ergibt sich innerhalb einer 

Vierergruppe von Prozessoren bzw. Prozessen eine Kommunikation mit sehr 

kurzer Hardware-Latenz, da nur ein integrierter Schaltkreis zwischen Sender 

und Empfänger durchlaufen werden muß (Bild 5.19). 

Vierergruppe 

von 

Knoten 

Switch 

Chip 

Verbindung zu 

weiteren 

Switch 

Chips 

Bild 5.19: Schnelle Kommunikation innerhalb einer Vierergruppe von Knoten. 

Auf der Ebene der Netzwerkplatinen sind je 4 Vierergruppen auf einer Seite einer 

Platine über eine Clos-Topologie verbunden, so daß innerhalb einer Gruppe 

von 16-32 Knoten ebenfalls eine relativ geringe Latenz möglich ist. Ab einer 

Größe von mehr als 32 Knoten steigt die Latenz zusätzlich an, wobei auch hier 

Datenlokalität genutzt werden kann. Je nach Entfernung der Knoten zueinander 

genügt entweder der Durchgang durch ein einziges Switch Chip (bei der Verbindung 

einer Vierergruppe) oder es sind für eine Sechzehner- bzw. 32er-Gruppe 

drei Durchgänge durch Switch Chips erforderlich oder es können bei mehr 

als 32 Rechenknoten pro Gruppe 4 bis 7 Durchgänge erforderlich werden. 

Die Datenlokalität, die bei vielen parallelen Anwendungen inherent vorhanden 

ist, kann auf verschiedenen Ebenen des Netzwerks genutzt werden. Entscheidend 

dabei ist, daß zwei Voraussetzungen erfüllt sind: 

• Die Prozesse einer parallelen Anwendung sind so den Prozessoren zugeordnet, 

daß innerhalb einer Gruppe dieselbe Latenz besteht. Dies erfordert 

eine Zerlegung der Interprozessorkommunikation der Anwendung in verschiedene 

Latenzzeitklassen. 

• Die Hardware-Latenzzeit darf nicht vom Verwaltungsaufwand der darüberliegenden 

Kommunikationsbibliotheken dominiert werden. 

Da die Software-Latenzzeiten, die beim Aufruf der Kommunikationsroutinen 

EUI-h entstehen, um 1-2 Größenordnungen höher als die Hardware-Latenzen 

liegen, ist die zweite Voraussetzung bei der SP2 nicht erfüllt, so daß die 

NUMA-Charakteristik der Maschine nicht sichtbar wird. 

271

5.2.5 Routing 

Bei der SP2 wird zur Interprozessorkommunikation Paketvermittlung verwendet. 

Die Pakete bestehen aus maximal 255 Flits (Bytes) inclusive Kopfteil. 

Der Header basiert auf Source-Based Routing, d.h. das sendende Netzwerk-Interface 

(i860 Prozessor) erzeugt anhand der Empfängeradresse ein Adreßfeld, 

das keine absoluten, sondern relative Adressen enthält. Beim Durchgang durch 

ein Switch Chip werden jeweils 3 Bits vom Adreßfeld entfernt und zur Routing- 

Entscheidung für einen der 8 Switch Chip-Ausgänge verwendet. Am Empfänger 

angekommen sind alle Header-Bits verbraucht, und das Paket besteht nur 

noch aus Nutzdaten. 

Gemäß der Clos-Topologie des SP2 Netzwerks ist jeder Rechenknoten von 

jedem anderen über eine Vielzahl von Wegen erreichbar. Die sich daraus ergebende 

Redundanz wird jedoch nicht zur adaptiven Wegewahl während der 

Laufzeit, sondern nur für ein statisches Routing-Verfahren verwendet. Im diesem 

Verfahren wird nach Inbetriebnahme des Rechners und vor Ausführung 

der ersten Applikation vom sog. Routing Table Generator (RTG) eine Routing- 

Tabelle aufgestellt, die N 2 /2 Einträge hat (N = Zahl der Rechenknoten) und in 

der für jede Punkt-zu Punkt-Verbindung ein gültiger Pfad durch das Netz enthalten 

ist. 

Zur Aufstellung der Routing-Tabelle wird vom Routing-Verfahren gezählt, 

wie oft die Ausgänge der Switch Chips von Pfaden belegt werden, und es wird 

versucht, jeden Ausgang gleich häufig zu verwenden, um im späteren Betrieb 

den Datendurchsatz im Netz zu optimieren. Nach Aufstellung der Routing-Tabelle 

ist in den einzelnen Rechenknoten ein Auszug der Tabelleneinträge des 

Routing-Verfahrens gespeichert. 

5.2.6 Kommunikationsoftware 

Für den Programmierer der SP2 werden alle gängigen parallelen Programmierumgebungen 

und Kommunikationsbibliotheken angeboten, die auf 

Botschaftenaustausch basieren: PVMe, Express, FORGE90, PARMACS, Linda 

und MPI. Gemeinsame Variablen werden nicht unterstützt. Als Programmiersprachen 

mit verschiedenen Interprozessorkommunikationsmöglichkeiten 

sind das IBM eigene XL FORTRAN mit PVM und MPI sowie High Performance 

FORTRAN (HPF) vorhanden. Insgesamt wird nur ein Kommunikationsmodell 

und keine hardwareunterstützen Synchronisationsmechanismen angeboten. 

Unter der Ablaufumgebung für parallele Programme (AIX Parallel Environment) 

ist der Zugriff auf andere Prozessoren mit Hilfe der IBM-eigenen 

Message Passing-Bibliothek MPL/p (EUI-h) erlaubt. Diese Bibliothek ermöglicht 

direkten Benutzerzugriff auf das Netz ohne Betriebssystemaufrufe (User 

Calls) sowie Interprozeßkommunikation mit Multicast- und inversen Multicast- 

Funktionen (gather/scatter), die vergleichbar mit den Funktionen der PVM 

Message Passing-Bibliothek sind. Als Beispiel für EUI-h ist in Bild 5.20 das 

272

nicht blockierende Senden dargestellt. 

C TASK1: 

CALL MP_SEND(BUF1, NBYTES, DEST, TYPE1, MSGID1) 

C Hier kann weiter gerechnet werden 

C Waehrenddessen ist BUF1 fuer diese Task gesperrt 

C Jetzt ist Task1 soweit, dass sie wieder auf BUF1 

C zugreifen moechte. 

CALL MP_WAIT(MSGID1, NBYTES) 

C Task1 hat hier solange gewartet, bis BUF1 

C uebertragen wurde 

C TASK 2: 

CALL MP_RECV(BUF2, NBYTES, SRC,TYPE1, MSGID2) 

C Hier kann weiter gerechnet werden 

C Jetzt moechte Task2 auf die neuen Daten zugreifen 

CALL MP_WAIT(MSGID2, NBYTES) 

C Ab hier stehen die Daten zur Verfuegung 

Bild 5.20: Nichblockierendes Senden über EUI/h. 

5.2.7 Ergebnisse 

In Tabelle 5.5 ist die Kommunikationsleistung der Maschine [Kuzela95], gemessen 

am ping pong-Test [Hockney91] sowie ihre Rechenleistung [Agerwala95] 

gemessen an der LINPACK-Anwendung aufgelistet. (Die Werte beziehen 

sich auf die EUI-h Message Passing Library). In der Tabelle sind die 

maximal nutzbare Bandbreite r ∞ , die Zahl der Bytes, bei denen r ∞ /2 erreicht 

wird und die Start-up-Zeit angegeben.Trotz der um den Faktor 3 geringeren 

unidirektionalen Bandbreite der SP2 gegenüber der Cray T3D und der um den 

Faktor 27 größeren Hardware-Latenzzeit ist diese Maschine nach einem von 

der Fa. IBM durchgeführten LINPACK-Rechentest [Agerwala95] bei 64 Prozessoren 

genau gleich effizient wie die Cray T3D (jeweils ca. 70%). 

Ping-Pong-Kommunikationstest: 

r∞ [MB/s] 

n 1/2 [B] 

Start Up 

unidirek. (P1 zu P2) 

35 von 40 

1400 

40 µs 

bidirektional P1 mit P2 

48 von 80 

1870 

39 µs 

LINPACK-Rechentest (64 Prozessoren): 

SP2 

12,1 GFLOPS von 17 

Cray T3D 

6,4 GFLOPS von 9.6 

Tabelle 5.5: Kommunikations- und Rechenleistung der SP2 (thick nodes) nach [Kuzela95] 

und [Agerwala95]. 

273

5.3 Das Verbindungsnetzwerk der Convex 

SPP 1000/ SPP 1200 


Der Vektorrechnerhersteller Convex hat mit seiner Exemplar-Serie einen Umschwung 

der Firmenpolitik eingeleitet. Traditionell wurden Cray-kompatible 

Systeme in CMOS Gate Array-Technologie hergestellt; bei der Exemplar kommen 

erstmals Standard-Mikroprozessoren zusammen mit einem innovativen 

Verbindungsnetzwerk zum Einsatz. Mit dem Nachfragerückgang für massivparallele 

System wurde die Fa. Convex von HP übernommen. 


Die CONVEX Exemplar SPP 1000 bzw. das verbesserte Modell SPP 1200 sind 

Parallelrechner mit verteiltem gemeinsamen Speicher, basierend auf virtuellen 

Speicheradressen (Distributed Shared Virtual Memory) [Convex93]. Die Exemplar 

besteht aus max. 128 Prozessoren vom Typ Hewlett Packard PA 7100 

(bzw. PA 7200 bei der SPP 1200), die je 200 MFLOPS leisten, woraus sich eine 

Gesamtrechenleistung von 25 GFLOPS ergibt. (Mit dem HP PA 8000 Prozessor, 

der ca. 1 GFLOPS/s leistet, wird der Nachfolger der SPP 1200, die SPP 

2000, über bis zu 128 GFLOPS Rechenleistung verfügen). Insgesamt lassen 

sich in der SPP 1000/SPP 1200 bis zu 256 MB Hauptspeicher pro Prozessor installieren, 

so daß die größte Maschine über 32 GB RAM verfügt. Die Datenrate 

des Verbindungsnetzwerks für den Transfer zwischen den sog. Hyperknoten, 

aus denen die CONVEX-Maschinen aufgebaut sind, beträgt 600 MByte/s 

[Convex94b]. Es wird unidirektional übertragen. 

5.3.3 Aufbau 

Die CONVEX Exemplar ist aus rechnerarchitektonischer Sicht in drei Ebenen 

gegliedert, die als Knoten-, Hyperknoten- und Parallelrechnerebene bezeichnet 

werden. Auf der Parallelrechnerebene können bis zu 16 Hyperknoten zu einem 

Rechner mittlerer Leistungsklasse, inklusive Peripherie und Bedienrechner 

zusammengeschaltet werden. Jeder Hyperknoten wiederum besteht aus 4 Rechenknoten 

zu je zwei HP-Prozessoren. 

Als Verbindungstopologie wird auf der Parallelrechnerebene eine 2-dimensionale 

Gitterstruktur der maximalen Größe 4x16 verwendet. Jede Gitterzeile in 

der Verbindungsstruktur repräsentiert einen Hyperknoten. In Bild 5.21 sind die 

bis zu 4x16=64 Rechenknoten (=128 Prozessoren) der Exemplar symbolisch 

dargestellt. Zur Kennzeichnung der Rechenknoten ist in diesem Bild die Notation 

der Matrizenschreibweise verwendet. 

274

1.1 

1.2 1.3 1.4 

I/O 

2.1 2.2 2.3 2.4 

. 

. 

. 

. 

. 

. 

16.1 16.2 16.3 16.4 

. 

. 

. 

. 

. 

. 

I/O 

. 

. 

. 

I/O 

Bild 5.21: Schematischer Aufbau einer Exemplar. 

Bei der Exemplar ist die Gitterstruktur in x-Richtung anders als in y-Richtung 

aufgebaut. Innerhalb eines Hyperknotens, d.h. in x-Richtung, werden Kreuzschienenverteiler 

als Koppelelemente verwendet, während zwischen den Hyperknoten 

(y-Richtung) Ringe eingesetzt werden [Convex94b]. Jeder Ring 

stellt eine CONVEX-eigene Implementierung des SCI-Standards IEEE 1596 

[IEEE92] in Gallium-Arsenid-Technologie dar. Hyperknoten aus der SPP1200 

können mit den Hyperknoten anderer SPP 1200- und SPP 1000-Maschinen gekoppelt 

werden, um daraus einen größere Parallelrechner aufzubauen, da die 

SCI-Schnittstellen identisch sind. Die SPP 2000 arbeitet jedoch mit höherer Datenrate, 

was für deren größere Rechenleistung erforderlich ist, aber Inkompatibilität 

an den Schnittstellen bedeutet. 

5.3.4 Gemeinsamer Speicher 

Die CONVEX Exemplar weist von allen existierenden kommerziellen Parallelrechnern 

die innovativste Architektur auf. Kennzeichen dieser Architektur ist 

es, daß es einen systemweiten, Cache-kohärenten, gemeinsamen Speicher gibt, 

dessen Konsistenz sowohl im Hyperknoten als auch zwischen den Hyperknoten 

automatisch aufrecht erhalten wird. 

Innerhalb des Hyperknotens sorgt ein CONVEX-eigenes Gatearray für Cache-Konsistenz, 

während die Konsistenz zwischen den Hyperknoten mit Hilfe 

der einzelnen Scalable Coherent Interfaces (SCIs) gesichert wird, die direkten 

Zugriff auf die Prozessorbusse haben. Zusätzlich können über die SCI-Ringe 

auch Botschaften für Message Passing ausgetauscht werden. 

Zum Erhalt des gemeinsamen Speichers werden nicht die Speicherseiten, die 

von den Speicherverwaltungseinheiten (MMUs) der Prozessoren adressiert 

werden, über das Netz transportiert, sondern die SCI-Ringe tauschen die wesentlich 

kleineren Cache-Zeilen der Prozessoren aus. Jeder Knoten verwaltet 

dabei seinen Lokalspeicher und Cache als eine Teilmenge des gemeinsamen 

Adreßraums. 

275

5.3.5 SCI-Ringe 

Alle SCI-Ringanschlüsse, die von CONVEX als Coherent Toroidal Interface 

(CTI) bezeichnet werden, sind mit einem Kommunikations-Cache, dem sog. 

CTI-Cache, ausgerüstet, der alle gültigen Cache-Zeilen aller Prozessoren eines 

Hyperknoten enthält und so zur schnellen Abwicklung der Inter-Hyperknotenkommunikation 

beiträgt. Ist eine Cache-Zeile nicht im CTI-Cache eines 

Ringanschlusses enthalten, dauert es 3μs, die Cache-Zeile in Form eines Dattenpakets 

aus einem anderen Hyperknoten zu holen. Innerhalb des Hyperknotens 

kann eine Cache-Zeile im Falle eines "Cache Miss" in 0,5μs zum betreffenden 

Prozessor transportiert werden. 

Auf den SCI-Ringen der Exemplar werden in y-Richtung Cache-Zeilen von 

64 Byte Länge in Form von Datenpaketen transportiert. Fällt einer oder mehrere 

Ringe aus, kann die Exemplar nach einem Systemneustart mit anschließender 

Umkonfigurierung bei eingeschränkter Leistungsfähigkeit weiter betrieben 

werden, solange noch mindestens ein Ring intakt bleibt. Die Geschwindigkeit 

der SCI-Ringe übertrifft mit 600 MB/s pro Ring die Netzwerke der Intel Paragon 

(175 MB/s) und der Cray T3D (300 MB/s). Diese sind jedoch für bidirektionalen 

Betrieb ausgelegt, während auf dem CONVEX-Ring auch Daten in 

Rückrichtung im selben Umlaufsinn übertragen werden müssen. 

5.3.6 Hyperknotenebene 

Auf der Hyperknotenebene sind jeweils vier Rechenknoten á zwei Prozessoren 

zu einer funktionalen Einheit, dem Hyperknoten, zusammengefaßt (Bild 5.22). 

Alle acht Prozessoren eines Hyperknotens und das dazu gehörende Verbindungsnetzwerk 

sind physikalisch auf derselben Platine untergebracht, so 

daß der kleinste CONVEX-Parallelrechner aus einer einzigen gedruckten 

Schaltung besteht. Größere Modelle umfassen bis zu 16 Platinen, die über SCI- 

Verbindungen mit Hilfe von Koaxkabeln gekoppelt werden. Exemplar-Maschinen 

sind deshalb nicht in x- sondern nur in y-Richtung skalierbar. 

SCI 1 

SCI 2 

SCI 3 

SCI 4 

Rechen 

knoten 1 

Rechen 

knoten 2 

Rechen 

knoten 3 

Rechen 

knoten 4 

5 x 5 Kreuzschienenverteiler 

Peripherie 

Geräte 

Bild 5.22: Aufbau eines Hyperknotens. 

276

Das Verbindungsnetz innerhalb eines Hyperknotens ist ein 5x5-Kreuzschienenverteiler, 

der die Knoten sowohl untereinander als auch mit der Peripherie 

koppelt. Als Peripherie gelten hierbei Plattenlaufwerke, die für die UNIX-Betriebssysteme 

der Knoten notwendig sind, aber auch andere periphere Geräte, 

wie ein lokales Netzwerk (Ethernet, ATM) und digitale Ein-/Ausgabegeräte 

können hier angeschlossen werden. Gegenüber einem zentralen Bus bietet der 

Kreuzschienenverteiler erhebliche Bandbreitevorteile, da alle fünf Ports gleichzeitig 

Daten senden und empfangen können. 

Die in einem Hyperknoten zur Verfügung stehenden SCI-Schnittstellen erlauben, 

vier SCI-Ringe pro Exemplar-Rechner in y-Richtung aufzubauen. Um 

die Übertragungsbandbreite zu erhöhen, können sich die Ringe den Transport 

adreßmäßig aufeinanderfolgender Speicherblöcke aufteilen (Address Interleaving). 

Da die Speicher in Bänken zu je 64 Bytes organisiert sind, werden auch 

auf je einem CTI Blöcke zu je 64 Byte übertragen [Convex94a]. 

5.3.7 Netzwerkanschlüsse und Rechenknoten 

In Bild 5.23 ist der Aufbau eines Rechenknotens dargestellt. Auf der Knotenebene 

sind je zwei Prozessoren über zwei spezielle CONVEX Gatearrays an einen 

lokalen Knotenspeicher angeschlossen. Die Verwaltung des gemeinsamen 

Speichers, den Zugriff auf fremde Lokalspeicher und die Aufrechterhaltung der 

Cachekonsistenz wird von diesen integrierten Schaltkreisen vorgenommen. Sie 

werden als "CONVEX Agent Chip" und "CONVEX Coherent Memory and Cache 

Controller" Chip (CMCC) bezeichnet. Die SCI-Schnittstelle basiert auf einem 

Gallium-Arsenid-Schaltkreis, der in Kooperation mit der Fa. Dolphin entwickelt 

wurde und der seinerzeit die weltweit erste Hardware-Implementierung 

das relativ komplizierten SCI-Protokolls darstellte. In der SCI-Schnittstelle 

werden Cache-Zeilen in Datenpakete verpackt, die Adressen der auf dem Ring 

umlaufenden Pakete dekodiert, Prüfsummen berechnet und bei Übertragungsfehlern 

Pakete erneut gesendet (Retransmission). 

MEM CPU CPU 

SCI 

CCMC 

Agent 

zum SCI 

Ring 

zum Kreuz= 


Bild 5.23: Aufbau eines Rechenknotens. 

277

Jeder Knoten ist ein eigenständiger Rechner mit MACH Mikro Kernel, auf dem 

das HP-UX Betriebssystem, eine UNIX-Variante, läuft. Zur Unterstützung der 

Betriebsprogramme trägt wesentlich der Agent-Baustein bei, der für die Arbitrierung 

der beiden Knotenprozessoren beim Speicherzugriff und beim Zugriff 

auf den gemeinsamen Kreuzschienenverteiler sorgt. Die für das UNIX Betriebssystem 

unerläßlichen Festplattenzugriffe der Rechenknoten werden über 

den Agent Chip und den Kreuzschienenverteiler abgewickelt. 

5.3.8 Kommunikations- und Programmiermodelle 

Trotz der Heterogenität der Verbindungsnetzwerke in x- und y-Richtung existiert 

ein einheitliches, von der Richtung unabhängiges Programmiermodell, 

das wahlweise auf Botschaftenaustausch oder gemeinsamen Variablen basiert. 

Darüberhinaus können auch hybride Programmiermodelle, wie gemeinsamer 

Speicher in den Hyperknoten und Botschaftenaustausch zwischen den Hyperknoten 

verwendet werden. Auch die umgekehrte Reihenfolge ist möglich, um 

dem Benutzer volle Flexibilität zu ermöglichen. 

Weiterhin gibt es zur schnellen Prozeßsynchronisation eine Barrierenfunktion, 

die von Anwenderprogrammen aus aufrufbar ist und mit deren Hilfe die 

Beendigung einer parallelen Schleife beispielsweise effizient detektierbar ist. 

Ebenso sind unteilbare fetch&increment-Operationen implementiert, die für 

Semaphoren notwendig sind. Insgesamt können von der Exemplar drei verschiedene, 

atomare Semaphoroperationen zur Unterstützung der parallelen Programmierung 

ausgeführt werden: 

• fetch&clear (Liest den Wert einer Variablen und setzt ihn anschließend auf 

Null) 

• fetch&increment (Liest den Wert einer Variablen und erhöht ihn um Eins) 

• fetch&decrement (Liest den Wert und erniedrigt ihn um Eins) 

Semaphorvariablen müssen aus dem Cache entfernt werden (sog. Cache Flush), 

bevor eine Operation auf sie angewandt wird, um sicherzustellen, daß jede 

Semaphore ein Unikat ohne Kopien ist. Dazu ist die betreffende Semaphorvariable 

in ein CPU-Register unter Umgehung des Cache zu lesen. Dies 

leistet der Spezialbefehl "fetch", der eine Variable aus dem globalen Adreßraum 

ohne Cache-Intervention in ein CPU-Register lädt, in dem sie anschließend 

modifiziert werden kann. In gleicher Weise arbeiten die drei oben dargestellten 

Semaphor-Befehle. Mit Hilfe der Semaphoroperationen sind in der 

Exemplar binäre Verriegelungen (Locks), Barriensynchronisation (Barriers), 

multiple Schreibe/Lese-Synchronisationen sowie die Synchronisation gemeinsamer 

Listen implementiert, die von mehreren Prozessoren verwaltet werden. 

Da die beschriebenen höheren Programmierfunktionen, die dem Benutzer 

transparent zur Verfügung stehen, in Software realisiert sind, erhöht sich der 

Verkehr auf dem Verbindungsnetzwerk um die dazu notwendigen Kernel- 

Kommunikationen. 

Zur Kompatibilität mit Programmen, die für HP-Arbeitsplatzrechner geschrieben 

wurden, und zur Vereinfachung der Portierung vorhandener sequen- 

278

tieller Codes steht das "Application Binary Interface" zur Verfügung, ein Betriebssystemprogramm, 

das Workstation Code während der Programmausführung 

interpretiert und in CONVEX-Betriebssystemaufrufe sowie CPU- 

Befehle umsetzt. Damit können alle HP-Applikationen auch auf einem (einzelnen) 

Exemplar-Prozessor ausgeführt werden. 

Im Gegensatz zu anderen Parallelrechnern wie der Cray T3D beispielsweise 

wird von CONVEX sowohl virtuelle Speicheradressierung als auch ein Multiuser/Multiprogramming-Betrieb 

unterstützt. Bei jeder Migration einer Seite mit 

virtueller Adressierung von der Festplatte zum Prozeß eines parallelen Benutzerprogramms 

wird eine Kontextumschaltung vorgenommen, und die CPU bearbeitet 

währenddessen einen Prozeß einer anderen Anwendung. Insgesamt 

kann die ganze Maschine dynamisch, d.h. während der Laufzeit paralleler Programme 

unter verschiedenen Benutzern bzw. deren Prozessen aufgeteilt werden, 

um so eine bessere Rechnerauslastung zu erzielen. 

5.4 Das Verbindungsnetzwerk der Hitachi SR 

2001/SR 2201 


Die Hitachi SR 2001 [Takeda95] ist ein kanalgekoppelter, botschaftenorientierter 

Parallelrechner auf Basis der Hewlett Packard PA 7100 RISC-Prozessoren. 

Die Maschine besteht aus 8 - 128 Prozessoren, die in Lizenz von Hitachi 

gefertigt werden und von denen jeder bei 90 MHz Taktfrequenz ca. 180 

MFLOPS leistet, so daß sich daraus eine maximale Rechenleistung von 23 

GFLOPS ergibt. Jeder Prozessor hat bis zu 256 MB an Hauptspeicher, wodurch 

bis zu 32 GB Arbeitsspeicher zur Verfügung stehen. Die Datentransferrate beträgt 

100 MB/s pro Richtung zwischen zwei beliebigen Prozessoren im Netz. 

Es wird bidirektional übertragen. Die Halbierungsbandbreite einer 128 Prozessor-Maschine 

der Konfiguration 4*4*8 beträgt an der engsten Stelle 1,6 GB/s. 

Die summierte Datenrate für den Fall, daß alle Netzwerkanschlüsse senden 

(Durchsatz), beträgt 100 MB/s*128 = 12,8 GB/s. Die Software-Latenzzeit zwischen 

zwei Knoten ist 10 das Nachfolgemodell, die SR2201 [Otani95], sind in 

Tabelle 5.6 im Vergleich zur SR 2001 aufgelistet. 

Insgesamt bietet die SR 2201 eine Größenordnung mehr an Leistung und Speicherplatz 

als die SR2001. Sie ist in dieser Hinsicht mit einer Cray T3D oder einer 

großen Intel Paragon vergleichbar. Bei der SR 2201 existieren im Vergleich 

zur SR 2001 zusätzliche Fehlertoleranzfunktionen, die aufgrund der wesentlich 

größeren Prozessorzahl notwendig wurden. So ist es lt. Hitachi möglich, fehlerhafte 

Prozessoren leicht zu tauschen und Netzwerkfehler zu kompensieren. 

279

Rechnertyp SR 2001 SR 2201 

Prozessortyp HP PA 7100 HP PA 7200 

Leistung/Prozessor [MFLOPS] 180 300 

Maximalzahl der Prozessoren 128 1024 

max. additive Rechenleistung [GFLOPS] 23 300 

max. Hauptspeicher/Prozessor [MB] 256 256 

max. Hauptspeicher [GB] 32 256 

Halbierungsbandbreite (512 Proz.) [GB/s] 1,6 19,2 

summierter Durchsatz [GB/s] 12,8 300 

Netzzykluszeit [ns] 10 3,3 

Tabelle 5.6: Leistungsdaten von SR 2001 und SR 2201. 

5.4.2 Aufbau 

Ähnlich wie bei einer CONVEX Exemplar bestehen die Hitachi-Rechner aus 

einer Mischung von statischer und dynamischer Netztopologie. Mehrere dynamische 

Netze werden zu einem übergeordneten statischen Netz zusammengeschaltet. 

Als dynamische Netze werden Kreuzschienenverteiler der Größe 

8x8 eingesetzt. Bis zu 32 (bei SR 2201 bis zu 256) Kreuzschienenverteiler bilden 

ein 3-dimensionales, statisches Gitter. Die Hybridtopologie wird von Hitachi 

als "3-D Crossbar" bezeichnet. In Bild 5.24 ist das Netz der SR 2001/2201 

und ihre Architektur dargestellt. 

Im Rechner gibt es drei Gruppen von Knoten, die für die Aufgaben Rechnen, 

Ein-/Ausgabe und Systemverwaltung zuständig sind. Die Ein-/Ausgabeknoten 

(IO Units) sowie der Systemverwaltungsknoten (Supervisory Unit) unterscheiden 

sich von den Rechenknoten (Processing Units) hinsichtlich ihrer Peripherie 

sowie einer speziellen Zusatz-Hardware im Systemverwaltungsknoten. 

Die Kommunikation zwischen zwei Prozessoren erfolgt im 3-D Gitter nach 

dem x-y-z-Routing-Schema. Der Übergang zwischen den Dimensionen findet 

in den Knoten statt. 

Da innerhalb eines Kreuzschienenverteilers alle Knoten in einem Schritt erreichbar 

sind und das Gitter drei Raumrichtungen aufweist, ist die maximale 

Entfernung in der Maschine ebenfalls gleich drei, was einen sehr kleinen Wert 

darstellt. Bei der Cray T3D beispielsweise sind bis zu 16 Schritte nötig. Zudem 

ist die Prozessordistanz unabhängig von der Zahl der Prozessoren, die pro 

Crossbar angeschlossen sind. Dies ist eine der Vorteile der sog. TICNET-Topologie 

[Giloi89], mit der der 3D-Crossbar auch bezeichnet wird. 

Die hybride Topologie des 3D-Crossbars weist dann einen Nachteil auf, 

wenn zu viele Prozessoren an einen Kreuzschienenverteiler angeschlossen werden, 

da die Komplexität und damit auch die Kosten eines Crossbars mit O(k 2 ) 

280

. . . 

. . . 

. . . 

. . . 

. . . 

. . . 

Ethernet, HIPPI, 

FDDI, SCSI-2 

x 

y 

z 

System 

Console 

Bild 5.24: Das 3-dimensionale Verbindungsnetzwerk der SR 2001/SR 2201 [Takeda95]. 

ansteigen (k = Zahl der Crossbar-Ein-/Ausgänge). Allerdings läßt sich dieses 

Problem dadurch lösen, daß man höherdimensionale Gitter verwendet, weil 

dann bei gegebener Prozessorzahl N die Zahl k der benötigten Anschlüsse pro 

Crossbar abnimmt. 

5.4.3 Rechenknoten 

Processing Unit 

I/O & Processing Unit 

Supervisory Unit 

Der Aufbau eines Knotens und die Position der Netzwerkschnittstelle innerhalb 

des Knotens ist in Bild 5.25 dargestellt. Zur Netzschnittstelle zählen der sog. 

Exchanger und der Network Interface Adapter (NIA). 

In jedem Knoten bildet ein Netzwerk Interface Adapter eine DMA-fähige 

Schnittstelle zwischen dem Prozessorbus und dem Exchanger, der den Kontakt 

zum Netz herstellt und der beim Routing im Netz den Übergang zwischen den 

Raumrichtungen bewerkstelligt. Darüberhinaus sind die Exchanger dafür verantwortlich, 

bei Übereinstimmung einer Datenpaketadresse mit der jeweiligen 

Knotennummer das Paket dem Netz zu entnehmen und zum NIA weiterzuleiten. 

Jeder Exchanger besteht intern aus einem kleinen Kreuzschienenverteiler 

der Größe 4x4 und einem Adreßdekoder. 

Die "Storage Control Unit" ist im wesentlichen eine konventionelle Speicherverwaltungeinheit 

(MMU) mit Adreßgenerierung zur Auffrischung der dynamischen 

Speicher. Die Elemente "Local Storage" und "IO" sind ebenfalls 

Standardkomponenten. 

281

y 

x 

EX 

z 

IP 

NIA 

SCU 

LS 

EX: Exchanger 

NIA: Network Interface Adapter 

IP: Instruction Processor 

SCU: Storage Control Unit 

LS: Local Storage 

IO: Input Output Device 

IO 1 

IO 2 

Bild 5.25: Die Position der Netzwerkschnittstelle im Rechenknoten [Takeda95]. 

5.4.4 Eigenschaften des Netzes 

Das Verbindungsnetzwerk der Hitachi-Maschinen hat neben seiner 

Datenübertragungsfähigkeit fünf weitere Funktionen, die die parallele Programmierung 

unterstützen und zur Effizienzerhöhung bei der Programmausführung 

beitragen. Diese Eigenschaften sind die relative Blockierungsfreiheit 

bei der Datenübertragung, die Partitionierbarkeit des Netzwerks, 

der Multicast, die Barrierensynchronisation und das sog. Signalling. 

Relative Blockierungsfreiheit 

Im Gegensatz zum 3-dimensionalen Gitter der T3D oder zum 2-D Gitter der 

CONVEX können bei den Hitachi-Maschinen alle Prozessoren bei wesentlich 

geringerer Blockierwahrscheinlichkeit Daten austauschen, da nicht Busse oder 

Ringe sondern blockierungsfreie Kreuzschienenverteiler als Netzelemente verwendet 

werden. In Bild 5.26 ist ein Beispiel für eine simultane Kommunikation 

mehrerer Prozessoren gezeigt. 

EX1 

PU1 

EX4 

PU4 

EX2 

PU2 

EX3 

PU3 

Bild 5.26: Blockierungsfreier Transfer (PU = Processing Unit, EX = Exchanger). 

282

In Bild 5.26 findet eine Kommunikation nach dem Muster 

PU1->PU2->PU3->PU4->PU1 statt. Alternativ zu dieser Übertragung können 

auch Daten in Rückrichtung blockierungsfrei transferiert werden (gestrichelt 

dargestellt). Bei der hybriden Topologie der Hitachi-Rechner treten dann Blokkierungen 

im Netz auf, wenn die Exchanger gleichzeitig sowohl von einem Datenpaket 

zum Dimensionswechsel als auch von einem an den Exchanger angeschlossenen 

Netzknoten benötigt werden. 

Partitionierbarkeit 

Eine SR 2001 läßt sich logisch in vier (die SR 2201 in acht) voneinander getrennte 

Blöcke zerlegen, die sich gegenseitig nicht beeinflussen können. Die 

Zerlegung wird mit Hilfe von hardware-mäßigen Zusatzeinrichtungen bewerkstelligt, 

die dafür sorgen, daß neben Datenpaketen auch Broadcast und Signalling 

die Blockgrenzen nicht überschreiten. Zusätzlich zur Hardware-Partitionierung 

der Maschine gibt es noch eine Software-Partionierung in Form einer 

Betriebssystemfunktion, die die Blöcke bzgl. der Datenpakete voneinander abschottet. 

Die Synchronisationsfunktionen bleiben davon unberührt. 

Die Partitionierung dient zur besseren Auslastung der Maschine, da gleichzeitig 

mehrere Benutzern damit arbeiten können. Im Vergleich zur Exemplar 

erfolgt hier jedoch ein statische Allokation von Prozessoren zu Benutzern. 

Multicast und Barrierensynchronisation 

Bei der der SR2001/2201 wird anders als bei der IBM SP2 beispielsweise die 

Multicast-Funktion per Hardware unterstützt. Schnelle Multicasts sind zum 

Versenden gemeinsamer Datenblöcke sowie zum gleichzeitigen Starten und 

Stoppen von Prozessen außerordentlich nützlich. 

Das zweite Synchronisationsmittel stellt die Barrierensynchronisation dar, 

die wie bei der Cray in Hardware implementiert ist. Sie wird hier nicht in einem 

separaten Netzwerk ausgeführt, sondern gehört zum 3-D Crossbar. Ebenfalls 

anders als bei der Cray sind 4 und nicht log2N Schritte nötig, um eine Synchronisaton 

durchzuführen; die Zahl der Schritte ist unabhängig von der Größe des 

Rechners. Bei der Ausführung der Synchronisationsfunktion wird zuerst festgestellt, 

wann die Prozessoren einer bestimmten Partition ihre Prozesse beendet 

haben, und danach wird dieser Zustand per Multicast den Prozessoren mitgeteilt. 

Die Synchronisation kann deshalb in zwei Phasen unterteilt werden: 

In der ersten Phase werden im 1. Schritt die Fertigmeldungen der beteiligten 

Prozessoren von den Kreuzschienenverteilern der x-Richtung eingesammelt. 

Sobald alle Meldungen eingetroffen sind, wird von diesen Kreuzschienenverteilern 

ein Signal gesetzt. Im 2. Schritt werden die Signale aller x-Crossbars einer 

Ebene von den y-Crossbars gelesen und mittels einer UND-Verknüpfung 

das Summensignal gebildet. Dazu würde im Prinzip ein einziger y-Kreuzschienenverteiler 

genügen, es wird jedoch dieselbe Operation von allen y-Crossbars 

einer Ebene durchgeführt, um die Ausführung der 2. Phase zu beschleunigen. 

283

Im dritten Schritt schließlich, werden die y-Crossbar-Signale aller Ebenen von 

allen z- Kreuzschienenverteilern ausgewertet, was ebenfalls redundant ist, den 

anschließenden Multicast aber schneller ablaufen läßt. 

Nachdem alle z-Crossbars simultan festgestellt haben, daß die Prozesse einer 

Partition terminiert sind, wird dies in der zweiten Phase den Prozessoren mitgeteilt. 

Der Multicast kann jetzt in einem einzigen Schritt erfolgen, weil jeder Prozessor 

an einen z-Kreuzschienenverteiler angeschlossen ist und weil alle z- 

Kreuzschienenverteiler denselben Informationsstand haben. 

In Bild 5.27 ist als Beispiel der Fall gezeigt, wie in der x-y-Ebene eine Barriensynchronisation 

zwischen vier Rechenknoten einer Partition abläuft. 

y-Cross= 

bar 1 

y-Cross= 

bar 2 

EX1 

PU1 

PU4 

EX4 

x-Crossbar 1 

EX2 

PU2 

PU3 

EX3 

x-Crossbar 2 

Bild 5.27: Beispiel für Barrierensynchronisation (PU = Processing Unit, EX = Exchanger). 

Die x-Crossbar 1 und 2 führen ihr Summensignal gleichzeitig an die y-Crossbars 

1 und 2, die in einem Schritt alle 4 Prozessoren von der gemeinsamen Terminierung 

unterrichten. 

DMA und Signalling 

Die Netzwerkadapter haben die Aufgabe, DMA-Transfers und das sog. Signalling 

durchzuführen. Sie übermitteln prozessorunabhängig Daten zwischen 

den Lokalspeichern verschiedener Rechenknoten. Allerdings etablieren sie dabei 

nicht einen verteilten, gemeinsamen Adreßraum, wie bei einer Cray T3D, 

sondern transferieren nur Botschaften im Auftrag des Prozessors. 

Unter Signalling wird von Hitachi der direkte Datentransfer von Benutzeradreßbereich 

zu Benutzeradreßbereich verstanden, unter Umgehung von 

Zwischenkopien in Systempuffern. Diese Methode ist analog zum Datentransfer, 

wie er beispielsweise bei Transputern durchgeführt wird [May93]. 

In traditionellen Lösungen wird in Parallelrechnern zur Interprozessorkommunikation 

aus Speicherschutzgründen der Umweg über das Betriebssystem 

gewählt. Dabei wird zuerst, durch einen Betriebssystemaufruf angestoßen, 

der zu sendende Datenblock in einen Systempuffer kopiert, von wo aus die 

Daten vom Netzwerkanschluß per DMA übertragen werden. Derselbe Vorgang 

wiederholt sich beim Empfänger in umgekehrter Reihenfolge. Die Latenzzeit 

284

ist bei dieser Methode um 2 Kopieroperationen pro Datenblock höher als notwendig. 

Da das Umkopieren der Blöcke vom Sende- bzw. Empfangsknoten und 

nicht von einer DMA-Einheit gemacht wird, sind die Latenzzeiten relativ groß. 

Sie werden zusätzlich dadurch erhöht, daß das Software-gesteuerte Kopieren 

periodisch von den Zeitscheiben anderer Prozesse durch den Scheduler unterbrochen 

wird. 

Bei Hitachi wird die Interprozessorkommunikation so ausgeführt, daß für jeden 

Botschaftenaustausch neben einem Zeiger auf den zu übertragenden Block, 

einer Längenangabe und der Adresse des Empfangsprozessors noch ein zweiter 

Zeiger mitgeliefert wird, der auf einen Pufferbereich im Empfänger hinweist. 

Beim Senden wird der Benutzerpuffer von der Speicherverwaltung des Senders 

in den Adreßbereich des Gerätetreibers eingeblendet und dieser kann von dort 

aus die Daten per DMA übertragen. Beim Empfangen wird umgekehrt der Datenblock 

von der DMA-Einheit unmittelbar an die angegebene Stelle im Empfangsprozeß 

geladen. Laut Hitachi ist dabei Speicherschutz gewährleistet. 

Nach Ablauf des DMA-Transfers wird von der DMA-Einheit des Empfängers 

ein Bit gesetzt, das die empfangende Anwendung abfragen kann. Alternativ 

kann sich der Empfangsprozeß auch durch einen Software Interrupt aufwekken 

lassen, um die Daten weiter zu verarbeiten. 

Der Vergleich mit Transputern zeigt, daß bei diesen die Bitabfrage bzw. die 

durch den Interrupt verursachte Kontextumschaltung eingespart wird, indem 

der Empfangsprozeß bis zum Erhalt der Daten aus der Liste der rechenbereiten 

Prozesse entfernt und danach automatisch vom Netzwerk-Interface wieder eingetragen 

wird. Dazu muß bei jedem Nachrichtentransfer ein Zeiger auf den Empfangsprozeß 

mitgesendet werden (Process ID), um die Liste der rechenbereiten 

Prozesse des Empfangsprozessors modifizieren zu können. 

5.4.5 Programmierumgebung 

Bei den Hitachi-Maschinen wird das HI-UX/MPP Betriebssystem verwendet, 

das Mach 3.0-basierend ist. Für den Benutzer wird die Sichtweise eines einzigen 

UNIX-Systems, bestehend aus einem Dateisystem, einer Prozessverwaltung 

und einer Netzwerksteuerung simuliert (Single System Image). Die Message 

Passing-Bibliothek Express steht dem Programmierer zusammen mit 

PVM, MPI sowie einer Bibliothek zur Matrizenmanipulation, Fouriertransformation 

und zur Lösung linearer Gleichungssysteme zur Verfügung. Als Sprachen 

können HPF, C, C++, FORTRAN 77 und FORTRAN 90 verwendet werden. 

Typische MPI-Funktionen umfassen synchrone und asynchrone Punkt-zu- 

Punkt-Kommunikationen, wie MPI_SEND, MPI_RECV, benutzerdefinierte 

Datentypen und deren gepackte Formatierung, Barrierensynchronisation und 

Multicast, sowie Reduktionsoperatoren. 

285

5.5 Das Verbindungsnetzwerk der Fujitsu VPP 

500 

5.5.1 Leistungsdaten 

Die VPP 500, in der größten Ausbaustufe einer der schnellsten Rechner der 

Welt, ist ein System mit verteiltem gemeinsamen Speicher bestehend aus 7-222 

Vektor-Superrechnern [Miura93]. Jeder Vektor-Rechenknoten enthält als Skalareinheit 

einen RISC-Prozessor mit 300 MIPS Festkomma- und 200 MFLOPS 

Gleitkommarechenleistung sowie eine Vektoreinheit mit 1,6 GFLOPS Vektor- 

Rechenleistung. Die größte Maschine hat 44 GFLOPS Skalar- und 355 

GFLOPS Vektorleistung. Jeder Rechenknoten kann mit einem Speicher von 

maximal 256 MB ausgerüstet werden, so daß sich 55 GB an Gesamtspeicher ergeben. 

Zusätzlich steht ein externer Halbleiterspeicher von 32 GB zur Verfügung. 

Die Daten werden zwischen den Lokalspeichern über ein blockierungsfreies 

Verbindungsnetzwerk mit 400 MB/s pro Kanal bidirektional übertragen. 

Die bislang größte realisierte VPP 500 besteht aus 140 Vektor-Superrechnern 

und wird in Japan anstelle eines Windkanals eingesetzt (numerischer Windkanal). 

5.5.2 Aufbau 

Zentrales Element einer VPP 500 ist ein speziell ausgeführter Kreuzschienenverteiler, 

an den die Vektor-Rechenknoten (Processing Units) sowie zwei Steuerrechner 

(Control Processors) und ein Bedienrechner (Global System Processor) 

angeschlossen sind. Die summierte Sendebandbreite aller Vektor- 

Rechenknoten beträgt 89 GB/s, die vom Verbindungsnetz blockierungsfrei und 

mit geringer Latenz transportiert werden können. Die verwendete Technologie 

ist BiCMOS und GaAs. Der Aufbau der VPP 500 ist in Bild 5.28 dargestellt. 

FDDI, 

HIPPI, 

Ethernet 

GSP 

SSU 

Platten= 

laufwerke 

CP 

CP 

224x224 

"Kreuzschienenverteiler" 

PE0 PE1 . . . PE221 

GSP = Global System Processor 

SSU = Secondary Storage Unit 

CP = Control Processor 

PE = Processing Element 

Bild 5.28: Aufbau der VPP 500 nach [Utsumi94]. 

286

Der Bedienrechner ist neben seiner Funktion als Operatorkonsole für die Anbindung 

der Peripherie zuständig und enthält einen 32 GB großen Arbeitsspeicher 

(Secondary Storage Unit), auf den alle Rechenknoten (PEs) über die 

Steuerrechner (CPs) zugreifen können. Die Steuerrechner sind für die Handhabung 

und Überwachung der einzelnen Rechenknoten zuständig und aus Zuverlässigkeitsgründen 

doppelt ausgeführt. 

Jede VPP 500 läßt sich aus Anwendersicht in Einheiten von 1-222 Rechenknoten 

partitionieren. Die Partitionierung, die auf statischer Basis vorgenommen 

werden muß, wird vom Kreuzschienenverteiler Hardware-mäßig realisiert. 

Durch die Aufteilung der Rechenknoten können die Ressourcen der Maschine 

besser den Erfordernissen der Benutzer angepaßt werden. Eine vom Verbindungsnetzwerk 

getrennte Schaltungseinrichtung stellt eine Barrierensynchronisation 

innerhalb jeder Partition zur Verfügung. Synchronisationen 

können gleichzeitig und unabhängig voneinander in den verschiedenen Partitionen 

durchgeführt werden. 

5.5.3 Rechenknoten 

Die Rechenknoten der VPP 500 bestehen aus einem Netzwerkanschluß, der als 

Datentransfereineinheit (DTU) bezeichnet wird, einer Speichereinheit sowie 

dem skalaren und vektoriellen Prozessor. Der Aufbau der Rechenknoten ist in 

Bild 5.29 zu sehen. Die Datentransfereinheit überträgt bidirektional mit 400 

vom/zum Netzwerk 

Datentransfereinheit 

Hauptspeichereinheit 

Skalar= 

einheit 

Vektor= 

einheit 

Bild 5.29: Die Rechenknoten der VPP 500 [Utsumi94]. 

MB/s pro Richtung zwischen dem Kreuzschienenverteiler und der Hauptspeichereinheit, 

die aus Systemsicht als Lokalspeicher ausgelegt ist. Ein Lokalspeicher 

hat mit 12,8 GB/s genügend Bandbreite, um den gleichzeitigen Zugriff von 

Datentransfer-, Skalar- und Vektoreinheit zu befriedigen. Er ist dazu in 32 Bänke 

organisiert. Jeder Benutzerprozeß kann direkt nur seinen eigenen Lokalspeicher 

adressieren. Der globale Adreßraum wird dadurch etabliert, daß der VPP 

FORTRAN Compiler und sein Laufzeitsystem zusätzlichen Code erzeugen, der 

287

ein Lesen und Schreiben entfernter Lokalspeicher ermöglicht. Die Codeerzeugung 

läuft für den Benutzer transparent ab, so daß er den Eindruck eines 

verteilten gemeinsamen Speichers erhält. Das Programmiermodell ist primär 

auf gemeinsamen Variablen basierend, aber über PVM ist auch Botschaftenaustausch 

möglich. 

5.5.4 Datentransfereinheit 

Aus der Sicht des Verbindungsnetzwerks ist das wichtigste Element, das in den 

Rechenknoten installiert ist, die Datentransfereinheit, die für die Anbindung 

von Skalar- und Vektoreinheit an das Netzwerk sorgt. Die DTU ist sowohl für 

eine einfache Umsetzung der von den Recheneinheiten ausgegebenen Adressen 

in globale Hauptspeicheradressen zuständig als auch für den prozessorunabhängigen 

Datentransport per DMA. 

Ein Benutzerprozeß, der einen nicht-lokalen Speicher adressiert, bewirkt implizit 

über das Laufzeitsystem eine Aktion der Datentransfereinheit, die aus der 

gewünschten Speicheradresse ein Datenpaket mit der Adresse als Inhalt generiert, 

das über das Netz zum Ziel geschickt wird. Die empfangende DTU verarbeitet 

das Paket autonom, d.h. ohne Unterstützung des dortigen Laufsystems 

des Prozessors. Handelt es sich um einen Schreibzugriff, wird das zu schreibende 

Speicherwort zurückgeschickt und von der empfangenden DTU in den eigenen 

Lokalspeicher geschrieben. Bei einem Lesezugriff wird das gewünschte 

Wort als Paket verpackt übertragen und von der empfangenden DTU dem Benutzerprozeß 

zur Verfügung gestellt. Der Datentransfer und die Abarbeitung 

der parallelen Anwendung kann simultan erfolgen. 

Jede DTU wird aus einer Warteschlange mit Eingabedaten versorgt, die im 

Lokalspeicher des jeweiligen Rechenknoten angelegt ist und in der die zu sendenden 

Datenblöcke enthalten sind. Bevor ein Block übertragen wird, legt die 

DTU einen Paketzähler im Speicher an, der den Wert Null erreicht, sobald alle 

Daten des Blocks übertragen sind. Der Stand des Paketzählers kann sowohl 

vom FORTRAN-Laufzeitsystem als auch von der Benutzeranwendung abgefragt 

werden (Polling), um so das Ende des Transfers festzustellen. Der Zähler 

wird von der DTU per Hardware dekrementiert. Insgesamt leistet die DTU die 

in Tabelle 5.7 aufgelisteten Transferraten, die zwischen zwei Benutzerprozessen 

verschiedener Rechenknoten bei einer Blockgröße 16 KB erreicht werden. 

read/write Durchsatz [MB/s] n 1/2 [KB] Start Up-Zeit [μs] 

read 363 von 400 1,3 4,3 

write 364 von 400 1,2 3,6 

Tabelle 5.7: Transferrate zwischen Benutzerprozessen nach [Nodomi94]. 

288

5.5.5 Verbindungsnetzwerk 

Das Verbindungsnetzwerk der VPP 500 besteht aus einem Kreuzschienenverteiler 

der Maximalgröße 224x224, der aufgrund seiner O(N 2 )-Komplexität 

(N = Zahl der Ein-/Ausgänge) auf eine spezielle Art und Weise realisiert wurde. 

Bei traditionellen Implementierungen eines Kreuzschienenverteilers in Form 

von Ein-/Ausschaltern wären im Maximalausbau der VPP 500 insgesamt 50176 

Schalter (= 224 2 ) notwendig, die die Daten bidirektional mit 400 MB/s übertragen; 

eine technologisch schwer zu realisierende Lösung. Anstelle dessen hat 

Fujitsu den 224x224-Kreuzschienenverteiler in acht kleinere Kreuzschienenverteiler 

der Größe 112 x 56 zerlegt und diese mit Hilfe von 224 zwei-zu-eins 

Demultiplexern zusammengeschaltet. Zwar ergibt sich daraus ein insgesamt 

größerer Hardware-Aufwand, da die Demultiplexer zusätzlich anfallen, aber 

das Netz ist aus Teilen geringerer Komplexität und damit besserer Beherrschbarkeit 

aufgebaut. Das Netz einer 222-Prozessor VPP 500 kann in nur 32 Platinen 

untergebracht werden. Fujitsu hat dazu zwei verschiedene Platinentypen, 

XB1 und XB2 genannt, entwickelt, die jeweils einen Kreuzschienenverteiler 

der Größe 112x56 beinhalten. Die XB1-Platine beherbergt zusätzlich einen 

2-zu-1 Multiplexer für 112 Ein- und 56 Ausgänge. Die Datenpfade von XB1 

und XB2 sind 8 Bit breit, so daß bei 32 Bit breiten Kanälen, über die im Koppelnetz 

übertragen wird, jeweils ein Satz von 4 Platinen eines Typs erforderlich 

ist. 

Das Blockschaltbild von XB1 und XB2 ist in Bild 5.30 dargestellt. Die Maximalkonfiguration 

von XB1 und XB2-Platinen, die einen Kreuzschienenverteiler 

der Größe 224x224 ergibt, ist in Bild 5.31 gezeigt. Kleinere Konfigurationen 

der VPP 500 benötigen entsprechend weniger Kreuzschienenverteiler, 

wobei die Abstufung in Schritten gemäß Tabelle 5.8 erfolgt. In dieser Tabelle 

sind zusätzlich die Zahl der für das Netz benötigten Platinen sowie ihr Anteil an 

der Gesamtzahl aller Platinen im Rechner aufgelistet. 

112 x 

56 

56 x 

2->1 

112 x 

56 

a) b) 

Bild 5.30: Die Crossbar-Platinen XB1 (a) und XB2 (b) der VPP 500. 

Trotz der O( )-Komplexität des verwendeten Netzwerkes ist sein Anteil am 

gesamten Rechner moderat ausgefallen, was der Integration der Komponenten 

in Silizium zu verdanken ist. 

N 2 

289

PE 0-55 

PE 56-111 

PE 112-167 

PE 167-223 

E 

i 

n 

g 

ä 

n 

g 

e 

112 x 

56 

112 x 

56 

112 x 

56 

112 x 

56 

112 x 

56 

112 x 

56 

112 x 

56 

112 x 

56 

XB1 

56 x 

2->1 

XB2 

XB1 

56 x 

2->1 

XB2 

XB1 

56 x 

2->1 

XB2 

XB1 

56 x 

2->1 

XB2 

PE 0-55 

PE 56-111 

PE 112-167 

PE 167-223 

A 

u 

s 

g 

ä 

n 

g 

e 

Bild 5.31: Das Verbindungsnetzwerk der VPP 500. 

Zahl der Prozessoren Zahl der Netzplatinen Anteil am Rechner 

4-32 1 1/33 

33-56 4 1/15 

57-112 8 1/15 

113-168 24 1/8 

169-222 32 1/8 

Tabelle 5.8: Größen des Verbindungsnetzwerks und ihr Anteil am Gesamtrechner nach 

[Utsumi94]. 

290

Verbindungsnetzwerke für parallel und verteilte Systeme.pdf

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?