3 Arbeitsspeicher- und Bussysteme

3 Arbeitsspeicher- und Bussysteme 

C 

C3.1 Speicher- und Bushierarchien 211 

H. Hellwagner C06 hellwagner 5 fm5 24.4.1997, 14.44 

6.1 Speicher- und Bushierarchien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 

6.2 Caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 

6.2.1 Funktion von Caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 

6.2.2 Cache-Typen und Anordnung im Rechensystem . . . . . . . . . . . . . . . . . . . 168 

6.2.3 Adressierung von Caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 

6.2.4 Organisationsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 

6.2.5 Aktualisierungsstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 

6.2.6 Ersetzungsstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 

6.2.7 Leistungsbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 

6.3 Hauptspeicher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 

6.3.1 Speicherbausteine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 

6.3.2 Grundlegender Speicheraufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 

6.3.3 Speicherverschränkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 

6.3.4 Weitere Maßnahmen zur Leistungssteigerung des Speichers . . . . . . . . . . 176 

6.4 Bussysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 

6.4.1 Grundlagen von Bussen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 

6.4.2 Merkmale von Bussen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 

6.4.3 Busfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 

6.4.4 Realisierung von Bussen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 

6.4.5 Maßnahmen zur Leistungssteigerung von Bussen . . . . . . . . . . . . . . . . . . 180 

6.4.6 Gebräuchliche Bussysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 

Allgemeine Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 

Spezielle Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 

3.1 Speicher- und Bushierarchien 

Neben dem Prozessor sind in einem Rechner das Speichersystem und die Verbindungsstrukturen, 

über die der Prozessor mit den Zusatzkomponenten sowie den peripheren Geräten 

und Rechnernetzen kommuniziert, von großer Bedeutung, da sie Leistung und Kosten 

in hohem Maße mitbestimmen. Das Ideal eines einheitlichen Speichers mit 

ausreichender Kapazität und so kurzer Zugriffszeit, daß der Prozessor daraus schritthaltend 

zu seiner Verarbeitungsgeschwindigkeit mit Befehlen und Daten versorgt werden 

kann, ist aus technischen und wirtschaftlichen Gründen nicht zu verwirklichen. 

Abhilfe schafft in modernen Rechensystemen eine mehrstufige Speicherhierarchie, in der 

jede Stufe kleiner, schneller und pro Byte teurer als die nächste Stufe ist. Sie reicht von 

kleinen, schnellen Register- und Pufferspeichern (caches) nahe dem Prozessor über den 

Hauptspeicher bis zu langsamen Hintergrundspeichern großer Kapazität. Bild 1 zeigt an 

einer beispielhaften Rechnerkonfiguration die extern zum Prozessor angeordneten Speicher 

(Register und Primär-Cache sind als prozessorinterne Komponenten nicht dargestellt); 

Bild 2 gibt typische Hierarchiestufen, Zugriffszeiten und Speicherkapazitäten an. 

C3

212 C3 Arbeitsspeicher- und Bussysteme 

Prozessor 

Sekundär- 

Cache 

Bussteuerung 

Hauptspeicher 

Prozessor-/ 

Speicherbus 

E/A- 

Steuerung 

Busbrücke 

Bild 1 Beispiel für Speicher- und Bushierarchien in einem Rechensystem 

Jeder Speicher der Hierarchie enthält stets einen aktuellen Ausschnitt des größeren Speichers 

der nächsten Stufe (Inklusionseigenschaft). Die Einlagerung von Daten in prozessornahe 

Speicher wird durch die Zugriffe des Prozessors veranlaßt und durch Hardware 

(von Hauptspeicher in Caches und Register) oder Software (von Hintergrund- in Hauptspeicher) 

durchgeführt. Durch die bekannte Programmeigenschaft der räumlichen und 

zeitlichen Lokalität von Referenzen auf Befehle und Daten [Denning 68] erfolgt der 

weitaus überwiegende Teil der Speicherzugriffe des Prozessors auf die schnelleren Speicher. 

Für den Prozessor entsteht dadurch der Eindruck, das Speichersystem habe eine 

mittlere Zugriffszeit im Bereich der Cache-Zugriffszeiten, verfüge jedoch über eine wesentlich 

höhere Kapazität. 

Ebenfalls aus Leistungs- und Kostenüberlegungen werden hierarchische Bussysteme eingesetzt. 

Ein Bus ist ein gemeinsamer Datenweg (mit zugehöriger Steuerlogik), an den 

mehrere Funktionseinheiten angeschlossen sein können, den aber zu jedem Zeitpunkt nur 

eine Einheit zur Übermittlung von Adressen, Daten oder Anweisungen nutzen kann. Ein 

Bus ist eine kostengünstige und daher die gebräuchlichste Verbindungsstruktur in konventionellen 

Rechensystemen, stellt aber durch die gemeinsame Nutzung bei vielen Teilnehmern 

einen möglichen Engpaß dar. 

Speicher 

Zugriffszeit 

(bei Prozessortakt von 5 ns) 

Speicherkapazität 

Prozessorregister < 5 ns 256 - 1024 Bytes 

Primär-Cache (prozessorintern) 5 - 20 ns 1 - 128 KBytes 

Sekundär-Cache (prozessorextern) 10 - 100 ns 256 kB - 4 MBytes 

Hauptspeicher 50 - 500 ns bis 1 GByte 

Hintergrundspeicher (Magnetplatten) 5 - 15 ms bis 100 GBytes 

Archivspeicher (Magnetbänder, opt. Platten) >> 50 ms bis mehrere TBytes 

Bild 2 Speicherhierarchie mit typischen Eigenschaften 

Langsame periphere Geräte 

(z.B. Magnetbänder) 

Peripheriebus 

Systembus 

E/A- 

Schnittstelle 

Schnelle Peripherie 

(z.B. Magnetplatten) 

und Netzwerke 

Wie im Beispiel von Bild 1 gezeigt, werden daher auf den verschiedenen Ebenen eines 

Rechners verschiedene Busse verwendet, mit spezifisch für den Einsatzbereich zuge-

C3.2 Caches 213 

schnittenen Eigenschaften. Typische Hierarchiestufen, geordnet nach abnehmenden Datenübertragungsraten 

und Kosten der Busse, sind: 

• Prozessorinterne Busse zur Verbindung von Leit- und Rechenwerken, Registern, 

Primär-Caches und Schnittstelle zum externen Bus auf dem Prozessorbaustein. 

• Prozessorbus zur engen Kopplung des Sekundär-Caches und gegebenenfalls von Koprozessoren 

an den Hauptprozessor. 

• Prozessor-/Speicherbus für die schnelle Datenübertragung zwischen Prozessor(en) 

und Speicher. Dieser wird auch als lokaler Bus bezeichnet. 

• Systembus zum Anschluß von peripheren Geräten mit hoher Datenrate (z. B. Grafikeinheiten) 

und von Peripheriebussen, für den Zugang zu schnellen Rechnernetzen oder 

für die Kopplung mehrerer Prozessoren. Eine Variante sind sog. Rückwandbusse 

(backplane busses), die häufig genormt und so ausgeführt sind, daß ein System in modularer 

Weise aus Komponenten verschiedener Hersteller aufgebaut werden kann. 

• Peripherie- oder E/A-Bus, der weitere periphere Geräte zusammenfaßt und sie mit dem 

Systembus verbindet. 

• Zusatzbusse wie ein Interrupt- oder ein Nachrichtenbus, über die zwischen mehreren 

eigenständigen Prozessoren Unterbrechungen oder Nachrichten vermittelt werden. 

Diese Hierarchie und Terminologie sind in der Literatur und in Produkten nicht einheitlich. 

In Arbeitsplatzrechnern und Personal-Computern sind aus Kostengründen meist nur 

ein Prozessor-/Speicherbus und ein Peripheriebus zu finden. Funktionen von Systembussen 

werden zunehmend zum Prozessor-/Speicherbus verlagert, so daß schnelle Peripherie 

enger an Prozessor und Hauptspeicher gekoppelt ist. 

3.2 Caches 

3.2.1 Funktion von Caches 

Ein Cache ist ein schneller Pufferspeicher (wörtlich: Depot, Versteck) zwischen Prozessorregistern 

und Hauptspeicher. Darin sind die Programmteile und Daten, die während 

einer Programmausführung aktuell sind, als Kopien abgelegt und für den Prozessor 

schnell zugänglich. Bei jedem Zugriff des Prozessors auf ein Speicherwort überprüft die 

Steuerlogik des Caches an Hand der anliegenden Adresse, ob das Wort im Cache vorliegt 

oder nicht. Im Falle eines Treffers (hit) wird das Wort unmittelbar aus dem Cache in den 

Prozessor geladen bzw. im Cache verändert, möglichst mit der Zykluszeit des Prozessors. 

Bei einem Fehlzugriff (miss) wird aus dem Hauptspeicher ein Block von Worten in den 

Cache übertragen und daraus das angeforderte Wort dem Prozessor zur Verfügung gestellt 

bzw. darin modifiziert. Hauptspeicher und Cache sind also in Blöcken organisiert; man 

spricht von Cache-Blöcken oder Cache-Zeilen (cache blocks oder cache lines). 

Wegen der hohen Geschwindigkeitsanforderungen werden Caches durch Hardware verwaltet. 

Programmierer, Übersetzer und Betriebssystem haben Caches vorwiegend unter 

dem Gesichtspunkt ihrer effizienten Nutzung und der dadurch erreichbaren Leistungssteigerung 

zu beachten. Das heißt, Programme sind im Hauptspeicher so abzulegen und im 

Mehrprozeßbetrieb so auszuführen, daß möglichst viele ihrer Code- und Datenanteile mit 

Blockzugriffen vorausgreifend in den Cache geladen (read ahead) und darin möglichst 

lange gehalten und wiederverwendet werden können (reuse). Für Situationen, in denen 

Caching die Korrektheit der Programmausführung gefährdet, stehen der Software spezi- 

C3


elle Befehle zur Kontrolle der Cache-Inhalte zur Verfügung (siehe z. B. 3.2.3 Adressierung 

von Caches) 

3.2.2 Cache-Typen und Anordnung im Rechensystem 

Primär-Caches (first-level caches) sind heute Bestandteil aller modernen Mikroprozessorbausteine 

und meist getrennt als zwei Caches zur Speicherung von Befehlen und von 

Daten ausgeführt (split cache). Primär-Caches sind auf dem Prozessor-Chip integriert. Sie 

sind deshalb schnell, aber auch teuer und in ihrer Kapazität auf einige Dutzend KBytes 

beschränkt (siehe z. B. Bild 2). Cache-Zeilen sind im allgemeinen nicht länger als 32 

Bytes und damit in wenigen Zyklen nachladbar. 

Sekundär-Caches (second-level caches) werden gegenwärtig überwiegend außerhalb des 

Prozessors mit SRAM-Bausteinen realisiert (siehe Unterabschnitt 3.3.1). Dadurch unterliegen 

sie keinen engen Kapazitätsbeschränkungen und können einige MBytes groß gebaut 

werden. Bedingt durch die SRAM-Geschwindigkeiten dauert ein Zugriff aber einige 

bis einige Dutzend Takte (Bild 2). In Sekundär-Caches werden Befehle und Daten meist 

gemeinsam gespeichert (unified cache) und längere Blöcke als bei Primär-Caches verwendet, 

bis zu 128 Bytes. Dies dient dem Zweck, bei den unumgänglichen, langsamen 

Hauptspeicherzugriffen viele Worte schon vorausgreifend in den Cache einzulagern. 

Viele heute gängige Mikroprozessoren haben bereits die Steuerlogik für den Sekundär- 

Cache mit auf dem Chip integriert. Nun gehen erste Hersteller dazu über, den Sekundär- 

Cache selbst auf dem Prozessorbaustein zu realisieren (Beispiel: DEC Alpha 21164, 96 

KBytes) bzw. mittels spezieller Aufbautechnik sehr eng an diesen zu koppeln (Beispiel: 

Intel Pentium Pro, bis zu 512 KBytes im gleichen Gehäuse). In diesen Fällen, aber auch 

sonst bei kleinen Caches zweiter Stufe, ist es für den Aufbau von Hochleistungssystemen 

sinnvoll, einen Tertiär-Cache (third-level cache) vorzusehen. 

3.2.3 Adressierung von Caches 

Caches werden danach unterschieden, ob der Prozessor darauf mit virtuellen oder realen 

(physischen) Adressen zugreift (Verweise auf Bode und Borrmann). 

Ein großer Vorteil von sog. virtuellen Caches besteht darin, daß sie schneller sind: Cache- 

Zugriff und Adreßübersetzung durch die Speicherverwaltungseinheit (MMU; Verweis auf 

Bode) können nebenläufig stattfinden. Virtuelle Caches haben allerdings bei Mehrprozeßbetrieb 

einige Nachteile: 

• Dieselbe virtuelle Adresse kann (in verschiedenen Prozessen) auf unterschiedliche 

Speicherbereiche verweisen. Eine Lösung für dieses Problem liegt darin, daß das Betriebssystem 

bei jedem Prozeßwechsel den Cache-Inhalt mittels eines speziellen Maschinenbefehls 

löscht (cache flush). 

• Unterschiedliche virtuelle Adressen können (im Falle gemeinsamer Variablen) dieselbe 

Speicherstelle bezeichnen (address aliasing). Dadurch kann dieselbe Variable an 

mehreren Stellen im Cache gespeichert sein. Wird einer der Einträge modifiziert, ist 

Dateninkonsistenz die Folge. Es liegt daher nahe, gemeinsame Daten von einer Speicherung 

im Cache auszuschließen (non-cacheable zu setzen). 

• Werden Daten z. B. bei einem Eingabevorgang von einem DMA-Werk (Verweis auf 

Bode) im (real adressierten) Hauptspeicher verändert, sind deren gegebenenfalls im 

Cache existierende Kopien veraltet; wieder liegt eine Dateninkonsistenz vor. Im Falle 

eines virtuellen Caches besteht keine Möglichkeit, diese gezielt aufzuheben, da dazu 

die virtuelle Adresse aus der Hauptspeicheradresse rückermittelt werden müßte.


Virtuelle Adressierung wird aus diesen Überlegungen überwiegend bei prozessorinternen 

Befehls-Caches eingesetzt. 

Bei sog. physischen Caches muß erst der Vorgang der Adreßumsetzung abgewartet 

werden, bis das Vorliegen des referenzierten Wortes im Cache an Hand der realen Adresse 

geprüft werden kann. Allerdings sind physische Caches bezüglich der Dateninkonsistenz 

wesentlich günstiger. Beispielsweise kann eine DMA-Einheit für die Konsistenz zwischen 

Haupt- und Cache-Speicher sorgen, da beide real adressiert sind. Ebenso kann in 

einem Multiprozessorsystem die Kohärenz mehrerer Caches sichergestellt werden (Verweis 

auf Volkert). Reale Adressierung ist daher meist bei prozessorexternen Caches vorzufinden. 

3.2.4 Organisationsformen 

Die Organisationsform eines Caches legt fest, in welchem Cache-Block ein Hauptspeicherblock 

abgelegt wird (Plazierungsproblem; mapping problem) und wie ein gewünschter 

Block im Cache aufzufinden ist (Identifikationsproblem; identification problem). 

Drei Organisationsformen sind gebräuchlich: direkte Abbildung (direct mapped), voll assoziative 

Abbildung (fully associative) und n-fach assoziative Abbildung (n-way set associative 

cache). Bild 3 verdeutlicht für diese Möglichkeiten beispielhaft, wo ein Hauptspeicherblock 

im Cache gespeichert werden kann. 

Blocknummern 

0 

1 

2 

3 

4 

5 

6 

7 

Direkte 

Abbildung 

Vollassoziative 

Abbildung 

0 

1 

2 

3 

4 

5 

6 

7 

Caches 

2-fach assoziative 

Abbildung 

0 

1 

Satz 0 

2 

3 

Satz 1 

4 

5 

Satz 2 

6 

Satz 3 

7 

Bild 3 Plazierung eines Hauptspeicherblocks für die drei Cache-Organisationsformen 

. . . . . 

. . . . . 

Hauptspeicher 

In einem direkt abbildenden Cache mit einer Kapazität von N Blöcken wird ein Hauptspeicherblock 

B im Cache-Block B mod N gespeichert. In einem voll assoziativen Cache 

kann ein Hauptspeicherblock in jede Cache-Zeile übernommen werden. Ein n-fach assoziativer 

Cache ist in M = N/n sog. Sätze (sets) mit jeweils n Blöcken untergliedert; Block 

B kann im Satz B mod M in jeder der darin enthaltenen n Cache-Zeilen abgelegt werden. 

Damit ist die n-fach assoziative Abbildung die allgemeine Organisationsform, die mit 

n=N (nur ein Satz) zur vollassoziativen und mit n=1 (M=N Sätze) zur direkten (auch: einfach 

assoziativen) Form wird. 

Jeder Cache-Zeile ist eine große Anzahl von Hauptspeicherblöcken zugeordnet, d.h., es 

können verschiedene Hauptspeicherblöcke in einer Cache-Zeile gespeichert werden. 

Daher wird ein Mechanismus benötigt, der einen Hauptspeicherblock eindeutig kennzeichnet 

und seine Identifikation im Cache erlaubt. Dies wird im weiteren für den allgemeinen 

Fall eines n-fach assoziativen Caches erläutert. 

13 

14 

15 

16 

17 

18 

C3


a 

b 

c 

2 

Satz 0 

Kennung (tag) V D Daten 

Blockadresse 

Kennung (tag) Index 

1 

63 

31 

Kennung (tag) 

Offset 

0 

Kennung (tag) Index Byte 1 

22 

6 4 

3 

V Daten (16 Bytes) 

4 

K ≥1 Treffer 

K 

K ... Komparator 

Bild 4 Identifikation eines Blocks in einem zweifach assoziativen Cache. 

a Inhalt einer Cache-Zeile; b Aufbau der Adresse; c schematische Darstellung der Adressierung 

Bild 4 a zeigt, daß für jeden Hauptspeicherblock im Cache neben der eigentlichen Dateninformation 

und einigen Verwaltungsbits eine Kennung (tag) gehalten wird. Das Gültigkeitsbit 

V (valid bit) sagt aus, ob diese Zeile überhaupt aktuelle Daten enthält. Die Kennung 

wird der an den Cache angelegten Adresse entnommen. Bild 4 b verdeutlicht dazu 

die Interpretation einer Adresse. Sie ist unterteilt in eine Blockadresse und einen Offset, 

der das gewünschte Datum (z. B. Byte) innerhalb des Blocks anwählt. Die Blockadresse 

setzt sich zusammen aus der Kennung, das sind die zur eindeutigen Identifikation des 

Blocks erforderlichen höchstwertigen Adreßbits, und dem sog. Index. Dieser selektiert bei 

einem Cache-Zugriff den Satz, in dem der gewünschte Block plaziert sein kann. Daraufhin 

wird die in der angelegten Adresse vorhandene Kennung mit allen im Satz gespeicherten 

Kennungen assoziativ verglichen, um das Vorhandensein oder Fehlen des gewünschten 

Blocks im Cache zu erkennen. Bild 4 c veranschaulicht die Schritte dieses 

Adressierungsvorgangs für einen zweifach assoziativen Cache mit 128 Blöcken (64 

Sätze) der Größe 16 Bytes. Schritt 1 bezeichnet die Adreßinterpretation, Schritt 2 die Satzanwahl, 

Schritt 3 das Auslesen und die Vergleiche der Kennungen, was nur für gültige 

Cache-Einträge nötig und sinnvoll ist. In Schritt 4 schließlich wird das Zugriffsergebnis 

ermittelt und an den Prozessor geleitet. Die Ansteuerung der richtigen Cache-Zeile und 

das Auslesen bzw. Verändern des gewünschten Datenbytes oder -wortes sind der Übersichtlichkeit 

halber nicht gezeigt. 

Für einen n-fach assoziativen Cache werden n Vergleicher (Komparatoren) benötigt. Ein 

direkt abbildender Cache erfordert daher mit nur einem Vergleicher den geringsten Hardware-Aufwand, 

da für jeden Speicherblock die aufnehmende Cache-Zeile eindeutig feststeht. 

Dies führt aber zu dem Problem, daß schon zwei Blöcke, die auf dieselbe Cache-


Zeile abgebildet werden, bei gleichzeitiger Nutzung einander aus dem Cache verdrängen. 

Häufiges Umladen der Inhalte ist die Folge; die Wirksamkeit des Caches sinkt. Abhilfe 

schaffen größere Caches, weil bei ihnen die Wahrscheinlichkeit solcher Konfliktsituationen 

geringer ist. Das Problem wird aber auch mit steigendem Assoziativitätsgrad entschärft, 

da für jeden Block die Anzahl der in Frage kommenden Cache-Zeilen steigt. Vollassoziative 

Caches sind also am effektivsten, aber sehr teuer und langsamer als direkt 

abbildende Caches. Heute werden Caches mit Assoziativitätsgrad 2, 4 oder 8 bevorzugt. 

Sie bieten einen guten Kompromiß zwischen Realisierungsaufwand, Geschwindigkeit 

und Wirksamkeit. 

3.2.5 Aktualisierungsstrategie 

Wenn Daten in einem Cache verändert werden, stellt sich das Problem, wie und wann der 

korrespondierende Hauptspeicherinhalt aktualisiert und so Konsistenz zwischen Cache 

und Hauptspeicher hergestellt wird (Datenkonsistenzproblem; consistency problem). 

Zwei grundsätzliche Strategien existieren: Durchschreiben (write through) und Zurückschreiben 

(write back, copy back). Durchschreiben bedeutet, daß jede Änderung im 

Cache sofort auch im Hauptspeicher vollzogen wird. Damit ist jederzeit Datenkonsistenz 

gegeben. Das ist in einem Mehrprozessorsystem und bei autonomen Ein-/Ausgabeeinheiten 

von Vorteil, führt aber zu einer hohen Belastung des Prozessor-/Speicherbusses. 

Primär-Caches arbeiten in der Regel nach diesem Prinzip. Zurückschreiben vermeidet 

diesen Nachteil, indem Änderungen zunächst auf den Cache beschränkt bleiben. Sie 

werden erst dann auch im Hauptspeicher durchgeführt, wenn ein beschriebener Block aus 

dem Cache verdrängt wird oder ein Zugriff eines anderen Prozessors oder eine Ausgabeoperation 

die Aktualisierung veranlaßt (Verweis auf Volkert und 3.2.3). Um bei dieser 

Strategie das Zurückschreiben nicht modifizierter Blöcke zu vermeiden, wird in jeder 

Cache-Zeile ein Modifikationsbit D (dirty bit) mitgeführt (Bild 4). Sekundär-Caches verwenden 

häufig Zurückschreiben. 

3.2.6 Ersetzungsstrategie 

Die Ersetzungsstrategie bestimmt beim Laden eines neuen Speicherblocks in den Cache, 

welche Cache-Zeile überschrieben wird, wenn keine in Frage kommende Zeile mehr frei 

ist (Ersetzungsproblem; replacement problem). 

Bei einem direkt abbildenden Cache stellt sich diese Frage nicht: Der zu verdrängende 

Block ist eindeutig bestimmt. Bei den assoziativen Cache-Speichern sind verschiedene 

Strategien möglich. Die beiden gebräuchlisten sind eine LRU-Strategie (least recently 

used) und ein (pseudo-)zufälliges Auswahlverfahren (random). 

Beim Ersetzen nach dem LRU-Prinzip wird jener Block ausgewählt, auf den am längsten 

nicht mehr zugegriffen wurde. Dazu wird in den Verwaltungsbits der Cache-Zeilen eine 

Alterungsinformation gespeichert und bei jedem Zugriff fortgeschrieben. 

Sehr geringen Hardware-Aufwand verursacht eine Ersetzungsstrategie auf Basis eines 

Pseudozufallsgenerators. Sie liefert auch überraschend gute Ergebnisse [Smith 82], da in 

jedem Satz die zu verdrängenden Blöcke gleichverteilt ausgewählt werden, unter denen 

mit einiger Wahrscheinlichkeit auch nicht mehr benötigte Blöcke sind. 

3.2.7 Leistungsbetrachtungen 

Caches sollen die mittlere Speicherzugriffszeit eines Prozessors minimieren. Ihr Entwurf 

und ihre effiziente Implementierung sind hochkomplexe Aufgaben. Aus der Fülle der Li- 

C3


teratur zu Entwurf und Leistung von Caches seien hier nur [Smith 82] und [Przybylski 90] 

herausgegriffen. In der allgemeinen Literatur sind die Leistungsaspekte systematisch und 

umfassend dargestellt. 

Leistungsbetrachtungen zu Caches können sich an folgender Formel für die mittlere 

(auch: effektive) Speicherzugriffszeit Te für eine zweistufige Arbeitsspeicherhierarchie 

(Cache und Hauptspeicher) orientieren: 

Te = h⋅Th + m⋅Tm (1) 

Dabei bezeichnen h und m = 1−h die Treffer- bzw. Fehlzugriffsraten im Cache (hit rate, 

miss rate), Th die Cache-Zugriffszeit (hit time) und Tm die Cache-Ladezeit (miss time). 

Die mittlere Speicherzugriffszeit Te kann somit durch die im weiteren beschriebenen drei 

Maßnahmen reduziert werden. Optimierung an einer Größe bewirkt dabei aber meist eine 

Verschlechterung einer oder der beiden anderen. Es gilt, einen guten Kompromiß zwischen 

den Einflußfaktoren zu finden. 

Reduktion der Fehlzugriffsrate m. Dies gelingt durch Vergrößerung des Caches oder 

höheren Assoziativitätsgrad. Beides macht ihn teurer und erhöht auch, wie erwähnt, die 

Zugriffszeit Th. Größere Blöcke sind eine weitere Möglichkeit, da sie verstärkt räumliche 

Lokalität nutzen; dadurch wird aber die Nachladezeit Tm erhöht. In assoziativen Caches 

kann auch eine verbesserte Ersetzungsstrategie Vorteile ergeben. Speziell für direkt abbildende 

Caches wurde jüngst der Einsatz eines kleinen „Neben“-Caches (engl. victim 

cache) vorgeschlagen: In ihnen werden die zuletzt verdrängten Blöcke zwischengespeichert, 

so daß der erneute Zugriff auf sie viel schneller ist, als wenn sie im Hauptspeicher 

wären. Eine weitere wirksame Technik ist explizites vorausgreifendes Laden (prefetching) 

von Blöcken in den Cache. Dies kann durch Hardware erfolgen oder durch spezielle 

Befehle durch den Übersetzer veranlaßt werden. 

Reduktion der Cache-Zugriffszeit Th. Die Zugriffszeit zu einem Primär-Cache im Falle 

eines Treffers ist heute vielfach entscheidend für die Prozessortaktrate; bei einem Sekundär-Cache 

bestimmt sie die Anzahl der Wartezyklen für den Prozessor. Kurze Zugriffszeiten 

erhält man bei kleinen und einfach organisierten Caches, was der ersten Optimierung 

zuwiderläuft. Einen zusätzlichen Vorteil bieten hier direkt abbildende Caches, 

da sich die Vergleiche der Kennungen (tags) und Anwahl und Übertragung der gewünschten 

Daten überlappen können. 

Reduktion der Cache-Ladezeit Tm . Bereits angesprochen wurde die Möglichkeit, bei 

einem Fehlzugriff nicht direkt auf den Hauptspeicher zugreifen zu müssen, sondern einen 

Sekundär-Cache zwischenzuschalten. In diesem Fall ergibt sich Tm selbst gemäß einer zu 

(1) analogen Formel. In den letzten Jahren wurden zur Unterstützung schneller Prozessoren 

aufwendige sog. nichtblockierende Caches eingeführt (non-blocking caches). Sie 

ermöglichen mehrere ausstehende Speicherzugriffe und können bei Treffern Daten an den 

Prozessor liefern, selbst wenn das Nachladen eines Blocks im Gange ist. Schließlich ist 

Tm maßgeblich durch die Geschwindigkeit des Prozessor-/Speicherbusses und des Hauptspeichers 

bestimmt. Maßnahmen zur Leistungssteigerung dieser Komponenten und zur 

Abstimmung mit den Caches werden in den folgenden Abschnitten besprochen. 

3.3 Hauptspeicher 

In diesem Abschnitt werden Komponenten und Organisationsformen des Hauptspeichers 

moderner Rechensysteme behandelt. Der Hauptspeicher ist ein großer, flüchtiger Halbleiterspeicher 

mit wahlfreiem Zugriff und Lese- und Schreibmöglichkeit (random access 

memory, RAM), in dem Programme und Daten von Benutzern und Betriebssystem wäh-

C3.3 Hauptspeicher 219 

rend der Ausführung gehalten werden. Daneben kommen in heutigen Rechnern nichtflüchtige 

Halbleiterspeicher zum Einsatz, auf die nur oder vorwiegend lesend zugegriffen 

wird. Sie dienen zum Beispiel dazu, System-, Mikro- oder sonstige Steuerprogramme, 

Funktionstabellen oder Geräteinformation zu speichern. Auf diese ROM-Speicher (read 

only memory) und ihre programmierbaren und auch beschreibbaren Varianten (read 

mostly memory) wird hier nicht eingegangen. 

Die Strukturierung des Arbeitsspeichers in Segmente und Seiten, Adressierung und 

Adreßübersetzung sowie die Prinzipien des virtuellen Speichers bilden ein Grenzgebiet 

zwischen Rechnerarchitektur und Betriebssystemen. Diese Themen werden bei Betriebssystemen 

besprochen (Verweis auf Borrmann). Im weiteren wird das Anliegen einer 

realen Adresse am Hauptspeicher zugrundegelegt. 

3.3.1 Speicherbausteine 

Der Hauptspeicher heutiger Computer wird fast immer aus DRAM-Bausteinen aufgebaut 

(dynamic RAM). Nur in Höchstleistungsrechnern und für Cache-Speicher kommen die 

schnelleren, aber wesentlich teureren SRAM-Bausteine zum Einsatz (static RAM). 

DRAM-Chips enthalten im Kern eine Speichermatrix, an deren Knotenpunkten eine oder 

einige 1-Bit-Speicherzellen liegen. Bild 5 zeigt einen DRAM-Baustein der Größe 4M×1 

Bits. Eine Speicherzelle besteht aus nur einem Transistor und einem Kondensator. Die 

Zellen werden über eine Zeilen- und eine Spaltenadresse angesprochen. Um Adreßanschlüsse 

zu sparen, wird die Adresse im Zeitmultiplexbetrieb angelegt. Die Gültigkeit der 

Adreßteile wird mittels der Signale RAS (row address select) bzw. CAS (column address 

select) bekanntgegeben. Die Signale WE und OE dienen der Lese-/Schreib- und Bausteinanwahl. 

Mit der Zeilenadresse wird zuerst eine gesamte Zeile aus der Speichermatrix entnommen 

und gepuffert, mit der Spaltenadresse das bzw. die gewünschten Bits gelesen 

oder geschrieben. Ein Nachteil der kompakten Realisierung der Speicherzellen ist, daß 

das Lesen (Entnehmen einer Zeile bei RAS) zerstörend wirkt. Um Informationsverlust zu 

verhindern, muß die Zeile vom Lese-/Schreibverstärker wieder zurückgeschrieben 

werden. Durch Leckströme droht ebenfalls die Zerstörung der Speicherinhalte. Daher 

muß innerhalb einer bestimmten Zeit (typisch alle 8 ms) jede Zeile regeneriert werden. 

Häufig übernimmt die externe Speichersteuereinheit die Kontrolle über diesen Vorgang 

des periodischen Auffrischens (refresh). 

SRAM-Bausteine sind ähnlich aufgebaut. Unterschiede bestehen darin, daß jede 1-Bit- 

Zelle ein vollständiges Flipflop enthält (häufig sechs Transistoren), die Regeneration der 

Speicherinhalte damit entfällt und alle Adreßleitungen zugleich angelegt werden. 

C3


RAS 

A 0 ...A 10 

CAS 

D in 

WE 

OE 

Z 

A 

R 

S 

A 

R 

LSS 

Speichermatrix 2048×2048 Bits 

Z 

A 

D 

. 

. 

. 

1-Bit-Zelle 

. . . 

LSV 

. . . 

SAD 

ZAR ... Zeilenadreßregister 

SAR ... Spaltenadreßregister 

ZAD ... Zeilenadreßdecodierer 

SAD ... Spaltenadreßdecodierer 

LSV ... Lese-/Schreibverstärker 

LSS ... Lese-/Schreibsteuerung 

Bild 5 Schematische Darstellung eines DRAM-Bausteins mit 4M×1 Bits (ohne Refresh-Logik) 

Wichtige Attribute von Speichern sind ihre Kapazität, die Datenbreite, die Zugriffszeit 

(auch Latenz genannt) und die Zykluszeit. Bei DRAMs ermöglicht der Minimalaufwand 

pro Zelle sehr hohe Integrationsdichten und Kapazitäten von bis zu 64 MBits je Chip. Datenbreiten 

(Organisationsformen) von 1, 4 oder 8 je Zugriff parallel übertragenen Bits sind 

gebräuchlich. Die Zugriffszeit, also die Zeit zwischen Anlegen der Adresse und Verfügbarkeit 

der Daten beim Lesen, liegt heute bei etwa 60 ns (wobei beispielsweise 50 ns auf 

die RAS- und 10 ns auf die CAS-Zeit entfallen). Die Zykluszeit – die Mindestzeit, die 

zwischen zwei aufeinanderfolgenden Zugriffen verstreichen muß – beträgt etwa 90 ns. Sie 

ist höher als die Zugriffszeit, weil sich der Baustein vom Auslesen einer Speicherzeile 

durch das Rückschreiben erst erholen muß. SRAM-Bausteine haben grob um den Faktor 

8 geringere Kapazität und Zugriffszeit und höhere Kosten als DRAM-Komponenten; Zykluszeit 

und Zugriffszeit sind bei ihnen gleich. 

3.3.2 Grundlegender Speicheraufbau 

Für den Aufbau von wortbreiten Speicherstrukturen müssen mehrere Speicherbausteine 

parallel angeordnet und angesteuert werden. In Bild 6 ist dies am Beispiel des Aufbaus 

eines byteadressierbaren 16 MByte-Speichers mit 32-Bit-Worten aus 4M×1-Bit-DRAMs 

skizziert. 

a 

b 

16M−4 

31 

16M−3 

Bild 6 Beispiel eines Speicheraufbaus und zugehörige Adreßinterpretation. 

a 16-MByte-Speicherbank mit 32-Bit-Worten aus 4M×1-Bit-DRAM-Chips; b Aufteilung der 

D out 

RAS ... Row Address Select 

CAS ... Column Address Select 

WE ... Write Enable 

OE ... Output Enable 

Ai ... Adresse 

Din , Dout ... Ein-, Ausgangsdaten 

4M×1-Bit-DRAM 4−MByte-Block Byteadresse Bitnummer 

31 

0 

4 

. . . 24 23 

1 

5 

. . . 16 15 

2 

6 

. . . 8 7 

3 

7 

. . . 

im Wort 

0 

Wort 

. 

. 

. 

. 

. 

. 

. 

. 

. 

. 

. 

. 

23 

Wortadresse 

2 1 0 

16M−2 

16M−1 

Blockanwahl (=Byteanwahl im Wort)

Adresse 

C3.3 Hauptspeicher 221 

Eine (nicht dargestellte) Speichersteuereinheit (memory controller) sorgt für Adreßinterpretation, 

Wortadressierung und Anwahl eines oder mehrerer Byte-Blöcke so, daß das geforderte 

Byte, Halbwort oder Wort gelesen oder geschrieben wird. Die Adresse wird in 

einem Speicheradreßregister SAR abgelegt, das Datum in einem Speicherdatenregister 

SDR (Verweis auf Bild 1 bei Bode). Eine solche Anordnung mit eigener Ansteuerlogik 

heißt Speicherbank (memory bank). [Rhein 1992] behandelt dieses Thema näher. 

3.3.3 Speicherverschränkung 

Ein moderner Prozessor (mit z. B. 200 MHz Taktfrequenz) wird bei aufeinanderfolgenden 

Zugriffen auf eine Speicherbank durch ihre Zykluszeit (z. B. 100 ns) gebremst und muß 

Wartezyklen einlegen. In diesem Fall reicht die Bandbreite des Hauptspeichers, das ist die 

Rate in Bytes/s, mit der Daten vom bzw. zum Speicher übertragen werden können, nicht 

aus. Im Beispiel kann der Prozessor nur in jedem 20. Takt auf den Speicher zugreifen. 

Eine erprobte Maßnahme zur Erhöhung der Speicherbandbreite ist die Speicherverschränkung 

(memory interleaving). Nach diesem Konzept werden mehrere Speicherbänke 

so angeordnet, daß benachbarte Worte in unterschiedlichen Bänken zu liegen 

kommen. Die Speicherbanknummer wird dabei meist durch niedrigwertige Adreßbits bestimmt 

(low-order interleaving). Bild 7 zeigt einen derart organisierten Speicher mit dem 

Verschränkungsgrad 4. Aufeinanderfolgende Worte liegen in benachbarten Speichereinheiten, 

mehrere Speicherzugriffe auf unterschiedliche Bänke können einander überlappen. 

Die Speichererholungszeit wird somit zum Teil vor dem Prozessor verborgen. 

Eine derartige Struktur unterstützt wirksam das Nachladen bzw. Rückschreiben von 

Cache-Zeilen. Verschränkungsgrad, Größe der Cache-Zeilen, Datenbusbreite sowie Busgeschwindigkeit 

und -protokoll (siehe Unterabschnitt 3.4.1) sind aber sorgfältig aufeinander 

abzustimmen. 

a 

b 

64M−16 

31 

Byte 

0 

16 

. . 

. 

Bank 

. 

0 

. . 

16−MByte-Speicherbank Byteadresse 

4 

20 

. 

. 

. 

64M−12 

25 

Wortanwahl in Bank 

Bild 7 Beispiel eines vierfach verschränkten Speichers. 

a 64-MByte-Speicher mit 16-MByte-Speicherbänken aus Bild 6; b Adreßinterpretation 

Probleme bereiten Zugriffsmuster, die Speicherbankkonflikte verursachen. Ein Beispiel 

ist das Durchlaufen einer linear im Speicher abgelegten Datenstruktur mit einer Schrittweite, 

die sich mit dem Verschränkungsgrad deckt; hier wird nur eine Speicherbank benutzt. 

Eine übergeordnete Steuereinheit (interleave controller) muß vermerken, auf 

welche Speicherbänke gerade zugegriffen wird und im Konfliktfall Wartezyklen für den 

8 

24 

. 

. 

. 

64M−8 

3 2 1 0 

Byteanwahl im Wort 

Bankanwahl 

12 

28 

. 

. 

. 

Bank 1 Bank 2 Bank 3 

64M−4 

C3


Prozessor erzeugen; die effektive Speicherbandbreite sinkt dadurch. Schwierig bei Speichern 

mit verschränkter Adressierung sind nachträgliche Speichererweiterungen. 

3.3.4 Weitere Maßnahmen zur Leistungssteigerung des Speichers 

Mit steigender Leistung der Mikroprozessoren wächst die Kluft zwischen der Arbeitsgeschwindigkeit 

der Prozessoren und der Zugriffsgeschwindigkeit (Latenz) und Bandbreite 

des Hauptspeichers, so daß trotz des Einsatzes von Caches der Speicherzugang den 

Engpaß in heutigen Rechensystemen bildet. Mit verschiedenen Architekturmaßnahmen 

versucht man, dieser Entwicklung entgegenzuwirken. 

Zur Verringerung der Latenz, die sich allein durch Weiterentwicklung der DRAM-Technologie 

nur mit etwa 10 % pro Jahr verringert, tragen spezielle Betriebsarten und neue Organisationsformen 

von DRAM-Bausteinen bei. Zugriffsarten, die heute bereits vielfach 

genutzt werden, sind Nibble-, Page- und Static Column-Modus. In diesen Modi entfällt 

bei Folgezugriffen zu einer von einem normalen Zugriff ausgelesenen Speicherzeile die 

RAS-Zeit; in verkürzten Zyklen (von z. B. 30 ns) wird auf drei Folgebits bzw. beliebige 

Teile in der aktiven Zeile zugegriffen. Neue DRAM-Chip-Architekturen wie Enhanced 

DRAM (EDRAM) und Cache DRAM (CDRAM) treiben diese Entwicklung weiter und 

führen einen Cache auf dem Speicherbaustein ein, in dem die zuletzt benutzten Speicherzeilen 

vollständig oder teilweise gehalten werden und schnell verfügbar sind. An Bedeutung 

gewinnen synchrone DRAMs (SDRAMs), die im Gegensatz zu konventionellen Bausteinen 

synchronisiert mit dem Prozessor-/Speicherbus und dadurch schneller betrieben 

werden. Zusätzliche Merkmale sind der Einsatz von zwei Speichermatrizen auf dem Chip 

und ein Burst-Modus zur schnellen Übertragung von Datenblöcken aus derselben Speicherzeile. 

Diese neuen Bausteine sind etwa in [CompCon 94] beschrieben. 

Die Bandbreite eines Speichers kann durch Änderungen an der Architektur eines Rechners 

gesteigert werden. Neben verschränkter Adressierung sind geeignete Maßnahmen 

eine breite Organisation des Speichersystems und des Datenbusses (heute bis zu 256 Bits) 

sowie die Überlappung von Buszyklen und die Nutzung von Blocktransfers des Busses 

(siehe Unterabschnitt 3.4.5), die auf seiten des Hauptspeichers die oben angegebenen speziellen 

Zugriffsarten nutzen. Caches, Hauptspeicher und Bussystem müssen gut aufeinander 

abgestimmt sein, damit diese Maßnahmen leistungssteigernd zur Wirkung 

kommen. In den letzten Jahren wurden neuartige Prinzipien zur speziellen Kopplung von 

Prozessor und Speicherbausteinen vorgeschlagen. Beispiele sind Rambus [CompCon 94] 

und RamLink [Gjessing 92]. Die Integration von Prozessoren und DRAMs auf gemeinsamen 

Halbleiterbausteinen wird derzeit erforscht. 

3.4 Bussysteme 

3.4.1 Grundlagen von Bussen 

Da spezielle Kommunikationspfade zwischen den Funktionseinheiten eines Rechensystems 

aus Leistungsgründen zwar wünschenswert, für die meisten Systeme aber zu 

teuer und für Erweiterungen zu unflexibel sind, werden heute vornehmlich gemeinsam benutzte 

Kommunikationswege, d. h. Busstrukturen, eingesetzt. Ein Bus ist ein Bündel von 

funktional zusammengehörigen Signalleitungen, das Komponenten eines digitalen Systems 

zum Informationsaustausch miteinander verbindet. Sendet ein Teilnehmer Informationen 

über den Bus, können alle anderen sie empfangen. Um Informationsverfälschung

C3.4 Bussysteme 223 

auszuschließen, muß aber sichergestellt werden, daß zu jedem Zeitpunkt nur ein Teilnehmer 

die Kontrolle über den Bus und damit Senderechte innehat. 

Damit wird ein prinzipieller Nachteil einer Busstruktur deutlich: Weitere sendebereite 

Teilnehmer müssen warten, der Bus wird zu einer knappen Ressource und damit zu einem 

potentiellen Engpaß. Die Vorteile sind der im Verhältnis zu speziellen Verbindungen geringe 

Hardware-Aufwand und die Flexibilität bei Systemerweiterungen. 

Ein Bus wird nach der Art der übertragenen Informationen in drei Gruppen von Leitungen 

(Teilbusse) unterteilt: Daten-, Adreß- und Steuerbus. (Der Versorgungsbus, der Leitungen 

z. B. zur Strom- und Taktversorgung, Systeminitialisierung oder Anzeige von Hardware- 

Fehlern enthält, wird im weiteren nicht betrachtet.) Wie in Bild 8 angedeutet, werden die 

Datenleitungen bidirektional betrieben, die Adreßleitungen meist unidirektional, ebenso 

die meisten Steuersignale. Die Signale können prozessorspezifisch (für prozessornahe 

Hochleistungsbusse) oder prozessorunabhängig sein (z. B. bei Standardbussen). 

Versorgungsbus 

Steuerbus 

Adreßbus 

Datenbus 

Prozessorkarte 

Bus-SS 

Speicherkarte 

Bus-SS 

Speicherkarte 

Bus-SS 

E/A- 

Einheit 

Bus-SS 

Bussteuereinheit 

Bus-SS 

Bild 8 Grundlegender Aufbau von Bussen und Ankopplung von Busteilnehmern 

SS ... 

Schnittstelle 

Auf die verschiedenen Typen und Hierarchiestufen von Bussen sowie die darüber verbundenen 

Komponenten wurde bereits am Anfang dieses Kapitels hingewiesen. Einheiten, 

die eigenständig auf dem Bus aktiv werden und ihn steuern können, z. B. ein Prozessor 

oder DMA-Werk, werden als Master bezeichnet, rein passive Komponenten, z. B. Speicherkarten, 

als Slaves. Bei mehreren Bus-Mastern muß über die Zuteilung der Kontrolle 

über den Bus entschieden werden. Dieser Vorgang heißt Buszuteilung oder Busarbitrierung 

(bus arbitration). Die Funktionseinheiten sind über eigene Busschnittstellen (bus interface 

unit) mechanisch und elektrisch an den Bus angekoppelt. Sie gleichen z. B. Signale, 

Abläufe und Geschwindigkeiten an die Gegebenheiten auf dem Bus an und stellen 

Pufferplatz bereit. Zentrale Versorgungsdienste und Funktionen werden von der Bussteuereinheit 

(bus controller) wahrgenommen. Jeder Komponente am Bus, auch E/A-Einheiten, 

sind Adreßbereiche (im physischen Adreßraum) zugeordnet. Die Einheiten 

können damit über Adressen angesprochen werden, gegebenenfalls zusammen mit 

Steuersignalen. 

Alle Eigenschaften eines Bussystems sind detailliert in einer sog. Busspezifikation festgelegt. 

Sie definiert die Signale, die mechanischen und elektrischen Merkmale und vor allem 

die Busfunktionen und Busprotokolle. Dies sind Regeln für die Kommunikationsabläufe 

zwischen Busteilnehmern zur Erbringung der Busfunktionen. Sie legen insbesondere Art, 

Form und Zeitverhalten der auszutauschenden Signale fest. Busspezifikationen werden 

häufig von Standardisierungsgremien erarbeitet oder von Firmen offengelegt. Dadurch 

können verschiedene Hersteller unterschiedliche Komponenten entwickeln, die über den 

Bus zusammenarbeiten. 

C3


3.4.2 Merkmale von Bussen 

Je nach Einsatzbereich und Leistungsanforderungen unterscheiden sich Bussysteme in 

einer Reihe von Merkmalen. Wesentliche funktionale Unterscheidungsmerkmale sind: 

• Busbreite, vor allem der Daten- und Adreßbusse. Grundsätzlich unterscheidet man hier 

serielle und parallele Busse. Serielle Busse dienen häufig zum Anschluß langsamer peripherer 

Geräte oder/und zur Überbrückung großer Entfernungen. Parallele Busse verfügen 

über mehrere Adreß- und Datenleitungen für größere Übertragungsleistungen. 

Gebräuchlich sind heute 16, 32 oder bis zu 64 Adreß- und 8 bis 64 Datenleitungen, bei 

Multiprozessorbussen bis zu 256. 

• Betrieb von Adreß- und Datenleitungen. Sie stehen entweder als spezielle Leitungen 

für diesen Zweck zur Verfügung, oder es werden für Adresse und Daten im Zeitmultiplexbetrieb 

dieselben Leitungen benutzt, da sie bei einfachen Transaktionen zu verschiedenen 

Zeiten benötigt werden. Letzteres ist weniger aufwendig, erlaubt aber 

kaum beschleunigende Maßnahmen, z. B. Überlappung von Buszyklen. 

• Zeitsteuerung und Taktrate. Synchrone Busse arbeiten unter einem zentralen Taktgeber, 

der sämtliche Transaktionen steuert. Von Vorteil ist hier, daß die Abläufe auf 

dem Bus einfach sind und durch hohe Taktfrequenzen beschleunigt werden können; 

von Nachteil, daß alle Busteilnehmer an die vorgegebene Busgeschwindigkeit angepaßt 

sein müssen, und daß der Bus wegen der Taktsignallaufzeiten und -verzerrungen 

(clock skew) nur kurz sein kann. Prozessor-/Speicherbusse arbeiten üblicherweise synchron. 

Bei asynchronen Bussen geschieht die Steuerung der Bustransaktionen über den 

Austausch von speziellen Signalen zwischen den beteiligten Teilnehmern (handshaking). 

Der Vorteil ist, daß Geräte unterschiedlicher Geschwindigkeit zusammenarbeiten 

können, der Nachteil, daß die Transaktionen komplex sind. Manche Peripheriebusse 

sind asynchron. 

• Busfunktionen, einschließlich Arbitrierung. Siehe Unterabschnitt 3.4.3. 

3.4.3 Busfunktionen 

Busse transferieren vornehmlich Daten. Dazu wickeln sie sog. Bustransaktionen ab, die 

wiederum aus mehreren Buszyklen bestehen. Bustransaktionen sind unteilbare Abläufe; 

sie bestehen aus den Phasen Busarbitrierung, Adreß- und Datenübertragung und Busfreigabe. 

Die dabei und darüber hinaus vom Bus zu erfüllenden Funktionen werden im folgenden 

kurz beschrieben. 

Arbitrierung. Mit der Arbitrierung erwirbt ein Master das Recht, auf den Bus zuzugreifen; 

er wird zum Bus-Master. Gibt es nur einen Master am Bus, entfällt diese Phase. 

Da die Buszuteilung für jede Transaktion anfällt, soll sie schnell, zudem auch flexibel und 

kostengünstig zu realisieren sein. Zahlreiche Varianten wurden entwickelt und implementiert: 

Strategien mit zentraler Arbitrierungseinheit (arbiter) oder dezentralen Einheiten in 

den Busschnittstellen der Master, prioritätengesteuerte oder faire Verfahren. Zur Vertiefung 

dieses Gebietes wird auf die allgemeine Literatur und [Färber 87] verwiesen. 

Datentransfers. Diese werden von einem Master angestoßen und gesteuert. Sie bestehen 

aus Adreßübertragung (Anwahl des Kommunikationspartners und der auszuführenden 

Operation) und eigentlicher Datenübertragung. Der Slave hat untergeordnete Funktion: 

Zum Steuerungsablauf trägt er nur durch Quittieren der Datenübernahme bzw. Signalisierung 

der Datenbereitstellung bei. Die wichtigsten Datentransportfunktionen sind Lesen 

(read) und Schreiben (write) eines Datenwortes. Eine atomar auszuführende Operation 

Lesen, Modifizieren und Zurückschreiben des geänderten Datums (read-modify-write) 

wird z. B. zur Realisierung von Semaphoren benötigt und ist insbesondere in Mehrpro-


zessorsystemen vom Bus zu unterstützen. Die Übertragung von größeren Datenblöcken 

wird in Unterabschnitt 3.4.5 behandelt. 

Bild 9 verdeutlicht am einfachen Beispiel einer Leseoperation die Abläufe bei Datentransfers 

und die Unterschiede zwischen synchronen und asynchronen Bussen. Die verwendete 

Darstellungsmethode für Busprotokolle heißt Impulsdiagramm. Im synchronen Fall 

werden die Abläufe vom zentralen Bustakt gesteuert, wobei Signale bei aufsteigender 

Taktflanke gesetzt, bei absteigender abgefragt werden. Das Beispiel zeigt zudem, wie der 

Slave (z. B. ein Speicher) den Lesezyklus von zwei Takten um einen Wartezyklus verlängert 

(an der gestrichelten Linie), da seine Daten noch nicht gültig sind. Für den asynchronen 

Fall ist mit Pfeilen das Handshaking zwischen den Teilnehmern angedeutet. 

a Bustakt 

b 

Adresse 

Daten 

READ 

WAIT 

Lesezyklus mit 

1 Wartezyklus 

. . . Gültige Adresse bzw. Daten 

Überstrichene Signale sind 0-aktiv. 

Adresse 

READ 

Bild 9 Leseoperationen bei a synchronem und b asynchronem Bus (ohne Busarbitrierung) 

Vermittlung von Unterbrechungen (Interrupts). Unterbrechungen werden überwiegend 

von E/A-Geräten (Slaves) ausgelöst und sind vom Bus an den Prozessor weiterzuleiten. 

Viele Busse verfügen dazu über eigene Signalleitungen, über die Interrupts vermittelt 

werden. In diesem Fall wird keine Arbitrierung und kein aufwendiges Übertragungsprotokoll 

benötigt. Die Interrupt-Quellen sind meist nach verschiedenen Anordnungen 

und Verfahren priorisiert. Manche neueren Busse sparen Leitungen ein, indem sie Interrupts 

und zugehörige Statusinformation als Nachrichten hoher Priorität über den Datenbus 

in bestimmte Adreßbereiche übertragen. Dazu werden aber Buszyklen benötigt. 

Fehlerbehandlung. Bustransaktionen können scheitern, etwa durch Adressierungsfehler, 

Verletzung des Busprotokolls (meist des Zeitverhaltens) oder Hardware-Ausfall. Häufig 

werden Bustransaktionen von einer Uhr (watchdog timer) überwacht, die bei Ausbleiben 

der Reaktion eines Kommunikationspartners nach vorgegebener Zeit (timeout) eine Fehlerbehandlung 

anstößt, z. B. Wiederholung der Transaktion oder Rücksetzen des Systems. 

Sonstige Dienste. Darunter fallen beispielsweise Unterstützung der Systeminitialisierung 

oder des Rücksetzens, definiertes Abschalten von Busteilnehmern bei Spannungsverlust 

oder Neukonfiguration des Systems beim Entfernen und Einfügen von Karten im Betrieb. 

Cache-Kohärenz. Unterstützung für die Wahrung von Konsistenz zwischen mehreren 

Caches in Mehrprozessorsystemen ist heute eine wünschenswerte Eigenschaft von 

VAL 

ACK 

Daten 

Lesezyklus 

VAL . . . Adresse und Steuersignale gültig 

ACK . . . Daten gültig 

C3


Bussen. Dieses Problem und Lösungsansätze werden bei Multiprozessoren diskutiert 

(Verweis auf Volkert). 

3.4.4 Realisierung von Bussen 

Physisch sind die meisten Busse als geätzte Leitungen auf einer großformatigen Grundkarte 

realisiert, an die die zentralen Funktionseinheiten direkt angeschlossen sind. Bei Arbeitsplatzrechnern 

und Personal-Computern wird sie Grundplatine (motherboard) genannt. 

Zusätzlich können die Leitungen verlängert und mit Stecksockeln ausgestattet sein, 

in die meist senkrecht zur Grundplatine Erweiterungskarten (z. B. Grafik- oder Netzwerkkarten) 

eingeschoben oder über Flachbandkabel weitere Module (z. B. Festplatten) angebunden 

sind. Rückwandbusse sind in einem festen Rahmen untergebrachte Platinen mit 

geätzten Leitungen und fest montierten Steckplätzen, in die alle Systemkomponenten 

senkrecht zur Rückwand eingesteckt werden. Über den Aufbau von Bussen sowie mechanische 

und elektrische Aspekte und Kenngrößen ist mehr z. B. in [Färber 87] zu finden. 

Bussen sind in ihrer Geschwindigkeit, Ausdehnung und Erweiterbarkeit physikalische 

Grenzen gesetzt. Zum einen begrenzt die Ausbreitungsgeschwindigkeit der Bussignale 

(und damit letztlich die Lichtgeschwindigkeit) die Länge und Geschwindigkeit von 

Bussen, da bei jeder Übertragung sichergestellt sein muß, daß die Signale bei allen Teilnehmern 

angekommen und stabil sind. Zum anderen entsteht auf dem Bus kapazitive 

Last, weil jeder Teilnehmer mit allen Signalleitungen verbunden ist. Dies schränkt die 

Zahl der möglichen Teilnehmer und die Übertragungsraten ein. Hochleistungsbusse sind 

daher kurz (maximal einen halben Meter), elektrisch sehr aufwendig gebaut und abgeschlossen. 

Einige Beiträge in [Zalewski 95] gehen ausführlich darauf ein. 

3.4.5 Maßnahmen zur Leistungssteigerung von Bussen 

Wichtigstes Leistungsmerkmal von Bussen ist ihre Übertragungsrate (bandwidth). Sie 

wird in MBytes/s ausgedrückt. Die maximale Übertragungsrate wird aus der Bustaktfrequenz, 

der Anzahl der Bustakte pro Datentransfer und der Anzahl der pro Transfer 

übertragenen Bytes ermittelt. Eine Leistungssteigerung kann also an diesen drei Faktoren 

ansetzen. Beispielsweise kann durch sorgfältige Realisierung die Taktfrequenz und durch 

einen breiten Datenbus die Datenmenge pro Transfer erhöht werden. 

Die Leistung eines Busses läßt sich auch durch Verbesserungen an den Protokollen steigern. 

Eine Möglichkeit liegt darin, die Anzahl der Arbitrierungsphasen zu vermindern. 

Ein Ansatz dazu ist das sog. bus parking, bei dem ein Master mit hoher Priorität die Kontrolle 

über den Bus so lange behält, bis sie ihm entzogen wird; er kann bis dahin viele 

Transaktionen abwickeln. Eine weitere Lösung bieten Blocktransfers (burst transfers). 

Hierbei werden zu Beginn eines Transfers Arbitrierung und Adressierung vorgenommen, 

in den Folgezyklen nur noch die Datentransfers. Andere Transaktionen werden dadurch 

lange zurückgestellt. 

Busaktivitäten können auch überlappend ausgeführt und dadurch der Bus im Fließbandbetrieb 

(als pipeline) betrieben werden. Getrennte Adreß- und Datenleitungen vorausgesetzt, 

kann während der Übertragung eines Datenworts bereits die nächste Adresse angelegt 

werden, oder es werden Arbitrierung und Transfers überlappt. Weitere Anordnungen 

sind denkbar und werden auch praktiziert. Fließbandverarbeitung macht die Bussteuerung 

komplexer, bringt aber eine deutliche Leistungssteigerung. 

Dieses Prinzip wird mit Bussen mit sog. geteilten Transaktionen (split transactions) fortgeführt. 

Transaktionen sind nun nicht mehr unteilbar, sondern in Anfrage (request) und 

Antwort (response) geteilt, die als „Pakete“ über den Bus gesandt werden. Dadurch kann


jeder Teilnehmer mehrere Transaktionen absenden, und auf dem Bus können viele Transaktionen 

aktiv sein. Dies ergibt sehr hohe Übertragungsraten. 

Schließlich kann man von synchroner Arbeitsweise und der üblichen elektrischen und mechanischen 

Auslegung von Bussen abgehen. Scalable Coherent Interface (SCI) [Gustavson 

92] ist ein neuer Verbindungsstandard, der typische Busfunktionen definiert, aber 

deren verteilte Realisierung auf Basis von Punkt-zu-Punkt-Verbindungen vorschlägt. 

Diese können asynchron sehr schnell betrieben werden und ermöglichen bei 16-Bit-Leitungen 

Datenraten bis zu 1 GByte/s. 

3.4.6 Gebräuchliche Bussysteme 

Verbreitete Bussysteme aus den wichtigsten Hierarchiestufen eines Rechners sind: SCSI- 

2 (Small Computer System Interface), ein E/A-Bus mit bis zu 40 MBytes/s Übertragungsrate; 

PCI (Peripheral Component Interconnect), ein PC-Systembus und E/A-Bus mit 132 

bzw. 264 MBytes/s Übertragungsrate (bei 32 bzw. 64 Bits Datenbusbreite); MBus (Memory 

Bus von Sun), ein Workstations-Speicherbus mit 400 MBytes/s Übertragungsrate; 

und der standardisierte Rückwandbus Futurebus+, der mit einem 256 Bits breiten Datenbus 

bis zu 3200 MBytes/s übertragen kann. 

Allgemeine Literatur 

Flik, Th.; Liebig, H.: Mikroprozessortechnik. 4. Aufl. Berlin: Springer 1994 

Hennessy, J. L.; Patterson, D. A.: Computer architecture. A quantitative approach. Second Edition. San 

Francisco, CA: Morgan Kaufman 1996 

Liebig, H.; Flik, Th.: Rechnerorganisation. Prinzipien, Strukturen, Algorithmen. 2. Aufl. Berlin: Springer 

1993 

Patterson, D. A.; Hennessy, J. L.: Computer organization and design: The hardware/software interface. San 

Mateo, CA: Morgan Kaufman 1994 

Stallings, W.: Computer organization and architecture. Fourth Edition. Upper Saddle River, NJ: Prentice 

Hall 1996 

Spezielle Literatur 

[CompCon 94] CompCon Spring 94 (Digest of Papers): Session on new DRAM organizations. Los 

Alamitos, CA: IEEE Computer Society Press 1994 

[Denning 68] Denning, P.: The working set model for program behavior. Communications of the ACM 11 

(1968) 323-333 

[Färber 87] Färber, G. (Hrsg.): Bussysteme. Parallele und serielle Bussysteme, lokale Netze. 2. Aufl. 

München: Oldenbourg 1987 

[Gjessing 92] Gjessing, S.; Gustavson, D. B.; James, D. V.; Stone, G.; Wiggers, H.: A RAM link for high 

speed. IEEE Spectrum 29 (1992) 52-53 

[Gustavson 92] Gustavson, D. B.: The scalable coherent interface and related standards projects. IEEE 

Micro 12 (1992) 10-22 

[Smith 82] Smith, A. J.: Cache memories. Computing Surveys 14 (1982) 473-530 

[Przybylski 90] Przybylski, S. A.: Cache and memory hierarchy design. A performance-directed approach. 

San Francisco, CA: Morgan Kaufman 1990 

[Rhein 92] Rhein, D.; Freitag, H.: Mikroelektronische Speicher. Berlin: Springer 1992 

[Zalewski 95] Zalewski, J. (ed.): Advanced multimicroprocessor bus architectures. Los Alamitos, CA: 

IEEE Computer Society Press 1995 

C3

228 C3 Arbeitsspeicher- und Bussysteme

3 Arbeitsspeicher- und Bussysteme

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?