7. Speicher - Rechnersysteme

7. Speicher 

Inhalt 

7.1 Speicherhierarchie 

7.2 Cache-Organisation 

7.3 SRAM 

7.4 DRAM 

7.5 Speicherarten 

7.6 Festplatten 

7.7 DMA 


Fachgebiet Rechnersysteme1 

Rechnersysteme I


Lernziele von Kap. 7: 

� Organisationsformen und Realisierungsmöglichkeiten von 

Caches und virtuellem Speicher kennen 

� Eigenschaften und inneren Aufbau von SRAM- und DRAM- 

Speichern verstehen 

� Methoden der Zugriffsbeschleunigung bei RAM- 

Bausteinen (Synchronisierung, Burst, Pipelining) kennen 

� Basiseigenschaften von Flash- und Platten-Speichern 

wissen 

� Konzepte: voll/teil-assoziativer und direkt-abbildender 

Cache, write-through, write-back, write-allocate, write-notallocate, 

CAM, wide-bus RAM, Burst, floating-gate, Flash, 

DMA 

2



� Die in digitalen Systemen benutzten Speicher 

unterscheiden sich stark hinsichtlich ihrer Kapazität, 

Zugriffsgeschwindigkeit und Kosten 

3



� Die Kapazität eines Speicher ist das Produkt 

� der Anzahl der adressierbaren Worte 

� und der Wortbreite 

─ Beispiel: ein Speicher von 1 KB (Kilo-Byte) 

Adressleitungen 

10 

Adressdekodierer 

Speicher 

0 

... 

1023 

8 

1024 

8 Bit-Worte 

8 

4



� Kapazitäten werden als Vielfaches von Bit oder Byte 

angegeben 

� dabei werden Zweierpotenzen abgekürzt: 

K ~ 210 , M ~ 220 , G ~ 230 � kb Kilo-Bit, Mb Mega-Bit 

� kB Kilo-Byte, MB Mega-Byte, GB Giga-Byte 

� die Kapazität eines Speichers wird oft explizit als Produkt 

der Anzahl der Worte und der Wortbreite angegeben, um 

die Organisationsform zu kennzeichnen 

─ Beispiel: ein 256K * 4 Bit-Speicher enthält 218 4-Bit 

Worte und hat eine Kapazität von 128 KB 

5



� Die Zugriffszeit eines Speichers ist die Zeit vom Anlegen 

der Adresse bis zum Erscheinen der ausgelesenene 

Daten am Ausgang des Speichers 


Daten D 

Zugriffszeit 


10 

Adressdekodierer 

Speicher 

0 

... 

1023 

8 

1024 

8 Bit-Worte 

8 

Daten D 

6



� Die Datenrate eines Speichers 

� Datenrate = Bitbreite des ausgelesenen Datenwortes/ 

Zugriffszeit 

─ Beispiel: 256K*4 SRAM-Speicher, Zugriffszeit 12ns: 

Datenrate = 4 Bit/12ns ≈ 4Bit * 83MHz = 

41,5 MB/sec. 

─ Beispiel: 64K*16 SRAM-Speicher, Zugriffszeit 15ns: 

Datenrate = 16 Bit/15ns ≈ 16Bit * 67MHz ≈ 

134 MB/sec. 

7



� Datenrate und Kapazität verschiedener Speichertechnologien 

Datenrate 

Bits/sec. 

1G bipolar 

10M 

CMOS SRAM 

CMOS 

DRAM Magnetplattenspeicher 

1M 100M 10G Kapazität 

Magnetband 

Bits 

Quelle: Haraszti, CMOS Memory Circuits 

8



� Wachstum der Integrationsdichte von DRAM-Chips 

10000000 

1000000 

100000 

kB 10000 

1000 

100 

10 

1 

1977 

1980 

1983 

1985 

1989 

1992 

1995 

1998 

2001 

2003 

Jahr 

9



� Zugriffszeiten von DRAM´s 

ns 

250 

200 

150 

100 

50 

0 

64kB 256kB 1MB 4MB 16MB 64MB 

10



� Während die Speicherkapazität seit langer Zeit exponentiell 

anwächst (Faktor 4 in drei Jahren), verringert sich die 

Zugriffszeit nur langsam (Reduktion um ein Drittel in 10 

Jahren) 

� damit wird die Lücke zwischen Prozessorgeschwindigkeit 

und Speichergeschwindigkeit immer größer 

� daher: Einführung einer Speicherhierarchie 

11



� Speicherhierarchie in einem Rechner 

r[0] 

... 

r[31] 

Register 

des Prozessors 

Cache 

Hauptspeicher 

32*32 Bit 256 kB 512 MB 

SRAM SRAM DRAM 

1 ns 5ns 20ns 

Plattenspeicher 

60 GB 

10 ms 

12



� Prinzip der Lokalität: 

� zeitlich: benutzte Daten/Befehle werden bald wieder 

benutzt 

� räumlich: auf Daten/Befehle, die im Adreßraum nahe 

zu gerade benutzten liegen, wird wahrscheinlicher 

verwiesen als auf weiter weg liegende 

13



� Idee: räumlich nahe beieinanderliegende und oft 

referenzierte Teile (Blöcke) werden möglichst "nahe" am 

Prozessor gehalten 

Registersatz 

Cache 

1. Ebene 

Cache 

2. Ebene 

Hauptspeicher 

14



� Prinzip: nur die jeweils tatsächlich benötigten Blöcke 

werden im Cache gehalten 

Prozessor 

Cache 

Block 

Hauptspeicher 

15



� Daten werden bei der Organisation von Caches meist in 

Blöcken (oder Cache-Zeilen) zusammengefaßt 

� Blöcke bestehen aus Daten an aufeinanderfolgenden 

Adressen 

─ Beispiel: ein Block besteht aus 32 oder 64 

aufeinanderfolgender Bytes 

� es werden jeweils ganze Blöcke ausgetauscht 

Prozessor Cache 

Block 

Hauptspeicher 

16



� Für die Cache-Organisation sind 4 Fragen entscheidend: 

� A: wo kann ein Block im Cache plaziert werden? 

� B: wie kann festgestellt werden, ob ein Block im 

Cache ist? 

� C: welcher Block soll ersetzt werden, falls Platz 

für einen neuen Block gebraucht wird? 

� D: was geschieht beim Schreiben? 

Prozessor Cache 

Block 

Hauptspeicher 

17



� A: wo kann ein Block plaziert werden ? 

� 1. Verfahren: voll-assoziativ 

� jeder Block kann an allen Adressen gespeichert 

werden 

Cache 

0 

1 

2 

3 

Hauptspeicher 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

18



� 2. Verfahren: direkt abbildend 

� ein Block kann nur an einer Adresse mod n (n 

Cache-Größe, hier: 4) gespeichert werden 

Cache 

0 

1 

2 

3 

Hauptspeicher 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

19



� mehrere Hauptspeicherblöcke mit gleicher Adresse 

mod n werden einem einzigen Block im Cache 

zugeordnet 

Cache 

0 

1 

2 

3 

Hauptspeicher 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

20



� 3. Verfahren: n-Wege assoziativ 

� ein Block kann an jeder der n Cache-Adressen 

gespeichert werden, bei denen die Hauptspeicher- 

Adresse mod m gleich der Cache-Adresse mod m ist 

� physikalischer Aufbau von n unabhängigen Caches 

� Beispiel: 2-Wege assoziativ, m = 4: 

0 

1 

2 

3 

0 

1 

2 

3 

Cache 

0 

1 

2 

3 

4 

5 

6 

7 

Hauptspeicher 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

21



� B: wie kann festgestellt werden, ob ein Block im Cache 

ist ? 

� Verfahren bei direkt abbildendem Cache 

� Annahme: pro Block im Cache werden k Worte 

gespeichert, z.B. 4 Worte zu je 8 Byte 

� Offset ist die Adresse innerhalb eines Blocks, z.B. 2 

Bits bei 4 Worten pro Block 

� Index gibt die Adresse im Cache an 

Tag 19 Bit 

Block-Adresse 

Tag Index 

Cache-Adresse, z.B. 8 Bit 

Hauptspeicher-Adresse 32 Bit 

2Bit 

Offset 

3Bit 

Byteadresse 

innerhalb 

eines 

Wortes 

22




Block-Adresse 

Tag Index 

Tag 19 Bit 

= 

Cache-Adresse 8 Bit 

Offset 

Offset 2 Bit 

0 

... 

255 

Valid- 

Bit 

1 

=1 

256 * (8*4) Byte = 8 kByte 

direkt abbildender Cache 

Tag Datenblock 

19 

4 Worte zu 8 Bytes 

Tag 4*8 Bytes 

8 Byte Daten 

23



� Beispiel: Blockgröße = 1 

1101 

11 01 

Tag Index 

� 

= 

1 

Cache 

11 y 

00 

01 

10 

11 

x 

y 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Hauptspeicher 

24




1101 

11 01 

Tag Index 

� 

= 

1 

Cache 

10 x 

00 

01 

10 

11 

x 

y 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Hauptspeicher 

25



� Aufwand: 

─ Speicherplatz im Cache für Daten, Tag´s, Valid- 

Bits 

─ 1 Vergleicher 

26



� Verfahren bei n-Wege assoziativem Cache: 

� Prinzip: n-maliger Aufbau der o.a. Hardware 

� Beispiel: 2-Wege assoziativer Cache, gleiche 

Cachegröße: 

27



Block-Adresse 

Tag Index 

Tag 20 Bit 


Cache-Adresse 7 Bit 

Offset 

Offset 2 Bit 

Valid- 

Bit 

0 

... 

127 

0 

... 

127 

=1 

=1 

Tag 

20 

Tag 8 Bytes 

= 

Tag 

= 

28 

2*128 * (8*4) Byte = 8 kByte 

2-Wege assoziativer Cache 

Datenblock 

4 Worte zu 8 Bytes 

8 Bytes




1101 

110 1 

Tag Index 

1 

1 

Cache 

001 x 

= 

= 

� 

110 y 

� 

0 

1 

0 

1 

x 

y 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Hauptspeicher 

29



� Aufwand: 

─ Speicherplatz im Cache für Daten, Tag´s, Valid- 

Bit 

─ n Vergleicher 

─ Multiplexoren bzw. Tri-State Treiber 

30



� ein voll-assoziativer Cache benötigt spezielle 

Bausteine (CAM´s, content-addressable memory) 

31



� C: welcher Block soll ersetzt werden, falls Platz für einen 

neuen Block gebraucht wird ? 

� direkt-abbildend: klar 

Cache 

0 

1 

2 

3 

Hauptspeicher 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

32



� n-Wege assoziativ: 

─ LRU (least recently used): Versuch, die zuletzt 

benutzten Daten zu erhalten, z.B. PowerPC 603 

LRU bei 4-Wege teilass. Cache 

─ zufallsgesteuert 

─ experimentelles Ergebnis: LRU nur 

bei kleinen Cache´s (16kB) geringfügig 

(



� D: was geschieht beim Schreiben ? 

� Daten in Cache und Hauptspeicher korrespondieren 

einander nur solange, wie der Prozessor nicht die 

Daten im Cache überschreibt 

11010101 

Cache 

Prozessor ≠ 

Hauptspeicher 

00001111 

34



� 2 Strategien: 

─ Schreiben in Cache und Hauptspeicher (writethrough) 

─ Schreiben nur in Cache, zurückschreiben in den 

Hauptspeicher nur bei Austausch des Blocks 

(write-back) 

11010101 

Cache 

Prozessor ≠ 

Hauptspeicher 

00001111 

35



� Write-through: Beim Schreiben in Cache und 

Hauptspeicher muß wegen der Langsamkeit des 

Hauptspeichers ein Schreib-Puffer benutzt werden, 

d.h. zu schreibende Daten werden in Cache und 

Schreib-Puffer geschrieben 

Prozessor 

11010101 

11010101 

Cache 

Schreib- 

Puffer 

Hauptspeicher 

11010101 

36



� Falls ein Wort nicht im Cache ist (write miss), gibt es zwei 

Möglichkeiten: 

─ der gesamte Block wird erst aus dem Hauptspeicher in 

den Cache gelesen, dann wie oben (write allocate) 

─ die Daten werden nur in den Hauptspeicher 

zurückgeschrieben (write not allocate) 

Hauptspeicher 

Prozessor 

11010101 

11010101 

Cache 

Schreib- 

Puffer 

11010101 

37



� Aufbau des Schreib-Puffers: 

� Größe z.B. 4 Blöcke 

� FIFO (first-in-first-out) Organisation 

� Block-Organisation, d.h. sollen nacheinander 2 Bytes 

mit unterschiedlichen Adressen, die aber in einem 

Block liegen, weggeschrieben werden, wird nur ein 

Block des Schreibpuffers belegt 

38



� Wie oft kommt Schreiben überhaupt vor ? 

� bei DLX z.B. gab es 9% Store- und 26% Ladebefehle 

� d.h. 0,09/(0,26+0,09) oder etwa 26% aller 

Datentransporte sind Schreibzugriffe 

� bzw. 0,09/(1 + 0,26 + 0,09) oder etwa 7% aller 

Speicherzugriffe insgesamt 

� Die Anzahl der Schreibzugriffe muß wesentlich kleiner 

sein als 1/Hauptspeicher-Zugriffszeit 

39



� Lösungsmöglichkeit: Einführung eines Caches der 

2. Ebene 

Prozessor 

L1- 

Cache 

Schreib- 

Puffer 

L2- 

Cache 

Hauptspeicher 

40



� Beispiel SPARC 20 

� L1-Daten-Cache: 

─ 16 kByte, 4-Wege assoziativ, write through 

(Schreiben in Cache 1. und 2. Ebene), kein Lesen 

des gesamten Blocks bei Schreib-Fehlzugriff 

(write not allocate), 64 Byte Blöcke 

� L1-Befehls-Cache 

─ 20 kByte, 5-Wege assoziativ, 64 Byte Blöcke 

� L2-Cache (für Daten und Instruktionen) 

─ 1 MByte, direkt abbildend, Zurückschreiben bei 

Anforderung (write back), Lesen des gesamten 

Blocks bei Schreib-Fehlzugriff (write allocate), 

128 Byte Blöcke 

41



� Leistungsmaße für Caches 

� mittlere Zugriffszeit = Zugriffszeit + Fehlrate * 

Fehlzugriffszeit 

� Zugriffszeit z.B. 1, Fehlzugriffszeit z.B. 10 

� Beispiel: 4 kByte Datencache, Fehlrate 15,9%, 

Fehlzugriffszeit 10 

⇒ mittlere Zugriffszeit = 1 + 0,159*10 = 2,59 

42



� Fehlraten in Abhängigkeit von der Cache-Größe, 

direkt abbildender Cache 

% 

30 

25 

20 

15 

10 

5 

0 

Daten- 

Cache 

Daten/Befehls- 

Cache 

1kB 2kB 4kB 8kB 16kB 32kB 64kB 128kB 

Befehls- 

Cache 

43



� Wie geht dies in die Leistung ein ? 

� bisher: 

� jetzt: 

Ausführungszeit = IC * CPI * Taktdauer 

Ausführungszeit = 

Speicherzugriffe 

IC * (CPI + 

Instruktion 

*Fehlrate*Fehlzugriffszeit) * 

Taktdauer 

44



� Beispiel: 4 kByte gemeinsamer Daten/Befehls-Cache, 

Fehlrate 7,2%, Fehlzugriffszeit 10, CPI = 1, 

1,35 Speicherzugriffe pro Instruktion 

Ausführungszeit = 

Speicherzugriffe 

IC * (CPI + 

Instruktion 

*Fehlrate*Fehlzugriffszeit) * 

Taktdauer 

= IC * (1 + 1,35*0,072*10) * Taktdauer = IC * 1,97 * Taktdauer 

� d.h. nur noch die halbe Leistung 

� aber: ohne Cache ist die Ausführungszeit 

IC * (1 + 1,35*10) * Taktdauer, d.h. 14,5* so lange 

45



� Reduzierung der Fehlrate 

� Fehlzugriffe entstehen 

─ unvermeidlich zu Beginn ! 

─ durch mangelnde Kapazität 

─ durch Konflikte 

� Maßnahmen gegen Fehlzugriffe: 

─ größere Blöcke 

─ n-Wege assoziativ: n vergrößern 

─ vorausschauendes Lesen von Befehlen/Daten 

(prefetch) 

46



� Fehlraten in Abhängigkeit von der Block-Größe 

und Cache-Größe 

Fehlrate 

% 

25 

20 

15 

10 

5 

0 

16 32 64 128 256 

Cache-Größe 

1kB 

4kB 

Block-Größe 

16kB 

64kB 

47



� Fehlraten in Abhängigkeit von der Cache-Größe 

und dem Assoziationsgrad 

Fehlrate 

% 

14 

12 

10 

8 

6 

4 

2 

0 

direkt abbildend 

2-Wege 

4-Wege 

8-Wege 

1 2 4 8 16 32 64 128 

Cache-Größe (kB) 

48



� Reduzierung der Fehlzugriffszeit 

─ z.B. Cache 2. Ebene 

49



� Experiment: Einfluß der Caches auf verschiedene 

Algorithmen für die Multiplikation von n*n Matrizen 

� Algorithmus ijk: 

for (i=0; i



� Algorithmus ikj: 

for (i=0; i



� Algorithmus jki: 

for (j=0; j



� Blockweise Multiplikation: 

for (kk=0; kk



a 11 

a 21 

─ Idee: 

a 12 

a 22 

A 11 

A 21 

A 12 

A 22 

* 

B 11 

B 21 

B 12 

B 22 

= 

C 11 

C 21 

C 12 

C 22 

z.B. ist 

C 11 = A 11 B 11 + A 12 B 21 , C 12 = A 11 B 12 + A 12 B 22 

usw. 

* 

b 11 

b 21 

b 12 

b 22 

+ 

a 13 

a 23 

a 14 

a 24 

* 

b 31 

b 41 

b 32 

b 42 

54



� Meßergebnisse: 

rel. Zeit 

0,4500 

0,4000 

0,3500 

0,3000 

0,2500 

0,2000 

0,1500 

0,1000 

0,0500 

0,0000 

10 25 50 100 150 200 300 400 600 800 

n 

Zeitijk/n**3 

Zeitikj/n**3 

Zeitjki/n**3 

Zeitbl/n**3 

55



� RAM: random access memory, wahlfreier Zugriff, 

� die Zugriffszeit ist unabhängig vom Ort (Adresse) der 

Speicherung 

� SRAM: statischer RAM 

� die Daten werden als Zustände von Flipflops 

gespeichert, d.h. über Rückkopplungen 

� CMOS/Bipolare Versionen 

� DRAM: dynamischer RAM 

� die Daten werden als Ladung von Kapazitäten 

gespeichert 

� Datenverlust, falls keine Auffrischung alle n ms 

� Integrationsdichte etwa 4 ...10*SRAM 

� z.B. 256 Mbit in Massenproduktion 

56



� Prinzipiell werden die einzelnen Speicherelemente eines 

Speichers in einer Matrix angeordnet 

─ Beispiel: 1Mb Speicher 

höchstwertige 

Bits 

Adressen 

20 

Zeilen- 

Adresse 

Spalten- 

Adresse 

Zeilendekodierer 

10 

10 

0 

... 

1023 

1 

1024 * 1024 

Speicherzellen 

0 ... 

1023 

Verstärker/ 

Spaltendekodierer 

1 

adressierte 

Zeile 

57 

WE_L 

Lese/Schreibleitung



� Zeitlicher Ablauf: 

Dekodierung der 

Zeilenadresse 

Adressen 

20 

Verstärkung und 

Auslesen der 

ausgew. Zeile 

Zeilen- 

Adresse 

Spalten- 

Adresse 


10 

10 

0 

... 

1023 

Dekodierung 

der 

Spaltenadresse 

1 

1024 * 1024 


0 ... 

1023 

Verstärker/ 


1 

Ausgangsverstärkung 

t 

adressierte 

Zeile 

58 

WE_L 

Lese/Schreibleitung



� Aus Laufzeitgründen werden oft andere physikalische 

Aufteilungen gewählt, z.B.: 

512 * 1024 


Schreib/Leseverstärker 


... 

512 * 1024 


Schreib/Leseverstärker 


A0 A9 

10 Zeilenadressen 


adressierte 

Zeile 

59



� SRAM-Speicherzelle, Prinzip 

Zeilenauswahlleitung 

1 

0 1 

q q 

60



� Lesevorgang 


1 

bei Speichern lange 

Leitungen, daher 

Differenzverstärker 

am Ausgang q 

notwendig 

Leitungen 

auf 1 vorgeladen 

0 1 

q 

61



� Schreibvorgang 


1 

0 1 

1 q 

q 0 

62



� Zeitverhältnisse beim Lesevorgang 

WE_L 

Adressen 

D 

Zykluszeit 

Zugriffszeit 

ungültige 

Daten 

t h 

gültige 

Daten 

63



� Zeitverhältnisse beim Schreibvorgang 

Adressen 

WE_L 

D 

Zykluszeit 

t suWE 

t suD 

t hWE 

t hD 

64 

Daten müssen stabil 

am Eingang anliegen



� Fazit: 

� der Speicher arbeitet während des Lesevorgangs wie 

ein Verknüpfungsnetz 

� die Schreibleitung WE_L entspricht der Taktleitung 

65

66 


ALU 

Daten- 

speicher 

32*32 

Register- 

satz rf 

a 

b 

MPX 

ar 

di 

do 

MPX 

temp 

pc 

Befehls- 

speicher 

ir 

rs1 

rs2 

rd 

MPX 

∑ 

temp1 

ir1 

ir2 

ir3 

rd 

rs1 

rs2 

MPX 

temp 

temp1 

di 

di 

MPX 

temp 

temp1 

di 

rfa 

alu 

+4 

temp 

temp1 

imm 

7.3 SRAM



� Lesevorgang in einer getakteten Umgebung: 

Takt 

Ausgang ar 

Ausgang D 

Datenspeicher 

Ausgang di 

n 

ar 

0 

Datenspeicher(n) 

Datenspeicher 

D 

di 

67



� Wide-Bus SRAM's 

� dieselbe Speicherkapazität läßt sich für 

Speicherbausteine unterschiedlicher Busbreiten 

einsetzen 

─ Beispiel: 1 MBit SRAM Speicher 

256K * 4 Bit: 4 Pins Daten-Ein/Ausgänge, 18 Pins 

Adressleitungen = 22 Pins, 

64K * 16 Bit: 16 Pins Daten-Ein/Ausgänge, 16 

Adressleitungen = 32 Pins 

Adress- 

Bus 

18 

Daten- 

Bus 

4 

Speicher- 

Baustein 

Adress- 

Bus 

16 

Daten- 

Bus 

16 

Speicher- 

Baustein 

68



� 64K * 16 Bit Wide-Bus SRAM 

Adressen 

16 

Zeilen- 

Adresse 

Spalten- 

Adresse 


8 

8 

0 

... 

255 

1 

1024 * 1024 


1024 256 * 1024 256 


0 ... 

255 

Verstärker/ 


1 

16 

16 

1 

255 

adressierte 

Zeilen 

69 

WE_L 

Lese/Schreibleitung



� Speicherarten 

� asynchrone Speicher (s.o.) 

� synchrone Speicher 

� heute überwiegend synchrone Speicher 

� keine Übermittlung zeitlich komplexer Signale 

wie z.B. WE_L 

� Möglichkeit der Zugriffsbeschleunigung durch 

Pipelining usw. 

70



� Synchrone SRAM-Bausteine 

� Speicherung der Adressen und der Daten in Registern 

Adressen 

20 

AR-Register 

Zeilen- 

Adresse 

Spalten- 

Adresse 


10 

10 

0 

... 

1023 

DI-Register 

1 

1024 * 1024 


0 ... 

1023 

Verstärker/ 


1 

DO-Register 

71 

Bus



� Versionen von synchronen SRAM-Bausteinen 

� Version mit gepuffertem Pipeline-Register am 

Ausgang (Latenzzeit: 2 Takte) 

� flow-through Version mit ungepuffertem Register am 

Ausgang, d.h. die Daten müssen vor der nächsten 

Taktflanke stabil sein (Latenzzeit: 1 Takt) 

72



� Zeitlicher Ablauf beim Lesevorgang (mit Pipeline- 

Register am Ausgang): 

Takt 

Adressen 

Datenbus 

n 

Prozessor 

m o 

n 

Adressen 

Datenbus 

m 

Synchroner 

SRAM 

DO 

AR 

… 

o 

… 

73



� In vielen Fällen muß eine Folge von Daten an aufeinanderfolgenden 

Adressen, ein Burst, gelesen oder geschrieben 

werden 

� insbesondere beim Laden eines Blocks (einer cacheline) 

in oder aus Caches muß ein Burst transportiert 

werden, z.B. vier mal 64 Bit an aufeinanderfolgenden 

Adressen 

� da bei jedem Speicherzugriff eine ganze Zeile ausgelesen 

wird, ist die Datenrate am Zeilenverstärker sehr viel höher 

als am Ausgang 

� die ausgelesene Zeile wirkt wie ein Cache 

� durch Ändern alleine der Spaltenadresse können 

weitere Daten aus einer bereits dekodierten Zeile oder 

auch die gesamte Zeile (page-mode) ausgelesen werden 

� Erweiterung des Adressregisters um einen Burst- 

Counter 

74



─ Auslesen einer kompletten Zeile: 

Adressen 

20 

Zeilen- 

Adresse 

Spalten- 

Adresse 


10 

10 

0 

... 

1023 

1 

1024 * 1024 


0 ... 

1023 

Verstärker/ 


1 

adressierte 

Zeile 

75 

WE_L 

Lese/Schreibleitung 

1024 Bit 

verfügbar !



� Synchroner SRAM mit Burst-Unterstützung durch Burst- 

Counter BC 

Adressen 

20 

18 

AR-Reg. 

BC 

Zeilen- 

Adresse 

8 

2 2 


10 

0 

... 

1023 

DI-Register 

1024 * 1024 


0 ... 

1023 

Verstärker/ 


10 

Spalten- 

1 

Adresse 

1 

DO-Register 

76 

Bus



� Registersatz, z.B. 32*32 Bit 

Zeilen- 

(Wort-) 

dekodierer 

A0 ... A4 

5 Wortadressen 

0 

31 

... 

... 

D0 

Schreibverstärker 

... 

0 31 

... 

0 31 

D0 

32 Worte zu 32 Bit 

Leseverstärker 

... 

D31 

D31 

77



� Ein Registerinhalt = 32 Bit wird parallel ausgelesen 

� in Rechnerkernen ist oft das unabhängige Lesen von 

zwei Registern parallel zum Schreiben in ein drittes 

Register erlaubt (vgl. DLX), d.h. es sind drei 

Adressdekodierer nötig 

� wegen der geringen Größe sind an den Leseausgängen 

keine Differenzverstärker notwendig 

78



� Speicherzelle hierfür: 

Schreibauswahlleitung 

r3 

Leseauswahlleitung 

r1 

Leseauswahlleitung 

r2 

d 

q1 q2 

d 

79



� SRAM-Zelle: 6-4 Transistoren 

� DRAM-Zelle: 1 Transistor 

Spaltenauswahl 

Zeilenauswahl 

80



� Größenvergleich zwischen SRAM und DRAM tatsächlich 

noch drastischer als 6:1 

� Beispiel Infineon 0,20 μm Technologie 

─ SRAM 10-11 μm2 ─ DRAM 1-0,7 μm 2 

� "embedded DRAM" 

81



� Lesen: 

� Spaltenauswahl-Leitung vorladen (precharge) 

� Zeilenauswahl auf 1 setzen 

� bei gespeicherter 0 sehr kleine Ladungsänderung 

auf der Spaltenauswahl-Leitung 

� Verstärkung dieser Änderung 

� Zurückschreiben des gelesenen Resultats ! 

Zeilenauswahl 


82



� Schreiben: 

� Wert auf Spaltenauswahl-Leitung legen 

� Zeilenauswahl auf 1 setzen 


Zeilenauswahl 

83



� Auffrischen: 

� lesen (und zurückschreiben) jeder Zelle 

� geht zeilenweise in einem Schritt 

� für Refresh gehen typischerweise 1-2% aller 

Zyklen verloren 

Zeilenauswahl 


84



� Zur Einsparung von Anschlüssen für die Adressen 

werden die Zeilen- und Spaltenadressen von DRAM- 

Bausteinen gemultiplext und im Speicherchip in 

Registern zwischengespeichert 

� Signale RAS_L (row-address select) bzw. CAS_L 

(column-address select) 

85



� Lesevorgang: 

RAS_L 

CAS_L 

WE_L 

Adressen 

D 

Zykluszeit 

Z.Adr. Sp.Adr. Z.Adr. Sp.Adr. 

t r 

gültige 

Daten 

precharge Zeit 

86



� die Zugriffszeit t r ist wesentlich kleiner als 

die Zykluszeit 

87



� Schreibvorgang: 

RAS_L 

CAS_L 

WE_L 

Adressen 

D 

Zykluszeit 

Z.Adr. Sp.Adr. Z.Adr. Sp.Adr. 

gültige 

Daten 

88



� Die Techniken der Zugriffsbeschleunigung sind 

prinzipiell ähnlich denen von SRAM-Bausteinen 

� überwiegend synchrone Bausteine 

� Unterstützung von Bursts und Pipelining 

� mehrere Speicherbänke mit jeweils eigenem 


─ Maskierung der Precharge-Zeit 

─ Vervielfachung der "offenen" Zeilen-Caches 

� ... 

89



� Synchroner DRAM mit Burst-Unterstützung durch Burst- 

Counter BC 

Adressanschlüsse 

10 

10 

RAS 

8 

RA-Reg. 

CA-Reg. 

CAS 

BC 

Zeilen- 

Adresse 

2 2 

CAS 

8 

10 


0 

... 

1023 

DI-Register 

1024 * 1024 


0 ... 

1023 

Verstärker/ 


10 

Spalten- 

1 

Adresse 

1 

DO-Register 

90 

Bus



Takt 


Datenbus 

� Zeitlicher Ablauf beim Lesevorgang (Burst mit 

Pipelining): 

Laden der 

Zeilenadresse 

r 

Laden der 


n 

CAS- 

Latenzzeit 

m 

n n+1 n+2 n+3 m m+1 

Burst 

91 

Laden einer 

anderen 


derselben Zeile



Takt 


Datenbus 

� Zeitlicher Ablauf beim Lesevorgang (Burst mit 

Pipelining, wechseln der Zeile): 

Laden der 

Zeilenadresse 

r 

Laden der 


n 

CAS- 

Latenzzeit 

n n+1 n+2 n+3 

Burst 

Precharge-Zeit 

zum Rückschreiben 

des Zeileninhalts 

s 

Laden einer 

neuen 

Zeilenadresse 

92



� DDR SDRAM 

� Doppelte Datenrate durch 

─ Auslesen eines doppelt breiten Datenvektors mit 

jeder Spaltenadresse in jedem Takt 

─ Durchschalten der beiden Hälften mit der 

abfallenden und ansteigenden Taktflanke 

93



� Prinzipieller Aufbau: 

16.384* 

2.048*8 

8 

8 

8 

4 

4 

4 

94 

Quelle: JEDEC STANDARD Double Data Rate (DDR) 

SDRAM Specification JESD79D



� Zeitliches Verhalten: 

95 

Quelle: JEDEC STANDARD Double Data Rate (DDR) 

SDRAM Specification JESD79D



� Nicht-optimierte vs. durch Burst usw. optimierte 

Zyklusszeiten von DRAM´s 

ns 

250 

200 

150 

100 

50 

0 

64kB 

256kB 

1MB 

4MB 

16MB 

64MB 

optimiert 

96



� RAM: flüchtiger Speicher 

� ROM: 

� fest maskenprogrammiert durch den Hersteller 

� nicht veränderbar 

� sicher gegen Manipulation 

� höchste Integrationsdichte 

� sinnvoll > 10.000 Stück 

97



� EPROM: 

� programmierbar durch Hersteller/Benutzer 

� flexibel bezgl. Stückzahl 

� schnell programmierbar (typ. 100 μs) 

� OTP-(one time programmable)-Versionen oder 

komplett durch Bestrahlen mit UV-Licht löschbare 

Versionen 

98



99



� EEPROM's/Flash: 

� ideal für field upgrades (Bootsoftware, BIOS, Firmware) 

und zum Speichern individueller Kenndaten (IP Adresse) 

� ermöglicht inkrementelle Produkte durch Hinzufügen 

neuer oder weiterer Firmware-Versionen 

� "digitaler Film" in der Digitalkamera bzw. "digitales 

Band" im MP3-Spieler 

� unsicher gegenüber Manipulationen 

� Feldprogrammierbarkeit schwierig, z.B. sicher gegen 

Unterbrechung der Programmierung, usw. 

� Flash organisiert in Blöcken, die jeweils für sich als 

Ganzes gelöscht/beschrieben werden 

� vergleichsweise langsam zu programmieren (typ. 10 ms) 

� Größen z.B. 32 MB - 4 GB, Zugriffszeit ~ 50 ns 

100



� Programmierung: 

� MOS-Transistor mit sog. "floating gate" 

� im Programmierbetrieb wird durch Anlegen einer 

Spannung > Betriebsspannung eine Ladung 

(5.000 < bzw. < 30.000 Elektronen !) auf das floating 

gate gebracht 

� diese Ladung hebt die Schwellspannung des 

Transistors so an, daß Änderungen am Gate bei 

normaler Betriebsspannung keine Auswirkungen 

haben und der Transistor dauernd gesperrt ist 

101



─ Beispiel: Intel StrataFlash Speicher 

Technologie, speichern von 2 Bit pro Zelle 

102



� Flash-Varianten: 

� NOR (Intel 1988) 

─ ~ SRAM, d.h. wahlfreier Zugriff 

─ hoher Platzbedarf 

─ sehr langsames Schreiben/Löschen 

─ Code-Speicherung und Ausführung möglich 

� NAND (Toshiba 1989) 

─ sequentieller Datenzugriff, d.h. auch der 

Lesezugriff ist nur in einer vorgegebenen 

Ordnung möglich 

─ blockweise Übertragung, z.B. Blöcke von 512 

Bytes 

─ Benutzung in USB-Sticks, SD-Karten usw. für 

große Datenmengen 

103


7.6 Plattenspeicher 

� Festplatten 

� Ferro-magnetische Speicherung von Daten 

� 1-12 beidseitig beschichtete, gemeinsam 

rotierende Platten 

� Durchmesser 3,5", 2,5", 1" 

� Rotationsgeschwindigkeit 4.000 – 

10.000 U/min. 

� Kapazität 1 – 400 GB 

Cache 

Hauptspeicher 

Festplatte 

104



� Aufteilung: 

� 5.000 bis 30.000 Spuren (tracks) pro Plattenoberfläche 

� Spuren an derselben Position auf mehreren 

Oberflächen bilden einen Zylinder 

� Unterteilung einer Spur in 150 … 500 Sektoren zu 

typischerweise 512 Bytes 

� Lesen und Schreiben durch Lese/Schreibköpfe, die 

einen Zylinder auslesen 

… 

105 

Seagate ST1 1" 4-8GB Festplatte 

42.8 x 36.4 x 5 mm, 19 g



� Zugriffszeiten (Beispiel) 

� Typische mittlere Zylinder-Zugriffszeit der Köpfe 5–12 

ms 

� Rotationszeit 1/10.0000 U/min. = 6 ms 

� mittlere Verzögerung durch Rotation ~ 50%*1/10.0000 

U/min. = 3 ms 

� Annahmen: 360 Sektoren/Spur, Sektoren von 512 

Bytes, Rotationszeit = 6ms ⇒ Auslesegeschwindigkeit 

30 MB/sec. ⇒ Lesezeit/Sektor = 0,5 KB/30 MB/sec. ~ 

0,017 ms 

… 

106



� Wegen der im Vergleich zur Zeit für die Positionierung der 

Köpfe sehr kleinen Lesezeit pro Sektor (wenige Promille 

der gesamtzeit) werden typischerweise räumlich 

naheliegende Sektoren vorausschauend ebenfalls 

ausgelesen und ein einem einige MB großen Puffer 

gehalten 

107



� DMA: direct memory access 

� in einfachen Systemen geschah der Datenaustausch 

zwischen Speicher und E/A-Gerät unter Prozessorkontrolle, 

d.h. durch ein Programm, das Daten vom Puffer der 

Geräteschnittstelle in den Speicher schrieb 

Prozessor Speicher 

Bus 

bewirkt durch z.B. 

MOVE-Befehle 

E/A- 

Puffer 

E/A- 

Puffer 

108



� Bei DMA werden Daten zwischen Speicher und 

Ein/Ausgabegerät unter Kontrolle eines DMA-Controllers 

ausgetauscht 

� die CPU kann parallel dazu Programme ausführen 

� die Buszugriffe müssen sich Prozessor und DMA- 

Controller teilen ("cycle stealing") 

Arbiter 

Prozessor Speicher 

Bus 

Transport durch 

DMA-Controller 

DMA- 

Controller 

E/A- 

Puffer 

109



� Üblicherweise teilt der Prozessor dem DMA-Controller 

Anfangsadresse und Umfang der zu transportierenden 

Daten mit, das Inkrementieren der Adresse usw. 

übernimmt der DMA-Controller 

110


� Literatur für dieses Kapitel (außer Hen/Pat): 

� B. Prince: High Performance Memories, John Wiley 

1999 

� T. P. Haraszti: CMOS Memory Circuits, Kluwer 2000 

111

7. Speicher - Rechnersysteme

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?