Grundlagen der Informatik III Wintersemester 2010/2011 â 15 ...

Grundlagen der Informatik III 

Wintersemester 2010/2011 – 15. Vorlesung 

Dr.-Ing. Wolfgang Heenes 

int main() { 

printf("Hello, world!"); 

return 0; 

} 

msg: 

main: 

.data 

.asciiz "Hello, world!" 

.text 

.globl main 

la $a0,msg 

li $v0,4 

syscall 

jr $ra 

7. Dezember 2010 | Technische Universität Darmstadt | Dr.-Ing. Wolfgang Heenes | 1

Inhalt 

1. Literatur 

2. Caches 

3. Anschauung der Organisation der Caches 

4. Anordnung der Index-Bits 

5. Beurteilung der Caches 

6. Zusammenfassung und Ausblick 


Literatur 

[BO10] Bryant, Randal E. und David R. O´Hallaron: Computer Systems - A 

Programmer´s Perspective. 

Prentice Hall, 2010. 

[PH05] Patterson, David A. und John L. Hennessy: Rechnerorganisation und 

-entwurf. 

Spektrum Verlag, 2005. 


Caches 

◮ Direct-Mapped Cache 

◮ Direkte Abbildung eines Blocks 1 an genau einer Stelle im Cache 

◮ Genauer: Jede Blockadresse im Speicher wird auf eine einzige Position in der 

oberen Ebene der Speicherhierarchie abgebildet ⇒ Ggf. Nachteil bei 

Ersetzung 

◮ Es gibt zahlreiche Schemata für die Platzierung von Blöcken 

◮ 1. Extrem: direkte Abbildung 

◮ 2. Extrem: Ein Block kann an jeder beliebigen Position im Cache platziert werden 

◮ Im Folgenden: Assoziative Caches 

1 Speicherbereichs 


Vollassoziativer Cache 

◮ Kann ein Block an jede beliebige Position im Cache platziert werden, wird 

dieses Schema der Platzierung auch als vollassoziativ bezeichnet. 

◮ Der Cache wird dann als vollassoziativer Cache 2 bezeichnet. 

◮ Um einen bestimmmten Block in einem vollassoziativen Cache zu finden, 

müssen alle Einträge im Cache durchsucht werden. 

◮ Um die Suche (sinnvoll) durchführbar zu machen, erfolgt sie parallel mit je 

einem Vergleicher pro Cache-Eintrag. 

◮ Diese Vergleicher erhöhen die Hardwarekosten wesentlich, so dass eine 

vollassoziative Cache-Organisation nur für Caches mit wenigen Blöcken 

sinnvoll ist. 

2 fully associative cache 


Satzassoziativer Cache I 

◮ Zwischen direkt abbildenden und vollassoziativen Caches gibt es die 

Organisationsform des satzassoziativen Caches 3 . 

◮ In einem satzassoziativen Cache gibt es eine feste Anzahl von 

Speicherplätzen (mindestens 2), auf die ein Block gespeichert werden kann. 

◮ Ein satzassoziativer Cache mit n Positionen für einen Block wird als n-fach 

satzassoziativer Cache bezeichnet. 

◮ Ein n-fach satzassoziativer Cache besteht aus einer Menge von Sätzen, die 

aus jeweils n Blöcken bestehen. 

◮ Jeder Block im Speicher wird auf einen eindeutigen Satz im Cache 

abgebildet, der durch das Indexfeld bestimmt ist ⇒ ein Block kann in jedem 

beliebigen Element dieses Satzes plaziert werden. 

3 setassociative cache 


Satzassoziativer Cache II 

◮ Eine satzassoziative Platzierung kombiniert also die direkt abbildende 

Platzierung und eine vollassoziative Platzierung 

◮ Ein Block wird also auf einen Satz abgebildet, und dann werden alle Blöcke in 

dem Satz auf Übereinstimmung durchsucht. 

◮ Weil der Block in jedem Element des Satzes plaziert werden kann, müssen 

alle Tags aller Elemente des Satzes durchsucht werden 

◮ Abbildung 

◮ Bei einem direkt abbildenden Cache ist die Position eines Speicherplatzes wie 

folgt festgelegt: 

(Blocknummer) modulo (Anzahl der Cache-Blöcke) 

◮ Bei einem satzassoziativen Cache ist der Satz, der einen Speicherblock enthält 

wie folgt festgelegt: 

(Blocknummer) modulo (Anzahl der Sätze im Cache) 


Anschauung der Caches 

◮ Position der Adresse 12 in den unterschiedlichen Cache-Typen 

Abbildung: Quelle: [PH05, S. 406] 



◮ Erklärung: Die Position eines Speicherblocks mit der Adresse 12 

unterscheidet sich in einem Cache mit 8 Blöcken bei direkt abgebildeter, 

satzassoziativer und vollassoziativer Platzierung 

◮ Bei der direkt abgebildeten Platzierung gibt es nur einen Cache-Block, in dem 

Speicherblock 12 gefunden werden kann. Dieser Cache-Block ist angegeben 

durch (12 mod 8) = 4. 

◮ In einem zweifach satzassoziativen Cache mit 8 Cache-Blöcken gibt es vier 

Sätze und der Speicherblock 12 muss sich in Satz (12 mod 4) = 0 befinden. 

Der Speicherblock kann sich in jedem Element des Satzes befinden. 

◮ Bei einer vollassoziativen Platzierung kann der Speicherblock mit der 

Blockadresse 12 in jedem der acht Cache-Blöcke erscheinen. 



Cache mit 8 Blöcken 




◮ Erklärung: Die Gesamtgröße des Caches in Blöcken ist gleich der Anzahl der 

Sätze mal der Assoziativität. 

◮ Für eine feste Cache-Größe verringert also eine Vergrößerung der 

Cache-Assoziativität die Anzahl der Sätze, während sie die Anzahl der 

Elemente pro Satz erhöht. 

◮ Mit acht Blöcken ist ein achtfach satzassoziativer Cache dasselbe wie ein 

vollassoziativer Cache. 

◮ Vorteil einer erhöhten Assoziativität ist normalerweise eine Verringerung der 

Fehlzugriffsrate 


Zusammenfassung der Caches 

◮ Ein direkt abbildender Cache entspricht einem einfachen satzassoziativen 

Cache 

◮ Dabei enthält jeder Cache-Eintrag einen Block und jeder Satz besitzt ein 

Element. 

◮ Ein vollassoziativer Cache der Größe m entspricht einem m-fach 

satzassoziativen Cache 

◮ Er enthält dabei einen Satz mit m Blöcken und ein Eintrag kann sich in jedem 

Block innerhalb dieses Satzes befinden. 


Anschauung der Organisation der Caches 

Direct-Mapped 




Direct-Mapped 

◮ Bei diesem Cache wird der untere Teil der Adresse verwendet, um einen 

Cache-Eintrag auszuwählen, der aus einem Datenwort und einem Tag 

besteht. 

◮ Das Tag für den Cache wird mit dem oberen Teil der Adresse verglichen, um 

festzustellen, ob der Eintrag im Cache der angeforderten Adresse entspricht. 

◮ Weil der Cache 2 10 (oder 1024) Wörter enthält und eine Blockgröße von 1 

Wort aufweisst, werden 10 Bits verwendet, um den Cache zu indizieren, so 

dass 32 - 10 - 2 = 20 Bits bleiben, die mit dem Tag verglichen werden müssen. 

Wenn das Tag und die oberen 20 Bits der Adresse glecih sind und das 

Gültigkeits-Bit (V) gesetzt ist, erzeugt die Anforderung einen Treffer im Cache 

und das Wort wird dem Prozessor bereitgestellt. 

◮ Andernfalls erfolgt ein Fehlzugriff (Cache Miss) 



Direct-Mapped vier Wörter pro Zeile 


7. Dezember 2010 | Technische Universität Darmstadt | Dr.-Ing. Wolfgang Heenes | 15


Direct-Mapped vier Wörter pro Zeile 

◮ Bisher einfache Cache-Organisation: 1 Wort entspricht einer Cache-Zeile 

◮ Jetzt: Cache nutzt die räumliche Lokalität aus 

◮ Bei jedem Cache Miss werden Blöcke aufeinanderfolgender Speicherworte in 

den Cache übertragen 

◮ Ausnutzen der räumlichen Lokalität: z. B. Cache-Zeile enthält Speicherworte 

◮ Zur Auswahl eines Speicherworts aus der Zeile werden weitere Bits benötigt 



Satzassoziativer Cache 




Satzassoziativer Cache 

◮ Erklärung: Ein vierfach satzassoziativer Cache benötigt vier Vergleicher und 

einen 4:1 Multiplexer 

◮ n-fach assoziativ: n Vergleicher (Hardware) notwendig. 

◮ Die Vergleicher stellen fest, welcher Block des ausgewählten Satzes mit dem 

Tag übereinstimmt. 

◮ Anhand der Ausgabe des Vergleichers werden die Daten aus einem der vier 

Blöcke des indizierten Satzes ausgewählt, wofür ein Multiplexer verwendet 

wird 

◮ Ein Cache Hit wird über die eine Oder-Verknüpfung ermittelt. Vorher wird über 

eine Und-Verknüpfung von Vergleicher und dem Valid-Bit noch geschaut, ob 

die zu lesenden Daten auch gültig sind. 


Anordnung der Index-Bits I 

◮ Z. B. Direct-Mapped Cache 

◮ Direkte Abbildung eines Blocks an genau einer Stelle von Speicheradressen 

auf einen Cache 

◮ Warum werden für den Index (des Sets) der Caches die „mittleren“ Bits 

benutzt? 

◮ Wenn z. B. die MSB 4 als Index benutzt werden, bekommt man einen 

zusammenhängenden Speicherbereich, der auf dasselbe Cache-Set 

abgebildet wird. 

◮ Wenn Programm eine gute räumliche Lokalität hat, wird die Abbildung auf den 

Cache uneffizient ⇒ s. nächste Folie 

4 Most Significant Bit 


Anordnung der Index-Bits II 

00 

01 

10 

11 

4-set cache 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

High-order 

bit indexing 

0000 

0001 

0010 

0011 

0100 

0101 

0110 

0111 

1000 

1001 

1010 

1011 

1100 

1101 

1110 

1111 

Middle-order 

bit indexing 

Set index bits 

Abbildung: Quelle: [BO10, S. 640] 


Beurteilung der Caches 

Begriffe 

◮ Treffer (hit): zugegriffene Daten sind in oberer Ebene (nahe beim Prozessor) 

◮ Trefferrate: Anteil der Speicherzugriffe auf höherer Ebene (level) 

◮ Trefferzeit: Zeit, um Treffer festzustellen und auf Datum zuzugreifen 

◮ Cache-Fehlzugriff (miss): gesuchte Daten nicht in oberer Ebene 

◮ Fehlrate = 1 - Trefferrate 

◮ Fehlstrafzeit (Miss Penalty): Zeit, um Block auf eine höhere Ebene und zum 

Prozessor zu bringen 



Behandlung eines Cache-Misses 

◮ Situation: Datum ist nicht im Cache vorhanden und muss aus dem 

Hauptspeicher geladen werden 

◮ Problem: Steuerung muss die Befehlsverarbeitung so lange anhalten, bis die 

gesuchten Daten im Cache verfügbar (Stall-Zyklen) sind 

◮ Separater Controller lädt die erforderlichen Daten vom Speicher in den Cache 

◮ Suche Platz im Cache für neue Daten, Strategie erforderlich 

◮ Falls Cache voll ⇒ entferne vorhandene Daten aus dem Cache 

◮ Nachladen dauert ein Vielfaches von Cache-Zugriffen, 

Nachladezeit/Fehlstrafzeit bezeichnet man als Miss-Penalty 



Blockorganisation 

◮ Ausnutzen der räumlichen Lokalität durch Vergrößern der Blöcke reduziert 

Fehlzugriffe 

◮ Je größer die Blöcke desto besser? 

◮ Größere Blöcke, damit weniger Blöcke im Cache 

◮ Wenige Blöcke präsent, damit steigt Miss-Rate an. 

◮ Größere Blöcke: längere Transferzeiten bei Miss 



Blockorganisation 

◮ Quantitative Darstellung 



Assozativität 



Assozativität 

◮ Erklärung: Die Daten-Cache-Fehlzugrgriffsraten verbessern sich mit 

steigender Assoziativität für jede der acht Cache-Größen 

◮ Während der Vorteil von einfacher (direkt abgebildet) hin zu zweifacher 

Satzassoziativität wesentlich ist, sind die Zugewinne für weitere 

Assoziativitätsgrade kleiner 

◮ Beim Schritt von vierfacher zu achtfacher Satzassoziativität ist nur noch wenig 

Verbesserung erkennbar. 

◮ Kleinere Caches erzielen einen wesentlichen größeren absoluten Vorteil aus 

der Assoziativität 



Blockersetzung 

◮ Wenn ein Fehlzugriff auftritt, muss entschieden werden, welcher Block 

verdrängt wird 

◮ Direct-Mapped ist fest vorgegeben 

◮ Beim vollassoziativen Cache kommen alle Blöcke in Frage 

◮ Beim satzassoziativen Cache kann zwischen den Blöcken im Satz gewählt 

werden 

◮ Strategien: 

◮ Zufällig 

◮ LRU-Ersetzung 

◮ LRU-Ersetzung ist sehr aufwändig (bei größeren Assoziativitätsgraden) 

◮ Schätzung ⇒ LRU Approximation 


Ein intuitives Modell für Speicherhierarchien 

Die drei C´s 

◮ Die drei C´s dienen zur intuitiven Erklärung des Verhaltens von 

Speicherhierarchien 

◮ Die Ursachen für Fehlzugriff auf den Cache lassen sich hinsichtlich dreier 

Ursachen klassifizieren 

◮ Compulsory misses: Fehler bei erstem Zugriffs auf einen Block, der noch nie 

im Cache war (Kaltstart-Fehler) 

◮ Capacity misses: Fehlzugriff, weil der Speicher wegen Größenbeschränkung 

nicht alle vom Programm verwendeten Blöcke aufnehmen kann. Blöcke 

werden ausgelagert und später wieder angefordert. 

◮ Conflict misses: In direkt abgebildeten oder mengen-assoziativen Speichern 

konkurrieren Blöcke um dieselbe Blockposition. 


Speicherhierarchie des Intel Pentium P4 und des 

AMD Opteron 

◮ z. B. Intel Pentium Prozessor, 42 Millionen Transistoren 

◮ Aktuell: Core-i7-Serie: Die-Größe: 248 mm 2 bei 1,17 Milliarden Transistoren 


L1- und L2-Caches im Intel Pentium P4 und AMD 

Opteron 


Übersicht verschiedener Prozessoren 


Zusammenfassung und Ausblick 

◮ Caches 

◮ Anordnung der Index-Bits 

◮ Beurteilung der Caches 

Nächste Vorlesung behandelt 

◮ Pipelining, Busse

Grundlagen der Informatik III Wintersemester 2010/2011 â 15 ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?

Grundlagen der Informatik III Wintersemester 2010/2011 â 15 ...