3 Arbeitsspeicher- und Bussysteme

Weitere Magazine

Empfehlungen

Info

218 C3 Arbeitsspeicher- und Bussysteme teratur zu Entwurf und Leistung von Caches seien hier nur [Smith 82] und [Przybylski 90] herausgegriffen. In der allgemeinen Literatur sind die Leistungsaspekte systematisch und umfassend dargestellt. Leistungsbetrachtungen zu Caches können sich an folgender Formel für die mittlere (auch: effektive) Speicherzugriffszeit Te für eine zweistufige Arbeitsspeicherhierarchie (Cache und Hauptspeicher) orientieren: Te = h⋅Th + m⋅Tm (1) Dabei bezeichnen h und m = 1−h die Treffer- bzw. Fehlzugriffsraten im Cache (hit rate, miss rate), Th die Cache-Zugriffszeit (hit time) und Tm die Cache-Ladezeit (miss time). Die mittlere Speicherzugriffszeit Te kann somit durch die im weiteren beschriebenen drei Maßnahmen reduziert werden. Optimierung an einer Größe bewirkt dabei aber meist eine Verschlechterung einer oder der beiden anderen. Es gilt, einen guten Kompromiß zwischen den Einflußfaktoren zu finden. Reduktion der Fehlzugriffsrate m. Dies gelingt durch Vergrößerung des Caches oder höheren Assoziativitätsgrad. Beides macht ihn teurer und erhöht auch, wie erwähnt, die Zugriffszeit Th. Größere Blöcke sind eine weitere Möglichkeit, da sie verstärkt räumliche Lokalität nutzen; dadurch wird aber die Nachladezeit Tm erhöht. In assoziativen Caches kann auch eine verbesserte Ersetzungsstrategie Vorteile ergeben. Speziell für direkt abbildende Caches wurde jüngst der Einsatz eines kleinen „Neben“-Caches (engl. victim cache) vorgeschlagen: In ihnen werden die zuletzt verdrängten Blöcke zwischengespeichert, so daß der erneute Zugriff auf sie viel schneller ist, als wenn sie im Hauptspeicher wären. Eine weitere wirksame Technik ist explizites vorausgreifendes Laden (prefetching) von Blöcken in den Cache. Dies kann durch Hardware erfolgen oder durch spezielle Befehle durch den Übersetzer veranlaßt werden. Reduktion der Cache-Zugriffszeit Th. Die Zugriffszeit zu einem Primär-Cache im Falle eines Treffers ist heute vielfach entscheidend für die Prozessortaktrate; bei einem Sekundär-Cache bestimmt sie die Anzahl der Wartezyklen für den Prozessor. Kurze Zugriffszeiten erhält man bei kleinen und einfach organisierten Caches, was der ersten Optimierung zuwiderläuft. Einen zusätzlichen Vorteil bieten hier direkt abbildende Caches, da sich die Vergleiche der Kennungen (tags) und Anwahl und Übertragung der gewünschten Daten überlappen können. Reduktion der Cache-Ladezeit Tm . Bereits angesprochen wurde die Möglichkeit, bei einem Fehlzugriff nicht direkt auf den Hauptspeicher zugreifen zu müssen, sondern einen Sekundär-Cache zwischenzuschalten. In diesem Fall ergibt sich Tm selbst gemäß einer zu (1) analogen Formel. In den letzten Jahren wurden zur Unterstützung schneller Prozessoren aufwendige sog. nichtblockierende Caches eingeführt (non-blocking caches). Sie ermöglichen mehrere ausstehende Speicherzugriffe und können bei Treffern Daten an den Prozessor liefern, selbst wenn das Nachladen eines Blocks im Gange ist. Schließlich ist Tm maßgeblich durch die Geschwindigkeit des Prozessor-/Speicherbusses und des Hauptspeichers bestimmt. Maßnahmen zur Leistungssteigerung dieser Komponenten und zur Abstimmung mit den Caches werden in den folgenden Abschnitten besprochen. 3.3 Hauptspeicher In diesem Abschnitt werden Komponenten und Organisationsformen des Hauptspeichers moderner Rechensysteme behandelt. Der Hauptspeicher ist ein großer, flüchtiger Halbleiterspeicher mit wahlfreiem Zugriff und Lese- und Schreibmöglichkeit (random access memory, RAM), in dem Programme und Daten von Benutzern und Betriebssystem wäh-
C3.3 Hauptspeicher 219 rend der Ausführung gehalten werden. Daneben kommen in heutigen Rechnern nichtflüchtige Halbleiterspeicher zum Einsatz, auf die nur oder vorwiegend lesend zugegriffen wird. Sie dienen zum Beispiel dazu, System-, Mikro- oder sonstige Steuerprogramme, Funktionstabellen oder Geräteinformation zu speichern. Auf diese ROM-Speicher (read only memory) und ihre programmierbaren und auch beschreibbaren Varianten (read mostly memory) wird hier nicht eingegangen. Die Strukturierung des Arbeitsspeichers in Segmente und Seiten, Adressierung und Adreßübersetzung sowie die Prinzipien des virtuellen Speichers bilden ein Grenzgebiet zwischen Rechnerarchitektur und Betriebssystemen. Diese Themen werden bei Betriebssystemen besprochen (Verweis auf Borrmann). Im weiteren wird das Anliegen einer realen Adresse am Hauptspeicher zugrundegelegt. 3.3.1 Speicherbausteine Der Hauptspeicher heutiger Computer wird fast immer aus DRAM-Bausteinen aufgebaut (dynamic RAM). Nur in Höchstleistungsrechnern und für Cache-Speicher kommen die schnelleren, aber wesentlich teureren SRAM-Bausteine zum Einsatz (static RAM). DRAM-Chips enthalten im Kern eine Speichermatrix, an deren Knotenpunkten eine oder einige 1-Bit-Speicherzellen liegen. Bild 5 zeigt einen DRAM-Baustein der Größe 4M×1 Bits. Eine Speicherzelle besteht aus nur einem Transistor und einem Kondensator. Die Zellen werden über eine Zeilen- und eine Spaltenadresse angesprochen. Um Adreßanschlüsse zu sparen, wird die Adresse im Zeitmultiplexbetrieb angelegt. Die Gültigkeit der Adreßteile wird mittels der Signale RAS (row address select) bzw. CAS (column address select) bekanntgegeben. Die Signale WE und OE dienen der Lese-/Schreib- und Bausteinanwahl. Mit der Zeilenadresse wird zuerst eine gesamte Zeile aus der Speichermatrix entnommen und gepuffert, mit der Spaltenadresse das bzw. die gewünschten Bits gelesen oder geschrieben. Ein Nachteil der kompakten Realisierung der Speicherzellen ist, daß das Lesen (Entnehmen einer Zeile bei RAS) zerstörend wirkt. Um Informationsverlust zu verhindern, muß die Zeile vom Lese-/Schreibverstärker wieder zurückgeschrieben werden. Durch Leckströme droht ebenfalls die Zerstörung der Speicherinhalte. Daher muß innerhalb einer bestimmten Zeit (typisch alle 8 ms) jede Zeile regeneriert werden. Häufig übernimmt die externe Speichersteuereinheit die Kontrolle über diesen Vorgang des periodischen Auffrischens (refresh). SRAM-Bausteine sind ähnlich aufgebaut. Unterschiede bestehen darin, daß jede 1-Bit- Zelle ein vollständiges Flipflop enthält (häufig sechs Transistoren), die Regeneration der Speicherinhalte damit entfällt und alle Adreßleitungen zugleich angelegt werden. C3
Seite 1 und 2: 3 Arbeitsspeicher- und Bussysteme C
Seite 3 und 4: C3.2 Caches 213 schnittenen Eigensc
Seite 5 und 6: C3.2 Caches 215 Virtuelle Adressier
Seite 7: C3.2 Caches 217 Zeile abgebildet we
Seite 11 und 12: Adresse C3.3 Hauptspeicher 221 Eine
Seite 13 und 14: C3.4 Bussysteme 223 auszuschließen
Seite 15 und 16: C3.4 Bussysteme 225 zessorsystemen
Seite 17 und 18: C3.4 Bussysteme 227 jeder Teilnehme

3 Arbeitsspeicher- und Bussysteme

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?