11. Vorlesung

Rechnergrundlagen 

SS 2007 

11. Vorlesung

Inhalt 

• Evaluation der Lehre (Auswertung) 

• Synchroner/asynchroner Systembus 

• Kontrollfluss/Datenfluss 

• RISC vs. CISC 

• Speicherhierarchie 

• Cache 

– Lesen 

–Schreiben 

– Überschreiben 

Rechnergrundlagen 2

Systembus 

Physikalisch ist jeder Bus aus einer Anzahl von Leitungen 

aufgebaut. Bspw. besteht ein 16 bit Adressbus aus 16 

individuellen Leitungen. 

Für jede Busleitung darf es zu einem Zeitpunkt nur eine 

Einheit geben, welche die Busleitung treibt. 

Rechnergrundlagen 3

Quelle und Senke 

• Quelle: Als Quelle wird der Sender 

eines Datenwortes bezeichnet. 

• Senke: Als Senke wird der Empfänger 

eines Datenwortes bezeichnet. 

• Die CPU kann, in Abhängigkeit von 

Lese- oder Schreibzyklus, Senke oder 

Quelle eines Datentransfers sein. 

Rechnergrundlagen 4

Adress- und Datenbus 

• Adress- und Datenbus sind zwei homogene 

Busse, die Signale gleicher Funktion 

zusammenfassen. 

• Der Datenbus ist ein bidirektionaler Bus. 

• Der Adressbus ist (in Systemen ohne DMA) 

ein unidirektionaler Bus. Von der CPU 

werden Adressen zum Speicher bzw. zu Einund 

Ausgabe transferiert. 

• Es existieren auch Realisierungen mit 

gemultiplextem Adress- und Datenbus 

(Adresse und Daten werden zeitlich versetzt 

auf denselben Leitungen übertragen). 

Rechnergrundlagen 5

Synchron/asynchron 

• Synchron 

– zeitlich abgestimmter Vorgang 

– Beispiel: Flip-Flops einer zyklischen 

Folgeschaltung schalten alle gleichzeitig, da es 

einen zentralen Takt gibt 

• Asynchron 

– Zeitlich nicht abgestimmt 

– Beispiel: Flip-Flops schalten zu unterschiedlichen 

Zeiten, da der Takteingang der Flip-Flops nicht 

zentral beschaltet wird 

Rechnergrundlagen 6

Kontrollbus 

• Der Kontrollbus ist ein inhomogener Bus, er fasst 

Signale unterschiedlicher Funktion zusammen. 

• Hauptaufgaben der Signale: 

– Markieren einer gültigen Adresse 

– Auswahl eines Schreib- oder Lesetransfers 

– Abschluss des Transfers 

• Synchroner Systembus: Zeitliche Verhalten der 

Signale wird ausschließlich durch die CPU gesteuert. 

• Asynchroner Systembus: Langsame Speicher oder 

Ein- bzw. Ausgabeeinheiten können das zeitliche 

Verhalten der Bussignale beeinflussen. Der 

adressierte Speicher bzw. die Ein-/Ausgabeeinheit 

muss ein Quittungssignal senden. Der Kontrollbus 

übernimmt dann die Aufgabe das Quittungssignal zu 

transferieren. 

Rechnergrundlagen 7

Buszyklen 

• Mit Buszyklus wird die zeitliche Abfolge von Signalen auf 

dem Systembus bezeichnet. 

• Der Bus-Master, üblicherweise die CPU, steuert die 

logische und zeitliche Abfolge der Signale beim 

Transfer. 

• Für jeden Buszyklus gibt es einen Bus-Master. 

• Beim Lesezyklus legt der Bus-Master die für das Lesen 

notwendigen Kontrollsignale und die Adresse am Bus 

an. Die adressierte Speicherzelle legt den gespeicherten 

Wert auf den Datenbus, der von der CPU eingelesen 

wird. Der Bus-Master terminiert den Zyklus. 

• Beim Schreibzyklus legt der Bus-Master die für das 

Schreiben notwendigen Kontrollsignale und die Adresse 

am Bus an. Die CPU gibt ein Datenwort auf dem 

Datenbus aus. Der Speicher übernimmt das Datenwort 

und schreibt es an die adressierte Speicherzelle. Der 

Bus-Master terminiert den Zyklus 

Rechnergrundlagen 8

Synchroner Schreib- und 

Lesezyklus 

Rechnergrundlagen 9

Asynchroner Lesezyklus 

Rechnergrundlagen 10

Architekturen 


Kontrollfluss 

Beim Kontrollfluss unterscheidet man: 

• Deklarative Semantik: 

Formuliert die Bedingungen. Reihenfolge wird nicht 

spezifiziert. 

– Beispiel: „Es ist Schwimmbadwetter falls die Sonne 

scheint und es warm ist“. 

• Prozedurale Semantik: 

Definiert die Reihenfolge der auszuführenden Schritte. 

– Beispiel: „Um herauszufinden, ob Schwimmbadwetter 

ist, schaue zuerst auf das Thermometer und 

vergleiche die angezeigte Temperatur mit 25°C, dann 

sieh‘ hoch, ob die Sonne scheint“. 


Datenfluss 

Der Datenfluss kann beschrieben werden: 

• durch Eingabeparameter, 

wobei die Position der einzelnen Parameter in 

der Liste ebenfalls zu beachten ist. 

• durch Ausgabeparameter: 

– Rückgabewert einer Funktion 

– Parameter in der Übergabe-Liste, falls er 

entsprechend spezifiziert ist (z.B. Übergabe 

by reference, Übergabe einer Adresse) 


Digitale Signalprozessoren (DSPs) 

Die Harvard-Architektur findet sich z.B. in DSPs: 

DSP weisen zwar immer noch Kontrollfluss-Befehle auf, 

haben jedoch einige Spezialbefehle (z.B. Filterung), die 

nach dem Datenfluss-Prinzip arbeiten. 

Kontrollfluss: 

• Beschreibt die Reihenfolge, wie einzelne Schritte 

ausgeführt werden, oder Bedingungen zur Ausführung. 

• Nicht linear, Sprünge (Verzweigungen) möglich 

Datenfluss: 

• Beschreibt, wie Daten von einem Schritt zum nächsten 

kommen, d.h. von den Eingabewerten über die 

Operationen zum Ergebnis. 

• Im Datenfluss gibt es keinen expliziten Kontrollfluss, 

sondern der Datenfluss enthält einen impliziten, dem 

Datenfluss gleichgerichteten Kontrollfluss. 


DSPs (Fortsetzung) 

Weitere Besonderheiten von DSPs: 

• Sättigungsarithmetik: 

Bei Über- oder Unterlauf kein Vorzeichenwechsel. Bei 

Überlauf wird größtmögliche, bei Unterlauf 

kleinstmögliche Zahl dargestellt. 

keine extreme Verzerrung von Signalen. 

• Indirekte Adressierung über Hilfsregister 

kurze Befehle, schneller Zugriff 

• Ausführung der meisten Befehle in einem Zyklus 

• Hartverdrahtetes Steuerwerk, keine 

Mikroprogrammierung 

• Spezialbefehle für Filterung, FFT, modulare 

Adressierung, Sättigungsarithmetik 

• Sehr performante ALU Multiplikation in wenigen oder 

nur einem Taktzyklus 


Semantische Lücke (semantic gap) 

• Der Rechner MARK I hatte 1948 sieben 

Maschinenbefehle geringer Komplexität. 

• In der Folge versuchte man die sog. 

semantische Lücke zwischen höheren 

Programmiersprachen und der 

Maschinensprache zu schließen. 

• Ziel war die Vereinfachung des 

Compilerbaus, kompakterer Opcode und eine 

höhere Rechenleistung. 


CISC 

• Klassische von-Neumann Rechner sind 

CISC-Rechner (complex instruction set 

computer). 

• Zu den ursprünglich einfachen 

Maschinenbefehlssätzen sind immer mehr 

spezialisierte Befehle hinzugefügt worden. 

• Ziel war eine bessere Unterstützung der 

Hochsprachenkonstrukte. 

• Die Prozessoren wurden insgesamt 

langsamer und aufwendiger. 


Analyse 


RISC (reduced instruction set 

computer) 

• Zu Anfang der 70er Jahre zeigte eine Untersuchung, 

dass von Compilern für Hochsprachen nur wenige 

einfache Assemblerbefehle verwendet werden. 

• Leistungsfähige und komplexe Assemblerbefehle werden 

kaum eingesetzt. 

• Gründe: 

– Compiler werden algorithmisch sehr komplex, wenn 

für eine Sequenz von Hochsprachenanweisungen 

untersucht werden muss ob sie durch einen 

komplexen Assemblerbefehl realisiert werden können. 

– Teilweise werden Anweisungen der Hochsprachen 

nicht gut durch komplexe Assemblerbefehle 

abgebildet. 


Ziele: CISC vs. RISC 

• Die Entwickler von CISC Prozessoren 

stellen Assembler-Programmierern 

möglichst mächtige Befehle zur 

Verfügung. 

• Die Entwickler von RISC Prozessoren 

verfolgen das entgegen gesetzte Ziel 

mit möglichst wenigen einfachen 

Assemblerbefehlen auszukommen. 


CISC versus RISC 


Prinzipien der RISC Entwicklung 

• Analyse der Applikationen, um Schlüsseloperationen 

zu finden, die häufig ausgeführt werden. 

• Entwurf eines Rechenwerks, das optimal die 

gefundenen Schlüsseloperationen verarbeiten kann. 

• Entwurf von Instruktionen, welche die 

Schlüsseloperationen effizient im Rechenwerk 

ausführen. 

• Weitere Instruktionen werden nur hinzugefügt, wenn 

die Verarbeitung der Schlüsseloperationen nicht 

verlangsamt wird. 

• Die gleiche Optimierung wird für andere Bereiche des 

Rechners (Cache, Speichermanagement, etc.) 

durchgeführt. 


Kennzeichen von RISC- 

Prozessoren 

• Ein RISC-Prozessor hat viele Register, um möglichst 

viele Operanden lokal im Prozessor speichern zu können. 

• Bei ALU-Operationen dienen Register als Operanden und 

als Senke für das Ergebnis. 

• Es wird nicht mehr zwischen Adress- und Datenregister 

unterschieden. 

• Nur wenige Adressierungsarten, bspw.: 

– Unmittelbare Adressierung (Immediate). Der Operand 

ist in der Instruktion gespeichert. 

– Register-indirekte Adressierung. Bei der Adressierung 

zeigt die Instruktion auf ein internes Register. Das 

Register enthält die Adresse des Operanden im 

Speicher. 


Pipelining (Prinzip) 

Die gesamte Rechenzeit einer Operation wird nicht 

reduziert. 

Es werden mehrere Operationen versetzt parallel ausgeführt. 


Pipelining (Blockschaltbild) 


Pipelining (Ausführung) 


Pipelining 

• Bedingung für die erfolgreiche Anwendung 

eines Pipelining ist die Existenz fester 

Ausführungszeiten. 

• Je feiner die Zerlegung der Abarbeitung der 

Befehle ist, desto höher das Potential zur 

Beschleunigung. 

• Da konkurrierend auf den Speicher 

zugegriffen wird, muss der Zugriff sehr 

schnell erfolgen und etwaige Konflikte 

vermieden werden. 


Probleme 

• Die langsamste Stufe der Verarbeitung 

bestimmt den Takt des Pipelining. 

• Wenn Sprünge ausgeführt werden, sind die 

auf Vorrat ausgeführten Verarbeitungsstufen 

hinfällig. 

• Bsp.: Soll in aufeinander folgenden 

Instruktionen zunächst ein Operand 

berechnet und dann weg gespeichert werden, 

wird ein vorheriger alter Wert gespeichert. 

• Die durch die versetzte Ausführung der 

Instruktionen entstehenden Konflikte werden 

als Hazards bezeichnet. 


• Sprungbefehle: 

Lösungen 

– Die auf den Sprungbefehl folgenden Befehle 

werden aus der Pipeline gelöscht und durch NOP- 

Befehle ersetzt (Hardware). Es entstehen 

Bubbles. 

– Die dem Sprungbefehl nachfolgenden Befehle 

werden vor der Ausführung des Sprungbefehls 

ausgeführt. Dies bedeutet, dass der Compiler an 

diese Stelle sinnvoll auszuführende Befehle 

platziert (Software). 


Einfügen von NOPs 


Lösungen (Forts.) 

• Laufzeitkonflikte (Hazards): 

– Man führt per Software NOPs ein, so dass 

verlängerte Speicherzugriffe (statisch) 

ausgeglichen werden. 

– Wenn ein Cache Miss auftritt (dynamisch), muss 

von Seiten der Hardware garantiert werden, dass 

die Ausführung verzögert wird. 

• Insgesamt führen die Anforderungen an 

Compiler für RISC-Architekturen zu sehr 

komplexen Maschinenprogrammen, so dass 

nur selten eine manuelle Bearbeitung 

vorgenommen werden kann. 


Optimierende Compiler 

• Zwei aufeinander aufbauende Phasen: Analyse und 

Synthese. 

• In der Analyse werden die syntaktischen und 

semantischen Eigenschaften des Programms 

analysiert und eine maschinenunabhängige 

Optimierung durchgeführt. Es wird ein 

maschinenunabhängiger Zwischencode erzeugt. 

• Für die Synthese müssen die Eigenschaften der 

Zielmaschine bekannt sein. Bei CISC Prozessoren 

genügt die Kenntnis der Befehlsarchitektur. Für RISC 

Prozessoren müssen auch die Details der 

Befehlspipeline bekannt sein. Für die Beseitigung 

von Konflikten werden NOPs eingefügt. Eine weitere 

Optimierung kann durch die Umordnung von 

Befehlen erreicht werden. 


Grundtypen I 

• Single Instruction, Single Data (SISD): ein sequentiell 

abgearbeiteter Befehlsstrom und ein entsprechend 

sequentieller Datenstrom (bspw. Intel bis 80486). 

• Single Instruction, Multiple Data (SIMD): ein 

sequentiell abgearbeiteter Befehlsstrom steuert einen 

mehrfachen parallelen Datenstrom (bspw. MMX). 

• Multiple Instruction, Single Data (MISD): mehrere 

Rechenwerke bearbeiten einen Datenstrom (bspw. 

UNIX pipe). 

• Multiple Instruction, Multiple Data (MIMD): die 

Abarbeitung geschieht sowohl befehls- als auch 

datenparallel (bspw. Transputer). 


Grundtypen II 


Cache 

• Ein Problem moderner Prozessoren ist ihre hohe 

Taktrate, da der Hauptspeicher die benötigten Daten 

nicht schnell genug liefern kann. 

• Um dieses Problem zu lösen werden schnelle 

Pufferspeicher eingesetzt, die als Cache bezeichnet 

werden. 

• Caches befinden sich zwischen Prozessorkern und 

Hauptspeicher. 

• Sie dienen der Steigerung der Geschwindigkeit des 

Datenaustausches und der Entlastung des 

Datenbusses. 

• Es muss ein Cache-Controller zum Einsatz kommen, 

der die Zugriffe des Prozessors auf den 

Hauptspeicher überwacht und Zugriffe auf den Cache 

bzw. Datenhaltung im Cache koordiniert. 


Speicherhierarchie 


Cache in modernen Rechnern 


Organisation des Cache (Prinzip) 

Zugriff auf Cache ist deutlich schneller als der Zugriff auf Hauptspeicher. 

Wenn Daten im Cache stehen, kann die CPU sehr schnell darauf 

zugreifen. 

Größe des Cache ist deutlich kleiner als Größe des Hauptspeichers. 


Speicherzellen 

• Zerlegung des Hauptspeichers in Blöcke der 

Größe des Caches. 

• Diese Blöcke werden, wie der Cache, in 

Cache-Zeilen aufgeteilt. 

• Es werden nur ganze Zeilen in den Cache 

übernommen. 

• Es existieren unterschiedliche Strategien für 

die Verwaltung des Cache , d.h. wie neue 

Zeilen eingeladen werden und welche 

ausgelagert werden. 


Adressierung (Beispiel)

11. Vorlesung

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?