MusterlÃ¶sung - Rs.tu-darmstadt.de

Institut für Datentechnik D-64283 Darmstadt, Merckstr. 25 

Fachgebiet Rechnersysteme Telefon: (06151) 16-2076 

Professor Dr.-Ing. H. Eveking Telefax: -4976 

Klausur für die Prüfung 

R E C H N E R S Y S T E M E 1 

Frühjahr 2011 

Mittwoch, der 23. März 2011 

16:00-17:30 Uhr 

Musterlösung 

_______________________________________________________________________________________________ 

Nachname Vorname Matrikelnummer 

Hinweis für alle Aufgaben: 

Bearbeitungszeit: 

Lassen Sie bitte die Aufgabenblätter zusammengeheftet 

und führen Sie die Rechnung 

auf dem dafür vorgesehenen Platz im Aufgabentext 

oder auf der leeren Seite rechts daneben 

durch. 

90 Minuten 

Die Punkteverteilung ist den einzelnen Aufgaben zu entnehmen.

1. Aufgabe 40 Punkte 

1.1 Ein 16 Bit breiter Bus wird auf 4 Teilbusse aufgeteilt wie in der Skizze dargestellt. 

Bestimmen Sie für den Input 0xB7E9 die Ausgangswerte w, x, y und z (hexadezimal). 

w= 2 

x= 6F 

0xB7E9 

16 

y= D 

[15:14] [13:7] [6:3] [2:0] 

z= 1 

w 

x y z 

1.2 Wandeln Sie die folgende Zahl im IEEE 754 Standard in eine Dezimalzahl (mit Rechnung!): 

1 1 0 1 0 1 1 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 

MSB 

LSB 

(-1)* 1,625 * 2 (174-127) = (-1)* 1,625 * 2 47 

1.3 Geben sie an, wie bei der Ausführung der unten angegebenen DLX-Befehle in einem DLX- 

Prozessor die Werte in den Registern PC und R31 modifiziert werden: 

JR R31 : 

PC := PC+4+R31 

R31 := R31 

SW R31, 4(R29) : 

PC := PC+4 

R31 := R31

1.4 Bei der Abarbeitung eines Programmabschnitts wird eine 1-Bit Sprungvorhersage verwendet. 

Das Vorhersage-Bit sei zu Beginn des Programmstücks gelöscht (keine Verzweigung 

vorausgesagt). Ob die Verzweigung tatsächlich ausgeführt wird ist bereits in der Tabelle 

eingetragen (J Verzweigung wird ausgeführt, N Verzweigung wird nicht ausgeführt.). 

Vervollständigen Sie die nachfolgende Tabelle, indem Sie 0 oder 1 in die Felder für das 

Voraussagebit eintragen. Tragen Sie in die Felder für „Voraussage falsch“ ein J für „die 

Voraussage war falsch“, oder ein N für „die Voraussage war nicht falsch“ ein! 

Voraussagebit 

Verzweigung ausgeführt 

Voraussage falsch 

0 1 1 0 0 

J J N N J 

J N J N J 

1.5 Ein Prozessor mit Stack-Architektur unterstützt die folgenden Befehle: 

PUSH m 

ADD 

MULT 

STORE m 

Schreiben Sie ein Programm, dass die Polynomfunktion 

z= xa⋅ xbc 

berechnet und an Speicherstelle z ablegt. Die Speicherstellen für x, a, b, c und z sind 100, 200, 

300, 400 und 500. 

PUSH 100 

PUSH 200 

ADD 

PUSH 100 

PUSH 300 

ADD 

MULT 

PUSH 400 

ADD 

STORE 500

1.6 Gegeben sei ein DLX Prozessor mit 5 Pipeliningstufen. Bedingte Verzweigungen werden nach 

einer predict-not-taken Strategie behandelt und werden ggf. in der ID-Phase durchgeführt. 

Auf dem Prozessor wird nun folgender Programmcode ausgeführt: 

1. ADDI R3, R0, #32 

2. loop: LW R2, (200)R3 

3. ADDI R2, R2, #1 

4. SW (400)R3, R2 

5. SUBI R3, R3, #4 

6. LW R4, (600)R3 

7. BNEZ R4, loop 

a) An welchen Stellen im Programmcode treten Stalls auf? Markieren Sie die 

entsprechenden Stellen und begründen Sie den Stall in Stichworten. 

Zwischen Zeile 1 und 2: Stall wegen Datenabhängigkeit R2 

Zwischen Zeile 6 und 7: Stall wegen Datenabhängigkeit R4 

Zwischen Zeile 7 und 8: Stall wegen Branch 

b) Das Programm aus Aufgabenteil a) wird auf einem Prozessor mit "delayed-branch" 

Technik ausgeführt, d.h. der Prozessor führt den ersten Befehl nach einem Branch immer 

aus. Sortieren Sie die Befehle um und nutzen Sie delayed-branch um möglichst alle Stalls 

zu vermeiden. Sie müssen dazu eventuell Befehle ändern, dürfen aber keine zusätzlichen 

Register verwenden. 

1. ADDI R3, R0, #32 

2. loop: LW R2, (200)R3 

3. LW R4, (596)R3 

4. SUBI R3, R3, #4 

5. ADDI R2, R2, #1 

6. BNEZ R4, loop 

7. SW (404)R3, R2 

8. ADD R3, R0, R0

1.7 Gegeben ist folgender, aus der Vorlesung bekannter, DLX-Prozessor mit Pipelining: 

rd 

rs1 

rs2 

32*32 

Registersatz rf 

temp 

temp1 

di 

a 

b 

ALU 

temp 

ar 

Datenspeicher 

di temp1 

temp 

temp1 

di 

imm 

temp 

temp1 

di 

b 

do 

Auf der DLX werden nun die folgenden Befehle ausgeführt. Gegeben Sie zu jedem Zeitpunkt die 

Werte der Register (R1, R2, R3, temp, temp1, ar, di, do) und der Steuersignale (rd, rs1, rs2) und von 

imm an. Ändert sich der alte Wert nicht, so kann das Feld leer gelassen werden. 

Zeitpunkt 1 2 3 4 5 6 7 8 

SW 100(R3), R1 

ADD R1, R2, R3 

SUB R2, R1, R3 

LW R1, 100(R3) 

IF ID EX MEM WB 




R1 

R2 

R3 

temp 

temp1 

ar 

di 

do 

imm 

a 

2 

5 

4 

9 5 

9 5 

104 104 

2 

100 100 

4 5 2 4 

b 2 4 4 25 

9 

5 

2

1.8 Gegeben ist die folgende Schaltung, die aus 2:1 Multiplexoren, ALUs und Registern besteht: 

r1 

+, & 

r4 

* 

r5 

r3 

+, & 

r2 

Geben Sie an, ob die folgenden Operationen parallel auf der Schaltung ausgeführt werden können: 

ausführbar 

nicht ausführbar 

(r5


Realisieren Sie für den 32-Bit DLX-Prozessor eine Assembler-Funktion, die zwei 16-Bit Zahlen 

multiplizieren kann. 

Für beide Aufgabenteile gilt: Ihnen stehen alle Register zur Verfügung. Soweit nicht anders angegeben 

brauchen Sie keine Register zu retten. Alle verwendeten Zahlen sind so gewählt, dass keine 

Überläufe auftreten können. Vermeiden Sie unnötige Befehle. Achten Sie auf die korrekte 

Beendigung Ihrer Funktionen! 

Beide Aufgabenteile sind unabhängig voneinander lösbar! 

Die Mulitplikation funktioniert nach folgendem Algorithmus: 

Res = 0; 

for i=0..15 do 

if (A[i] = 1) then 

Res = Res + B; 

end if; 

B = shiftleft(B,1); 

end for; 

a) Entwickeln Sie zunächst die Funktion pruefe_Ai. Diese dient zur Überprüfung des 

Ausdrucks (A[i] = 1). Der Ausdruck dient zu Abfrage eines einzelnen Bits eines 

Registers. Die Variablen A und i werden in den Registern R11 und R12 erwartet, das 

Ergebnis wird über Register R10 zurückgegeben. Entscheiden Sie selbst, ob Sie eine '1' 

oder eine '0' zurückgegeben wenn der Ausdruck wahr ist. 

Tipp: Die DLX-Befehle zum Schieben (SLL, SRL, SRA), für logische Operatoren (AND, 

OR, XOR) sowie die jeweiligen immediate-Version können helfen! 

pruefe_Ai: 

SRL R10, R11, R12 

ANDI R10, R10, #1 

JR R31 

% A um i-Stellen nach schieben 

% Und-Verknüpfung mit '1' 

% Gib eine '1' zurück wenn 

% A[i]='1' ist

) Realisieren Sie jetzt die Funktion multipliziere, die die beiden Variablen A (steht in Register 

R1) und B (steht in Register R2) nach dem oben angegebenen Algorithmus multipliziert und 

das Ergebnis in Register R1 speichert: 

Vor dem Aufruf der Funktion pruefe_Ai müssen Sie die Rücksprungadresse sichern. 

multipliziere: 

ADDI R11, R1, #0 

% Umkopieren von A 

ADD R1, R0, R0 % Res = 0 

ADD R12, R0, R0 % i = 0 

ADD R20, R31, R0 

% Register R31 retten 

Schleife: JAL Pruefe_ai 

% Funktionsaufruf 

BEQZ R10, Weiter 


% B addieren 

Weiter: SLLI R2, R2, #1 

SGTI R3, R12, #15 % Abbruch wenn i>15 

BEQZ R3, Ende 

Ende: ADD R31, R20, R0 % R31 wieder herstellen 

JR R31


Aufgabenteile 3.1 und 3.2. können unabhängig voneinander gelöst werden. 

3.1 Bestimmen Sie die Speicherzugriffe, die bei Ausführung des folgenden DLX-Assembler 

Programms notwendig sind, indem Sie in Tabelle 2 die Hauptspeicheradresse und Zugriffsart 

eintragen. Der Inhalt des Hauptspeichers vor Ausführung des Programms ist in Tabelle 1 

dargestellt. Tragen Sie in die dritte Spalte der Tabelle 1 den neuen Inhalt ein. 

ADDI R1, R0, #8 

ADDI R2, R1, #4 

loop: LW R3, 00H (R1) 

LW R4, 00H (R2) 


LW R5, 00H (R5) 

SW 00H (R5), R3 

SUBI R1, R1, #4 

SUBI R2, R2, #4 

BNEZ R1, loop 

Adresse (hex.) Inhalt (dez.) Neuer Inhalt 

0x00 14 

0x04 10 

0x08 30 

0x0C 6 

0x10 48 30 

0x14 2 

0x18 34 

0x1C 17 10 

0x20 4 

0x24 16 

0x28 28 

0x2C 27 

0x30 29 

Zugriff Adresse (hex) L/S 

1. 0x8 L 

2. 0xC L 

3. 0x24 L 

4. 0x10 S 

5. 0x4 L 

6. 0x8 L 

7. 0x28 L 

8. 0x1C S 

9. 

10. 

11. 

12. 

13. 

14. 

15. 

16. 

Tabelle 1: Auszug aus Hauptspeicher Aufgabenteil 3.1 Tabelle 2: Speicherzugriffe Aufgabenteil 3.1

3.2 Auf einem Rechner soll ein hier nicht näher beschriebenes Programm ausgeführt werden, bei 

dem die unten in der Tabelle 3 angegebenen Speicherzugriffe ausgeführt werden. Der Inhalt der für 

die Aufgabe relevanten Speicherstellen vor Beginn der Programmausführung ist in Tabelle 4 

angegeben. Der Hauptspeicher mit 2 8 -Byte Speicherkapazität ist byte-adressiert und wortorganisiert 

bei einer Wortgröße von 4 Byte. Die Speicheradressen sind damit 8-Bit breit. 

Vorgeschaltet ist ein 2-Wege-assoziativer Cache mit 64-Byte Datenkapazität bei einer Blockgröße 

von 8 Byte (siehe Tabelle 5). Die Schreib-Strategie des Caches ist write-through und write-notallocate. 

Es wird die least recently used (LRU)-Strategie benutzt, um Daten in den Sektoren des 2- 

Wege-assoziativen Caches zu ersetzen. Das heißt, der Block, auf dem am längsten nicht zugegriffen 

wurde, wird ersetzt. 

Notation und Hinweis: Eine LRU-Warteschlange wird beispielsweise als „01“ notiert. Dabei 

bezeichnet die Zahl am rechten Rand (im Beispiel „1“) das älteste Element, das als erstes ersetzt 

wird. Findet nun ein Zugriff auf Block „1“ statt, wird die Warteschlange zu „10“ aktualisiert. 

Adressen sind hexadezimal, der Inhalt dezimal angegeben! 

Simulieren Sie nun die Speicherzugriffe und tragen Sie die Änderungen in Tabelle 4 und Tabelle 5 

ein. Insbesondere müssen die LRU-Warteschlangen aktualisiert werden. Bestimmen Sie weiter 

durch ankreuzen in Tabelle 3, ob ein Cache-Hit oder Cache-Miss vorliegt. Adressen sind 

hexadezimal, Daten dezimal anzugeben. 

Adresse Tag (3 Bit) Index (2 Bit) Offset (1 Bit) Zugriffsart Daten Hit Miss 

1. 0x24 1 0 1 read 

X 

2. 0x30 1 2 0 write 23 X 

3. 0x0C 0 1 1 read 

X 

4. 0x18 0 3 0 write 42 X 

5. 0x34 1 2 1 read 

X 

Tabelle 3: Speicherzugriffe Aufgabenteil 3.2 

Adresse Inhalt neuer Inhalt Adresse Inhalt neuer Inhalt 

0x00 99 0x20 123 

0x04 36 0x24 124 

0x08 32 0x28 13 

0x0C 17 0x2C 19 

0x10 15 0x30 17 23 

0x14 16 0x34 4 

0x18 23 42 0x38 10 

0x1C 24 0x3C 20 

Tabelle 4: Auszug aus Hauptspeicherinhalt vor Ausführung des Programms 

Der Cache vor dem Ausführen der in Tabelle 3 angegebenen Zugriffe. 

Sektor 0 Sektor 1 

LRU-Queue 

Index Tag Offset 0 Offset 1 Tag Offset 0 Offset 1 

0 1 123 124 0 99 36 10 

1 3 41 44 1 13 19 01 

2 2 111 141 0 15 16 01 

3 0 23 24 3 17 19 01

1) Der Cache nach dem 1. Zugriff. Tragen Sie nur die Änderungen ein. 



0 01 

1 

2 

3 

LRU-Queue 




0 

1 

2 

3 

LRU-Queue 



LRU-Queue 


0 

1 0 32 17 10 

2 

3 



LRU-Queue 


0 

1 

2 

3 0 42 24 01 



LRU-Queue 


0 

1 

2 1 23 4 10 

3 

Tabellen 5: Cache


Gegeben ist der folgende Statechart. Er startet im Zustand A. Die Berechnung wird mit dem Signal 

start begonnen. Nach dem vierten Taktschritt steht das Ergebnis in Register y1. Die Kontrolllogik 

sendet so lange das Signal ready = 1 bis eine neue Berechnung gestartet wird. 

start=0 

ready

a0 a1 a2 a3 x0 x1 x2 x3 

s03 

s13 

00 01 10 11 

s04 

s14 

00 01 10 11 

s1 

0 1 

0 1 s2 

0 1 s5 

alu1 ALU 

alu2 ALU 

> 

VGL 

e1 

e2 

y1 

y2 

Verwenden Sie die folgenden Multiplexoren. Ersetzen Sie X entsprechend durch eine fortlaufende 

Nummer. 

sX 

0 1 

s0X 

s1X 

00 01 10 11

) Geben Sie an, wie die Steuersignale der Multiplexoren und Register in den verschiedenen 

Zuständen gesetzt werden müssen, damit Ihr entwickelter Datenpfad die jeweiligen parallelen 

Registertransfers berechnet. Tragen Sie dazu in die Tabelle zu jedem parallelen Transfer die 

Belegung der Steuersignale ein. Verwenden Sie für die Multiplexorsignale Ihre Bezeichnungen 

aus Teil a). Verwenden Sie soweit möglich Don`t Care-Werte. 

Transfer 

alu1 alu2 e1 e2 

Multiplexorsteuersignale 

s1 s2 s03 s13 s04 s14 s5 

y1

MusterlÃ¶sung - Rs.tu-darmstadt.de

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?