22. Vorlesung Dr.-Ing. Wolfgang Heenes - Ra.informatik.tu ...

Grundlagen der Informatik III 

Wintersemester 2010/2011 – 22. Vorlesung 

Dr.-Ing. Wolfgang Heenes 

int main() { 

printf("Hello, world!"); 

return 0; 

} 

msg: 

main: 

.data 

.asciiz "Hello, world!" 

.text 

.globl main 

la $a0,msg 

li $v0,4 

syscall 

jr $ra 

19. Januar 2011 | Technische Universität Darmstadt | Dr.-Ing. Wolfgang Heenes | 1

Inhalt 

1. Literatur 

2. Compiler III 

3. Lexikalische Analyse 

4. Symboltabellen 

5. Zwischencodegenerierung 

6. Zusammenfassung der Phasen der Übersetzung 

7. Ausgewählte Probleme 

8. Lex und Yacc 

9. Zusammenfassung und Ausblick 


Literatur 

[ALSU08] Aho, Alfred V., Monica S. Lam, Ravi Sethi und Jeffrey D. Ullmann: 

Compiler - Prinzipien, Techniken und Werkzeuge. 

Pearson, 2008. 

[BO10] 

Bryant, Randal E. und David R. O´Hallaron: Computer Systems - A 

Programmer´s Perspective. 

Prentice Hall, 2010. 


Compiler III 

Wiederholung 

◮ Grammatiken zur Syntaxbeschreibung 

◮ Syntaxanalyse 

◮ Parse-Bäume 

◮ Im Folgenden 

◮ Lexikalische Analyse 

◮ Symboltabellen 

◮ Zwischencodegenerierung 

◮ Zusammenfassung der Phasen der Übersetzung 

◮ Ausgewählte Probleme 

◮ Lex und Yacc 


Lexikalische Analyse I 

◮ Modell des Compiler-Front-Ends 

Abbildung: Quelle: [ALSU08, S. 51] 

◮ Lexikalische Analyse gruppiert Eingabezeichen zu Tokenobjekten 


Lexikalische Analyse II 

◮ Lexikalische Analyse gruppiert Eingabezeichen zu Tokenobjekten 

◮ Neben einem Terminal, das für Parsing-Entscheidungen verwendet wird, 

enthalten Tokenobjekte zusätzliche Informationen in der Form von 

Attributwerten 

◮ Bisher keine Unterscheidung zwischen den Begriffen Token und Terminal ⇒ 

Token ist ein Terminal mit zusätzlichen Symbolen 

◮ Erinnerung: Die Sequenz von Eingabezeichen, die ein einzelnes Token bildet, 

wird als Lexem bezeichnet 

◮ Aufgaben der lexikalischen Analyse sind außerdem: Entfernen von 

Leerzeichen und Kommentaren 


Lexikalische Analyse III 

◮ Viele Sprachen lassen beliebig viele Leerzeichen zu ⇒ werden bei der 

Analyse ignoriert 

◮ Auch Kommentare können ignoriert werden 

◮ Wenn z. B. Leerzeichen vom lexikalischen Scanner elimniert werden, muss 

der Parser sich keine Gedanken machen 

◮ Pseudoalgorithmus 

for ( ; ; peek = nächstes Eingabezeichen) { 

if (peek ist leer oder Tabulatorsprung) tue nichts; 

else if (peek ist Zeilenumbruchzeichen) 

line = line + 1; 

else break; 

} 

◮ Zeilennummern sind für Fehlermeldungen nützlich ⇒ line zählt die Anzahl der 

Zeilenumbruchzeichen 


Lexikalische Analyse IV 

◮ Vorausschauendes Lesen: Ein lexikalischer Scanner muss gegebenfalls 

einige Zeichen im Voraus lesen, um feststellen zu können, welches Token an 

den Parser zurückgegeben werden muss 

◮ Ein lexikalischer Scanner (z. B. für C) muss Zeichen vom Voraus lesen, 

nachdem er das Zeichen > gefunden hat 

◮ Ist das folgende Zeichen das Gleichheitszeichen =, dass ist > Teil der 

Zeichensequenz >= 

◮ >= Lexem des Tokens für den Operator „größer oder gleich“ 

◮ Andernfalls stellt > den Operator „größer als“ dar ⇒ Scanner hat ein Zeichen 

zu viel gelesen 

◮ Realisierung eines Eingabepuffers ⇒ effizienter, Zeichenblöcke zu verarbeiten 

◮ Es gibt aber auch Operatoren z. B. * die ohne Vorauslesen identifiziert werden 


Lexikalische Analyse V 

◮ Erkennen von Schlüsselwörtern und Bezeichnern: Die meisten Sprachen 

verwenden feste Zeichenketten (z. B. for, do und if) zur Identifizierung von 

Konstrukten ⇒ Zeichenkette wird als Schlüsselwort bezeichnet 

◮ Zeichenketten werden als Bezeichner für Variablen, Arrayzugriffe, Funktionen 

usw. verwendet 

◮ Grammatiken behandeln Bezeichner als Terminale, um den Parser zu 

vereinfachen 

◮ Der Parser erwartet dann, wenn ein Bezeichner Teil der Eingabe ist, das 

gleiche Terminal, z. B. id 

◮ Eingabe von count = count + increment; 

◮ Der Parser arbeitet dann den Terminalstream id = id + id ab. 

◮ Token id hat ein Attribut, das das Lexem speichert 

◮ 


Lexikalische Analyse VI 

◮ Da Schlüsselwörter den Regeln zur Erstellung von Bezeichnern entsprechen, 

muss ein Mechanismus gefunden werden, anhand dessen festgelegt werden 

kann, wann ein Lexem ein Schlüsselwort ist und wann es einen Bezeichner 

bildet 

◮ Problem ist einfacher zu lösen, wenn Schlüsselwörter reserviert sind ⇒ 

dürfen dann nicht als Bezeichner verwendet werden 

◮ In ABAP können identische Zeichenketten für Bezeichner und Schlüsselworte 

verwendet werden (außerdem ist “+“ nicht gleich “ +“) 

◮ Zeichenketten können nur dann Bezeichner sein, wenn sie kein Schlüsselwort 

sind 

◮ Scanner kann in einer Tabelle auf die reservierten Wörter zugreifen und 

einfach unterscheiden, ist es ein Bezeichner oder Schlüsselwort 

◮ Pseudocode, weitere Erläuterungen [ALSU08, S. 98 f.] 


Symboltabellen I 

◮ Bei Symboltabellen handelt es sich um Datenstrukturen, die von Compilern 

zur Speicherung von Informationen über Quellprogrammkonstrukte verwendet 

werden. 

◮ Die Informationen (= Symboltabelleneinträge) werden schrittweise während 

der Analysephase des Compilers gesammelt und in der Synthesephase 

verwendet, um den Zielcode zu erstellen 

◮ Einträge in der Symboltabelle enthalten Informationen über einen Bezeichner 

(z. B. Zeichenstring), seinen Typ, seinen Speicherplatz 

◮ Symboltabellen müssen normalerweise mehrere Deklarationen des gleichen 

Bezeichners in einem Programm unterstützen können 

◮ Gültigkeitsbereich einer Deklaration ist der Teil eines Programms, für das die 

Deklaration zutrifft 

◮ Für jeden Gültigkeitsbereich wird eine separate Symboltabelle eingerichtet 


Symboltabellen II 

◮ Pseudocode: Indizes werden verwendet, um zwischen verschiedenen 

Deklarationen des gleichen Bezeichners zu unterscheiden 

1) {int x1; int y1; 

2) {int w2; bool y2; int z2; 

3) ...w2...;...x1...;...y2...;...z2...; 

4) } 

5) ...w0...;...x1...; ...y1...; 

6) } 

◮ Achtung: Index ist nicht Teil des Bezeichners 


Symboltabellen III 

◮ Das Vorkommen von y in Zeile 3 befindet sich im Gültigkeitsbereich von y in 

Zeile 2, da y innerhalb eines inneren Blocks neu deklariert wird 

◮ Das Vorkommen von y in Zeile 5 liegt jedoch im Gültigkeitsbereich der 

Deklaration von y in Zeile 1 

◮ Das Vorkommen von w in Zeile 5 liegt wahrscheinlich innerhalb des 

Gültigkeitsbereichs einer Deklaration von w außerhalb dieses Codefragments 

⇒ mit Index 0 wird eine Deklaration angegeben, die entweder global ist oder 

außerhalb dieses Blocks liegt 

◮ Deklaration von z ⇒ kann nur innerhalb des verschachtelten Blocks 

verwendet werden. 


Symboltabellen IV 

◮ Symboltabellen werden miteinander verkettet 



Zwischencodegenerierung I 

◮ Zwischencodegenerierung, zwei Möglichkeiten 

◮ Bäume, Parse-Bäume und abstrakte Syntaxbäume 

◮ Lineare Darstellung ⇒ Drei-Adress-Code 

◮ Das Compiler-Front-End erstellt aber nicht nur eine Zwischendarstellung, 

sondern überprüpft auch, ob das Quellprogramm den syntaktischen und 

semantischen Regeln der Quellsprache folgt 

◮ Diese Prüfung wird auch als statische Überprüfung 1 bezeichnet 

◮ Ableitung des Drei-Adress-Codes aus Syntaxbaum 

1 dynamische Überprüfung z. B. in Java 


Zwischencodegenerierung II 

Drei-Adress-Befehle 

◮ Bei Drei-Adress-Code handelt es sich um Befehl im Format 

x = y op z 

◮ x, y und z sind Namen, Konstanten oder temporäre Werte 

◮ Arrayzugriff kann durch folgende Befehlsvariante realisiert werden 

x [y] = z 

x = y[z] 

◮ Drei-Adress-Befehle werden nacheinander ausgeführt, Ausnahme bedingte 

oder unbedingte Sprünge 

if False x goto L 

if True A goto L 

goto L 

◮ Kopieren von Werten 

x = y 


Zwischencodegenerierung III 

Syntaxbaum 

◮ Teil eines Syntaxbaums 



Zwischencodegenerierung IV 

Übersetzung von Ausdrücken 

◮ Aufgabe: Übersetzen einfacher Ausdrücke: i - j + k 

◮ Für jeden Operatorknoten im Syntaxbaum eines Ausdrucks wird nun ein 

Drei-Adress-Befehl generiert 

◮ Dazu werden auch „temporäre“ Namen verwegen 

◮ Obiges Konstrukt wird zu 

t1 = i - j 

t2 = t1 + k 

◮ Arrayzugriff: a[i] = 2 * a[j-k] 

◮ Übersetzung aus Syntaxbaum zu: 

t3 = j - k 

t2 = a[t3] 

t1 = 2 * t2 

a[i] = t1 

◮ Pseudocode vgl. [ALSU08, S. 125 ff.] 


Zusammenfassung: Phasen der Übersetzung I 



Zusammenfassung: Phasen der Übersetzung II 

◮ Ausgangspunkt bei einem syntaxgerichteten Übersetzer ist eine Grammatik 

für die Quellsprache 

◮ Mit der Grammatik wird die hierarchische Struktur von Programmen 

beschrieben 

◮ Grammatik wird mit grundlegenden Symbolen (Terminale) und variablen 

Symbolen (Nichtterminale) definiert ⇒ Symbole stellen Sprachkonstrukte dar 

◮ Die Regeln der Grammatik werden als Produktionen bezeichnet 

◮ Produktionen bestehen aus Nichtermial (oder Kopf, linke Seite) und einer 

Sequenz von Terminalen und Nichtterminalen 

◮ Rechte Seite ist der Rumpf der Produktion 

◮ Ein Nichtermial wird als Startsymbol festgelegt 


Zusammenfassung: Phasen der Übersetzung III 

◮ Bei der Spezifikation eines Übersetzers ist es hilfreich, 

Programmierkonstrukten Attribute hinzuzufügen 

◮ Konstrukte werden durch Grammatiksymbole dargestellt ⇒ Attributkonzept 

wird auf Grammatiksymbole ausgeweitet 

◮ Beispiel für Attribute: ein mit einem Terminal num verknüpfter Integerwert 


Zusammenfassung: Phasen der Übersetzung IV 

◮ Ein lexikalischer Scanner liest bei der Eingabe einzelne Zeichen und erstellt 

einen Tokenstream als Ausgabe, wobei ein Token aus einem Terminalsymbol 

mit zusätzlichen Informationen in der Form von Attributwerten besteht. 

◮ Schreibweise der Token z. B. als Tupel und in < > eingeschlossen 

◮ Beispiel: Token (id, “peek“) besteht aus dem Terminal id und einem Zeiger auf 

den Symboltabelleneintrag, der den String “peek“enthält. 

◮ Der Übersetzer verwendet die Tabelle, um reservierte Wörter und Bezeichner, 

die bereits aufgetreten sind, zu verfolgen 


Zusammenfassung: Phasen der Übersetzung V 

◮ Die Syntaxanalyse (Parsing) wird dazu verwendet, beginnend mit dem 

Startsymbol einer Grammatik einen String mit Terminalen abzuleiten, indem 

ein Nichtterminal durch den Rumpf einer seiner Produktionen ersetzt wird 

◮ Der Parser erstellt einen Parse-Baum, in dem die Wurzel mit dem Startsymbol 

bezeichnet wird, jeder interne Knoten einer Produktion entspricht und jedes 

Blatt mit einem Terminal oder dem leeren String ɛ gekennzeichnet wird. 

◮ Die syntaxgerichtete Übersetzung erfolgt, indem den Produktionen in einer 

Grammatik entweder Regeln oder Programmfragmente hinzugefügt werden. 

◮ Eingebettete Programmfragmente werden auch semantische Aktionen 

genannt 

◮ Das Ergebnis der Syntaxanalyse wird als Zwischencode bezeichnet ⇒ 

abstrakter Syntaxbaum, Drei-Adress-Code 


Zusammenfassung: Phasen der Übersetzung VI 

◮ Symboltabellen sind Datenstrukturen, in denen Informationen über 

Bezeichner gespeichert werden. 

◮ Diese Informationen werden der Tabelle hinzugefügt, wenn die Deklaration 

eines Bezeichners analysiert wird 

◮ Eine semantische Aktion ruft Informationen aus der Symboltabelle ab 

◮ Ausführliche (wenn auch nicht immer ganz einfach verständliche) 

Informationen mit Beispiel im Pseudocode sind in [ALSU08] dargestellt 


Ausgewählte Probleme I 

Registervergabe 

◮ Für die Programmierung in Assembler ist eine Übersicht der Register wichtig 

◮ Programmiermodell für die IA32-Architektur 

Abbildung: Quelle: [BO10, S. 202] 

◮ Abbildung der Zwischencodes (in dem potentiell sehr viele Variablen benutzt 

werden können) auf eine Maschine mit 8 Registern 


Ausgewählte Probleme II 


◮ Ein wesentliches Problem bei der Codeerzeugung ist die Entscheidung, 

welche Werte in welchen Registern abgelegt werden sollen 

◮ Erinnerung: Speicherhierarchie (langsamer Hauptspeicher, schneller 

Registerspeicher) 

◮ Bei der Codeerzeugung muss darauf geachtet werden, eine optimale 

Zuweisung von Registern zu Variablen zu finden 

◮ Und das ist selbst bei Maschinen mit nur einem Register ggf. schwierig 

◮ Mathematisch gesehen ist das Problem NP-vollständig 

◮ Komplexität wird dadurch gesteigert, dass Prozessoren evt. bestimmte 

Konventionen für die Registernutzung haben 

◮ Im Prinzip kann man Register für die Aufnahme von Werten für die Dauer 

eines Blocks zuweisen 


Ausgewählte Probleme III 


◮ Globale Registervergabe kann z. B. für eine feste Anzahl von Registern für die 

aktivsten Werten jeder Schleife vorgenommen werden 

◮ In frühen C-Compilern konnte der Programmierer einen Teil der Register 

explizit vergeben 

◮ Datentyp register 

◮ Überlegte Einsatz von Registern beschleunigte viele Programme 

◮ Aber: Programmierer musste ein Profil der Programme erstellen, um die 

entscheidenden Programmstellen zu ermitteln 

◮ Reminder: Schlüsselwort register immernoch vorhanden, Analyse hat aber 

gezeigt, das es ignoriert wird 

◮ Verwendungszähler, Registervergabe durch Graphfärbung (vgl. [ALSU08, S. 

679]) 


Ausgewählte Probleme IV 

Peephole-Optimierung 

◮ Eine Möglichkeit der Verbesserung des Zielcodes ist die 

Peephole 2 -Optimierung (vgl. [ALSU08, S. 670]) 

◮ Das Guckloch ist ein kleines verschiebares Fenster zu einem Programm 

◮ Charakteristische Beispiele für Programmtransformationen 

◮ Beseitigung redundanter Befehle 

◮ Optimierung des Kontrollflusses 

◮ Algebraische Vereinfachung 

2 Guckloch 


Ausgewählte Probleme V 


◮ Entfernen redundanter Lade- und Speicherbefehle 

◮ Zielprogramm hat folgenden Code 

LD R0,a 

ST a ,R0 

◮ Speicherbefehl nicht notwendig 


Ausgewählte Probleme VI 


◮ Entfernen von unerreichbaren Codes 

◮ Ein Befehl ohne Sprungmarke direkt hinter einem unbedingten Sprung kann 

gelöscht werden 

◮ Weiteres Beispiel 

if debug == 1 goto L1 

goto L2 

L1: print debugging information 

L2: ... 

◮ Optimierung durch Beseitigung von Sprüngen 

if debug != 1 goto L2 

print debugging information 

L2: ... 


Ausgewählte Probleme VII 


◮ Optimierung des Kontrollflusses 

goto L1 

... 

L1: goto L2 

◮ Wird durch folgende Konstruktion ersetzt 

goto L2 

... 

L1: goto L2 

◮ Weitere Optimierungen: Gibt es keine Sprünge mehr zu L1, kann die 

Anweisung L1: goto L2 gelöscht werden ⇒ Vorausgesetzt, davor steht ein 

unbedingter Sprung 


Ausgewählte Probleme VII 


◮ Algebraische Vereinfachung und Kostenreduzierung 

◮ Oder 

x = x + 0 

x = x * 1 

◮ Reminder: Multiplikation und Division 2 wird durch Shift-Befehle realisiert 

◮ Für die Gleichung d = a·b− a·c werden 2 Multiplikationen und eine 

Subtraktion benötigt. 

◮ Die Gleichung kann umgeformt werden: 

d = a·b− a·c 

d = a·(b− c) 

◮ Außerdem: Common Subexpression Elimination, Zusammenfassen von 

Ausdrücken 


Lex und Yacc 

◮ Im Prinzip ist der Entwurf von Compilern für eine Sprache sehr reguläres 

Problem 

◮ Für eine Sprache liegt eine Grammatik vor 

◮ Warum nicht automatisierte Generierung für lexikalische Scanner? 

◮ Tool: Lex bzw. Flex ist ein solcher Scanner (vgl. [ALSU08, S. 170 ff.]) 

◮ Eingabesprache wird als Lex-Sprache bezeichnet, das Tool selbst als 

Lex-Compiler 

◮ Struktur eines Lex-Programms 

Deklaration 

%% 

Übersetzungsregeln 

%% 

Hilfsfunktionen 


Lex und Yacc 

◮ Yacc ist ein Parsergenerator (vgl. [ALSU08, S. 343 ff.]) 

◮ Erleichterung beim Bau eines Compiler-Front-Ends 

Deklaration 

%% 

Übersetzungsregeln 

%% 

Unterstützende C-Routinen 


C2H Compiler 

◮ Compiler: Sprachübersetzer 

◮ Quellsprache C, Zielsprache HDL 3 

◮ Wird verwendet für Designspezifikation (auf unterschiedlichen Ebenen), 

Simulation, Verifikation und Dokumentation 

◮ Aber auch Synthese für Zielarchitekturen (ASIC bzw. FPGA) 

◮ C2H Compiler übersetzt C-Quellcode in eine Hardwarebeschreibungssprache 

◮ Welchen Sinn macht das? 

◮ Problem: Sequentielle Beschreibung ⇒ Zielarchitektur arbeitet parallel 

3 Hardware Description Language 


Weiterführende Veranstaltung und Forschung 

am Fachbereich Informatik 

◮ FG Eingebettete Systeme und ihre Anwendungen 

◮ Prof. Dr. A. Koch 

◮ Vorlesung: Optimierende Compiler im Sommersemester 2011 

◮ Grundkenntnisse Algorithmen und Datenstrukturen 

◮ Java 

◮ Rechnerarchitektur (erworben z. B. durch Technische Grundlagen der Informatik) 

◮ Praktikum: Compiler für Java-artige Sprache und MIPS 

◮ Forschung: Entwurf adaptiver Rechensysteme 


Zusammenfassung und Ausblick 

◮ Compiler III 

Nächste Vorlesung behandelt 

◮ Betriebssysteme I

22. Vorlesung Dr.-Ing. Wolfgang Heenes - Ra.informatik.tu ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?