LEXIKALISCHE ANALYSE

2. Kapitel 

LEXIKALISCHE ANALYSE 

Compilerbau 

Prof. Dr. Wolfgang Schramm

Lexikalische Analyse (Scanner) 1/2 

1 

Aufgabe 

– Erkennen von lexikalischen Elementen. 

– Erstellung einer internen Darstellung für lexikalische Elemente. 

Einordnung 

¤ 

Der Scanner ist i.allg. Unterprogramm des Parsers. 

Erweiterungen: 

¤ 

¤ 

¤ 

Kopie des Quellprogramms (evtl.) mit Meldungen erzeugen. 

ImplemenNerung von Makrotechniken. 

Fehlerbehandlung (Einfügen, Löschen, Vertauschen von Zeichen). 

Bsp: -‐7.6F+8 è -‐7.6E+8

Lexikalische Analyse (Scanner) 2/2 

2 

liefere nächstes lex. 

Element 

Quell- 

Scanner 

Parser 

pro- 

gramm 

Strukturbaum 

Eintragen 

Nächstes lexikalisches 

Element 

Symboltabelle 

Eintragen/ 

Nachschlagen

TheoreNscher Hintergrund der lexikalischen Analyse 1/2 

3 

1. Die Struktur lexikalischer Symbole kann durch reguläre Ausdrücke beschrieben 

werden. Das heißt, die Menge der Zeichenkeên, die auf ein Token abgebildet 

werden, ist die zum Ausdruck gehörige reguläre Sprache. 

2. Reguläre Sprachen werden durch rechtslineare oder durch linkslineare 

GrammaNken erzeugt. 

3. Reguläre Sprachen werden von nichtdeterminisNschen endlichen Automaten 

(NEA) erkannt. 

NFA 

4. Zu jedem nichtdeterminisNschen endlichen Automaten kann man auch einen 

determinisNschen endlichen Automaten (DEA) konstruieren, der die gleiche 

Sprache erkennt. 

DFA

TheoreNscher Hintergrund der lexikalischen Analyse 2/2 

4 

Kurz gesagt: 

Man braucht einen Formalismus zur Spezifikation der Token. 

Reguläre Ausdrücke 

Man braucht einen Mechanismus zur Erkennung der Token. 

DFA, 

Zustandsdiagramme

DefiniNonen für Beschreibung formaler Sprachen 1/3 

5 

Terminalsymbole 

¤ 

Die Terminalsymbole (Lexeme, Token) sind Elemente einer Menge T von 

GrammaNksymbolen. Terminalsymbole sind die kleinsten syntakNschen 

Grundeinheiten einer formalen Sprache mit selbstständiger Bedeutung. Ein 

Satz ist die Aneinanderreihung von Terminalsymbolen. 

Nonterminalsymbole 

¤ 

Die Nonterminalsymbole sind Elemente einer Menge N von GrammaNk-symbolen, 

die zur Darstellung von Zwischenzuständen des Spracher-zeugungsprozesses 

dienen. 

ProdukKonen 

¤ 

Die ProdukNonen sind Vorschrifen für das Ersetzen einer Symbolkeê α durch 

eine andere Symbolkeê β (α → β ).


6 

Eine (Chomsky-) Grammatik zur Beschreibung von Syntax ist durch ein 4-Tupel: 

G = (T, N, P, S) 

definiert. 

T: Menge der Terminalsymbole. 

N: Menge der Nonterminalsymbole. 

Lies: Element 

von 

Epsilon 

(leeres Wort) 

P: Menge von Produktionen α → β mit α, β ∈ (N ∪ T) * und N ∩ T = ∅, α ≠ ε 

S: Ein ausgezeichnetes Nonterminalsymbol - das Startsymbol mit S ∈ N. 

Kleene Stern


7 

Die Sprache L(G) einer GrammaKk ist die Menge der Terminalsymbolkeên, die 

über das Startsymbol S nach den Regeln von P hergeleitet werden kann. 

* 

L (G) = { s | S → s mit s ∈ T * }

Die Chomsky GrammaNk-‐Typen 

8 

Eine GrammaNk G = (T, N, P, S) heißt 

• vom Typ 0 oder unbeschränkt (rekursiv aufzählbar), 

wenn sie nach den Regeln von P hergeleitet werden kann. 

• vom Typ 1 oder kontextsensiKv, 

wenn in jeder Regel α → β die linke Seite nicht länger als die rechte ist: |α| 

≤ |β|; die Regel A → ε mit A ∈ N ist zulässig, wenn A auf keiner rechten 

Seite vorkommt. 

• vom Typ 2 oder kontexWrei, 

wenn jede Regel die Form A → α hat, mit A ∈ N und α ∈ (N ∪ T) * . 

• vom Typ 3 oder regulär, 

wenn jede Regel eine der Formen A → α, A → αB oder A → Bα hat, mit A, 

B ∈ N und α ∈ T * .

Die Chomsky Sprachhierarchie 

9 

o 

Wenn L i die Menge aller Sprachen ist, die von den GrammaNken des Chomsky-‐Typs i 

erzeugt werden kann, dann ist 

Rekursiv aufzählbare Sprachen 

Kontextsensitive Sprachen 

Kontextfreie Sprachen 

Reguläre Sprachen 

L 0 ⊃ L 1 ⊃ L 2 ⊃ L 3

Alphabet und Sprache in der InformaNk 1/3 

10 

o Im Sinne der MathemaNk und InformaNk ist eine Sprache eine 

Menge von Zeichenreihen. Die Sprache wird dabei auf Lexik und 

Syntax reduziert. Für Lexik wird der Begriff Alphabet verwendet. 

o Ein Alphabet ist eine nicht leere, endliche Menge A von Zeichen a 

∈ A. 

A1 = {A, ..., Z} 

A2= {a} 

A3 = {A, ..., Z, a, ..., z, 0, ..., 9} 

A4= {#, 0}


11 

o Die Menge aller Zeichenreihen A* über einem Alphabet ist 

definiert durch: 

¤ 

¤ 

¤ 

ε ∈ A* die leere Zeichenreihe ist eine Zeichenreihe. 

x ∈A*, a ∈ A* ⇒ x ° a ∈ A* („° “ ist der Verkeûngsoperator). 

Andere Zeichenreihen gibt es nicht. 

Konkatenation 

ATA, ATTTNBNM ∈ A1* 

a, aa, aaa .... ∈ A2* 

Paul, Omega, x12 ∈ A3* #, #0#000 ∈ A4* 

o Eine Sprache L (L, wie engl. language) ist eine Teilmenge aller 

Zeichenreihen über einem Alphabet A: L ⊂ A* 

Deutsche Sprache ⊂ {A, ..., Z, a, ..., z, ß, 0, ..., 9, ?, !, ...}*


12 

Wie werden die Zeichenreihen einer besNmmten Sprache 

beschrieben? 

a) Aufzählung aller Zeichenreihen oder Wörter, die zur Sprache gehören (das ist nur bei 

endlichen Sprachen möglich!). 

L 1 = {a, aaa, aaaaa} 

b) MathemaKsche Charakterisierung der zur Sprache gehörenden Wörter als Menge 

(sog. formale Sprachen). 

L 2 = {a n | n ≥ 3} oder L 3 = {a n b n c n | n ≥ 1} 

c) GrammaKken: sind eine endliche konstrukNve Beschreibung einer im allgemeinen 

unendlichen Menge. 

Damit werden Programmiersprachen beschrieben.

Kontexzreie GrammaNk 1/2 

13 

Eine GrammaKk zur Beschreibung von Syntax ist ein 4-‐Tupel: 

G = (T, N, P, S) 

T: Menge von Token, sog. Terminalsymbole (TS). 

N: Menge von Nonterminalsymbolen (NTS). 

P: Menge von ProdukKonen (oder ProdukNonsregeln), wobei jede 

ProdukNon aus einem Nonterminalsymbol (linke Seite der 

ProdukNon) einem Pfeil (→) und einer Folge von 

Terminalsymbolen und/oder Nonterminalsymbolen (rechte 

Seite der ProdukNon) besteht. 

S: Ein ausgezeichnetes Nonterminalsymbol -‐ das Startsymbol.

Kontexzreie GrammaNk 2/2 

14 

Die Sprache L(G) einer GrammaKk besteht aus allen aus dem Startsymbol S 

abgeleiteten Zeichenkeên (Wörtern), die nur Terminalsymbole enthalten. 

Ein Wort ist eine Folge von Terminalsymbolen, die durch wiederholtes 

Anwenden von Regeln erzeugt werden kann, wobei das Startsymbol S der 

Ausgangspunkt der Erzeugung ist. 

GrammaNken werden in zweierlei Hinsicht genutzt: 

¤ 

Um Worte einer Sprache zu erzeugen. 

Ableiten 

¤ 

Um festzustellen, ob ein gegebenes Wort zur Sprache gehört. 

Analysieren 

Es gibt verschiedene Formalismen zur Beschreibung von GrammaNken: 

¤ 

¤ 

¤ 

¤ 

Reguläre Ausdrücke (einfacher Mechanismus, nicht für alles geeignet) 

Backus Naur Form (BNF). 

Erweiterte Bauckus Naur Form (EBNF). 

Syntaxdiagramme.

Reguläre Sprachen -‐ DefiniNon 

15 

Die regulären Sprachen über dem Alphabet A werden durch folgende Regeln 

indukNv definiert: 

i. ∅ und {ε} sind reguläre Sprachen. 

ii. 

iii. 

iv. 

Für jedes a ∈ A ist {a} eine reguläre Sprache. 

Seien B und C reguläre Sprachen, dann sind auch 

B ∪ C, BC und B * reguläre Sprachen. 

Nichts sonst ist eine reguläre Sprache über A. 

Ein regulärer Ausdruck r beschreibt eine reguläre Sprache L(r).

Reguläre Ausdrücke -‐ DefiniNon 

16 

Reguläre Ausdrücke über dem Alphabet A werden durch folgende Regeln indukNv 

definiert: 

i. ∅ ist ein regulärer Ausdruck, der die reguläre Sprache ∅ beschreibt. 

ε ist ein regulärer Ausdruck, der die reguläre Sprache { ε } beschreibt 

ii. 

iii. 

iv. 

Für jedes a ∈ A ist a ein regulärer Ausdruck; er beschreibt die Sprache {a}. 

Wenn a und b reguläre Ausdrücke sind, die die Sprachen A und B 

beschreiben, so ist auch 

-‐ 

-‐ 

-‐ 

(a | b ) ein regulärer Ausdruck, der A ∪ B beschreibt, 

ab ein regulärer Ausdruck, der AB beschreibt, 

a * ein regulärer Ausdruck, der A * beschreibt. 

Nichts sonst ist eine regulärer Ausdruck

Reguläre Ausdrücke – vereinfachende NotaNonen 1/2 

17 

Benennung von regulären Ausdrücken 

Eine reguläre DefiniNon hat die Form 

d 1 → r 1 

d 2 → r 2 

Name 

Name 

Regulärer Ausdruck über 

einem Alphabet A 

Regulärer Ausdruck über A 

und d 1 

. . 

d 3 → r 3 

Name 

. . . . . 

etc. 

Regulärer Ausdruck über A 

und d 1 , d 2 

In r i dürfen nur die Namen d 1 , d , . . ., d i-‐1 vorkommen.

Reguläre Ausdrücke – vereinfachende NotaNonen 2/2 

18 

o Zur Unterscheidung von Namen und Symbolen, werden Namen fe^ 

geschrieben. 

Priorität 

o Die Auswahl ermöglicht die Wahl zwischen 2 AlternaNven: 

a | b oder auch a + b (eher ungewöhnlich). 

o Die Sequenz (KonkatenaNon) beschreibt das hintereinander Schreiben: ab. 

o Die IteraKon ermöglicht das Wiederholen von Satzbausteinen: a* (0, 1 oder 

n-‐mal) oder a + (1 oder n-‐mal) ≡ aa* . 

o OpNonale Satzbausteine: a? Abkürzung für a | ε (eher ungewöhnlich). 

o Zusätzlich besteht die Möglichkeit der Klammerung zur Strukturierung. 

Ansonsten gilt „Punkt-‐ vor Strichrechnung“. 

o Zeichenklassen: Sta^ char → a | b | c | etc. schreibt man als Abkürzung 

auch char → [a – z].

Reguläre Ausdrücke -‐ Beispiele 

19 

o Binärzahlen beginnen mit 1, danach kann eine beliebig lange Folge 

von 1 und 0 kommen: 

1 (1 + 0)* ⇒ 1, 10, 1010, 100000001111 

o Will man auch noch die 0, als einzige mit diesem Symbol startende 

Zahl: 

0 + 1 (1 + 0)* ⇒ 0, 1, 10, 1010, 100000001111 

o Bezeichner einer Programmiersprache müssen mit einem 

Buchstaben beginnen, dürfen nach dem ersten Buchstaben aber 

auch Ziffern enthalten: 

(a + b + ... + z) (a + b + ... + z + 0 + ... + 9)* ⇒ a, COI, ma07, u2 

o Verwendung von Regulären Ausdrücken in der InformaNk: 

¤ 

¤ 

Festlegung von Datenformaten für Programmeingaben. 

Festlegen von Mustern zum Suchen in Texten.

Zustandsdiagramme 

20 

Zustandsdiagramme (transiNon diagrams) sind 

• eine graphische NotaNon für determinisNsche endliche Automaten. 

• beschreiben die AkNon, die der Scanner bei der Anforderung des nächsten 

Token durch den Parser ausführt. 

• Die Elemente von Zustandsdiagrammen sind 

• Kreise, welche die Zustände bezeichnen. 

• Gerichtete Kanten, welche die Zustände miteinander verbinden. 

• Die von einem Zustand herausführenden Kanten haben eine Markierung (label). 

Das sind die Zeichen, mit denen man in den nächsten Zustand gelangt. 

• Es gibt einen ausgezeichneten Startzustand und mindestens einen 

ausgezeichneten Endzustand. 

Gerichteter, 

markierter 

Graph

Zustandsdiagramme – Beispiel 1 

21 

a 

start 

a 

0 1 

b 

b 

2

Zustandsdiagramme – Beispiel 2: relaNonale Operatoren 

22 

start 

< = 

0 1 

2 

return (relop, LE) 

> 

3 

return (relop, NE) 

= 

other 

4 

* 

return (relop, LT) 

> 

5 

= 

other 

6 

return (relop, EQ) 

return (assop, ...) 

7 

= 8 

other 

9 

* 

return (relop, GE) 

return (relop, GT)

Endlicher Automat 

23 

Eingabe 

aktueller Zustand 

Steuerung

Erkennung von Token 1/3 

24 

Der Scanner liest das Quellprogramm zeichenweise ein, um aus den einzelnen Zeichen 

die Token aufzubauen. 

Dazu wird das Quellprogramm blockweise (gepufferte E/A) von Datei in den 

Arbeitsspeicher geladen. 

Quellprogramm 

Puffer 

Scanner arbeitet hier


25 

Eingrenzen der Lexeme im Puffer mit Hilfe zweier Zeiger: 

vorher: 

i f ( a < b 

anfang 

ende 

nachher: 

i f ( a < b 

anfang 

ende 

Rück-setzen: 

i f ( a < b 

anfang ende Nächstes Token


26 

Fortsetzung: 

i f ( a < b 

anfang 

ende 

Problem: Wenn das Pufferende erreicht ist, ohne dass bis dahin ein Token erkannt 

wurde. 

Lösung: 2 Puffer, die abwechselnd gefüllt werden. Die beiden Zeiger laufen über 

beide Puffer im Kreis.

Token, Lexeme und Paêrn 

27 

Token 

interne Darstellung (für Parser) – Aufbau ist durch Regeln 

beschrieben. 

Pattern Menge von Strings, die durch eine Regel beschrieben werden und 

mit einem Token verknüpft sind. 

Lexem konkrete Ausprägung eines Pattern für einen Token. 

Merke: Verschiedene Strings (Pattern) können auf dasselbe Token 

abgebildet werden. 

Bsp.: const pi = 3.1416; 

Token = id 

Lexem = pi

Token, Lexeme und Paêrn -‐ Beispiele 

28 

Token Ausprägung (Lexem) Pattern-Beschreibung 

const final final 

if if if 

rel_op = < oder oder >= 

id pi, count Buchstabe gefolgt von 

Buchstaben-Ziffern 

Kombination 

num 3.1416, 0, 6.0E23 numerische Konstante 

literal “any string“ Zeichen zwischen “ 

und “ außer “

Interne Darstellung lexikalischer Elemente 1/3 

29 

Für jedes Lexem wird ein Paar ( Kategorie, Index) erzeugt. 

Typische Kategorien: Bezeichner id 

Zahlen num 

Zeichenketten string 

Schlüsselworte key 

Beispiel: 

if (max == 4711) 

name = “Madonna“; 

Operatoren mulop 

addop 

relop 

Trennzeichen delimiter

Interne Darstellung lexikalischer Elemente 2/3 

30 

Der Index kennzeichnet ein lexikalisches Element entweder innerhalb seiner 

Kategorie oder er ist eine Referenz in die Symboltabelle. 

Beispiel: (relop, 1) à < 

(relop, 2) à = 

(relop, 6) à > 

Kategorie: 

Vergleichsoperator 

à EQUAL - 

Operation 

(mulop, 1) à * 

(mulop, 2) à /

31 

Interne Darstellung lexikalischer Elemente -‐ 

Symboltabelle 3/3 

Symbol Attribute 

Index 

3 if 

... ... 

14 max 

... ... 

40 4711 

... ... 

51 name 

... ... 

63 “Madonna“ 

Beispiel: 

if (max == 4711) 

name = “Madonna“; 

Beispiel: 

(key, 3) 

(id, 14) 

(rel_op, 3) 

(num, 40) 

(id, 51) 

(string, 63)

ImplemenNerung eines Übergangsdiagramms 1/3 

32 

Direkte Umsetzung mittels einer Variablen state. 

Die Zustände werden ab 0 beginnend über alle Zustandsdiagramme 

durchnummeriert. 

letter | digit 

start 

letter 

0 1 

other 

2 

< = 

3 4 

5 

Idee: Scanner versucht Diagramme in der Reihenfolge 

andere 

ihrer Auflistung 

Diagramme 

zu 

durchlaufen. 

Falls ein Fehler auftritt, erfolgt der Übergang zum Start des nächsten Diagramms. 

Dabei ist der Zeiger end im Puffer auf start zurückzusetzen.


33 

iniNalisiere start, state 

while kein markierter Endzustand erreicht do 

case state of 

0: lies_zeichen (zeichen) 

if zeichen ist Buchstabe then state := 1 

else fehler 

1: lies_zeichen (zeichen) 

if zeichen ist Buchstabe oder Ziffer then state := 1 

else state := 2 

2: setze ende eine PosiNon zurück // Endzustand erreicht 

teste in Symboltabelle, ob Schlüsselwort / Bezeichner gefunden, falls noch nicht 

vorhanden, trage es ein, gib entsprechendes Element zurück; markiere Endzustand.

34 

end 

end 


3: lies_zeichen (zeichen) 

if zeichen = ‘

NichtdeterminisNsche endliche Automaten 

35 

o 

Ein nichtdeterminisNscher endlicher Automat (NEA oder NFA) ist ein 

o 

Tupel M = (A, MOVE, S, s 0 , F), wobei 

• A ein endliches Alphabet von Eingabezeichen ist, 

• S eine endliche Menge von Zuständen (state) ist, 

• s 0 ∈ S der Anfangszustand ist, 

• F ⊆ S die Menge der Endzustände (final states) ist, und 

• MOVE die ÜbergangsrelaKon, die (Zustands, Symbol)-‐Paare mit einer Menge 

von Zuständen verbindet, ist. 

MOVE : (state, symbol) à {state} bzw. MOVE : S x (A ∪ {ε} )à {S}

NFA -‐ Beispiel 

36 

Hinweise: 

• Dasselbe Eingabesymbol kann mehrere Übergänge eines Zustands markieren. 

• Die Übergänge können sowohl mit ε als auch mit Eingabesymbolen markiert 

sein. 

NFA der die Sprache: (a | b)*abb erkennt. 

a 

start 

0 

a 

b 

b 

1 2 3 

b

NFA -‐ Anmerkungen 

37 

o 

o 

Ein NFA akzepNert einen Eingabestring x, genau dann wenn es einen Pfad vom 

Startzustand zu einem Endzustand im Zustandsdiagramm gibt, dessen 

Kantenmarkierungen zusammen gefasst x ergeben. 

Da die Zustandsübergänge nicht eindeuNg sind, gibt es immer mehrere 

mögliche AlternaNven bei der Auswahl eines Übergangs. Wenn man den 

„falschen“ Übergang auswählt, kann es passieren, dass ein eingeschlagener 

Pfad in die Irre führt (à MehrdeuNgkeit, d.h. Nicht-‐determinismus). Der NFA 

muss „raten“, welchen Pfad er einschlagen soll. Hat der NFA „falsch geraten“, 

würde ein korrekter Eingabestring nicht akzepNert. Man muss dann sehr viele 

AlternaNven (à Backtracking) ausprobieren, um zu einer Entscheidung zu 

kommen.

DeterminisNsche endliche Automaten 

38 

o 

Ein determinisNscher endlicher Automat (DEA oder DFA) ist ein spezieller Fall 

eines nichtdeterminisNschen endlichen Automaten, für den gilt: 

• Es gibt keinen Zustand mit einem ε-Übergang, d.h. keinen Übergang ohne ein 

Eingabesymbol zu verarbeiten. 

• Für jeden Zustand s und jedes Eingabesymbol a gibt es höchstens eine Kante 

von s ausgehend, die mit a markiert ist. 

Die ÜbergangsfunkKon MOVE verbindet die (Zustands, Symbol)-‐Paare mit 

einem Zustand. 

MOVE : (state, symbol) à state bzw. MOVE : S x A à S.

DFA -‐ Beispiel 

39 

Hinweise: 

• Dasselbe Eingabesymbol kann nur einen Übergang eines Zustands markieren. 

• Die Übergänge können nicht mit e markiert sein. 

DFA, der die Sprache: (a | b)*abb erkennt. 

b 

b 

start 

0 

a 

b 

b 

1 2 3 

a 

a 

a

RA, NFA und DFA 

40 

o 

Warum betrachtet man überhaupt die NFA? 

o 

Für die (direkte) ImplemenNerung eines Scanners benöNgt man einen DFA und 

den kann man immer angeben. 

o 

o 

Für Erzeugung (Generierung) man eines Scanners benöNgt man reguläre 

Ausdrücke (RA) als Metasprache. 

Dann kommen folgende Sätze zur Anwendung: 

1. Zu jedem regulären Ausdruck r gibt es einen NFA, der die von r beschriebene 

reguläre Menge akzepNert. 

2. Wird eine Sprache von einem NFA akzepNert, so gibt es einen DFA, der L 

akzepNert.

Generierung eines Scanners mit LEX 

41 

lex.l 

Lex- 

Spezifikation 

Reguläre Ausdrücke für 

Sprache L 

Lex 

lex.yy.c 

Scanner in C- 

Code 

Scanner 

C-Compiler 

yyin 

Quellpro-gramm 

in L 

yylex 

Scanner 

Tokenfolge

Lex DeklaraNonsdatei -‐ Struktur 

42 

Deklarationen 

- in der Wirtssprache (globale Vereinbarungen) 

- Ersetzungsdeklarationen 

- Startzustände (Anfangsbedingungen) 

- Zeichensatzdeklarationen 

- Festlegungen für Lex-Tabellen 

%% 

Tokendefinitionen 

- Lex-Regeln und Aktionen (in der Wirtssprache) 

%% 

Hilfsprozeduren (zusätzlicher Programmcode in der Wirtssprache)

Lex -‐ DeklaraNonsteil 

43 

Deklarationen sind z.B. Konstanten als Tokendarstellungen 

%{ 

#define IDENTIFIER 1000 

#define REL_OP 1100 

#define LT_OP 1101 

. . . 

%} 

und reguläre Definitionen 

sign [+-] 

digit [0-9] 

letter 

[A-Za-z] 

globale 

Deklarationen 

C-Makroprozessoranweisungen 

Lex Deklarationen 

Basiselemente

Lex – Regeln und AkNonen 

44 

Paare (Reguläre Ausdrücke; auszuführende Aktion) 

Lex -‐ Regelbearbeitung 

45 

o Lex versucht mit seinem Regelsystem im (sequenNellen) Eingabestrom (Datei 

yyin) das nächste Lexem zu finden. 

o Bei einem Regeldurchlauf können auch mehrere oder gar kein Lexem gefunden 

werden. 

o Das Ergebnis kann sein: 

o Die Regel, die das längst mögliche Lexem beschreibt, wird als erste Wahl 

ermiêlt und der rechte Teil der Regel (AkNonen in C) wird ausgeführt. 

o Mehrere Regeln können gleich lange Lexeme erkennen. In diesem Fall wird die 

zuerst platzierte Regel erste Wahl und ausgeführt. 

o Mit dem nächsten Eingabezeichen kann das Regelsystem kein Lexem 

erkennen. Der Text wird dann solange zeichenweise in die Standardausgabe 

(Datei yyout) kopiert, bis das Regelsystem ein neues Lexem findet.

Lex -‐ NotaNon der RA 1/4 

46 

Zeichen vs. Metazeichen 

Die Zeichen zur Beschreibung der regulären Ausdrücke nennt man Metazeichen bzw. 

Metasymbole. 

Metasymbole: 

. $ ^ [ ] - ? * + | ( ) / { } < > “ \ 

Alle anderen Zeichen stehen für sich selbst. Will man ein Metasymbol als normales 

Zeichen benutzen à einschließen in “ “


47 

Metasymbol Bedeutung Beispiel 

[ ] Zeichenklassen [aby&] 

- Bereich [A-Z] 

^ Komplement [^0-9] 

? optional [-+]? 

| Alternative a|bc 

+ ein- oder mehrmals {digit}+ 

* 0 oder mehrmals {letter}* 

() normale Klammerung (a|bc)*


48 


. alle Zeichen außer 

newline (\n) 

^ $ Ausdruck am Zeilenan- ^hallo \t$ 

fang oder –ende 

/ Vorausschau -/{digit}+ 

{ } Kennzeichen eines {digit} 

regulären Symbols 

“ \ Escape-Zeichen “....“ \“ 

Whitespaces müssen in Anführungszeichen gesetzt werden. 

Konkatenation: Hintereinanderschreiben 

Es gibt weitere Bedeutungen der Metasymbole!


49 


{ } Anzahl der Wieder- [A-Z] {3} 

holungen eines 

regulären Ausdrucks A {2, 5} 

Pattern wird nur im Zustand 

betrachtet. 

A {1, } 

A {0, } 

erkennt end of file nur in flex

Prioritäten der Metasymbole 

50 

| 

{ } 

Konkatenation 

* + ? 

( ) / 

 

“ \ 

Die anderen Metasymbole werden nur alleine verwendet.

Einige FunkNonen der Lex-‐Bibliothek 

51 

yylex(): Aufruf von Lex. 

input(): Liefert das nächste Zeichen des Eingabestroms. 

unput(c): 

yymore(): 

Schreibt das Zeichen c in den Eingabestrom zurück (d.h. in den 

sog. Rückstell-Stack) 

Dieses Zeichen wird beim nächsten Regeldurchlauf oder input 

()-Aufruf zurück geliefert. 

Funktion verhindert das Löschen der Variablen yytext bei 

Regelabschluss. Die Zeichenkette, die durch die nächste Regel 

erkannt wird, wird an das Ende der aktuellen yytext- 

Zeichenkette angehängt. 

yyless(anz): Rückstellen von Zeichen des Eingabestroms. Von den erkannten 

Zeichen sollen nur die Zeichen 1..anz erhalten bleiben, der Rest 

wird in den Rückstellstack zurück geschoben.

52 

identifier 

integer 

Pascal-Kommentar 

Whitespace 

float 

Beispiele für Lex-‐Regeln 

[A-Za-z][A-Za-z0-9_]* 

[-+]?[0-9]+ 

\{[^\}]*\} 

[ \t\n] 

[-+]?[0-9]+(/.[0-9]+)? 

(E[-+]?[0-9]+)?

Lex-‐Beispielprogramm 1/2 

53 

%{ 

/* Zählen: Lexeme, Zeichen und Zeilen */ 

int anz_zeichen = 0, anz_lexeme = 0, anz_zeilen = 0; 

%} 

%% 

[^ \t\n]+ {/* kein Blank, Tab, nl */ 

++anz_lexeme; 

anz_zeichen += yyleng; } 

. { /* bel. Zeichen außer nl */ 

++anz_zeichen; } 

\n { /* nl */ 

++anz_zeichen; ++anz_zeilen;} 

%%

Lex-‐Beispielprogramm 2/2 

54 

main () { 

yylex(); /* Aufruf von Lex */ 

/* Lex erkennt o. spezifizierte Token bis 

eof der Eingabe */ 

printf (“Anz. Zeichen =\t%d\n“ 

“Anz. Zeilen =\t%d\n“ 

“Anz. Lexeme =\t%d\n“, 

anz_zeichen, anz_zeilen, anz_lexeme); 

}

55 

Lex -‐ Auswertung der Kontextbeziehungen des 

Eingabestrings 

Linker 

Kontext 

Eingabestring 

Rechter 

Kontext 

Zugriff auf linken Kontext: 

• Merkvariablen auf der Aktionsseite (im C-Code). 

• Anfangsbedingungen (Startzustände- start states) 

Zugriff auf rechten Kontext: 

• Lookahead-Metasymbol / (in Lex-Regeln) 

• yyless(anz) – Funktionsausfruf (Aktionsseite – C-Code) 

• REJECT – Makroaufruf (Aktionsseite – C-Code)

Lex – REJECT-‐Mechanismus 

56 

• REJECT – Makroaufruf 

Weist die Regel und die erkannten Inputzeichen zurück. 

Danach wird die nächste passende Regel gesucht. 

Gibt es in mehreren Regeln REJECT-Aufrufe, werden diese jeweils zurückgewiesen und 

die nächsten passenden Regeln der Reihe nach gesucht. 

Terminierung: entweder eine Regel ohne REJECT-Aufruf oder „konsumieren“ des ersten 

Zeichens des Inputs per default-Regel.

Lex – REJECT Beispiel 

57 

%% 

[a-z]* { /* Regel 1 */ 

printf("Regel 1 mit %s\n", yytext); 

REJECT; 

} 

[a-z][a-z] { /* Regel 2 */ 


REJECT; 

} 

[a-z] { /* Regel 3 */ 


REJECT; 

} 

%%

LEXIKALISCHE ANALYSE

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?