Formale Sprachen und Automaten - Kapitel 1: Grundlagen

Formale Sprachen und Automaten 

Kapitel 1: Grundlagen 

Vorlesung an der DHBW Karlsruhe 

Thomas Worsch 

Karlsruher Institut für Technologie, Fakultät für Informatik 

Wintersemester 2012

Ziel 

Einführung 

◮ der wichtigsten Grundbegriffe 

◮ für prägnantes Reden 

◮ der wichtigsten Notationen 

◮ für prägnantes Schreiben 

Grundlagen Zeichen, Alphabete, Wörter, Sprachen 2/19

1.1 Beispiel 

Ein Übersetzer für Java (oder C, oder . . . ) 

◮ liest als Eingabe eine Folge von Zeichen, 

◮ von denen der Benutzer „verspricht“, dass sie alle aus einer 

gewissen Menge A stammen. 

(Java: Teilmenge von Unicode, C: ASCII-Zeichensatz). 

◮ Diese Menge ist endlich und man nennt sie auch ein Alphabet. 

Ein Programm ist eine Zeichenfolge mit der Eigenschaft syntaktisch 

korrekt zu sein. 


1.2 Definition 

◮ Alphabet: endliche Menge von Zeichen. 

◮ Wort über A: Folge von Zeichen aus A. 

◮ Länge |w| eines Wortes w: 

Anzahl Zeichen, aus denen es besteht. 

◮ Das leere Wort besteht aus 0 Zeichen: || = 0. 

Damit man es trotzdem sieht, schreibt man ε, also |ε| = 0. 

◮ Menge aller Wörter über einem Alphabet A schreiben wir A ∗ . 

◮ Formale Sprache über A: 

beliebige Teilmenge L ⊆ A ∗ von Wörtern 



◮ Alphabet: endliche Menge von Zeichen. 

◮ Wort über A: Folge von Zeichen aus A. 

◮ Länge |w| eines Wortes w: 

Anzahl Zeichen, aus denen es besteht. 

◮ Das leere Wort besteht aus 0 Zeichen: || = 0. 

Damit man es trotzdem sieht, schreibt man ε, also |ε| = 0. 

Aber ε ist kein Symbol aus A ! 

◮ Menge aller Wörter über einem Alphabet A schreiben wir A ∗ . 

◮ Formale Sprache über A: 

beliebige Teilmenge L ⊆ A ∗ von Wörtern 


Beachte: Benutzung des Wortes „Wort“ 

◮ eine beliebige Folge von Zeichen aus dem benutzten Alphabet 

◮ auch wenn das Alphabet das Leerzeichen enthält 

◮ Ein Java-Programm ist ein Wort (in diesem Sinne). 


1.3 Definition (Konkatenation) 

Es sei A ein beliebiges Alphabet. 

◮ Für zwei Wörter w1, w2 ∈ A ∗ mit 

w1 = a1 · · · ak, mit a1, . . . , ak ∈ A und 

w2 = b1 · · · bℓ, mit b1, . . . , bℓ ∈ A ist ihre 

Konkatenation w1 · w2 = w1w2 = a1 · · · akb1 · · · bℓ. 

◮ Für das leere Wort gilt: w · ε = w = ε · w. 

◮ Die Potenzen eines Wortes w ∈ A ∗ sind so definiert: 

w 0 = ε 

w k+1 = w k w für alle k ∈ N0 


1.4 Beispiele 

◮ 00 · 10 = 0010, aber 10 · 00 = 1000. 

◮ Die Konkatenation von Wörtern ist also nicht kommutativ. 

◮ w 1 = w 0+1 = w 0 · w = ε · w = w 

◮ w 2 = w 1+1 = w 1 · w = w · w = ww 

◮ 0 5 = 00000 

◮ 0 3 1 3 = 000111 

01 3 = 0111 

(01) 3 = 010101 

◮ (110101101) 0 = ε 

◮ Für alle k ∈ N0 ist ε k = ε. 


1.5 Bemerkung 

◮ Für alle Wörter w1, w2 ∈ A ∗ gilt: |w1w2| = |w1| + |w2|. 

◮ Für alle k ∈ N0 ist daher |w k | = k|w|. 


Eingabealphabete 

◮ In unseren Beispiele meist {0, 1} oder {a, b} o.ä. 

◮ Bei Programmiersprachen: oft ASCII oder Unicode oder . . . 


1.6 Definition (Produkte auf Sprachen) 

Für formale Sprachen L1, L2, L ⊂ A ∗ definiert man: 

◮ Die Konkatenation oder das Produkt zweier Sprachen 

L1 · L2 = L1L2 = {w1w2 | w1 ∈ L1 ∧ w2 ∈ L2} 

◮ Die Potenzen einer Sprache L sind so definiert: 

L 0 = {ε} 

L k+1 = L k L für alle k ∈ N 


1.7 Beispiele 

◮ {01, 1} · {000, 01} = {01000, 0101, 1000, 101} 

◮ {010, 11} 2 = {010010, 01011, 11010, 1111} 

◮ {0, 1} 1 = {0, 1} 

◮ {0, 1} 2 = {00, 01, 10, 11} 

◮ {0, 1} 3 = {000, 001, 010, 011, 100, 101, 110, 111} 

◮ A k = w ∈ A ∗ |w| = k 

◮ A ∗ = A 0 ∪ A 1 ∪ A 2 ∪ A 3 ∪ · · · 


1.8 Bemerkung 

Bei der Konkatenation gilt insbesondere: 

◮ 

◮ analog: L · {ε} = L. 

{ε} · L = {w1w2 | w1 ∈ {ε} ∧ w2 ∈ L} 

= {w1w2 | w1 = ε ∧ w2 ∈ L} 

= {εw2 | w2 ∈ L} 

= {w2 | w2 ∈ L} 

= L 

◮ Wichtig: Die formale Sprache {ε} ist nicht die leere Menge, 

sondern eine Menge, die genau ein Element enthält. 



Der ε-freie Konkatenationsabschluss L + einer formalen Sprache L 

und der Konkatenationsabschluss L ∗ von L sind so definiert: 

L + = 

L ∗ = 

∞ 

L k 

k=1 

∞ 

k=0 

L k = L 0 ∪ L + = {ε} ∪ L + 

◮ Das ist konsistent mit A ∗ wie wir es schon definiert haben! 

◮ L ∗ = L 0 ∪ L 1 ∪ L 2 ∪ L 3 ∪ · · · 

◮ L + = L 1 ∪ L 2 ∪ L 3 ∪ · · · 

◮ Der ∗ heißt auch Kleene-Operator oder Kleene-Stern. 


1.10 Bemerkung 

◮ L + ist die Menge aller Wörter, die man als Produkt von einem 

oder mehreren Wörtern aus L schreiben kann. 

◮ Beachte: Auch in L + kann schon ε enthalten sein, 

nämlich dann, wenn ε ∈ L ist. 


1.11 Beispiel 

◮ Die Menge der syntaktisch korrekten Java-Programme ist eine 

formale Sprache LJava ⊂ A ∗ über dem Alphabet 

A = {a, . . . , z, A, . . . , Z, +, −, ∗, . . .}. 

◮ Ein Java-Übersetzer muss unter anderem überprüfen, ob eine 

Eingabezeichenkette ein syntaktisch korrektes Java-Programm 

ist oder nicht. 

◮ Mit anderen Worten muss ein Übersetzer für jedes w ∈ A ∗ 

feststellen können, ob w ∈ LJava ist oder nicht 

◮ und je nachdem dann verschiedene Aktionen durchführen. 


Probleme bei Programmiersprachen 

◮ Wie spezifiziert man (präzise), welche Zeichenfolgen 

syntaktisch korrekte Java-Programme sind? 

◮ Wie kann z. B. ein Algorithmus aussehen, der überprüft, ob die 

Eingabe ein syntaktisch korrektes Java-Programm ist? 

Grundlagen „Verarbeitung“ formaler Sprachen 16/19

Probleme bei formalen Sprachen 

Verallgemeinert auf beliebige formale Sprachen: 

◮ Wie spezifiziert man eine formale Sprache? 

◮ Inwieweit kann man Algorithmen angeben, die für 

Eingabewörter entscheiden, ob sie zu einer vorher spezifizierten 

formalen Sprache gehören? 

Ist man erst einmal so weit, dann ergeben sich als weitere Fragen: 

◮ Kann man den Entscheidungsalgorithmus womöglich 

automatisch aus der Spezifikation der formalen Sprachen 

erzeugen? 

◮ Gibt es vielleicht Teilklassen (besonders „einfacher“) formaler 

Sprachen, für die gewisse besonders „schöne“ Spezifizierungsund 

Erkennungsmethoden benutzt werden können? 


Lösungsansätze 

◮ Die Entscheidung über die Zugehörigkeit eines Wortes zu einer 

formalen Sprache kann manchmal durch Angabe eines 

Algorithmus in irgendeiner gängigen Programmiersprache 

beschrieben werden. 

◮ Für spezielle Klassen formaler Sprachen kommt man mit 

Algorithmen einer bestimmten speziellen einfachen Struktur 

aus. 

◮ Übliche Darstellung: gewisse Sorten von Automaten. 

◮ Typisch: eine Kontrolleinheit (sozusagen mit einem fest 

verdrahteten Programm), die auf einen (Daten-)Speicher 

zugreifen kann. 

◮ Unterschiede insbesondere bei der Speichergröße und bei der 

Art der möglichen Speicherzugriffe. 

◮ Je nach „Kompliziertheit“ der formalen Sprache braucht man 

unterschiedlich „mächtige“ Automaten für die Erkennung. 


Vorschau 

◮ Chomsky-Hierarchie: unterscheide Typ-3-, Typ-2-, Typ-1- und 

Typ-0-Sprachen (mit zunehmendem „Schwierigkeitsgrad“). 

◮ Schwergewicht auf 

◮ regulären Sprachen (Typ 3) und 

◮ kontextfreien Sprachen (Typ 2) 

da z. B. im Übersetzerbau von Bedeutung. 

◮ Typ-1- und Typ-0-Sprachen und noch „kompliziertere“ werden 

nur kurz abgehandelt. 

◮ Regular Expressions 

◮ Syntaxanalyse in einfacher Form 

Grundlagen Vorschau auf die Vorlesung 19/19

Formale Sprachen und Automaten - Kapitel 1: Grundlagen

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?