NUMERISCHE MATHEMATIK II Sommersemester 2010 - Institut für ...

NUMERISCHE MATHEMATIK II 

Sommersemester 2010 

G. Lube 

Georg-August-Universität Göttingen, NAM 

2. Juli 2010

Einleitung 

Die Vorlesung Numerische Mathematik II setzt den Einführungskurs über Numerische Mathematik 

I aus dem Wintersemester fort. Dabei werden numerische Verfahren zur approximativen 

Lösung der folgenden Grundaufgaben behandelt und analysiert: 

• Teil I: Numerische Lösung gewöhnlicher Differentialgleichungen 

– Anfangswertaufgaben bei gewöhnlichen Differentialgleichungen (Kapitel 1-5) 

– Zweipunkt-Randwertprobleme (Kapitel 6-8) 

• Teil II: Numerische Lineare Algebra 

– Lineare Gleichungssysteme großer Dimension (Kapitel 9) 

– Eigenwertaufgaben (Kapitel 10-12) 

• Teil III: Lineare Optimierung (Kapitel 13-15) 

Die Vorlesung wendet sich an Studierende der Mathematik, Physik und Angewandten Informatik 

sowie an Lehramtskandidaten mit dem Fach Mathematik ab dem vierten Semester. Vorausgesetzt 

werden die Vorlesungen Differential- und Integralrechnung I und II, Lineare Algebra I und 

Numerische Mathematik I. 

Zur aktiven und gründlichen Aneigung des Vorlesungsstoffes ist die Teilnahme an den Übungen 

sehr zweckmäßig. Im Wintersemester 2010/11 wird sich voraussichtlich ein Seminar zur Numerischen 

Mathematik mit Themen anschließen, die an potentielle Graduierungsarbeiten heranführen. 

In den Übungen werden wir (aufbauend auf den guten Erfahrungen im Wintersemester) mit dem 

Software-Paket MATLAB arbeiten. Dieses System hat sich in den letzten Jahren international 

als wichtiges Arbeitsinstrument in Lehre und Forschung bewährt. Es ist somit auch potentiell 

ein Arbeitsinstrument für nachfolgende Graduierungsarbeiten. 

In den Übungen werden wieder in größerem Umfang Programmieraufgaben gestellt. Dazu sind 

Programmierkenntnisse in C nützlich. 

3

Inhaltsverzeichnis 

I Numerische Lösung gewöhnlicher Differentialgleichungen 7 

1 Anfangswertaufgaben 9 

1.1 Explizite Differentialgleichungen 1. Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

1.2 Lokale Existenzaussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.3 Existenz globaler Lösungen. Regularität. Evolution . . . . . . . . . . . . . . . . . . . . . . 15 

1.4 Stabilität der Lösung von AWP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

2 Einschritt-Verfahren 21 

2.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.2 Konsistenz von Einschritt-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

2.3 Konvergenz von Einschritt-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3 Explizite Runge-Kutta Verfahren 27 

3.1 Idee von Runge-Kutta-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

3.2 Ordnungsbedingungen nach Butcher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

3.3 Konvergenz expliziter Runge-Kutta-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 34 

4 Adaptive Gittersteuerung 37 

4.1 Adaptiver Basisalgorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

4.2 Lokale Fehlerschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

4.3 Eingebettete Runge-Kutta-Verfahren. Fehlberg-Trick . . . . . . . . . . . . . . . . . . . . . 40 

5 Implizite Verfahren für steife AWP 45 

5.1 Eignung expliziter Verfahren für steife AWP . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

5.2 Implizite Runge-Kutta-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

5.3 Implementation impliziter RK-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 

5.4 Konstruktion impliziter RK-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

5.5 Stabilität impliziter Runge-Kutta-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

5.6 Eingebettete Runge-Kutta-Verfahren in Matlab . . . . . . . . . . . . . . . . . . . . . . . 55 

6 Randwertaufgaben 57 

6.1 Einführendes Beispiel. Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

6.2 Lösbarkeit des 1. RWP im symmetrischen Fall . . . . . . . . . . . . . . . . . . . . . . . . . 59 

6.3 Lösbarkeit des 1. RWP im nichtsymmetrischen Fall . . . . . . . . . . . . . . . . . . . . . . 60 

6.4 Exkurs: Klassische Lösungen elliptischer RWP . . . . . . . . . . . . . . . . . . . . . . . . . 62 

7 Finite-Differenzen-Verfahren 65 

7.1 Definition der klassischen FDM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

7.2 Lösung des diskreten Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 

7.3 Stabilitäts- und Konvergenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

7.4 Exkurs: Finite-Differenzen-Methode für Poisson-Problem . . . . . . . . . . . . . . . . . . . 72 

5

6 INHALTSVERZEICHNIS 

8 Ritz-Galerkin-Verfahren für RWP 77 

8.1 Variationsgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

8.2 Verallgemeinerte Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

8.3 Ritz-Galerkin Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 

8.4 Finite-Elemente-Methode für Zweipunkt-RWP . . . . . . . . . . . . . . . . . . . . . . . . 83 

II Numerische Lineare Algebra 87 

9 Krylov-Unterraum-Methoden 89 

9.1 Krylov-Unterräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

9.2 Arnoldi-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

9.3 FOM-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

9.4 GMRES-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

9.5 Vorkonditionierung von Krylov-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 

10 Eigenwertprobleme 101 

10.1 Einführende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

10.2 Algebraische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 

10.3 Spezialfall hermitescher Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 

10.4 Lokalisierung von Eigenwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

11 Verfahren der Vektoriteration 109 

11.1 Potenzmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 

11.2 Inverse Iteration mit shift-Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 

11.3 Rayleigh-Quotienten-Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 

12 QR-Verfahren für allgemeine EWP 115 

12.1 Basisalgorithmus des QR-Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 

12.2 Konvergenz des einfachen QR-Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

12.3 Nachteile des Basisverfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 

12.4 Reduktionsschritt auf Hessenberg-Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 

12.5 QR-Zerlegung mit Givens-Rotationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 

12.6 Konvergenzbeschleunigung durch shift-Strategie . . . . . . . . . . . . . . . . . . . . . . . . 124 

III Lineare Optimierung 127 

13 Grundlagen der Optimierung 129 

13.1 Definitionen. Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 

13.2 Optimalitätsbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 

13.3 Lagrange-Formalismus für lineare Gleichungsrestriktionen . . . . . . . . . . . . . . . . . . 131 

13.4 KKT-Bedingungen für lineare Ungleichungsbedingungen . . . . . . . . . . . . . . . . . . . 133 

13.5 Farkas-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 

14 Lineare Optimierung 137 

14.1 Einführende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 

14.2 Existenz von Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 

14.3 Dualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 

15 Simplex-Verfahren 143 

15.1 Ecken und Basislösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 

15.2 Entwicklung des Simplex-Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 

15.3 Analyse eines Simplex-Schritts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 

15.4 Bemerkungen zur Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 

15.5 Bestimmung einer Basislösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Teil I 

Numerische Lösung gewöhnlicher 

Differentialgleichungen 

7

Kapitel 1 

Anfangswertaufgaben 

Die Theorie der gewöhnlichen Differentialgleichungen ist eines der wesentlichen und am besten 

verstandenen Instrumente der Mathematik. Sie untersucht Entwicklungsprozesse (Evolutionsprozesse), 

die deterministisch, endlichdimensional sowie differenzierbar sind. 

Wir betrachten zunächst Anfangswertprobleme (AWP) für i.a. gekoppelte Systeme gewöhnlicher 

Differentialgleichungen zu gegebenen Anfangswerten und deren numerischer Lösung mit Einschrittverfahren. 

Zunächst stellen wir im Kapitel 1 Grundbegriffe sowie Aussagen zur Lösbarkeit 

von AWP zusammen. In Kapitel 2 gehen wir auf die Grundlagen von Einschritt-Verfahren ein. 

Kapitel 3 ist der Konstruktion von expliziten Runge-Kutta Verfahren gewidmet. In Kapitel 4 

betrachten wir für diese Verfahren Adaptionsmethoden. Schließlich behandeln wir in Kapitel 5 

implizite Runge-Kutta Verfahren für sogenannte steife AWP. 

Der Lösung von Randwertaufgaben für gewöhnliche Differentialgleichungen widmen wir uns in 

den restlichen Kapiteln von Teil I. 

1.1 Explizite Differentialgleichungen 1. Ordnung 

Definition 1.1. Auf dem Gebiet I × G ⊆ R × R n sei f ∈ C(I × G; R) eine gegebene stetige 

Funktion. Dann heißt x(t) = (x1(t),...,xn(t)) T ∈ C 1 (I; R n )) klassische Lösung der expliziten 

gewöhnlichen Differentialgleichung 1. Ordnung 

bzw. 

x ′ (t) = f(t;x(t)). (1.1) 

x ′ i (t) = fi(t;x1(t),...,xn(t)), i = 1,...,n, (1.2) 

falls (t,x(t)) ∈ I × G und x ′ (t) = f(t,x(t)) für alle t ∈ I. 

Im skalaren Fall n = 1 entspricht die Aufgabe (1.1) der Bestimmung von Kurven x = x(t), deren 

Steigung in jedem Kurvenpunkt durch das vorgegebene Richtungsfeld f(t;x(t)) bestimmt ist. 

Im allgemeinen vektorwertigen Fall n ≥ 1 bezeichnen wir die unabhängige Variable t als Zeit sowie 

den Vektor x ∈ G ⊂ R n als Zustandsvektor. Die Menge I×G heißt erweiterter Zustands- oder 

erweiterter Phasenraum. Der Graph (t,x(t)) einer Lösung des Systems (1.1) wird als Phasenkurve 

(bzw. Trajektorie oder Orbit) im erweiterten Phasenraum unter dem Fluß f interpretiert. 

Oft ist auch die Projektion der Phasenkurven in den Phasenraum G ⊂ R n von Interesse. 

Die Lösung des Systems (1.1) ist im allgemeinen Fall nicht eindeutig bestimmt. Bei konkreten 

Anwendungen interessiert man sich in der Regel auch nicht für die Gesamtheit der Lösungen, 

9

10 KAPITEL 1. ANFANGSWERTAUFGABEN 

sondern für eine spezielle Lösung bei Vorgabe einer Zusatzbedingung. Bei einem Anfangswertproblem 

(AWP) sucht man eine Lösung von (1.1), die den Anfangsbedingungen 

genügt. In kompakter Form erhält man das AWP 

xi(t0) = x 0 i , i = 1,...,n; t0 ∈ (a,b) (1.3) 

x ′ = f(t,x(t)), x(t0) = x 0 := (x 0 1 ,...,x0 n )T . (1.4) 

Die Lösung von (1.4) führt somit auf die Auswahl einer speziellen Lösungstrajektorie, die durch 

den Punkt (t0,x 0 ) führt. 

Bemerkung 1.2. Die Vorgabe von Anfangsbedingungen ist nicht die einzige Möglichkeit zur 

Auswahl einer speziellen Lösung von (1.1). Oft ist die Ermittlung periodischer Lösungen von 

praktischem Interesse. Wir können jedoch hier nicht auf diesen Punkt eingehen. ✷ 

Wir wollen einige wichtige Spezialfälle besprechen. 

(i) Nichtautonome und autonome Systeme: 

Hängt die gegebene Funktion f nicht explizit von t ab, d.h. f = f(x), so heißt (1.1) autonomes 

oder dynamisches System. Anderenfalls nennt man (1.1) nichtautonom. Bei autonomen Systemen 

mit I = R ist mit einer Lösung x(·) auch jede Funktion x(· − t∗) für alle t∗ ∈ R Lösung des 

Systems. Die Lösung x = x(t), t ∈ R eines AWP für ein autonomes System stellt die Parameterdarstellung 

einer Trajektorie durch den Punkt x 0 dar. Ohne Beschränkung der Allgemeinheit 

ist t0 = 0. 

Man kann jedes nichtautonome AWP (1.4) mittels ˜x(t) = (t,x(t) T ) T in die autonome Form 

bringen: 

˜x ′ (t) = g(˜x) := (1,f(t;x) T ) T , ˜x(t0) = (t0,x(t0) T ) T . 

(ii) Gleichungen und Systeme höherer Ordnung: 

Es besteht ein enger Zusammenhang zwischen einem System 1. Ordnung und einer Differentialgleichung 

n−ter Ordnung 

x (n) := dn x 

dt n = F(t;x,x′ ,...,x (n−1) ). (1.5) 

Mit den Festsetzungen x1 := x, x2 := x ′ , ...., xn := x (n−1) erhält man das äquivalente System 

1. Ordnung 

x ′ i = xi+1, i = 1,...,n − 1; x ′ n = F(t;x1,...,xn). (1.6) 

Man kann diesen Sachverhalt sinngemäß auf explizite Systeme gewöhnlicher Differentialgleichungen 

x (m) (t) = F(t;x(t),...,x (m−1) (t)) 

der Ordnung m mit x = (x1,...,xn) T und F = (F1,...,Fn) T übertragen. Man erhält dann ein 

explizites System von n · m gewöhnlichen Differentialgleichungen 1. Ordnung. 

(iii) Systeme linearer Differentialgleichungen: 

Die praktische Behandlung der im allgemeinen Fall nichtlinearen Aufgabe (1.1) erfordert in der 

Regel eine geeignete Linearisierung. Oft bemüht man sich schon in der Modellierung praktischer 

Vorgänge um die Aufstellung von Systemen linearer Differentialgleichungen, d.h. mit der 

speziellen Gestalt 

x ′ (t) = f(t,x) := A(t)x + g(t), (1.7)

1.1. EXPLIZITE DIFFERENTIALGLEICHUNGEN 1. ORDNUNG 11 

wobei g ∈ C(I; R n ) eine stetige Funktion und A = (aij) n i,j=1 ∈ C(I; Rn×n ) eine Matrix mit stetigen 

Einträgen aij : I → R sind. Lineare Aufgaben haben besonders markante Eigenschaften, 

auf die wir in den Übungen eingehen. 

Zur Illustration bringen wir zwei einfache Beispiele: 

Beispiel 1.3. Bewegung eines Massepunktes 

Die Bewegung eines Massepunktes m zur Zeit t am Ort x wird beschrieben durch die Differentialgleichung 

2. Ordnung 

mx ′′ (t) = g(t;x). 

Die Funktion g beschreibt dabei die Wirkung äußerer Kräfte. So gilt für die Schwingungen 

einer einseitig eingespannten Feder für die rücktreibende Federkraft g(t;x) = −kx mit der 

Federkonstanten k. Zur eindeutigen Beschreibung der Bewegung werden ferner der Anfangspunkt 

x0 = x(t0) und die Anfangsgeschwindigkeit x ′ 0 = x′ (t0) vorgegeben. Das äquivalente System 

x ′ 1 (t) = x2(t), x ′ 2 (t) = −kx1(t) 

x1(t0) = x0, x2(t0) = x ′ 0 

 

k 

mt) + x′ 0 sin( 

 

k 

ist linear und autonom. Die periodische Lösung x(t) = x1(t) = x0 cos( 

mt) ist 

zusammen mit der Ableitung x ′ (t) = x2(t) in Abbildung 1.1 dargestellt. ✷ 

1.5 

0.5 

0 

–0.5 

–1 

–1.5 

1 

Loesung und Ableitung 

1 2 3 4 5 6 

Phasenkurve 

0 

–0.8 –0.6 –0.4 –0.2 0.2 0.4 0.6 0.8 

Abbildung 1.1: Federschwingung: Lösung und Ableitung sowie Phasenkurve 

Beispiel 1.4. Volterra-Lottka Zyklus 

Wir betrachten ein stark vereinfachtes ökologisches System, bei dem die erste Art der zweiten als 

Nahrung dient. Die Populationen der ersten bzw. zweiten Art zur Zeit t werden mit x1(t) bzw. 

x2(t) bezeichnet. Die Wachstumsrate der Population ergibt sich als Differenz von Geburts- und 

Sterberate. Für die erste Population sei genügend Nahrung vorhanden, so daß die Geburtsrate 

als konstant angesehen werden kann. Mit geeigneten Konstanten α,β > 0 gilt dann 

x ′ 1 

x1 

= α − βx2. 

Bei Annahme einer konstanten Sterberate für die zweite Art erhält man mit geeigneten Konstanten 

γ,δ > 0 

x ′ 2 

x2 

= γx1 − δ. 

1.5 

0.5 

–0.5 

–1 

–1.5 

1


Somit wird das sogenannte Räuber-Beute Verhältnis durch ein System 1. Ordnung aus zwei 

nichtlinearen Gleichungen beschrieben: 

x ′ 1 = αx1 − βx1x2, x ′ 2 = γx1x2 − δx1. 

Abbildung 1.2 zeigt, daß sich eine periodische Lösung (Volterra-Lottka Zyklus) einstellt. ✷ 

400 

300 

200 

100 

Volterra-Lotks-Zyklus 

0 2 4 6 8 10 

400 

300 

Raeuber 

200 

100 

Periodische Phasenkurve 

50 100 150 200 250 300 

Beute 

Abbildung 1.2: Lösungstrajektorien und Phasenkurve des Räuber-Beute-Zyklus 

1.2 Lokale Existenzaussagen 

Grundlage des fundamentalen Existenz- und Eindeutigkeitssatzes von Picard-Lindelöf ist der 

Fixpunktsatz von Banach für das Fixpunktproblem 

Finde x ∈ M ⊆ X : x = T(x). (1.8) 

Ferner untersuchen wir zur Näherungslösung von (1.8) das Verfahren der sukzessiven Approximation: 

Finde xn+1 ∈ M ⊆ X : xn+1 = T(xn), n ∈ N0; x0 ∈ M. (1.9) 

Theorem 1.5. (Fixpunktsatz von Banach) 

Seien (X, · ) vollständiger, normierter Raum und M ⊆ X eine abgeschlossene, nichtleere 

Menge. Der Operator T sei selbstabbildend, d.h. 

und kontraktiv, d.h. es gilt die gleichmäßige Lipschitz-Bedingung 

T : M ⊆ X → M, (1.10) 

∃κ ∈ [0,1) : T(x) − T(y) ≤ κx − y, ∀x,y ∈ M. (1.11) 

Dann besitzen die Probleme (1.8) bzw. (1.9) jeweils eine und nur eine Lösung x bzw. xn in M. 

Ferner konvergiert die durch (1.9) erzeugte Folge (xn)n gegen x und es gilt die Fehlerabschätzung 

xn − x ≤ κn 

1 − κ x0 − x1 → 0, n → ∞. (1.12) 

Ferner betrachten wir das parameterabhängige Fixpunktproblem: 

Finde xλ ∈ M ⊆ X : xλ = Tλ(xλ). λ ∈ Λ (1.13)

1.2. LOKALE EXISTENZAUSSAGEN 13 

Satz 1.6. Sei Λ metrischer Raum. Ferner erfülle Tλ für alle λ,λ0 ∈ Λ die Voraussetzungen von 

Theorem 1.5 mit einer von λ unabhängigen Konstanten κ und es gelte 

lim Tλ(x) = Tλ0 (x), ∀x ∈ M. (1.14) 

λ→λ0 

Dann besitzt das Problem (1.13) für alle λ ∈ Λ eine und nur eine Lösung xλ ∈ M. Ferner gilt 

lim xλ = xλ0 

λ→λ0 

. 

Beweis: (i) Existenz: Die Existenzaussage folgt nach Theorem 1.5 zunächst für festes λ ∈ Λ. 

(ii) Stetigkeit: Nach Dreiecksungleichung und (1.11) folgt 

d.h. mit (1.14) 

xλ − xλ0 = Tλ(xλ) − Tλ0 (xλ0 ) 

≤ Tλ(xλ) − Tλ(xλ0 ) + Tλ(xλ0 ) − Tλ0 (xλ0 ), 

≤ κxλ − xλ0 + Tλ(xλ0 ) − Tλ0 (xλ0 ), 

1 

xλ − xλ0 ≤ 

1 − κ Tλ(xλ0 ) − Tλ0 (xλ0 ) → 0, λ → λ0. ✷ 

Wir betrachten auf dem Definitionsgebiet I × G von f in einer Umgebung von t0 ∈ I das AWP 

x ′ (t) = f(t;x(t)), x(t0) = x 0 , (1.15) 

mit x(t) = (x1(t),...,xn(t)) T , f = (f1,...,fn) T sowie x 0 = (x 0 1 ,...,x0 n )T ∈ R n . Der entscheidende 

Kunstgriff ist die Wahl der folgenden parameterabhängigen Fixpunktform 

x(t) = x 0 + 

t 

t0 

f(τ,x(τ)) dτ ≡ T x 0(x(t)) (1.16) 

bei fixiertem Anfangspunkt t0. Der Anfangswert x 0 wird als Parameter angesehen. Weiter wählen 

wir mit Ic = [t0 − c,t0 + c] mit c > 0 den Banach-Raum 

X := C 0 (Ic; R n ), x := x∞ := max 

t∈Ic 

max 

i=1,...,n |xi(t)| 

und die Menge M := {x ∈ X : x − x 0 ∞ ≤ R} ⊂ G mit R > 0. Wir vermerken nur, daß die 

Maximum-Norm · ∞ durch eine andere Vektor-Norm ersetzt werden kann. 

Man untersucht also die Lösbarkeit des AWP im Raum stetiger vektorwertiger Funktionen. Mit 

den Voraussetzungen des folgenden Resultates sind das AWP (1.15) und (1.16) äquivalent. 

Theorem 1.7. (Picard-Lindelöf) 

Auf dem Streifengebiet QR := {(t,x) ∈ R × R n : |t − t0| ≤ a, x − x 0 ∞ ≤ R} ⊂ I × G gelte 

mit festen Werten K,L ∈ [0, ∞), a,c ∈ (0, ∞), daß 

(i) f ∈ C 0 (QR; R n ), |fi(t,x)| ≤ K auf QR 

(ii) |fi(t,x) − fi(t, ˜x)| ≤ Lx − ˜x∞ auf QR 

(iii) 0 < c < a, cK < R, cL < 1 (d.h. c hinreichend klein) .


Dann existiert genau eine Lösung von (1.15) mit x(·) ∈ M ⊂ C0 (Ic; Rn ). Sie hängt in der 

Norm von X stetig von den Anfangswerten x0 ab und liegt sogar im Raum C1 (Ic; Rn ). Ferner 

konvergiert das Verfahren der sukzessiven Approximation 

x (0) (t) = x 0 ; x (n+1) (t) = x 0 t 

+ f(τ,x 

t0 

(n) (τ)) dτ, t ∈ Ic, n ∈ N0 

gegen die Lösung von (1.15) mit 

lim 

n→∞ x − x(n) = 0. 

Beweis: Wir wenden zunächst Theorem 1.5 mit T x 0 = T für festen Anfangswert x 0 an: 

(i) Selbstabbildung (1.10): Die Aussage T : M → M folgt aus 

T(x) − x 0 = 

t 

t0 

f(τ,x(τ)) dτ∞ = max 

t∈Ic 

max 

i=1,...,n | 

(ii) Kontraktivität (1.11): Dies ergibt sich mit κ := cL < 1 aus 

T(x1) − T(x2) = 

t 

t0 

t 

[f(τ,x1(τ)) − f(τ,x2(τ))] dτ∞ 

t 

t0 

fi(τ,x(τ)) dτ| ≤ cK < R. 

= max max 

t∈Ic i=1,...,n | [fi(τ,x1(τ)) − fi(τ,x2(τ))] dτ| 

t0 

≤ cLx1 − x2∞ ≡ κx1 − x2. 

Theorem 1.5 sichert Existenz und Eindeutigkeit der Lösung des AWP sowie die Konvergenzaussage 

für das Verfahren der sukzessiven Approximation im Raum X = C 0 (Ic; R n ). 

(iii) Regularität der Lösung: Die stetige Differenzierbarkeit xi ∈ C 1 (Ic) folgt wegen der Stetigkeit 

des Integranden f in der Operatordefinition von T und wegen x ∈ C 0 (Ic; R n ). 

(iv) Stetige Abhängigkeit: Wir wenden Satz 1.6 mit Λ = R n an. Sei {x 0n } eine Folge in R n mit 

x 0n → x 0 . Wegen 

T x 0n(x) − T x 0(x) = x 0n − x 0 ∞ → 0, n → ∞, ∀x ∈ M 

sind dann die Voraussetzungen von Satz 1.6 (evt. bei Abänderung der Konstanten a,R und c) 

erfüllt. Daraus folgt die Aussage. ✷ 

Bemerkung 1.8. Seien die Voraussetzungen (i) und (iii) des Satzes von Picard-Lindelöf mit 

Ausnahme der Forderung der Lipschitz-Stetigkeit (ii) von f (und damit ohne die Beschränkung 

der Konstante c bezüglich der Lipschitz-Konstante L) erfüllt. Dann gibt es mindestens eine 

Lösung x(·) ∈ C 1 ([t0 − c,t0 + c]; R n ) des AWP (1.15). Dies ist die Aussage des Satzes von 

Peano. 

Ohne die Voraussetzung der Lipschitz-Stetigkeit gilt im allgemeinen Fall die Eindeutigkeit der 

Lösung des AWP (1.15) nicht mehr. Wir betrachten das AWP 

x ′ = f(x) := |x|, x(0) = 0. 

Offenbar ist die Funktion f nicht Lipschitz-stetig im Punkt x = 0. Man prüft sofort nach 

durch Einsetzen, daß sowohl x1(t) ≡ 0 als auch die Trajektorie mit x2(t) = t 2 /4, t ≥ 0 und 

x2(t) = 0, t ≤ 0 Lösung des AWP sind. Die Lösung ist also nicht eindeutig bestimmt. ✷

1.3. EXISTENZ GLOBALER LÖSUNGEN. REGULARITÄT. EVOLUTION 15 

Bemerkung 1.9. Das Resultat des Satzes von Peano zeigt, daß das AWP (1.15) eigentlich sehr 

gutartig gestellt ist: Stetigkeit der Daten impliziert die Lösbarkeit. Bei der Analyse numerischer 

Verfahren werden wir jedoch im Verlauf der Vorlesung stets Voraussetzungen benötigen, die weit 

über die der Stetigkeit von f hinausgehen. Auch wird (implizit) immer die Eindeutigkeit der 

Lösung angenommen. Daher hat der Satz von Peano wegen der möglichen Nichteindeutigkeit 

der Lösung im Rahmen dieser Vorlesung keine weitere Bedeutung. ✷ 

Von praktischer Bedeutung ist folgendes Kriterium für gleichmäßige Lipschitz-Stetigkeit von f, 

das sich aus dem Mittelwertsatz ergibt. 

Lemma 1.10. Gelte auf dem Streifengebiet QR (vgl. Thm. 1.7) neben der Stetigkeitsforderung 

f ∈ C0 (QR, Rn ) auch die Stetigkeit der partiellen Ableitungen, d.h. für die Einträge der Jacobi- 

Matrix gilt ∂fi 

∂xj ∈ C0 (QR, Rn ), i,j = 1,...,n. Dann sind die Funktionen fi (für t fest) gleichmäßig 

Lipschitz-stetig bezüglich x mit 

|fi(t,x) − fi(t, ˜x)| ≤ Lix − ˜x∞, Li(t) = sup 

x−x0∞≤R j=1 

n 

 

∂fi 

 

(t,x) 

∂xj 

. (1.17) 

1.3 Existenz globaler Lösungen. Regularität. Evolution 

Der Satz von Picard-Lindelöf ist in der angegebenen Form zunächst nur ein lokaler Existenzsatz, 

da das Intervall I = [t0 − c,t0 + c] ggf. hinreichend klein ist. Von Bedeutung ist oft die 

Fortsetzbarkeit der Lösung auf größere Zeitintervalle. Im allgemeinen Fall ist die Lösung nicht 

auf die gesamte reelle Zeitachse R fortsetzbar, wie folgendes Beispiel zeigt. 

Beispiel 1.11. Das AWP 

x ′ = x 2 , x(0) = 1 

hat nach dem Satz von Picard-Lindelöf eine eindeutige Lösung. Sie hat für −∞ < t < 1 die 

Gestalt x(t) = 1 

1−t . Die Lösung ist jedoch nicht bis t+ = 1 und für t ≥ 1 fortsetzbar. 

Interessant ist, daß diese Tatsache sogar schon für überlineares Wachstum der rechten Seite 

bezüglich x, d.h. bei f(x) = |x| α mit α > 1 gilt. Das Beispiel zeigt, daß ein überlineares Wachstum 

der rechten Seiten eines AWP die Gefahr des ”blow up” in sich trägt. ✷ 

Einen globalen Existenzsatz (bzw. für die Fortsetzbarkeit der Lösung für alle Zeiten) erhält man 

mit einer scheinbar geringfügigen Modifikation des Beweises von Theorem 1.7. 

Satz 1.12. (Fortsetzbarkeit der Lösung) 

Die Voraussetzungen (i), (ii) von Theorem 1.7 seien für beliebiges R > 0 und eine von R 

unabhängige Lipschitz-Konstante L erfüllt. Ferner entfalle die Einschränkung (iii) an die Konstante 

c. Dann existiert eine und nur eine Lösung des AWP (1.15) in C 0 ([t0 − a,t0 + a]; R n ), 

d.h. die Lösung ist fortsetzbar auf das Intervall [t0 − a,t0 + a]. Der Fall a → ∞ ist zugelassen. 

Beweis: Wir setzen Ia := [t0 − a,t0 + a] und wählen den Raum M = X = C 0 (Ia; R n ) mit der 

modifizierten Norm 

|x| := max 

t∈Ia 

max 

i=1,...,n 

 

−L|t−t0| 

|xi(t)| e . (1.18) 

Sei o.B.d.A. t0 = 0. Die Norm | · | ist zur im Theorem 1.7 verwendeten Norm · ∞ äquivalent 

wegen 

e −La x∞ ≤ |x| ≤ x∞, 

d.h. (X, | · |) ist ebenfalls Banach–Raum.


Die Selbstabbildung T(X) = X ist trivial. Die Kontraktivität von T auf X ersieht man aus 

|T(x1) − T(x2)| = max 

t∈[−a,a] max 

⎛ 

≤ max 

t∈[−a,a] 

≤ max 

i=1,...,n 

⎜ 

⎝ 

t 

0 

t 

 

 

 

 

t 

0 

[fi(τ,x1(τ)) − fi(τ,x2(τ))] dτ e −L|t| 

 

 

 

 

⎞ 

L x1(τ) − x2(τ)∞ 

 

≤e L|τ| |x1−x2| 

t∈[−a,a] 

 

0 

 

≤ 1−e−La dτ e −L|t| ⎟ 

⎠ 

L e L(|τ|−|t|) 

dτ |x1 − x2|. 

Der Fixpunktsatz von Banach ergibt dann die Behauptung. ✷ 

Beispiel 1.13. (Fortsetzbarkeit der Lösung linearer AWP) 

Das lineare AWP 

x ′ = A(t)x + g(t), x(t0) = x 0 , t ∈ R (1.19) 

mit Funktionen g ∈ C(R; R n ) und A = (aij) n i,j=1 ∈ C(R; Rn×n ) besitzt bei beliebigen gegebenem 

Anfangswerten x(t0) = x 0 eine eindeutige Lösung, die sich bis t± = ±∞ fortsetzen läßt. Speziell 

folgt die Aussage der Lipschitz-Stetigkeit wegen f(t,x) −f(t, ˜x) = A(t)(x − ˜x), sofern A in einer 

Matrixnorm gleichmäßig beschränkt ist. ✷ 

Bemerkung 1.14. Die Aussage von Satz 1.12 gilt auch noch für (nichtlineare) Aufgaben 

x ′ = f(t;x), f(t;x)∞ ≤ α(t)x∞ + β(t), α(·),β(·) ∈ C(R + ), (1.20) 

d.h. bei maximal linearem Wachstum bezüglich der Lösung, vgl. [1], Satz 7.8. Beispiel 1.11 stellt 

klar, daß die Fortsetzbarkeit für alle Zeiten i.a. nicht für nichtlineare AWP mit überlinearem 

Wachstum von f bezüglich x gelten kann. 

Allgemeiner läßt sich die Lösung des AWP (1.15) bis zum Rand des Definitionsgebietes I × G 

der Daten im erweiterten Phasenraum R × R n fortsetzen. Man vgl. hierzu [1], Satz II. 7.6) ✷ 

Neben der stetigen Abhängigkeit der Lösung von den Daten interessiert oft die Regularität der 

Lösung des AWP (1.15), d.h. ob sie hinreichend oft differenzierbar bezüglich der unabhängigen 

Variablen t und eventuell bezüglich der Anfangswerte ist. Von der Regularität werden wir später 

bei der Analyse numerischer Lösungsverfahren ständig Gebrauch machen. Ohne Beweis (vgl. z.B. 

[2], Kap. 4.3) zitieren wir folgendes Resultat. 

Satz 1.15. Neben den Voraussetzungen des Satzes von Picard-Lindelöf sei f ∈ C r (I ×G; R n ) 

mit r ∈ N. Dann gehört die Lösung zur Klasse x(·) ∈ C r (Ic; R n ). Ferner ist sie r-fach stetig 

differenzierbar nach den Anfangswerten t0 und x 0 . 

Wir vermerken, daß die Regularität der Lösung auch bezüglich weiterer Parameter in der rechten 

Seite f = f(t,λ,x) gilt bei hinreichender Regularität von f bezüglich λ (vgl. [2], Kap. 4.3). 

Nachfolgend nehmen wir an, daß f : I × G → R n die Voraussetzungen des Satzes von Picard- 

Lindelöf erfüllt. Damit existiert für jedes (t0,x 0 ) ∈ I × G lokal, d.h. für hinreichend kleines 

|t − t0|, eine eindeutige Lösung x = x(t) des AWP (1.15). Dann wird durch 

Φ t,t0 x 0 := x(t)

1.4. STABILITÄT DER LÖSUNG VON AWP 17 

eine zweiparametrige Familie von Abbildungen von R n nach R n , die sogenannte Evolution der 

Differentialgleichung x ′ = f(t;x), wohldefiniert. Sie bildet den Wert einer beliebigen Lösungstrajektorie 

zur Zeit t = t0 auf den Wert der Trajektorie zur Zeit t ab. 

Lemma 1.16. Die Evolution Φ von x ′ = f(t;x) hat für alle (t,x) ∈ I × G und hinreichend 

kleine |t1 − t|, |t2 − t| die Eigenschaften 

Durch diese Bedingungen ist die Evolution eindeutig bestimmt. 

Φ t,t x = x (1.21) 

d 

dτ Φt+τ,t x|τ=0 = f(t;x) (1.22) 

Φ t2,t x = Φ t2,t1 Φ t1,t x. (1.23) 

Beweis: Die Eigenschaften (1.21), (1.22) folgen unmittelbar aus der Definition von Φ. Zum 

Nachweis von (1.23) betrachten wir das AWP 

y ′ (τ) = f(τ,y(τ)), y(t1) = Φ t1,t x 

mit der Lösung y(τ) = Φ τ,t x. Damit folgt Φ t2,t1 Φ t1,t x = y(t2) = Φ t2,t x. 

Zum Nachweis der Eindeutigkeit sei Ψ eine weitere Evolution, die (1.21)-(1.23) genügt. Wir 

setzen x(t) := Ψ t,t0 x 0 . Wegen (1.23) und (1.22) gilt dann 

x ′ (t) = d 

dτ Ψt+τ,t0 x 0 |τ=0 = d 

dτ Ψt+τ,t Ψ t,t0 x 0 |τ=0 = f(t;Ψ t,t0 x 0 ) = f(t;x(t)). 

Ferner impliziert (1.21) auch x(t0) = Φ t0,t0 x 0 = x 0 . damit ist Ψ = Φ. ✷ 

Für autonome Systeme hängt die Evolution Φ τ+t0,t0 nicht vom Anfangszeitpunkt t0 ab. Zur 

Vereinfachung setzen wir daher 

Φ τ x 0 := Φ τ,0 x 0 . (1.24) 

1.4 Stabilität der Lösung von AWP 

Die Lösung des AWP 

x ′ (t) = f(t;x(t)), x(t0) = x 0 

(1.25) 

hängt nach dem Satz von Picard-Lindelöf stetig vom Anfangswert ab. Oft möchte man diesen 

Zusammenhang quantifizieren. Beschränkt man sich o.B.d.A. auf Auswirkungen von Störungen 

der Anfangsbedingung auf die ”Zukunft”, d.h. für t ≥ t0, kann die Forderung der Lipschitz- 

Stetigkeit an f abgeschwächt werden. 

Definition 1.17. Seien 〈·, ·〉 ein Skalarprodukt auf R n und · die durch x 2 := 〈x,x〉 induzierte 

Norm. Ferner sei l : [t0, ∞] → R eine stückweise stetige Funktion. Dann genügt die Funktion f 

einer einseitigen Lipschitz-Bedingung, falls 

〈f(t;x) − f(t; ˜x),x − ˜x〉 ≤ l(t)x − ˜x 2 , ∀t ≥ t0, ∀x, ˜x ∈ R n . (1.26) 

l(·) heißt einseitige Lipschitz-Konstante von f. 

Bemerkung 1.18. Die einseitige Lipschitz-Stetigkeit schwächt die Lipschitz-Stetigkeit ab: 

〈f(t;x) − f(t; ˜x),x − ˜x〉 ≤ f(t;x) − f(t; ˜x) x − ˜x ≤ Lx − ˜x 2 .


Die Konstante l(·) kann negativ sein, wie das Beispiel f(t;x) = −x mit l(t) = −1 zeigt. ✷ 

Bemerkung 1.19. Der Begriff der einseitigen Lipschitz-Stetigkeit erlaubt sogar eine Verfeinerung 

des Satzes von Picard-Lindelöf. Nach [17], Satz 5.1.2 hat das autonome AWP x ′ = 

f(x), x(t0) = x 0 genau eine Lösung x(·) ∈ C 1 ([t0, ∞); R n ), falls f = f(x) einer einseitigen 

Lipschitz-Bedingung mit l(t) ≡ l0 ∈ R genügt. ✷ 

Es gilt folgende Abschätzung. 

Satz 1.20. Sei l(t) die einseitige Lipschitz-Konstante der Funktion f : [t0, ∞)×G → Rn . Dann 

gilt für die Evolution Φ von x ′ = f(t;x) mit der Norm · := 〈·, ·〉 1 

2 die Abschätzung 

Φ t,t0 

t 

0 t,t0 0 

x − Φ ˜x ≤ exp 

Beweis: Mit x(t) = Φ t,t0 x 0 und ˜x(t) = Φ t,t0 ˜x 0 ist die Funktion 

stetig differenzierbar mit 

t0 

 

l(s) ds x 0 − ˜x 0 , ∀x 0 , ˜x 0 ∈ G, t0 ≤ t. (1.27) 

φ(t) := x(t) − ˜x(t) 2 = 〈x(t) − ˜x(t),x(t) − ˜x(t)〉 

φ ′ (t) = 2〈x ′ (t) − ˜x ′ (t),x(t) − ˜x(t)〉 = 2〈f(t,x(t)) − f(t, ˜x(t)),x(t) − ˜x(t)〉. 

Die einseitige Lipschitz-Stetigkeit impliziert 

Mit η(t) := exp (−2 t 

l(s) ds) erhält man 

t0 

φ ′ (t) ≤ 2l(t)x(t) − ˜x(t) 2 = 2l(t)φ(t). 

(φη) ′ = φ ′ η + φη ′ = φ ′ η − 2l(t)φη = η φ ′ − 2l(t)φ ≤ 0, ∀t ≥ t0. 

Somit ist φη monoton fallend, d.h. φ(t)η(t) ≤ φ(t0)η(t0) für alle t ≥ t0. Wegen η > 0 folgt (1.27) 

wegen 

φ(t) ≤ φ(t0) η(t0) 

t 

= φ(t0)exp 2 l(s) ds . 

η(t) 

✷ 

Abschätzung (1.27) zeigt, daß die Lösungstrajektorien mit (beliebig dicht) benachbarten Anfangswerten 

im Fall l(t) > 0 eventuell exponentiell schnell auseinander driften. Eine derartiges 

Verhalten spiegelt sich bereits in der Normwahl im Beweis von Satz 1.12 wider. Insbesondere 

können dann Anfangsstörungen exponentiell anwachsen. 

Ein exponentielles Anwachsen von Störungen für t → ∞ ist jedoch nicht zwingend. Eine besondere 

Rolle spielen dissipative Systeme, die bei irreversiblen Prozessen in der Mathematischen 

Physik auftreten. 

Definition 1.21. Das System x ′ = f(t;x) mit einseitiger Lipschitz-Konstante l(t) ≤ 0 heißt 

dissipativ bezüglich der Norm · . 

Insbesondere gilt die Abschätzung 

t0 

Φ t,t0 x 0 − Φ t,t0 ˜x 0 ≤ x 0 − ˜x 0 , ∀x 0 , ˜x 0 ∈ G, t0 ≤ t. (1.28) 

Man sagt auch, die Lösungen verhalten sich nichtexpansiv.

1.4. STABILITÄT DER LÖSUNG VON AWP 19 

Definition 1.22. Das AWP (1.25) wird als steif auf dem Intervall [t0,T] bezeichnet, wenn gilt 

T 

t0 

l(s) ds ≪ 

T 

Beispiel 1.23. Betrachtet wird das autonome System 

t0 

x ′ (t) = Ax(t), x(t0) = x 0 , 

L(s) ds. (1.29) 

bei dem die konstante Matrix A ∈ C n×n diagonalisierbar ist. Es existiert also eine nichtsinguläre 

Matrix P mit 

P −1 AP = Λ := diag(λ1,... ,λn) 

und den Eigenwerten λ1,... ,λn der Matrix A. Durch die Transformation x = Py erhält man 

aus dem Ausgangssystem zunächst Py ′ = APy und damit das System 

y ′ = Λy, y(t0) = y 0 := P −1 x 0 . 

Da Λ = diag(λ1,...,λn) Diagonalgestalt hat, zerfällt das ursprünglich gekoppelte System in n 

skalare Differentialgleichungen mit der Lösung 

y(t) = e Λt y 0 := 

 

y 0 1 eλ1t ,...,y 0 n e λnt T 

. 

Die Lösung des AWP zum Ausgangssystem lautet damit 

x(t) = Pe Λt P −1 x 0 , e Λt := diag(e λ1t ,...,e λnt ). 

Komponenten der Lösung zu einem Eigenwert mit positiven Realteil, wachsen in der Tat exponentiell 

schnell für t > t0. Falls alle Eigenwerte negativen Realteil haben, so ist die Lösung für 

t > t0 dissipativ. (Übungsaufgabe) Wie wir in Kapitel 5 sehen werden, dient diese Situation als 

Testfall für die Stabilität von Diskretisierungsverfahren für AWP. 

Beispiel 1.24. Das Anfangs-Randwertproblem der Wärmeleitungsgleichung 

∂u 

∂t = ∂2u ∂x2, t ≥ 0, x ∈ (0,1); u(t,0) = u(t,1) = 0, t > 0, u(0,x) = u0(x) 

wird mittels Differenzen-Verfahren in den Punkten xi = ih, h = 1 

n+1 , i = 0,... ,n + 1 semidiskretisiert, 

d.h. man approximiert ui(t) ≈ u(t,xi), setzt u0(t) = un+1(t) = 0 und approximiert 

∂2u ∂x2(t,xi) ≈ 1 

h2(ui+1(t) − 2ui(t) + ui−1(t)), i = 1,... ,n. 

Man kann sich überlegen, dass das resultierende Differentialgleichungssystem stets einer einseitigen 

Lipschitz-Bedingung genügt, dissipativ und steif ist. (Übungsaufgabe)

20 KAPITEL 1. ANFANGSWERTAUFGABEN

Kapitel 2 

Einschritt-Verfahren 

Die Lösung von 

x ′ (t) = f(t;x(t)), x(t0) = x 0 , t ∈ [t0,T] (2.1) 

ist i.a. (selbst bei skalaren Aufgaben mit n = 1) nicht in geschlossener Form angebbar. Oft ist 

auch die Funktion f nur durch Meßwerte gegeben. Bei Anwendungen auf zeitabhängige partielle 

Differentialgleichungen ist die Dimension n des Lösungsvektors x(·) sehr groß. 

Bei der numerischen Behandlung von AWP ermittelt man die Lösung näherungsweise an diskreten 

Punkten. Ausgangspunkt ist die zum AWP äquivalente Fixpunktgleichung (1.16). Grundlage 

für die Konstruktion numerischer Verfahren ist die Anwendung geeigneter Integrationsformeln 

in dieser Fixpunktgleichung. Wir führen hier die Klasse der Einschritt-Verfahren (ESV) ein und 

behandeln die Grundaussagen der Konvergenztheorie. Für das AWP (2.1) seien die Voraussetzungen 

des Satzes von Picard-Lindelöf (vgl. Kap. 1) erfüllt. 

2.1 Definition und Beispiele 

Gesucht werden auf dem Intervall [t0,T] Näherungswerte an den gesuchten Lösungsvektor x(·) 

des AWP (2.1) auf dem (nicht notwendig äquidistanten) Gitter 

∆ := {t0,t1,... ,tN }, t0 < t1 < ...tN = T. 

Dabei heißen die Größen τj := tj+1 − tj Schrittweiten. Als Feinheit des Gitters bezeichnen wir 

Gesucht wird eine Gitterfunktion 

τ∆ := max 

j=0,...,N−1 τj. 

x∆ : ∆ → R n , 

die die Lösung x(·) von (2.1) auf dem Gitter möglichst gut approximiert. 

Bei Einschritt-Verfahren ermittelt man x∆ durch eine Zweiterm-Rekursion, d.h. bei der Berechnung 

von x∆(tj+1) benutzt man nur den (bereits bekannten) Wert x∆(tj). Bei Mehrschritt- 

Verfahren verwendet man allgemeiner eine Mehrterm-Rekursion, d.h. in die Berechnung von 

x∆(tj+1) gehen die Werte x∆(tj),... ,x∆(tj−m) mit m ∈ N0 ein. Wir beschränken uns jedoch im 

Rahmen dieser Vorlesung auf Einschritt-Verfahren, d.h. den Fall m = 0. 

Bei der Festlegung eines Einschritt-Verfahrens ersetzt man die Evolution Φ der Differentialgleichung 

durch eine diskrete Evolution Ψ, d.h. man approximiert 

x(tj+1) = Φ tj+1,tj x(tj), x(t0) = x 0 

21

22 KAPITEL 2. EINSCHRITT-VERFAHREN 

durch 

x∆(tj+1) := Ψ tj+1,tj x∆(tj), x∆(t0) := x 0 . (2.2) 

Ausgehend von 

t+τ 

x(t + τ) = x(t) + f(s;x(s)) ds (2.3) 

t 

verschafft man sich einfache Beispiele von ESV durch geeignete Integrationsformeln. 

Beispiel 2.1. Die Anwendung der linken Eckpunktregel t+τ 

t f(s;x(s)) ds ≈ τf(t;x(t)) führt 

auf das explizite Euler-Verfahren 

x∆(tj+1) = Ψ tj+1,tj 

EEV x∆(tj) := x∆(tj) + τjf(tj;x∆(tj)). (2.4) 

Vorteilhaft ist, daß x∆(tj+1) explizit bestimmt wird, d.h. ohne Lösung eines i.a. nichtlinearen 

Gleichungssystems. Das Verfahren benutzt in den Näherungspunkten (tj,x∆(tj)) den Anstieg des 

durch (2.1) definierten Richtungsfeldes zur Ermittlung des folgenden Näherungsvektors x∆(tj+1). 

Wegen der anschaulichen geometrischen Konstruktion heißt es im skalaren Fall n = 1 auch 

Polygonzug-Verfahren. 

Wir erwähnen an dieser Stelle bereits, daß bei Wahl der rechten Eckpunktregel 

t+τ 

das implizite Euler-Verfahren 

t 

f(s;x(s)) ds ≈ τf(t + τ;x(t + τ)) 

x∆(tj+1) = Ψ tj+1,tj 

IEV x∆(tj) := x∆(tj) + τjf(tj+1;x∆(tj+1)) (2.5) 

entsteht, bei dem in jedem Zeitschritt (!) ein (i.a. Fall) nichtlineares Gleichungssytem für den 

Vektor x∆(t j+1) zu lösen ist. Wir gehen auf implizite Verfahren dann in Kapitel 5 ein. ✷ 

Beispiel 2.2. Wählt man zur Integralauswertung in (2.3) die Trapezregel 

t+τ 

t 

f(s;x(s)) ds ≈ τ 

f(t;x) + f(t + τ;x(t + τ)) 

, 

2 

so erhält man das verbesserte Euler- bzw. Euler-Heun Verfahren 

x∆(tj+1) = Ψ tj+1,tj 

EHV x∆(tj) := x∆(tj) + τj 

2 [f(tj;x∆(tj) + f(tj+1;x∆(tj+1)] . (2.6) 

Dies ist ein implizites Verfahren, da in jedem Zeitschritt der Vektor x∆(tj+1) aus einem i.a. 

nichtlinearen System ermittelt werden muß. Ein einfaches Näherungsverfahren beschreibt 

Lemma 2.3. Die Funktion f(t, ·) in (2.1) sei Lipschitz-stetig bezüglich x mit Lipschitz-Konstante 

L. Dann läßt sich das Gleichungssystem (2.6) durch sukzessive Approximation 

 

, m ∈ N0 (2.7) 

x (m+1) 

∆ 

(tj+1) := x∆(tj) + τj 

2 

lösen, sofern Lτj/2 < 1. 

 

f(tj;x∆(tj)) + f(tj+1;x (m) 

∆ (tj+1)) 

Zum Nachweis untersucht man g(x) := x∆(tj)+ τj 

2 [f(tj;x∆(tj)) + f(tj+1;x)] auf Kontraktivität: 

g(x) − g(˜x) = τj 

2 f(tj+1;x) − f(tj+1; ˜x) ≤ τjL 

x − ˜x. 

2

2.2. KONSISTENZ VON EINSCHRITT-VERFAHREN 23 

Die Erfahrung und die mathematische Analyse zeigen, daß in vielen Fällen ein Iterationsschritt 

in (2.7) ausreichend ist. Man erhält dann mit dem Startwert (Prädiktor) 

˜x∆(tj+1) := x∆(tj) + τjf(tj;x∆(tj)) (2.8) 

aus dem expliziten Euler-Verfahren über den Korrektor-Schritt 

x∆(tj+1) = Ψ tj+1,tj 

PKV x∆(tj) := x∆(tj) + τj 

2 [f(tj;x∆(tj)) + f(tj+1; ˜x∆(tj+1))] (2.9) 

die Prädiktor-Korrektor Variante des Verfahrens von Euler-Heun. 

Beispiel 2.4. Wir vergleichen die Qualität der bisher eingeführten Verfahren anhand des skalaren 

AWP 

x ′ = f(t;x) := x − t 2 + 1, 0 ≤ t ≤ 2, x(0) = 0.5. 

Tabelle 2.1 zeigt für die (grobe) Schrittweite τ = 0.2 Ergebnisse und Fehler für das (explizite) 

Euler-Verfahren bzw. die Prädiktor-Korrektor Variante. Die Prädiktor-Korrektor Variante ist 

Tabelle 2.1: Vergleich von explizitem Euler- und Prädiktor-Korrektor-Verfahren in Beispiel 2.4 

ti x(ti) x EEV 

∆ (ti) |x EEV 

∆ (ti) − x(ti)| x PKV 

∆ (ti) |x PKV 

∆ (ti) − x(ti)| 

0.0 0.5000000 0.5000000 0.0000000 0.5000000 0.0000000 

0.2 0.8000000 0.8292986 0.0292986 0.8032986 0.0032986 

0.4 1.2140877 1.1520000 0.0620877 1.2069200 0.0071677 

0.6 1.6489406 1.5504000 0.0985406 1.6372424 0.0116982 

0.8 2.1272295 1.9884800 0.1387495 2.1102357 0.0169938 

1.0 2.6408591 2.4581760 0.1826831 2.6176876 0.0231715 

1.2 3.1799415 2.9498112 0.2301303 3.1495789 0.0303627 

1.4 3.7324000 3.4517734 0.2806266 3.6936862 0.0387138 

1.6 4.2834838 3.9501281 0.3333557 4.2350972 0.0483866 

1.8 4.8151763 4.4281538 0.3870225 4.7556185 0.0595577 

2.0 5.3054720 4.8657845 0.4396874 5.2330546 0.0724173 

dem expliziten Euler-Verfahren aus Genauigkeitsgründen überlegen. Die höhere Genauigkeit 

erfordert jedoch, daß sich pro Zeitschritt die Zahl von Funktionsauswertungen erhöht. ✷ 

In den Übungen werden Matlab-Funktionen für die hier angegebenen einfachen Verfahren 

benutzt. In den folgenden Abschnitten führen wir eine Konvergenzanalyse von ESV durch. In 

Kapitel 3 zeigen wir dann, wie man systematisch Verfahren höherer Genauigkeit konstruiert. 

2.2 Konsistenz von Einschritt-Verfahren 

Wir erinnern an die Bedingungen (1.21)-(1.23) an die Evolution Φ der Differentialgleichung 

x ′ = f(t;x). Möglichst viele dieser Bedingungen sollen an die diskrete Evolution Ψ ”vererbt” 

werden. Da man nicht auf Ψ = Φ hoffen kann, sollen mindestens die ersten beiden Eigenschaften, 

d.h. (1.21)-(1.22), erhalten bleiben. Nachfolgend betrachten wir das Gebiet D ⊂ R × R n . 

Definition 2.5. Eine diskrete Evolution Ψ heißt konsistent zur Gleichung x ′ = f(t;x), falls für


alle (t0,x 0 ) ∈ D gilt 

Ψ t0,t0 0 

x 

0 

= x (2.10) 

d 

dτ Ψt0+τ,t0 0 

x |τ=0 = f(t0;x 0 ). (2.11) 

Ein ESV heißt konsistent, falls es jeder hinreichend glatten Funktion f eine konsistente diskrete 

Evolution Ψ[f] zuordnet. 

Wir suchen äquivalente Konsistenzkriterien. Hierbei sei · eine beliebige Norm auf R n . 

Lemma 2.6. Die diskrete Evolution Ψ t0+τ,t0 x 0 sei für alle (t0,x 0 ) ∈ D und hinreichend kleines 

τ differenzierbar. Dann sind folgende Aussagen zur Konsistenz von Ψ äquivalent: 

(i) Es gibt eine bezüglich τ stetige Verfahrensfunktion φ = φ(t0,x0,τ) mit den Eigenschaften 

(ii) Es gilt 

Beweis: 

Ψ t0+τ,t0 x 0 = x 0 + τφ(t0,x 0 ,τ) (2.12) 

φ(t0,x 0 ,0) = f(t0;x 0 ). (2.13) 

1 

lim 

τ→0 τ Ψt0+τ,t0 0 t0+τ,t0 0 

x − Φ x = 0. (2.14) 

1. Sei Ψ konsistent. Wir setzen φ(t0,x 0 ,τ) := 1 

τ (Ψt0+τ,t0 x 0 − x 0 ), so daß (2.12) erfüllt ist. 

Wegen (2.11) ist dann aber auch (2.13) erfüllt, d.h. Aussage (i) ist gültig. 

2. Sei Eigenschaft (i) erfüllt, d.h. für eine Verfahrensfunktion φ gelten (2.12), (2.13). Wegen 

(1.22), der Stetigkeit von φ bezüglich τ und (2.13) haben wir 

1 

lim 

τ→0 τ Ψt0+τ,t0 

 

0 t0+τ,t0 0 

x − Φ x = lim 

Ψ 

τ→0 

t0+τ,t0x0 − x0 − 

τ 

Φt0+τ,t0 

x0 − x0 

τ 

d.h. Aussage (ii) ist gültig. 

= φ(t0,x 0 ,0) − f(t0,x 0 ) = 0, 

3. Sei nun (ii) erfüllt. Die Eigenschaften (1.21), (1.22) der exakten Evolution Φ ergeben 

Φ t0+τ,t0 x 0 = x 0 + τf(t0;x 0 ) + o(τ), τ → 0. 

Wegen der Differenzierbarkeit von Ψ nach τ gilt andererseits 

Ψ t0+τ,t0 x 0 = Ψ t0,t0 x 0 + τ d 

dτ Ψt0+τ,t0 x 0 |τ=0 + o(τ), τ → 0. 

Ein Koeffizientenvergleich liefert mit (2.14) gerade (2.10), (2.11), d.h. Ψ ist konsistent. ✷ 

Zur Untersuchung der Genauigkeit von ESV nutzen wir Begriffe, die die lokale Approximation 

der Differentialgleichung durch das ESV beschreiben. 

Definition 2.7. Eine diskrete Evolution Ψ für eine gegebene Differentialgleichung x ′ = f(t;x) 

mit f : D → R n hat die Konsistenzordnung p > 0, falls es für jedes kompakte Teilgebiet ˜ D ⊂ D 

eine Konstante C > 0 gibt, so daß für alle (t,x) ∈ ˜ D und alle hinreichend kleinen τ ≥ 0 gilt 

1 

τ Ψt+τ,t x − Φ t+τ,t x ≤ Cτ p . (2.15)

2.3. KONVERGENZ VON EINSCHRITT-VERFAHREN 25 

Ein ESV hat die Konsistenzordnung p > 0, falls für alle f ∈ C ∞ (D; R n ) die zugeordnete diskrete 

Evolution Ψ = Ψ[f] die Konsistenzordnung p hat. 

Wir werden im Kapitel 3 sehen, wie man die Konsistenzordnung bestimmter ESV in systematischer 

Weise ermittelt. Hier untersuchen wir exemplarisch das explizite Euler-Verfahren. 

Korollar 2.8. Das explizite Euler-Verfahren hat für f ∈ C 1 (D; R n ) die Konsistenzordnung 1. 

Beweis: Wegen der Kompaktheit von ˜ D ⊂ D ist dist( ˜ D,∂D) > 0. Somit gibt es ein weiteres 

kompaktes Teilgebiet ˆ D mit ˜ D ⊂ ˆ D ⊂ D und dist( ˜ D,∂ ˆ D) > 0 sowie dist( ˆ D,∂D) > 0. Ferner 

gibt es eine Zahl ˆτ > 0, so daß (t + τ,Φ t+τ,t x) ∈ ˆ D für alle (t,x) ∈ ˜ D und 0 ≤ τ ≤ ˆτ. 

Wir berechnen für (t,x) ∈ ˜ D die Taylor-Reihe von τ ↦→ Φ t+τ,t x bei τ = 0. Es gilt 

d 

dτ Φt+τ,t x = f(t + τ;Φ t+τ,t x), 

d 2 

dτ 2Φt+τ,t x = ft(t + τ;Φ t+τ,t x) + fx(t + τ;Φ t+τ,t x)f(t + τ;Φ t+τ,t x) 

mit ft := ∂f 

∂t und der Jacobi-Matrix fx ∈ R n×n von f bezüglich x = (x1,...,xn) T . Die Taylor- 

Entwicklung mit Restglied in Integraldarstellung lautet dann 

Somit finden wir 

Φ t+τ,t x = x + τf(t;x) + τ 2 

1 

Ψ t+τ,t 

EEV x − Φt+τ,t x ≤ τ 2 

0 

(1 − s)(ft + fxf)(t + s;Φ t+sτ,t x) ds. 

sup 

(s,z)∈ ˆ D 

ft(s;z) + fx(s;z)f(s;z). 

Wegen der Kompaktheit von ˆ D und der Stetigkeit des Normausdrucks in der letzten Zeile ist 

das dort zu bildende Supremum endlich. ✷ 

2.3 Konvergenz von Einschritt-Verfahren 

Wir haben bislang nur den lokalen Fehler eines ESV betrachtet, der in einem einzelnen Schritt 

des Verfahrens bei Berechnung von x∆ gemacht wird. Natürlich möchte man eine Abschätzung 

des globalen Fehlers x∆(t) − x(t) für beliebige Gitterpunkte t ∈ ∆ gewinnen. 

Definition 2.9. Ein Einschritt-Verfahren heißt auf dem Gitter ∆ konvergent, falls gilt 

lim 

τ→0 max 

t∈∆ x∆(t) − x(t) = 0. 

Für Konvergenzuntersuchungen benötigen wir neben einer (gleichmäßigen) Konsistenzbedingung 

noch eine Stabilitätsbedingung an die diskrete Evolution Ψ, die die Verstärkung von lokalen 

Fehlern im Verlauf der Rechnung kontrolliert. Der folgende Satz ist ein Beispiel für das in der 

Numerischen Mathematik oft zu findende Beweisschema 

Konsistenz + Stabilität =⇒ Konvergenz . 

Satz 2.10. Die diskrete Evolution Ψ sei in einer Umgebung U der Trajektorie {(t,x(t)) : t ∈ 

[t0,T]} definiert und erfülle die folgenden Bedingungen:


1. Stabilitätsbedingung: Es gibt Konstanten LΨ ≥ 0 und τ0 > 0, so daß 

Ψ t+τ,t x − Ψ t+τ,t ˜x ≤ e LΨτ x − ˜x, ∀(t,x,),(t, ˜x) ∈ U, ∀τ ∈ [0,τ0]. (2.16) 

2. Konsistenzbedingung: Für τ ∈ [0,τ0] gibt es eine Funktion err(τ) mit limτ→0 err(τ) = 0, 

so daß 

1 

τ Φt+τ,t x(t) − Ψ t+τ,t x ≤ err(τ), ∀t ∈ [t0,T]. (2.17) 

Dann gibt es eine Zahl τ1 > 0, so daß für jedes Gitter ∆ auf dem Intervall [t0,T] mit Feinheit 

τ∆ ≤ τ1 die Gitterfunktion x∆ nach (2.2) wohldefiniert ist. Für alle t ∈ ∆ gilt für den Fehler 

 

x∆(t) − x(t) ≤ r(τ∆) := 

err(τ∆) eLΨ (t−t0 ) −1, 

LΨ > 0, 

LΨ 

err(τ∆)(t − t0), LΨ = 0. 

(2.18) 

Beweis: Wir wählen τ1 so klein, daß für alle t ∈ [t0,T] und alle x 1 ∈ R n mit x 1 −x(t) ≤ r(τ1) 

gilt, daß (t,x 1 ) ∈ U. Wir zeigen durch Induktion nach j, daß die Abschätzung (2.18) für alle 

tj ∈ ∆ erfüllt ist. Speziell ist dann x∆(tj) für alle tj ∈ ∆ wohldefiniert. 

Aussage (2.18) ist für j = 0 wegen x∆(t0) = x 0 = x(t0) richtig. Sei dann (2.18) für t = tj mit 

j < N erfüllt. Für den Fall LΨ > 0 gilt zunächst 

x∆(tj+1) − x(tj+1) = Ψ tj+1,tj x∆(tj) − Φ tj+1,tj x(tj) 

≤ Ψ tj+1,tj x∆(tj) − Ψ tj+1,tj x(tj) + Ψ tj+1,tj x(tj) − Φ tj+1,tj x(tj) 

≤ e LΨ(tj+1−tj) x∆(tj) − x(tj) + err(τ∆)(tj+1 − tj) 

≤ err(τ∆) 

LΨ 

 

e LΨ(tj+1−tj) 

 

LΨ(tj−t0) 

(e − 1) + LΨ(tj+1 − tj) 

≤ err(τ∆) eLΨ(tj+1−t0) − 1 

. 

LΨ 

Hierbei wurde die Ungleichung ea ≥ 1 + a mit a := LΨ(tj+1 − tj) benutzt. Die Regel von 

l’Hospital ergibt die Aussage auch für LΨ → 0. ✷ 

Wir wollen jetzt die Konvergenzgeschwindigkeit von ESV genauer charakterisieren. 

Definition 2.11. Ein Einschritt-Verfahren hat die Konvergenzordnung p > 0, falls für jede 

Lösung x : [t0,T] → R n des AWP (2.1) mit rechter Seite f ∈ C ∞ (D; R n ) der globale Fehler der 

Näherungslösung x∆ auf einem Gitter ∆ mit hinreichend kleiner Feinheit τ∆ der Abschätzung 

max 

t∈∆ x∆(t) − x(t) ≤ CKτ p 

∆ 

mit vom Gitter unabhängiger Konstante CK genügt. 

(2.19) 

Satz 2.12. Ein Einschritt-Verfahren der Konsistenzordnung p, das die Stabilitätsbedingung 

(2.16) erfüllt, hat die Konvergenzordnung p. 

Beweis: Die Konsistenzbedingung (2.17) ist mit err(τ) = Cτ p erfüllt. Dann folgt die Behauptung 

aus (2.18) mit CK = C 

LΨ (eLΨ(T −t0) − 1) für LΨ > 0 und CK = C(T − t0) bei LΨ = 0. ✷ 

Beispiel 2.13. Das explizite Euler-Verfahren hat die Konsistenzordnung 1, vgl. Korollar 2.8. 

Ferner gilt für bezüglich x Lipschitz-stetige Funktionen f, daß 

Ψ t+τ,t 

EEV 

x − Ψt+τ,t 

EEV ˜x ≤ x − ˜x + τf(t;x) − f(t; ˜x) 

≤ (1 + τL)x − ˜x 

≤ e τL x − ˜x. 

Damit ist auch die Stabilitätsbedingung (2.16) erfüllt. Satz 2.12 ergibt die Behauptung. ✷

Kapitel 3 

Explizite Runge-Kutta Verfahren 

Im vorliegenden Kapitel wollen wir zur numerischen Lösung des AWP 

x ′ (t) = f(t;x(t)), x(t0) = x 0 

die expliziten Runge-Kutta-Verfahren als wichtigste Klasse von Einschritt-Verfahren (ESV) 

für nichtsteife AWP untersuchen. Nach Behandlung der Konstruktion und Grundaussagen zur 

Konvergenztheorie dieser Verfahren wollen wir dann in Kapitel 4 sehen, wie sich die Konvergenz 

dieser Verfahren steuern und beschleunigen läßt. Mehrschrittverfahren werden im Rahmen dieser 

Vorlesung nicht besprochen, da sie sich weniger gut für adaptive Verfahren eignen. 

3.1 Idee von Runge-Kutta-Verfahren 

Die Konstruktion von ESV höherer Ordnung erfordert nach dem Konvergenzsatz 2.12 die Bestimmung 

diskreter Evolutionen Ψ mit gewünschter Konsistenzordnung. Dazu ist eine Taylor- 

Entwicklung der exakten Evolution Φ erforderlich 

Φ t+τ,t x = x + τf(t;x) + 1 

2 τ2 (ft(t;x) + fx(t;x)f(t;x)) + 0(τ 3 ). 

Man erhält gerade das explizite Euler-Verfahren mit 

Ψ t+τ,t x = x + τf(t;x) 

bei Berücksichtigung der Entwicklung 1. Ordnung von Φ. Verwendet man die Entwicklung 2. 

Ordnung, so gelangt man zu einem ESV der Konsistenz- und Konvergenzordnung 2: 

Ψ t+τ,t x = x + τf(t;x) + 1 

2 τ2 (ft(t;x) + fx(t;x)f(t;x)). 

Die Verallgemeinerung dieser Methodik der Taylor-Verfahren für beliebig hohe Ordnung hat 

den wesentlichen Nachteil, daß in der Regel die vollständige Jacobi-Matrix fx ∈ R n×n auszuwerten 

ist. Nachfolgend wollen wir eine wesentlich effizientere und leichter zu implementierende 

Möglichkeit betrachten. 

Wir hatten in Kapitel 2 das explizite Euler-Verfahren durch die Auswertung der Integraldarstellung 

Ψ t+τ,t t+τ 

x = x + f(t + s;Φ 

t 

t+s,t x) ds 

27 

(3.1)

28 KAPITEL 3. EXPLIZITE RUNGE-KUTTA VERFAHREN 

durch die linke Eckpunkt-Regel 

t+τ 

motiviert. Die Mittelpunkt-Regel 

t+τ 

t 

t 

f(t + s;Φ t+s,t x) ds = τf(t;x) + 0(τ 2 ) 

f(t + s;Φ t+s,t x) ds = τf(t + τ 

2 ;Φt+τ/2,t x) + 0(τ 3 ) 

sollte ein Verfahren höherer Ordnung ergeben. Leider ist aber der Wert von Φ t+τ/2,t x nicht 

bekannt. Daher versucht man, diesen Ausdruck durch das explizite Euler-Verfahren 

Φ t+τ/2,t x = x + 1 

2 τf(t;x) + 0(τ2 ) 

auszuwerten. Dies führt auf das von Runge eingeführte Verfahren mit der diskreten Evolution 

Ψ t+τ,t 

x = x + τf t + τ τ 

;x + 

2 2 f(t;x) 

 

. 

Im Unterschied zum oben vorgestellten Taylor-Verfahren 2. Ordnung ist hier nur eine verschachtelte 

zweifache Auswertung von f erforderlich. Das sieht man noch deutlicher in der 

folgenden Darstellung des Runge-Verfahrens: 

k1 = f(t;x) 

 

k2 = f t + τ τ 

;x + 

2 2 k1 

 

Ψ t+τ,t x = x + τk2. 

Diese Idee geschachtelter Auswertungen von f wird bei den expliziten Runge-Kutta-Verfahren 

(RK-Verfahren) verallgemeinert durch folgende systematische Konstruktion: Mit reellen Zahlen 

cj,aij und bj ermittelt man die Näherungen 

Ψ t+τ,t x := x + τ 

s 

bjkj. (3.2) 

über die rekursiv durch Funktionsauswertung zu berechnenden Größen (Stufen) 

k1 = f(t;x) 

j=1 

k2 = f(t + c2τ;x + a21k1τ) 

k3 = f(t + c3τ;x + a31k1τ + a32k2τ) 

. . ⎛ 

s−1 

ks = f ⎝t + csτ;x + τ 

j=1 

asjkj 

In übersichtlicher Weise hat man das folgende Butcher-Koeffizientenschema: 

c2 a21 

c3 a31 a32 

· · · · 

cs as1 as2 · as,s−1 

b1 b2 · bs−1 bs 

bzw. 

⎞ 

⎠. 

c A 

b T

3.1. IDEE VON RUNGE-KUTTA-VERFAHREN 29 

mit 

⎛ 

0 

⎜ a21 

⎜ 

A = ⎜ a31 

⎜ 

⎝ . 

0 

a32 

. 

... 

0 

. .. . .. 

⎞ 

0 

⎟ 

. ⎟ , 

⎟ 

⎠ 

⎛ 

⎜ 

b = ⎝ . 

as1 as2 ... as,s−1 0 

b1 

bs 

⎞ 

⎛ 

⎟ ⎜ 

⎠, c = ⎝ 

Bei den expliziten Runge-Kutta-Verfahren gilt also aij = 0, j ≥ i. Die Stufenzahl s des 

Verfahrens beschreibt die Tiefe der Schachtelung und damit die erforderliche Anzahl von f- 

Auswertungen. In dieses Schema ordnen sich folgende Verfahren ein: 

1. Explizites Euler-Verfahren: 

0 0 

1 

2. Runge-Verfahren (Explizite Mittelpunkt-Regel): 

0 0 

1/2 1/2 0 

0 1 

3. ”Klassisches” Runge-Kutta-Verfahren der Ordnung 4: 

bzw. 

0 0 

1/2 1/2 0 

1/2 0 1/2 0 

1 0 0 1 0 

1/6 1/3 1/3 1/6 

k1 

k2 

= 

= 

f(t;x), 

f(t + τ τ 

;x + 

2 2 k1), 

k3 = f(t + τ τ 

;x + 

2 2 k2), 

k4 = f (t + τ;x + τk3) , 

Ψ t+τ,t x := x + τ 

6 (k1 + 2k2 + 2k3 + k4) 

Die expliziten RK-Verfahren sind mit gegebenen Daten (A,b,c) und für (t,x) ∈ D bei hinreichend 

kleiner Schrittweite τ wohldefiniert. Ferner hat man folgende Aussagen zur Konsistenz. 

Lemma 3.1. Das s−stufige explizite RK-Verfahren (3.2) mit (A,b,c) ist konsistent für alle 

Funktionen f ∈ C(D, R n ) genau dann, wenn 

c1 

. 

cs 

⎞ 

⎟ 

⎠ . 

s 

bj = 1. (3.3) 

j=1 

Das Verfahren hat für beliebige f ∈ C ∞ (D, R n ) höchstens die Konsistenzordnung p ≤ s.


Beweis: (i) Wir benutzen die zur Konsistenz äquivalenten Bedingungen aus Lemma 2.6 (i). Es 

gilt 

Ψ t+τ,t s 

x = x + τφ(t,x,τ), φ(t,x,τ) := bjkj(t,x,τ). 

Wegen kj(t,x,0) = f(t;x) ist dann φ(t,x,0) = f(t;x) genau dann, wenn (3.3) gilt. 

(ii) Für das spezielle AWP x ′ (t) = x(t), x(0) = 1 gilt offenbar Φ τ,0 1 = e τ , daher folgt 

Φ τ,0 1 = 

p 

j=0 

j=1 

1 

j! τj + 0(τ p+1 ), τ → 0. 

Per Induktion über j = 1,... ,s folgt unmittelbar, daß die Stufe kj(0,1, ·) ein Polynom von 

maximalen Grad j − 1 ist. Damit ist Ψ ·,0 1 ein Polynom vom maximalen Grad s. Folglich kann 

die Konsistenzaussage 

|Ψ τ,0 1 − Φ τ,0 1| = 0(τ p+1 ), τ → 0 

höchstens für p ≤ s gelten. ✷ 

3.2 Ordnungsbedingungen nach Butcher 

Die Daten (A,b,c) des expliziten RK-Verfahrens, d.h. Koeffizienten bj,aij und cj, sind so zu 

wählen, daß die gewünschte Konsistenzordnung erreicht wird. Wir wollen uns die Arbeit etwas 

erleichtern, indem wir die Äquivalenz des AWP (3.1) zu einem (erweiterten) autonomen AWP 

ausnutzen. Es gilt Φ t+τ,t x 

t + τ 

 

= ˆ Φ t+τ,t 

 

x 

t 

Diese Eigenschaft der Evolution ˆ Φ des autonomen Systems soll auf die diskrete Evolution ”ver- 

erbt” werden, d.h. Ψ t+τ,t x 

t + τ 

 

= ˆ Ψ t+τ,t 

 

x 

t 

Man bezeichnet Verfahren als invariant gegen Autonomisierung, falls das gleiche numerische Ergebnis 

bei Anwendung auf die gegebene Differentialgleichung bzw. auf das erweiterte autonome 

System entsteht. 

Lemma 3.2. Ein explizites RK-Verfahren ist invariant gegenüber Autonomisierung genau dann, 

wenn es konsistent ist und 

s−1 

ci = aij, i = 1,... ,s. 

j=1 

Beweis: Die Stufen von ˆ Ψ seien ˆ 

ˆki 

Ki = 

ˆli 

sowie 

 

. Dann gilt 

s−1 

ˆki = f(t + τ aij ˆ s−1 

lj;x + τ aij ˆ kj), ˆli = 1, i = 1,... ,s 

j=1 

ˆΨ t+τ,t 

 

x 

t 

j=1 

 

= 

 

. 

 

. 

x + τ s−1 

j=1 bj ˆ kj 

t + τ s−1 

j=1 bj

3.2. ORDNUNGSBEDINGUNGEN NACH BUTCHER 31 

Die erste Komponente stimmt genau dann mit Ψ t+τ,t x überein für alle f, wenn 

s−1 

ˆki = ki = f(t + ciτ;x + τ aijkj), i = 1,... ,s. 

j=1 

Dies ist genau für ci = s−1 j=1 aij erfüllt. Bezüglich der zweiten Komponente hat man Übereinstimmung 

mit t + τ genau für s−1 j=1 bj = 1. Das war nach Lemma 3.1 gerade die zur Konsistenz 

äquivalente Bedingung. ✷ 

Wir werden für gegen Autonomisierung invariante RK-Verfahren kurz die Notation (A,b) benutzen. 

Die weiteren Betrachtungen beziehen sich dann auf das autonome AWP 

x ′ = f(x), x(0) = x 0 

für f ∈ C(D0; R n ) mit offener Menge D0 ⊂ R n . Man schreibt verkürzt Ψ τ x := Ψ t+τ,t x. 

Wir leiten jetzt Bedingungen an die Koeffizienten (A,b) eines gegen Autonomisierung invarianten 

RK-Verfahrens ab, die die Konsistenzordnung p sichern, d.h. 

1 

τ Ψτ x − Φ τ x = 0(τ p ), τ → 0. 

Dazu führen wir Taylor-Entwicklungen von τ ↦→ Φ τ x und τ ↦→ Ψ τ x durch und gleichen dann 

die Koeffizienten bis zur gewünschten Ordnung ab. 

Sei f : D0 ⊂ R n → R n hinreichend glatt. Wir erinnern an die Richtungsableitung 

1 

(Dhf)(x) := lim (f(x + ǫh) − f(x)) = 

ǫ→0 ǫ 

n 

j=1 

hj 

∂f 

(x) 

∂xj 

sowie für die Richtungen h 1 ,... ,h p ∈ R n an die symmetrische, p-lineare Abbildung f (p) : R n × 

R np → R n mit 

f (p) [x](h 1 ,... ,h p ) := (Dh1Dh2 · · · Dhpf)(x) = 

Dann gilt die Taylor-Formel 

f(x + h) = 

p 

k=0 

n n 

· · · h 1 ∂f 

i1 · · · hp 

ip 

(p) 

(x). 

∂xi1 · · · ∂xip 

i1=1 

ip=1 

1 

k! f(k) [x](h,... ,h) + 0(h p+1 ), h → 0. 

Taylor-Entwicklung der exakten Evolution Φ τ : Es gilt 

Φ τ x = Φ 0 x + τ d 

dτ Φτ x|τ=0 + 0(τ 2 ) = x + τf(x) + 0(τ 2 ). 

Einsetzen in die Differentialgleichung (3.4) und Taylor-Entwicklung ergeben 

d 

dτ Φτ x = f(Φ τ x) = f(x + τf(x) + 0(τ 2 )) 

= f(x) + f ′ [x](τf(x) + 0(τ 2 )) + 0(τf(x) 2 ) 

= f(x) + τf ′ [x](f(x)) + 0(τ 2 ). 

(3.4)


Integration ergibt die Taylor-Entwicklung 3. Ordnung von Φ τ x mit 

Φ τ x = x + τf(x) + τ2 

2 f ′ [x](f(x)) + 0(τ 3 ). 

Erneutes Einsetzen in (3.4) und Taylor-Entwicklung führt (bei Weglassung der Argumente (x), 

[x]) auf 

d 

dτ Φτ x = f(Φ τ x) 

= f(x + τf + τ2 

2 f ′ (f) + 0(τ 3 )) 

= f + f ′ (τf + τ2 

2 f ′ (f)) + 1 

2 f ′′ (τf,τf) + 0(τ 3 ) 

= f + τf ′ (f) + τ 2 

 

1 

2 f ′ (f ′ (f)) + 1 

2 f ′′ 

(f,f) + 0(τ 3 ). 

Erneute Integration ergibt die Taylor-Entwicklung 4. Ordnung 

Φ τ x = x + τf + τ2 

2 f ′ (f) + τ 3 

 

1 

6 f ′ (f ′ (f)) + 1 

6 f ′′ 

(f,f) + 0(τ 4 ). (3.5) 

Taylor-Entwicklung der diskreten Evolution Ψ τ : Die Stufen der diskreten Evolution Ψ τ x 

sind erklärt durch 

⎛ 

s−1 

ki = f ⎝x + τ 

j=1 

aijkj 

⎞ 

⎠, i = 1,... ,s. (3.6) 

Wegen der Stetigkeit von f ist ki = 0(1), τ → 0. Einsetzen in (3.6) und Taylor-Entwicklung 

ergibt 

ki = f(x + 0(τ)) = f + 0(τ). 

Erneutes Einsetzen in (3.6) liefert 

⎛ 

s−1 

ki = f ⎝x + τ 

j=1 

aijf + 0(τ 2 ) 

Wiederholung der letzeren Prozedur führt auf 

⎛ 

ki = f ⎝x + τcif + τ 2 

s−1 

j=1 

 

= f + τcif ′ (f) + τ 2 

s−1 

j=1 

Nach Einsetzen in die diskrete Evolution folgt 

Ψ τ x = x + τ 

s 

i=1 

biki 

⎞ 

s−1 

⎠ = f + τ 

j=1 

aijcjf ′ (f) + 0(τ 3 ) 

 

=ci 

aij f ′ (f) + 0(τ 2 ). 

⎞ 

⎠ 

aijcjf ′ (f ′ (f)) + 1 

2 τ2 c 2 i f ′′ (f,f) + 0(τ 3 ).

3.2. ORDNUNGSBEDINGUNGEN NACH BUTCHER 33 

 

s 

 

= x + τ bif + τ 2 

 

s 

bicif ′ 

(f) 

+τ 3 

⎛ 

⎝ 1 

2 

i=1 

i=1 

s 

bic 2 if ′′ (f,f) + 

i=1 

i,j 

biaijcjf ′ (f ′ (f)) 

⎞ 

⎠ + 0(τ 4 ). 

Koeffizientenvergleich: Wir vergleichen nun in den Taylor-Entwicklungen (3.6) und (3.7) 

die Koeffzienten und erhalten die sogenannten Ordnungsbedingungen an ein RK-Verfahren bis 

zur Ordnung 3. Die Prozedur kann sinngemäß für Entwicklungen höherer Ordnung ausgeführt 

werden. (Natürlich kann man die Rechnung einem Computeralgebra-System überlassen, vgl. 

Übungsaufgabe !). 

Der folgende Satz faßt die Ordnungsbedingungen für die Ordnungen p = 1,2,3,4 zusammen. 

Satz 3.3. Ein gegenüber Autonomisierung invariantes Runge-Kutta Verfahren (A, b) hat für 

jede Differentialgleichung x ′ = f(x) mit f ∈ C p (D) die Konsistenzordnung 

(3.7) 

• p = 1, falls 

bi = 1, (3.8) 

• p = 2, falls zusätzlich 



 

i,j 

 

i,j 

 

i,j,k 

 

i,j 

i 

 

i 

 

i 

bici = 1 

, (3.9) 

2 

bic 2 i = 1 

, (3.10) 

3 

biaijcj = 1 

, (3.11) 

6 

 

i 

bic 3 i = 1 

, (3.12) 

4 

biciaijcj = 1 

, (3.13) 

8 

biaijc 2 j 

1 

= , (3.14) 

12 

biaijajkck = 1 

. (3.15) 

24 

Bemerkung 3.4. Interessant ist der Zusammenhang zur numerischen Integration aus dem 

Kurs ”Numerische Mathematik I”, denn die Integralberechnung ist ein Spezialfall der Lösung 

von AWP. Das AWP x ′ (t) = f(t), x(0) = 0 mit f ∈ C([0,1]; R) hat die Lösung x(t) = t 

0 f(s) ds. 

Ein RK-Verfahren (A, b, c) führt auf die Quadraturformel 

1 

0 

f(s) ds = x(1) ≈ 

s 

bjkj = 

j=1 

s 

bjf(cj). 

j=1


Die Ordnungsbedingungen (3.8), (3.9), (3.10) und (3.12) aus dem Satz 3.3 entstehen alternativ 

durch die Forderung, daß diese Formel mit Gewichten bj und Stützstellen cj exakt für die Monome 

t i , i = 0,... ,3 ist. ✷ 

Die Ordnungsbedingungen aus Satz 3.3 entsprechen überbestimmten nichtlinearen Gleichungssystemen 

für die Daten (A, b, c) des RK-Verfahrens. Wir diskutieren einige Spezialfälle. 

s=1: Der einzige Freiheitsgrad ist aus (3.8) festgelegt auf b1 = 1. Dies entspricht dem expliziten 

Euler-Verfahren, das somit das einzige einstufige, explizite und gegen Autonomisierung 

invariante RK-Verfahren 1. Ordnung. 

s=2: Für die Freiheitsgrade b1,b2 und a21 = c2 hat man nur die Gleichungen (3.8), (3.9). Eine 

Lösung hat man mit der expliziten Mittelpunkt-Regel, jedoch auch die explizite Trapez- 

Regel ist möglich: 

0 0 

1 1 0 

s=4: Für die 10 Unbekannten b1,... ,b4,a21,a31,a32,a41,a42,a43 hat man 8 Gleichungen. Nach 

Bemerkung 3.4 sind (3.8), (3.9), (3.10) und (3.12) genau dann erfüllt, wenn Polynome 

aus Π3 exakt integriert werden. Wir betrachten exemplarisch die Simpson-Regel. Da vier 

Stützstellen erforderlich sind, wählen wir (aus Symmetriegründen) die mittlere Stützstelle 

doppelt und erhalten 

c T = (0, 1 1 

, 

2 

1 

2 

1 

2 

2 ,1), bT = ( 1 

6 

. 

1 1 1 

, , , 

3 3 6 ). 

Man rechnet aus den verbleibenden Bedingungen aus Satz 3.3 für p = 4 leicht nach, daß 

durch a21 = a32 = 1 

2 ,a31 = a41 = a42 = 0,a43 = 1 eine Lösung gegeben ist. Dies entspricht 

gerade dem ”klassischen” RK-Verfahren 4. Ordnung. 

Bei steigender Ordnung p steigt die Zahl der Ordnungsbedingungen rasant und erschwert daher 

deren Lösung. So hat man für p = 10 bereits 1205 und für p = 20 sogar 20.247.374 Bedingungen. 

3.3 Konvergenz expliziter Runge-Kutta-Verfahren 

Wir haben gerade gesehen, wie man systematisch explizite RK-Verfahren der Konsistenzordnung 

p konstruieren kann. Für den Konvergenzsatz 2.10 ist noch die Stabilitätsbedingung offen. 

Satz 3.5. Für die Funktion f ∈ C(D0, R n ) der autonomen Gleichung (3.4) gelte die globale 

Lipschitz-Bedingung 

f(x) − f(˜x) ≤ Lx − ˜x, ∀x, ˜x ∈ D0. (3.16) 

Dann genügt die diskrete Evolution eines gegen Autonomisierung invarianten RK-Verfahrens 

der Stabilitätsbedingung (2.16) aus Satz 2.10 mit LΨ = γL. Dabei ist γ = γ(A, b) ≥ 0. 

Im Spezialfall p = s ≤ 4 mit bi, aij ≥ 0 für alle Indizes i,j gilt γ = 1. 

Korollar 3.6. Unter der Voraussetzung (3.16) hat ein gegen Autonomisierung invariantes RK- 

Verfahren der Konsistenzordnung p auch die Konvergenzordnung p.

3.3. KONVERGENZ EXPLIZITER RUNGE-KUTTA-VERFAHREN 35 

Beweis von Satz 3.5. Für i = 1,... ,s gilt zunächst unter Beachtung von (3.16) 

ki(x,τ) − ki(˜x,τ) = f(x + τ 

aijkj(x,τ)) − f(˜x + τ 

aijkj(˜x,τ)) 

j 

⎛ 

≤ L⎝x 

− ˜x + τ 

⎞ 

|aij| kj(x,τ) − kj(˜x,τ) ⎠ . 

Wiederholtes Einsetzen dieser Ungleichung in die rechte Seite ergibt 

⎛ 

ki(x,τ) − ki(˜x,τ) = L⎝1 

+ τL 

⎞ 

 

|aij| ⎠ 2 

x − ˜x + (τL) |aij||ajl|kl(x,τ) − kl(˜x,τ) 

⎛ 

≤ L⎝1 

+ τL 

|aij| + (τL) 

≤ ... 

Zur Abkürzung verwenden wir 

 

3 

+(τL) 

j,l,m 

j 

j 

j 

2 

j,l 

j,l 

⎞ 

|aij||ajl| ⎠ x − ˜x 

|aij||ajl||alm| km(x,τ) − km(˜x,τ) 

(b+)i := |bi|, (A+)ij := |aij|, e T = (1,... ,1). 

Im Schritt q hat man somit 

ki(x,τ) − ki(˜x,τ) ≤ L 1 + τL(A+e)i + ... + (τL) q (A q 

+ e)i 

 

x − ˜x 

 

q+1 

+(τL) (A q+1 

+ )ijkj(x,τ) − kj(˜x,τ). 

Wegen aij = 0 für j ≥ i ist offenbar A s + = 0, damit 

sowie 

mit 

ki(x,τ) − ki(˜x,τ) ≤ Lx − ˜x 1 + τL(A+e)i + ... + (τL) s−1 (A s−1 

+ e)i 

 

. 

Ψ τ x − Ψ τ ˆx ≤ x − ˜x + τ 

|bi| ki(x,τ) − ki(˜x,τ) 

≤ 

≤ 

⎛ 

⎝1 + 

j 

i 

s 

(τL) j b T +(A j−1 

+ e) 

⎞ 

⎠ x − ˜x 

j=1 

∞ (γτL) j 

x − ˜x = e 

j! 

γτL x − ˜x 

j=0 

 

γ := max j! b 

j=1,...,s 

T +(A j−1 

+ e) 

1 

j 

. 

Im Spezialfall p = s ≤ 4 mit bi,aij ≥ 0 hat man b+ = b und A+ = A. Aus den Ordnungsbedingungen 

(3.8), (3.9), (3.11) und (3.15) findet man j! b T (A j−1 e) = 1 für j = 1,... ,s und damit 

γ = 1. ✷ 

j


x 2 (t) 

3 

2 

1 

0 

−1 

−2 

Tabelle 3.1: Vergleich verschiedener Runge-Kutta-Verfahren in Beispiel 3.7 

PKV (ti) 

ti x(ti) x 

∆ 

|x PK 

∆ (ti) − x(ti)| x RK4 

∆ (ti) |x RK4 

∆ (ti) − x(ti)| 

0.0 0.5000000 0.5000000 0.0000000 0.5000000 0.0000000 

0.2 0.8000000 0.8032986 0.0032986 0.8292933 0.0000053 

0.4 1.2140877 1.2069200 0.0071677 1.2140762 0.0000114 

0.6 1.6489406 1.6372424 0.0116982 1.6489220 0.0000186 

0.8 2.1272295 2.1102357 0.0169938 2.1272027 0.0000269 

1.0 2.6408591 2.6176876 0.0231715 2.6408227 0.0000364 

1.2 3.1799415 3.1495789 0.0303627 3.1798942 0.0000474 

1.4 3.7324000 3.6936862 0.0387138 3.7323401 0.0000599 

1.6 4.2834838 4.2350972 0.0483866 4.2834095 0.0000743 

1.8 4.8151763 4.7556185 0.0595577 4.8150857 0.0000906 

2.0 5.3054720 5.2330546 0.0724173 5.3053630 0.0001089 

explizites Euler−Verfahren 

−3 

−5 −4 −3 −2 −1 0 

x (t) 

1 

1 2 3 4 5 

x 2 (t) 

3 

2 

1 

0 

−1 

−2 

Praediktor−Korrektor−Verfahren 

−3 

−5 −4 −3 −2 −1 0 

x (t) 

1 

1 2 3 4 5 

Abbildung 3.1: Lösung des Pendelmodells für verschiedene Runge-Kutta-Verfahren 

Beispiel 3.7. Wir vergleichen die Ergebnisse des Prädiktor-Korrektor Verfahrens mit denen 

des klassischen RK-Verfahren 4. Ordnung anhand der Aufgabe aus Beispiel 2.4. Die Ergebnisse 

in Tabelle 3.1 bestätigen die theoretisch ermittelte Konvergenzordnung. ✷ 

Beispiel 3.8. Wir betrachten noch die numerische Lösung des mathematischen Pendelmodells 

mit verschiedenen Runge-Kutta-Verfahren. Das Modell wird beschrieben durch die Gleichung 

x ′ 1 (t) = x2(t), x ′ 2 (t) = − sinx1(t). 

Bei der Anfangsbedingung x1(0) = 1,x2(0) = −1 stellt sich eine periodische Lösung ein. Abbildung 

3.1 zeigt die Lösungen mit (i) dem expliziten Euler-Verfahren, (ii) dem Prädiktor- 

Korrektor Verfahren (zu Euler-Heun) bei Berechnung auf dem recht großen Zeitintervall 

[0,200] mit der Schrittweite τ = 0.2. Das Problem hat die Lipschitz-Konstante L = 1. Wegen 

des großen Zeitintervalls ist jedoch bereits LT = 200 ≫ 1. Offenbar driftet die Lösungstrajektorie 

des expliziten Euler-Verfahrens wegen zu großer Fehler schnell von der periodischen 

Lösung ab. Das Prädiktor-Korrektor Verfahren hat die gleiche Tendenz, dies erfolgt wegen der 

deutlichen besseren Genauigkeit jedoch wesentlich langsamer. ✷

Kapitel 4 

Adaptive Gittersteuerung 

Der Aufwand eines expliziten Runge-Kutta-Verfahrens zur Lösung des AWP 

x ′ (t) = f(t;x(t)), t ∈ [t0,T]; x(t0) = x 0 

hängt wesentlich von der Zahl erforderlicher Funktionsauswertungen ab. Die Effizienz des Verfahrens 

wird ferner signifikant durch Steuerung der Schrittweite τ im Lösungsprozeß beeinflußt. 

In Intervallen mit starker Lösungsänderung muß man zur Erzielung eines kleinen lokalen Diskretisierungsfehlers 

kleine Werte τ wählen, in Intervallen mit geringer Änderung der Lösung kann 

man zur Reduktion der Rechenzeit zu größeren Werten τ übergehen. 

Ziel ist eine automatische Schrittweitensteuerung für (nichtsteife) AWP. Eine solche Steuerung 

basiert auf einer Schätzung des lokalen Diskretisierungsfehlers. Man hofft, daß dabei auch der 

globale Diskretisierungsfehler nicht zu stark wächst. 

4.1 Adaptiver Basisalgorithmus 

Die Lösung x∆ zu einem AWP sei bis zum Zeitpunkt t = tj ermittelt. Nun soll der nächste 

Gitterpunkt tj+1 geeignet bestimmt werden. Der globale Diskretisierungsfehler 

wird durch 

e∆(tj+1) := x∆(tj+1) − x(tj+1) 

e∆(tj+1) = Ψ tj+1,tj x∆(tj) − Φ tj+1,tj x∆(tj) 

 

=:ǫj+1 

+ Φ tj+1,tj x∆(tj) − Φ tj+1,tj x(tj) 

 

=:pj+1 

zerlegt in den lokalen Diskretisierungsfehler (Konsistenzfehler) ǫj+1 und den Propagationsfehler 

(Fortpflanzungsfehler) pj+1. 

Wir hatten zwar in der Konvergenztheorie für Einschritt-Verfahren gesehen, daß der globale 

Diskretisierungsfehler durch den lokalen beschränkt ist. Man kennt jedoch in der Regel nicht 

die Abschätzungskonstanten. So kann man pj+1 nur durch Neustart der Rechnung beeinflussen. 

Theoretisch kann man den lokalen Anteil bei vorgegebener Toleranz TOL beschränken durch 

die Forderung 

ǫj+1 ≤ TOL. (4.3) 

Aber leider kann man auch für ǫj+1 nur auf einen lokalen Fehlerschätzer [ǫj+1] ≈ ǫj+1 hoffen, 

d.h. wir ersetzen (4.3) durch 

[ǫj+1] ≤ TOL. (4.4) 

37 

(4.1) 

(4.2)

38 KAPITEL 4. ADAPTIVE GITTERSTEUERUNG 

Ist (4.4) nicht erfüllt, bestimmt man eine neue Schrittweite τ ∗ j , mit der der Schritt wiederholt 

wird. Diese wird so gewählt, daß 

[ǫj+1] ≈ TOL, (4.5) 

d.h. die vorgegebene Toleranz soll weder deutlich unterschritten bzw. überschritten werden. Man 

spricht auch von Effizienz bzw. Verläßlichkeit des Fehlerschätzers. Ist die Forderung (4.4) erfüllt, 

wird die Berechnung akzeptiert und im nächsten Schritt die Schrittweite τ ∗ j verwendet. 

Für die Berechnung einer ”optimierten” Schrittweite τ ∗ j 

eine asymptotische Darstellung der Form 

[ǫj+1] ≈ d(tj)τ p+1 

j 

mit einer in der Regel nicht bekannten Konstanten d(tj) besitzt. 

nimmt man an, daß der lokale Schätzer 

+ 0(τp+2 

j ) ≈ d(tj)τ p+1 

j , τ → 0 (4.6) 

Bemerkung 4.1. Bei hinreichend glatter Funktion f und diskreter Evolution Ψ kann man 

tatsächlich eine asymptotische Entwicklung des Konsistenzfehlers ǫj+1 angeben und von dieser 

auf eine analoge Entwicklung für den Diskretisierungsfehler schließen, siehe [8]. ✷ 

Sinngemäß gilt 

TOL ≈ [ǫ ∗ j+1] ≈ d(tj) (τ ∗ j ) p+1 . 

Nach Division durch (4.6) kürzt sich der (unbekannte) Faktor d(tj) heraus, man erhält 

Auflösung nach τ ∗ j 

TOL 

[ǫj+1] ≈ 

 

τ ∗p+1 j 

. 

τj 

ergibt unter Einführung eines Sicherheitsfaktors ρ < 1 auf 

τ ∗ 1 

TOL p+1 

j = ρ 

τj. (4.7) 

[ǫj+1] 

Da [ǫj+1] klein werden kann, führt man Beschränkungen τ ∗ j ≤ qτj mit vorgegebenem Faktor 

q > 1 und/oder τ ∗ j ≤ τmax mit vorgegebener maximaler Schrittweite τmax ein. Ferner soll sicher 

im (j + 1)-ten Schritt noch tj+1 + τ ∗ j+1 ≤ T gelten. 

Adaptiver Basisalgorithmus für AWP (4.1) 

Initialisierung: Diskrete Evolution Ψ der Ordnung p, lokaler Fehlerschätzer, 

Toleranz TOL, Startschrittweite τ0 ∈ (0,T − t0], 

Hochschaltfaktor q > 1, Sicherheitsfaktor ρ ∈ (0,1), maximale Schrittweite τmax 

j := 0 

∆ := {t0}; 

x∆(t0) := x 0 ; 

while (tj < T) do 

t := tj + τj; 

x := Ψ t,tj x∆(tj); 

Berechne Fehlerschätzer [ǫ]; 

 

τ := min 

TOL 

qτj,τmax,ρτj [ǫj+1] 

1 

p+1 

 

;

4.2. LOKALE FEHLERSCHÄTZUNG 39 

end 

if ([ǫj+1] > TOL) // Schritt wird nicht akzeptiert 

τj := min(τ,T − tj); 

else // Schritt wird akzeptiert 

end 

tj+1 := t; 

∆ := ∆ ∪ {tj+1}; 

x∆(tj+1) := x; 

τj+1 := min(τ,T − tj1 ); 

j := j + 1; 

4.2 Lokale Fehlerschätzung 

Zur Schätzung des lokalen Diskretisierungsfehlers rechnet man oft mit zwei verschiedenen Diskretisierungen, 

d.h. mit zwei diskreten Evolutionen Ψ und ˆ Ψ. Für die lokalen Diskretisierungsfehler 

gilt dann 

ǫ = Ψ t+τ,t x − Φ t+τ,t x, ˆǫ = ˆ Ψ t+τ,t x − Φ t+τ,t x. 

O.B.d.A. sei ˆ Ψ die genauere Evaluation mit 

Als Schätzung für ǫ wählen wir 

Wegen [ǫ] = ǫ − ˆǫ ist 

Nach Dreiecksungleichung folgt 

und daraus 

θ := ˆǫ 

< 1. (4.8) 

ǫ 

[ǫ] := Ψ t+τ,t x − ˆ Ψ t+τ,t x. 

[ǫ] − ǫ = ˆǫ = θǫ. 

[ǫ] − ǫ ≤ θǫ, −[ǫ] + ǫ ≤ θǫ 

(1 − θ)ǫ ≤ [ǫ] ≤ (1 + θ)ǫ. 

Daher wird der Fehler im Fall von (4.8) weder stark über- noch unterschätzt. Ist die Diskretisierung 

mit ˆ Ψ von höherer Ordnung als Ψ, gilt sogar limτ→0 θ = 0. Dann ist der Fehlerschätzer 

asymptotisch exakt, d.h. 

lim [ǫ] = ǫ. 

τ→0 

Rechnet man nun mit der genaueren Approximation ˆ Ψt+τ,tx an Ψt+τ,tx weiter, wird die Toleranzbedingung 

bei θ ≤ 1 

2 sogar übererfüllt, denn 

ˆǫ = θǫ ≤ θ 

[ǫ] ≤ [ǫ] ≈ TOL. 

1 − θ 

Bei dieser in der Praxis oft genutzten Vorgehensweise gibt man damit eigentlich das Konzept der 

Fehlerschätzung auf, denn man optimiert das Gitter für das ungenauere Verfahren Ψ. Man hofft, 

daß es dann auch in der Regel ein gutes Gitter für das genauere Verfahren ˆ Ψ ist. Im folgenden 

Abschnitt besprechen wir diese Idee genauer für eingebettete Runge-Kutta-Verfahren.


4.3 Eingebettete Runge-Kutta-Verfahren. Fehlberg-Trick 

Wir bezeichnen mit RKp(q) ein adaptives RK-Verfahren, bei dem mit einer Evolution der Ordnung 

p weitergerechnet und eine Evolution der Ordnung q zur Fehlerschätzung bzw. Gittersteuerung 

genutzt wird. Zur Reduktion der Funktionsauswertungen von f betrachtet man Paare 

diskreter Evolutionen ˆ Ψ,Ψ, die zu RK-Verfahren (A, ˆ b) bzw. (A, b) mit der gleichen Matrix 

A gehören. Man spricht auch von eingebetteten RK-Verfahren und kennzeichnet sie durch das 

erweiterte Butcher-Schema 

c A 

ˆ b T 

Beispiel 4.2. Wir suchen exemplarisch ein eingebettetes RK-Verfahren RK4(3), bei dem die 

genauere Evolution ˆ Ψ durch das ”klassische” RK-Verfahren 4. Ordnung gegeben ist, d.h. 

A = 

⎛ 

⎜ 

⎝ 

0 0 0 0 

1 

2 0 0 0 

0 1 

2 0 0 

0 0 1 0 

b T 

⎞ 

⎟ 

⎠ , 

Satz 3.3 liefert im Fall s = 3 die folgenden Ordnungsbedingungen für den Vektor b = (b1,b2,b3,b4) T : 

Als eindeutige Lösung erhält man b = ( 1 

6 

ˆ b = 

b1 + b2 + b3 + b4 = 1 

1 

2 b2 + 1 

2 b3 + b4 = 1 

2 

1 

4 b2 + 1 

4 b3 + b4 = 1 

3 

1 

4 b3 + 1 

2 b4 = 1 

6 . 

, 1 

3 

, 1 

3 

⎛ 

⎜ 

⎝ 

1 

6 

1 

3 

1 

3 

1 

6 

⎞ 

⎟ 

⎠ . 

, 1 

6 )T , also b = ˆ b und damit Ψ = ˆ Ψ. Man findet 

also auf diesem Weg kein passendes eingebettetes RK-Verfahren. Ein von ˆ Ψ abweichendes RK- 

Verfahren Ψ der Ordnung 3 mit den Stufen ki,i = 1,2,3,4 von ˆ Ψ erfordert somit paradoxerweise 

weitere Stufen von Ψ. 

Einen Kompromiss bietet die Idee von Fehlberg, als zusätzliche Stufe die ohnehin zu berech- 

nende erste Stufe des folgenden Zeitschritts zu wählen. Allgemein lauten bei einem s-stufigen 

RK-Verfahren (A, ˆb) die Stufe ks und die Stufe k∗ 1 des nächsten Schrittes 

Aus der Forderung ks = k ∗ 1 

s−1 

ks = f(t + csτ;x + τ asjkj), 

k ∗ 1 = f(t + τ;x + τ 

j=1 

s 

ˆbjkj). j=1 

findet man die Bedingungen 

cs = 1, ˆ bs = 0; asj = ˆ bj, j = 1,... ,s − 1. (4.9)

4.3. EINGEBETTETE RUNGE-KUTTA-VERFAHREN. FEHLBERG-TRICK 41 

Im Fall p = 4,q = 3 führt der Fehlberg-Trick wegen (4.9) also auf den fünf-stufigen Ansatz 

0 1 

2 

1 

2 

1 

2 

0 1 

2 

1 0 0 1 

1 1 1 1 

6 

1 

3 

1 

3 

1 

1 

6 

1 

6 

b1 

3 

b2 

3 

b3 

6 

b4 b5 

Satz 3.3 ergibt im Fall s = 3 die Ordnungsbedingungen 

b1 + b2 + b3 + b4 + b5 = 1 

1 

2 b2 + 1 

2 b3 + b4 + b5 = 1 

2 

1 

4 b2 + 1 

4 b3 + b4 + b5 = 1 

3 

1 

4 b3 + 1 

2 b4 + 1 

2 b5 = 1 

6 . 

Man kann offenbar in diesem System die Rolle von b4 und b5 vertauschen. Daher ist mit ˆb T = 

( 1 1 1 1 

6 , 3 , 3 , 6 ,0) auch bT = ( 1 1 1 1 

6 , 3 , 3 ,0, 6 ) eine Lösung. Der zu diesem vier-stufigen Verfahren vom 

Typ RK4(3) gehörige Fehlerschätzer ist 

[ǫ] = Ψ t+τ,t x − ˆ Ψ t+τ,t x = 1 

6 τ(k4 − k ∗ 1 ). ✷ 

Beispiel 4.3. Dem Matlab-Solverode23 liegt ein eingebettetes RK-Verfahren vom Typ RK3(2) 

zugrunde mit 

0 1 

2 

3 

4 

1 

1 

2 

0 

2 

9 

2 

3 

4 

1 

3 

1 

9 

7 

3 

1 

24 4 

4 

9 

4 

9 0 

1 

3 

Beispiel 4.4. Von Dormand und Prince stammt ein unter verschiedenen Aspekten optimiertes 

eingebettetes Verfahren vom Typ RK5(4). Es ist im Matlab-Solver ode45 implementiert und 

ist heute das Standardverfahren vom Typ RK5(4). ✷ 

Beispiel 4.5. Der Lorenz-Attraktor wird durch das parameterbehaftete autonome System 

1 

8 

✷ 

x ′ 1 (t) = f1(x) := −σx1 + σx2 

x ′ 2(t) = f2(x) := rx1 − x2 − x1x3 

x ′ 3(t) = f3(x) := x1x2 − bx3 

beschrieben. Er beschreibt sehr grob vereinfacht ein Problem aus der Metereologie. Für bestimmte 

Parameterwerte (σ,r,b) zeigte das System einen ”chaotischen” Lösungsverlauf. Man 

kann beweisen, daß alle Lösungen für t → ∞ in einer hinreichend großen Umgebung des Nullpunktes 

verbleiben. Die Grenzmenge für t → ∞ , der sogenannte Attraktor, hat aber eine 

komplizierte Gestalt. Die Abbildung 4.1 (i) zeigt eine Lösungstraktorie für die Parameterwerte 

.


y 3 (t) 

50 

40 

30 

20 

10 

0 

30 

20 

10 

0 

y 2 (t) 

−10 

−20 

−30 

−20 

Abbildung 4.1: Lösung des Lorenz-Modells mit expliziten Runge-Kutta Verfahren 

σ = 10,r = 28,b = 8/3. Hinsichtlich der nichttrivialen Untersuchung dieses berühmt gewordenen 

Beispiels konsultiere man etwa [15]. 

Natürlich erwartet man Schwierigkeiten bei der numerischen Lösung dieses Systems. Für den 

hier betrachteten Parameterfall (σ,r,b) = (10,28,8/3) ist die Lipschitz-Konstante der rechten 

Seite nicht mehr sehr klein. Auf dem recht großen Intervall 0 ≤ t ≤ 30 wird LT ≫ 1. Abbildung 

4.1 zeigt die Lösung für die Anfangsbedingung x(0) = (0,1;0.1;0.05) bei äquidistanter Schrittweite 

τ = 3/100. 

Offenbar muß man Verfahren höherer Ordnung oder sogar implizite Methoden mit Schrittweitensteuerung 

verwenden. Abbildung 4.2 zeigt die Verläufe der berechneten Normen x(t) für 

den Bereich von 0 ≤ t ≤ 30. Eine genauere Ansicht zeigt, daß sich die Kurvenverläufe insbesondere 

für t ≥ 15 signifikant unterscheiden. 

Zur Lösung wurden die folgenden in Matlab verfügbaren Lösungsverfahren benutzt: 

• Die Methoden ode23 und ode45 sind explizite Runge-Kutta Verfahren nach Bogacki/ 

Shampine bzw. Dormand/ Price mit Extrapolation und Schrittweitensteuerung. Insbesondere 

ist ode45 ein sechs-stufiges RKV. 

• Die beiden anderen Methoden ode23tb und ode23s sind spezielle implizite Runge-Kutta- 

Verfahren. Auf derartige Methoden gehen wir in Kapitel 5 ein. 

Hinsichtlich einer genaueren Übersicht zu den in Matlab verfügbaren Verfahren wird auf den 

Übersichtsartikel [14] und die dort angegebene Literatur verwiesen. ✷ 

−10 

y 1 (t) 

0 

10 

20

4.3. EINGEBETTETE RUNGE-KUTTA-VERFAHREN. FEHLBERG-TRICK 43 

150 

100 

50 

ode23 

0 

0 

150 

5 10 ode23tb 15 20 25 30 

100 

50 

0 

0 

150 

5 10 ode23s 15 20 25 30 

100 

50 

0 

0 

150 

5 10 ode45 15 20 25 30 

100 

50 

0 

0 5 10 15 20 25 30 

Abbildung 4.2: Verlauf von x(t) für verschiedene AWP-Löser des Lorenz-Attraktors

44 KAPITEL 4. ADAPTIVE GITTERSTEUERUNG

Kapitel 5 

Implizite Verfahren für steife AWP 

Zunächst zeigen wir, daß explizite Einschrittverfahren (ESV) i.a. nicht für steife AWP geeignet 

sind. Die Konvergenztheorie aus Kapitel 2 ist nur für unvertretbar kleine Schrittweiten anwendbar. 

Daher werden implizite Runge-Kutta-Verfahren als wichtigste Klasse von ESV eingeführt, 

die wesentlich günstigere Stabilitätseigenschaften haben. 

5.1 Eignung expliziter Verfahren für steife AWP 

Wir betrachten das skalare Testproblem 

x ′ (t) = λx(t), Re(λ) < 0, x(0) = 1 (5.1) 

mit λ ∈ R − := {z ∈ C : Im(z) = 0, Re(z) < 0}. Das AWP hat die exponentiell abklingende 

Lösung x(t) = e λt . Untersucht werden soll die Eignung expliziter Runge-Kutta-Verfahren für 

dieses Problem. 

Beispiel 5.1. Zur Lösung von Aufgabe (5.1) verwenden wir das explizite Euler-Verfahren 

x∆(tj+1) = x∆(tj) + λτx∆(tj) = (1 + λτ)x∆(tj) = ... = (1 + λτ) j+1 x 0 . 

Nur bei Schrittweitenbeschränkung τ < 2/|λ| erhält man im Fall λ < 0 eine monoton abnehmende 

Folge (x∆(tj))j. Löst man etwa (5.1) für λ = −100 auf dem Intervall [0,5], so bräuchte 

man wenigstens eine Schrittweite τ < 0.02 bzw. mehr als 250 Integrationsschritte, obwohl die 

Lösung x(t) sehr schnell auf Null abklingt. 

Das implizite Euler-Schema 

x∆(tj+1) = x∆(tj) + λτx∆(tj+1) 

erzeugt für beliebige Schrittweiten τ > 0 eine monoton abnehmende diskrete Lösungsfolge mit 

x∆(tj+1) = 

1 

1 − λτ x∆(tj) = ... = 

1 

(1 − λτ) j+1x0 . 

Für λ = −100 und die sehr grobe Schrittweite τ = 1 erhält man die folgenden Lösungen 

j 0 1 2 3 4 5 

x∆(tj) 1 9.90-3 9.80-5 9.71–7 9.61-9 9.57-11 

x(tj) 1 < 10 −45 0 0 0 0 

45

46 KAPITEL 5. IMPLIZITE VERFAHREN FÜR STEIFE AWP 

Explizite RK-Verfahren bereiten generell bei Anwendung auf das Testproblem (5.1) Probleme. 

Lemma 5.2. Sei Ψτ λ die Evolution eines konsistenten expliziten RK-Verfahrens für die Aufgabe 

(5.1). Für festes τ > 0 gilt 

lim 

|λ|→∞ |Ψτλ 1| = ∞. 

Beweis: Analog zum Beweis von Lemma 3.1 erhält man, daß Ψτ λ1 = p(λτ) mit einem Polynom 

p vom Grad ≤ s ist. Wegen der vorausgesetzten Konsistenz hat p mindestens den Grad 1, vgl. 

auch Beweis von Lemma 2.6. Daher folgt lim |z|→∞ |p(z)| = ∞. ✷ 

Somit sind explizite ESV für die Lösung steifer AWP i.a. ungeeignet. Daher betrachten wir 

nachfolgend implizite RK-Verfahren als interessanteste Klasse impliziter ESV. ✷ 

Nach Satz 1.20 erfüllt die Lösung des AWP 

x ′ (t) = f(t;x(t)), x(t0) = x 0 . (5.2) 

bei Gültigkeit einer einseitigen Lipschitz-Bedingung (1.26) an f folgende Stabilitätsbedingung: 

t 

l(s) ds x 0 − ˜x 0 , t ≥ t0. (5.3) 

Φ t,t0 x 0 − Φ t,t0 ˜x 0 ≤ exp 

t0 

Für das Testproblem (5.1) ist l(s) = Re(λ); für die Lipschitz-Konstante jedoch gilt L = |λ|. 

Für explizite RK-Verfahren hatten wir in Satz 3.5 gezeigt, daß dessen diskrete Evolution Ψ die 

Stabilitätseigenschaft (5.3) lediglich mit dem Faktor LΨ = γL ”erbt”. Ferner gilt die Fehlerabschätzung 

x∆(t) − x(t) ≤ CeLΨ|t−t0| − 1 

τ p , t ∈ ∆, (5.4) 

vgl. Sätze 2.10, 2.12. Kritisch ist, daß die Konvergenzordnung p im steifen Fall LΨ|T − t0| ≫ 

l|T −t0| auf dem Intervall [t0,T] durch den exponentiellen Vorfaktor unbrauchbar wird. Natürlich 

ist (5.4) eine ”worst case”-Abschätzung. Daher möchte man bei Abschätzungen für steife AWP 

möglichst nur mit der einseitigen Lipschitz-Konstanten arbeiten. 

LΨ 

5.2 Implizite Runge-Kutta-Verfahren 

Nach Beispiel 5.1 ist das implizite viel besser als das explizite Euler-Verfahren zur Lösung des 

für Re(λ) ≪ |λ| steifen AWP (5.1) geeignet. Neben der Stabilität eines Verfahrens (vgl. dazu 

Abschnitt 5.5) ist aber auch dessen Ordnung wesentlich. Zur Illustration zeigt Abbildung 5.1 die 

Lösungen zum Pendel-Problem (vgl. Bsp. 3.8) bzw. zum Lorenz-Attraktor (vgl. Bsp. 4.5) mit 

dem impliziten Euler-Verfahren. Die Lösung strebt jeweils inkorrekt auf einen Fixpunkt zu, 

das Verfahren ist ”zu dissipativ”. Wir suchen daher implizite RK-Verfahren höherer Ordnung. 

Definition 5.3. Ein s−stufiges (implizites) RK-Verfahren ist gegeben durch die Vorschrift 

x∆(t + τ) := Ψ t+τ,t x∆(t) := x∆(t) + τ 

⎛ 

ki(t,x,τ) := f ⎝t + ciτ,x + τ 

s 

bjkj(t,x∆(t),τ), t ∈ ∆ (5.5) 

j=1 

⎞ 

s 

aijkj(t,x,τ) ⎠ , i = 1,...,s. (5.6) 

j=1 

Die Werte ci bzw. ki heißen Knoten bzw. Steigungen. 

Das entsprechende Butcher-Schema lautet:

5.3. IMPLEMENTATION IMPLIZITER RK-VERFAHREN 47 

x 2 (t) 

3 

2 

1 

0 

−1 

−2 

implizites Euler−Verfahren 

−3 

−5 −4 −3 −2 −1 0 

x (t) 

1 

1 2 3 4 5 

(i) Lösungsverlauf für mathematisches Pendel 

x 2 (t) 

25 

20 

15 

10 

5 

implizites Euler−Verfahren 

0 

0 2 4 6 8 10 12 14 16 18 

x (t) 

1 

(ii) Lösungsverlauf für Lorenz-Attraktor 

Abbildung 5.1: Dissipatives Verhalten des impliziten Euler-Verfahrens 

c A 

b T 

bzw. 

c1 a11 a12 · · · a1,s−1 a1s 

c2 a21 a22 · · · a2,s−1 a2s 

. 

. 

. 

cs as1 as2 · · · as,s−1 as,s 

. 

b1 b2 · · · bs−1 bs 

Definition 5.4. (i) Für aij = 0, i ≤ j erhält man die expliziten RK-Verfahren (vgl. Kap. 3). 

(ii) Für aij = 0, i < j erhält man die diagonal-impliziten RK-Verfahren (DIRK). Gilt sogar 

γ = aii, i = 1,... ,s, so spricht man von einfach diagonal-impliziten RK-Verfahren (SDIRK; 

engl. singly diagonally implicit RK method) 

(iii) Existiert ein Index j > i mit aij = 0, so spricht man von voll-impliziten RK-Verfahren. 

5.3 Implementation impliziter RK-Verfahren 

In jedem Zeitschrit sind die Steigungen ki durch Lösung des Gleichungssystems (5.6) 

 

ki(t,x,τ) = f t + ciτ,x + τ 

s 

j=1 

 

aijkj(t,x,τ) , i = 1,...,s 

zu ermitteln. Bei expliziten Verfahren ermittelt man die ki rekursiv. Leider ist dies bei echt 

impliziten RK-Verfahren nicht möglich. Der Versuch mit der einfachen Fixpunktiteration 

k (m+1) 

 

i (t,x,τ) = f t + ciτ,x + τ 

s 

j=1 

. 

aijk (m) 

 

j (t,x,τ) , i = 1,...,s; m ∈ N0 

führt aber zu Schrittweitenbeschränkungen (vgl. Lemma 2.3 für modifiziertes Euler-Verfahren). 

Für steife AWP ist das eine inakzeptable Einschränkung. Man muß also ”intelligentere” Lösungsverfahren, 

z.B. das Newton- bzw. Newton-artige Verfahren, benutzen. Beim DIRK-Verfahren 

zerfällt speziell die Lösung des s · n-dimensionalen Gleichungssystems in die sukzessive Berech- 

nung von s Gleichungssystemen der Dimension n. Bei den SDIRK-Verfahren ist sogar nur einmal 

zu invertieren. 

die Matrix I − τγ ∂f 

∂x 

mit der Jacobi-Matrix ∂f 

∂x 

Zur Vermeidung von Rundungsfehlern (insbesondere im steifen Fall) formen wir das System 

(5.6) um: Ist x(s) := Φ s,t0 x 0 die durch (t0,x 0 ) verlaufende Lösungstrajektorie, so sind die Stufen 

ki des RK-Verfahrens Approximationen ki ≈ x ′ (t+ciτ). Man kann dann auch Approximationen 

.


zi ≈ x(t + ciτ) − x(t) als Zwischenstufen benutzen. 

Lemma 5.5. Betrachtet wird ein RK-Verfahren mit den Daten (A,b,c). 

(i) Sind k1,... ,ks Lösung von (5.6), so ist zi := τ s 

j=1 aijkj, i = 1,... ,s Lösung des Systems 

zi = τ 

s 

aijf(t + cjτ;x + zj), i = 1,... ,s. (5.7) 

j=1 

(ii) Sind z1,...,zs Lösung von (5.7), so ist ki := f(t + ciτ;x + zi), i = 1,... ,s Lösung von 

(5.6). Für die diskrete Evolution des RK-Verfahrens gilt 

Ψ t+τ,t x = x + τ 

s 

bif(t + ciτ;x + zi). (5.8) 

i=1 

(iii) Bei invertierbarer Matrix A = (aij) ∈ R s×s des RK-Verfahrens kann man die diskrete 

Evolution ohne zusätzliche Auswertung von f ermitteln aus 

Ψ t+τ,t x = x + 

s 

i=1 

Beweis: (i) Es gilt nach Definition und (5.6) 

s 

s 

 

zi = τ aijkj = τ aijf t + cjτ;x + τ 

j=1 

j=1 

(ii) Nach Definition und (5.7) ist wegen 

⎛ 

wizi, (w1,... ,ws) T := (A T ) −1 b. (5.9) 

s 

l=1 

ajlkl 

ki = f(t + ciτ;x + zi) = f ⎝t + ciτ;x + τ 

⎛ 

= f ⎝t + ciτ;x + τ 

 

= τ 

s 

aijf(t + cjτ;x + zj). 

j=1 

⎞ 

s 

aij f(t + cjτ;x + zj) ⎠ 

j=1 

s 

j=1 

aijkj 

(5.6) erfüllt. Die Erfüllung von (5.8) ergibt sich unter Anwendung der Definitionen. 

(iii) (5.7) ergibt 

x + 

s 

wizi = x + τ 

i=1 

s 

j=1 i=1 

⎞ 

⎠ 

s 

aijwi f(t + cjτ;x + zj). 

Wegen s 

i=1 aijwi = (A T w)j = bj ergibt sich mit (5.8) schließlich die Aussage (5.9). ✷ 

Im steifen Fall können die Werte von f und der ki betragsmäßig groß sein und die Formel (5.7) 

ist dann weniger anfällig als (5.6) gegen Rundungsfehler. Vorteil der Formulierung (5.7),(5.9) 

für implizite RK-Verfahren mit invertierbarer Matrix A ist gegenüber (5.7),(5.8), daß keine 

zusätzlichen Auswertungen von f notwendig sind. 

Wir wollen nun das modifizierte System (5.7) mittels Newton-Verfahren lösen. Mit der Notation 

⎛ ⎞ 

z1 

⎜ ⎟ 

Z := ⎝ . ⎠ ∈ R sn , 

⎛ ⎞ 

x 

⎜ ⎟ 

X := ⎝ . ⎠ ∈ R 

x 

sn , 

⎛ 

⎞ 

f(t + c1τ;x + z1) 

⎜ 

⎟ 

F(τ,X + Z) := ⎝ . ⎠ (5.10) 

f(t + csτ;x + zs) 

zs

5.3. IMPLEMENTATION IMPLIZITER RK-VERFAHREN 49 

sowie 

A ⊗ In := 

⎛ 

⎜ 

⎝ 

a11In 

. 

. a1sIn 

as1In · · · assIn 

. 

⎞ 

⎟ 

⎠ ∈ Rsn×sn 

und der Einheitsmatrix In ∈ R n×n können wir das System (5.7) kompakt schreiben als 

G(Z) := Z − τ(A ⊗ In)F(τ,X + Z) = 0. 

Mit dem Startwert Z (0) := 0 lautet dann ein Schritt des Newton-Verfahrens für m ∈ N0: 

Mit der Vereinfachung 

und J := Dxf(t;x) hat man 

(Isn − τ(A ⊗ In)(DXF)(τ,X + Z (m) ))∆Z (m) = −G(Z (m) ) 

DXF(τ,X + Z) ≈ DXF(0,X + Z) 

Z (m+1) = Z (m) + ∆Z (m) . 

(A ⊗ In)((DXF)(0,X + Z (m) ) = (A ⊗ In)(In ⊗ J) = A ⊗ J 

und damit das vereinfachte Newton-Verfahren 

(Isn − τA ⊗ J)∆Z (m) = −Z (m) + τ(A ⊗ In)F(τ,X + Z (m) ). 

Pro Iterationszyklus in jedem Runge-Kutta-Schritt hat man die Jacobi-Matrix J nur einmal 

auszuwerten und nur eine LU-Zerlegung von Isn − τA ⊗ J zu berechnen. Vergleichsweise hat 

man beim exakten Newton-Verfahren in jedem Newton-Schritt (!) s Jacobi-Matrizen von f 

zu berechnen und jeweils eine weitere Matrix aus R sn×sn zu invertieren. 

Dieser enormen Rechenvereinfachung beim vereinfachten Newton-Verfahren steht natürlich der 

Verlust der quadratischen Konvergenzordnung des exakten Newton-Verfahrens entgegen. Wir 

wissen aber bereits aus dem Kurs Numerische Mathematik I, daß das vereinfachte Verfahren 

wenigstens linear konvergiert. 

Als Abbruchkriterium der (vereinfachten) Newton-Iteration hätte man bei vorgegebener Toleranz 

TOL der Schrittweitensteuerung gerne 

Z − Z (m) ≤ κ TOL, κ ≪ 1 

mit einem Sicherheitsfaktor κ, der üblicherweise aus dem Intervall [10 −4 ,10 −2 ] gewählt wird. 

Natürlich muß man eine geeignete Approximation hieran wählen, da die Lösung Z nicht bekannt 

ist. Eine derartige Wahl findet man im folgenden Verfahren.


Implementierung eines impliziten RK-Verfahrens mit Schrittweitensteuerung: 

Initialisierung: (t,x 0 ) ∈ R × R n Anfangspunkt; 

(f(t;x) rechte Seite der Differentialgleichung; 

F und X definiert wie in (5.10); 

τ > 0 Schrittweite; 

TOL > 0 Toleranz für Fehlerschätzer, 0 < κ ≪ 1; 

J := Dxf(t;x); 

Berechne LU-Zerlegung von B := Isn − τA ⊗ J; 

Löse B∆Z (1) = −τ(A ⊗ In)F(τ,X) mittels LU-Zerlegung von B; 

Z (1) := ∆Z (1) ; 

m := 1; 

do 

Löse B∆Z (m) = −Z (m) + τ(A ⊗ In)F(τ,X + Z (m) ) mittels LU-Zerlegung von B; 

Z (m+1) := Z (m) + ∆Z (m) ; 

qm := ∆Z(m) 

∆Z (m−1) ; 

 

if qm ≥ 1 

// Schätzung des Kontraktionsfaktors 

Newton-Verfahren divergiert ! Wiederhole RK-Schritt mit Schrittweite 1 

2τ; end 

m := m + 1; 

qm until 1−qm ∆Z(m) ≤ κ TOL 

Für DIRK vereinfacht sich der Algorithmus weiter, da er mit geringen Modifikationen s-fach 

hintereinander für jede Stufe benutzt werden kann. 

5.4 Konstruktion impliziter RK-Verfahren 

In Abschnitt 5.1 hatten wir bereits das sehr stabile einstufige implizite Euler-Verfahren mit 

dem Butcher-Schema 

1 1 

1 

betrachtet. Leider hat es nur die Konsistenzordnung p = 1. Das ebenfalls einstufige implizite 

Mittelpunkt-Verfahren 

 

x∆(tj+1) = x∆(tj) + τf tj + τ 

2 ; x∆(tj) 

 

+ x∆(tj+1) 

. 

2 

mit dem Butcher-Schema 

hat, wie wir noch sehen werden, sogar die Konsistenzordnung p = 2. 

1 

2 

Wir wollen jetzt systematisch implizite RK-Verfahren höherer Ordnung konstruieren. Dies erfordert 

die Festlegung der bis zu s 2 + 2s Parameter bi,ci,aij mit i,j = 1,...,s. Bei Kollokations- 

Verfahren approximiert man die Lösung des AWP (5.2) durch ein vektorwertiges Polynom 

w ∈ (Πs) n , das die Anfangsbedingung 

1 

2 

1 

w(t0) = x 0 

(5.11)

5.4. KONSTRUKTION IMPLIZITER RK-VERFAHREN 51 

und die Differentialgleichung an s vorgegebenen Kollokationspunkten t0+ciτ, i = 1,... ,s erfüllt, 

d.h. 

w ′ (t0 + ciτ) = f(t0 + ciτ;w(t0 + ciτ)), i = 1,... ,s. (5.12) 

Das folgende Resultat zeigt, daß durch Kollokation implizite RK-Verfahren erzeugt werden. 

Insbesondere wird dabei die Zahl der unbekannten Parameter auf s reduziert. 

Lemma 5.6. Für die Parameter 0 ≤ c1 < · · · < cs ≤ 1 sei das System (5.11), (5.12) eindeutig 

lösbar. Dann wird durch die diskrete Evolution 

ein implizites RK-Verfahren definiert. 

Ψ t0+τ,t0 x 0 := w(t0 + τ). (5.13) 

Beweis: Sei {L1,...,Ls} die Lagrange-Basis bezüglich der Punkte c1,... ,cs mit Li ∈ Πs und 

Li(cj) = δij, i,j = 1,... ,s. Wegen w ′ ∈ (Πs−1) n kann man w ′ in der Lagrange-Basis darstellen 

w ′ (t0 + θτ) = 

s 

kjLj(θ), kj := w ′ (t0 + cjτ), j = 1,... ,s. 

j=1 

Dann ergibt die Anfangsbedingung (5.11) nach Integration 

Mit dem Ansatz 

w(t0 + θτ) = x 0 + τ 

aij := 

ci 

0 

s 

j=1 

kj 

θ 

0 

Lj(σ) dσ. 

Lj(θ) dθ, i,j = 1,... ,s (5.14) 

kann man die Kollokations-Bedingungen (5.12) äquivalent schreiben als 

Mit 

folgt für (5.13) 

ki = f(t0 + ciτ;x 0 + τ 

bi := 

1 

0 

s 

aijkj), i = 1,... ,s. 

j=1 

Li(θ) dθ, i = 1,... ,s (5.15) 

Ψ t0+τ,t0 x 0 = x 0 + τ 

s 

biki. 

Somit kann jedes Kollokations-Verfahren als implizites RK-Verfahren mit den durch (5.14), 

(5.15) definierten Koeffizienten aij,bi dargestellt werden. ✷ 

Man kann ohne Beweisänderung zeigen, daß sich die für explizite RK-Verfahren bewiesenen Bedingungen 

für Konsistenz und Invarianz gegen Autonomisierung (Lemmata 3.1 und 3.2) sowie 

Satz 3.3 über die Butcher-Bedingungen sinngemäß auf implizite RK-Verfahren übertragen. 

Das folgende Resultat zeigt, daß Kollokations-Verfahren bereits einige dieser Bedingungen implizieren. 

i=1


Lemma 5.7. Für die Koeffizienten eines durch Kollokation definierten impliziten RK-Verfahrens 

gilt (mit 0 0 = 1) 

s 

c k−1 

j=1 

s 

j=1 

j bj = 1 

, k = 1,...,s (5.16) 

k 

c k−1 

j 

aij = 1 

k cki , i,k = 1,...,s. (5.17) 

Insbesondere sind diese Verfahren konsistent und invariant gegen Autonomisierung. 

Beweis: Wir schreiben die Monome θ k−1 , k = 1,... ,s in der Lagrange-Basis als 

Dann gilt 

s 

j=1 

s 

j=1 

bjc k−1 

j 

= 

c k−1 

j aij = 

1 

0 

ci 

0 

θ k−1 = 

s 

j=1 

s 

j=1 

s 

j=1 

c k−1 

j Lj(θ). 

c k−1 

j Lj(θ) dθ = 

Lj(θ)c k−1 

j 

dθ = 

1 

0 

ci 

0 

θ k−1 dθ = 1 

k , 

θ k−1 dθ = 1 

k ck i . 

Die Konsistenz- und Invarianzaussage ergeben sich für k = 1, vgl. Lemmata 3.1 und 3.2. ✷ 

Das folgende etwas tieferliegende Resultat gibt einen Hinweis auf die Wahl der Parameter 

c1,... ,cs. 

Lemma 5.8. Für gegebene Parameter c1,...,cs sei die Quadraturformel 

1 

0 

g(t) dt ≈ 

s 

big(ci) 

exakt für alle Polynome in Πp−1 mit p ≥ s. Dann hat das zu c1,... ,cs gehörige, durch Kollokation 

gewonnene implizite RK-Verfahren die Konsistenzordnung p. 

Beweis: vgl. [4], Abschnitt 6.3.1. ✷ 

Wir wollen jetzt Beispiele für durch Kollokation erzeugte implizite RK-Verfahren angeben. 

Beispiel 5.9. (Gauß-Verfahren mit p = 2s) 

Aus Satz 14.4. aus dem Kurs Numerische Mathematik I wissen wir, daß Quadraturformeln zu s 

Stützstellen maximal die Ordnung p = 2s haben. Zur Erzielung der maximal möglichen Konsistenzordnung 

p = 2s muß man die Knoten ci des Verfahrens geeignet wählen. Seien die Werte 

ci gerade die paarweise verschiedenen Nullstellen des verschobenen Legendre-Polynoms 

i=1 

˜Ps(t) := Ps(2t − 1) := 1 d 

s! 

s 

dt s [ts (t − 1) s ]. 

Man erhält dann die Gauß-Verfahren mit p = 2s mit den Parametern bi und aij nach Lemma 

5.7, vgl. die Fälle s = 1 bzw. s = 2 in Abb. 5.2. Für s = 1 ist dies gerade die implizite Mittelpunktregel.

5.5. STABILITÄT IMPLIZITER RUNGE-KUTTA-VERFAHREN 53 

x 2 (t) 

3 

2 

1 

0 

−1 

−2 

1 

2 

1 

2 

1 

, 

3− √ 3 

6 

3+ √ 3 

6 

1 

4 

3+2 √ 3 

12 

1 

2 

3−2 √ 3 

12 

1 

4 

Abbildung 5.2: Gauß-Verfahren der Ordnung 2 und 4 

implizites RK−Verfahren 

−3 

−5 −4 −3 −2 −1 0 

x (t) 

1 

1 2 3 4 5 

(i) Lösungsverlauf für mathematisches Pendel 

x 2 (t) 

30 

20 

10 

0 

−10 

−20 

1 

2 

. 

implizites RK−Verfahren 

−30 

−20 −15 −10 −5 0 

x (t) 

1 

5 10 15 20 

(ii) Lösungsverlauf für Lorenz-Attraktor 

Abbildung 5.3: Lösungen mit dem Gauß-Verfahren mit s = 2 nach Beispiel 5.12 

Wir wollen den Effekt der höheren Ordnung eines impliziten RK-Verfahrens vergleichen mit 

den Ergebnissen zum impliziten Euler-Verfahren (vgl. Abb. 5.1 in Abschnitt 5.1). Abbildung 

5.3 zeigt die Lösungen zum Pendel-Problem (vgl. Beispiel 3.8) bzw. zum Lorenz-Attraktor (vgl. 

Beispiel 4.5) mit dem Gauß-Verfahren mit s = 2. In beiden Fällen ist der Genauigkeitsgewinn 

gegenüber dem impliziten Euler-Verfahren signifikant. Tatsächlich gilt folgendes Ergebnis: 

Lemma 5.10. Ein s-stufiges Gauß-Verfahren hat die (maximal mögliche) Konsistenzordnung 

p = 2s. 

Beweis: vgl. Strehmel/Weiner [17], Satz 6.1.3. ✷ 

Bemerkung 5.11. Man kann zeigen, daß Gauß-Verfahren zwar optimale Konvergenzordnung 

haben, jedoch sind die Stabilitätseigenschaften nicht vollständig befriedigend. Durch Absenkung 

der Konsistenzforderung kommt man zu Verfahren mit besseren Stabilitätseigenschaften. 

RK-Verfahren mit Konsistenzordnung p = 2s − 1 werden als Radau-Verfahren bezeichnet. Verfahren 

der Ordnung p = 2s − 2 nennt man Lobatto-Verfahren. Details über Konstruktion und 

Eigenschaften findet man in [17], Abschnitt 6.1.3. ✷ 

5.5 Stabilität impliziter Runge-Kutta-Verfahren 

Wir betrachten noch kurz Stabilitätseigenschaften impliziter RK-Verfahren. Ausgangspunkt verschiedener 

Stabilitätsbegriffe ist das skalare Testproblem 

x ′ (t) = λx(t), Re(λ) ≤ 0 (5.18) 

mit der Lösung x(t + τ) = e τλ x(t) mit den folgende Eigenschaften: 

(i) |x(t + τ)| ≤ |x(t)|, ∀ τ > 0; (ii) lim x(t + τ) = 0. (5.19) 

τRe(λ)→−∞


Dann heißen RK-Verfahren, für die (i) bzw. (i), (ii) ”vererbt” werden, A-stabil bzw. L-stabil. 

Erfahrungsgemäß reicht bei linearen steifen AWP bzw. bei nichtlinearen Systemen der Form 

x ′ = f(t;x) := Ax + g(t,x) mit moderater Lipschitz-Konstante von g bezüglich x ein Verfahren 

mit A-Stabilität aus. Für allgemeinere nichtlineare Probleme ist im sehr steifen Fall auch der 

A-Stabilitätsbegriff zu schwach. Wir beschränken uns hier auf den wichtigen Fall dissipativer 

AWP, die zum Beispiel bei örtlicher Semidiskretisierung bestimmter zeitabhängiger partieller 

Differentialgleichungen entstehen. 

Wir erinnern an die Notation aus Abschnitt 1.4: Das System x ′ = f(t,x) heißt dissipativ 

bezüglich der Norm · , falls für beliebige Lösungen x(·), ˜x(·) gilt 

x(t2) − ˜x(t2) ≤ x(t1) − ˜x(t1), ∀t1,t2 : t0 ≤ t1 ≤ t2 < ∞. (5.20) 

Man sagt auch, die Lösungen verhalten sich nicht-expansiv. 

Definition 5.12. Ein Einschritt-Verfahren heißt B-stabil, falls die diskrete Evolution Ψ = Ψ[f] 

auf der Klasse der dissipativen Systeme nicht-expansiv ist, d.h. falls 

Ψ t+τ,t x − Ψ t+τ,t ˜x ≤ x − ˜x 

für alle (t,x),(t, ˜x) ∈ D und alle zulässigen τ ≥ 0. 

Durch Anwendung der Definition auf die skalare Testgleichung (5.18) ersieht man sofort, daß 

B-Stabilität eines Verfahrens auch dessen A-Stabilität impliziert. Ferner ist bei dissipativen Differentialgleichungen 

die Stabilitätsbedingung (2.16) aus dem Konvergenzsatz 2.10 mit LΨ = 0 

erfüllt. Insbesondere entfällt dann der bei expliziten RK-Verfahren auftretende exponentielle 

Vorfaktor 1 

LΨ (eLΨ(t−t0) − 1) in der Fehlerabschätzung. 

In der Klasse der impliziten RK-Verfahren (5.5) gibt es B-stabile Verfahren beliebig hoher Ordnung. 

Wir beschränken uns auf folgende Aussage. 

Lemma 5.13. Die Gauß-Verfahren sind B-stabil. 

Beweis: Seien (t,x),(t, ˜x) ∈ D sowie w(t + θ) = Ψt+θ,tx bzw. ˜w(t + θ) = Ψt+θ,t˜x die 

Kollokations-Polynome des s-stufigen Gauß-Verfahrens. Mit χ(s) := w(s) − ˜w(s) 2 2 für s ∈ R 

erhalten wir an den Kollokationspunkten ti := t + ciτ, daß 

χ ′ (ti) = 2[[(w(ti) − ˜w(ti)] T · [f(ti;w(ti)) − f(ti; ˜w(ti))] ≤ 0. 

Nun ist χ ′ ∈ Π2s−1, d.h. dieses Polynom wird durch die Gauß- Quadratur-Formel exakt integriert. 

Damit erhalten wir die Behauptung wegen 

Ψ t+τ,t x − Ψ t+τ,t ˜x 2 2 

t+τ 

= χ(t + τ) = χ(t) + 

= χ(t) + τ 

s 

bjχ ′ (tj) 

j=1 

≤ χ(t) = x − ˜x 2 2, 

t 

χ ′ (θ) dθ 

da die Quadratur-Gewichte bj positiv sind, vgl. Lemma 14.5 in ”Numerische Mathematik I”. ✷ 

Bemerkung 5.14. Die Aussage von Lemma 5.13 kann auf bestimmte Radau- bzw. Lobatto- 

Verfahren übertragen werden. ✷

5.6. EINGEBETTETE RUNGE-KUTTA-VERFAHREN IN MATLAB 55 

Leider ist der Begriff der B-Stabilität allein noch nicht ausreichend zur Charakterisierung geeigneter 

RK-Verfahren für steife, dissipative AWP. Es kann das Phänomen der Ordnungsreduktion 

auftreten. 

Beispiel 5.15. Das Prothero-Robinson Modell 

x ′ (t) = λ[x(t) − g(t)] + g ′ (t), x(0) = x 0 

mit λ < 0 und glatter Funktion g verallgemeinert das Testproblem (5.1) mit g ≡ 0. In der 

Lösung 

x(t) = e λt [x 0 − g(0)] + g(t) 

fällt der exponentielle Anteil im Fall g(0) = x0 weg. Das Gauß-Verfahren mit s = 1 hat den 

Konsistenzfehler 

λτ 

4(2 − λτ) τg′′ 

 

(tn) 

. 

Für große Werte von |λ| reduziert sich die Ordnung des Verfahrens von 2 auf 1. ✷ 

Für steife, dissipative Systeme muß man die Begriffe Konsistenz und Konvergenz verschärfen. 

Definition 5.16. Ein RK-Verfahren hat die B-Konsistenzordnung p , wenn auf der Klasse der 

AWP x ′ = f(t;x) mit einseitiger Lipschitz-Bedingung die in die Konsistenzdefinition eingehende 

Konstante (vgl. Definition 2.7) nur von der einseitigen Lipschitz-Konstanten l(·) und der 

Glattheit der Lösung, jedoch nicht von der Lipschitz-Konstanten L der Funktion f abhängt. 

Sinngemäß definiert man den Begriff der B-Konvergenz. Aus B-Stabilität und B-Konsistenz 

folgt dann die B-Konvergenz des Verfahrens. Hinsichtlich genauerer Untersuchunge kann hier 

jedoch nur auf die Spezialliteratur verwiesen werden, etwa [9], Kap. IV.15. 

Beim impliziten Euler-Verfahren stimmen die ”klassische” und B-Konvergenzordnung 1 überein. 

Hingegen haben s-stufige Gauß-Verfahren s ≥ 2 im Gegensatz zur ”klassischen” Konsistenzund 

Konvergenzordnung 2s nur die B-Konvergenzordnung s. Für das Verfahren mit s = 1 

aus Beispiel 5.15 tritt zwar ggf. eine Reduktion der Konsistenzordnung auf, jedoch hat es die 

B-Konvergenzordnung 2. 

5.6 Eingebettete Runge-Kutta-Verfahren in Matlab 

Man kann die in Kapitel 4 dargelegte Methode der Schrittweitensteuerung mittels eingebetteter 

RK-Verfahren auf implizite Verfahren erweitern. Wir gehen abschließend noch kurz auf diagonalimplizite 

eingebettete RK-Verfahren vom Typ RK3(2) ein, die in der ode-Suite von Matlab 

implementiert sind. Wir hatten die beiden Verfahren ode23s und ode23tb bereits erfolgreich in 

Beispiel 4.5 zum Lorenz-Attraktor als typischem steifem Anfangswertproblem benutzt. 

Eine genauere Information zum Verfahren ode23s, das insbesondere für steife AWP konstruiert 

wurde, findet man in dem Übersichtsartikel zur Matlab-ode-Suite von Shampine und 

Reichelt [14] bzw. im Lehrbuch von Hanke-Bourgeois [10], Kap. 80. Als Kontrollverfahren 

wird ein Verfahren dritter Ordnung mittels Fehlberg-Trick verwendet. Ferner ist ode23s Lstabil, 

falls in jedem Zeitschritt die exakte Jacobi-Matrix J = Dxf benutzt wrd. 

Im Verfahren ode23t wird mit der durch bT = ( 1 1 1 

4 , 2 , 4 )T definierten diskreten Evolution weitergerechnet. 

Sie entspricht der Anwendung von zwei Schritten der impliziten Mittelpunktregel 

und hat die Konsistenzordnung p = 2. Die durch ˆb T = ( 1 2 1 

6 , 3 , 6 )T definierte diskrete 

Evolution hat die Ordnung p = 3, jedoch schlechtere Stabilitäteigenschaften. Sie wird daher


0 0 0 0 

1 

2 

1 

1 

4 

1 

1 

4 

1 

0 

1 

4 

1 

4 

1 

6 

2 

1 

2 

3 

4 

1 

4 

1 

6 

, 

0 0 0 0 

2 − √ 2 

1 

2− √ 2 

√2 2 

√4 2 

4 

1 

3 − 

√ 

2 

12 

2− √ 2 

√2 2 

√4 2 

4 

1 

3 + 

√ 

2 

4 

0 

2− √ 2 

2 

2− √ 2 

2 

2− √ 2 

6 

Abbildung 5.4: Eingebettete RK-Verfahren ode23t und ode23tb in Matlab 

nur zur Fehlerschätzung verwendet. Die Anwendung der Vektoren bT √ 

2 

= ( 

. 

√ 2 

4 , 2−√ 2 

2 ) T und 

4 , 

ˆb T 1 = ( 3 − 

√ 

2 1 

12 , 3 + 

√ 

2 

4 , 2−√2 6 ) T finden beim Verfahren ode23tb analog Verwendung. Beide Verfahren 

basieren wieder auf dem Trick von Fehlberg und sind effektiv zweistufig.

Kapitel 6 

Randwertaufgaben 

Wir setzen in den folgenden drei Kapiteln die Einführung in die numerische Behandlung gewöhnlicher 

Differentialgleichungen mit Randwertaufgaben 2. Ordnung fort. Dabei sucht man die 

Lösung einer Differentialgleichung zweiter Ordnung. Deren eindeutige Festlegung erfolgt durch 

Randbedingungen, d.h. Bedingungen an die Lösung am Randes des betrachteten Lösungsintervalls. 

6.1 Einführendes Beispiel. Definitionen 

Beispiel 6.1. Wir betrachten einen isothermen Strömungsreaktor mit kontinuierlicher Zufuhr 

bzw. Abfuhr der Reaktionsmasse bzw. des Reaktionsproduktes. Die Konzentrationsverteilung 

c(x1,x2,x3,t) im Reaktor ergibt sich aus der Stoffbilanzgleichung 

∂c 

∂t 

= − 

3 ∂ 

(wic) + 

∂xi 

i=1 

3 

i=1 

∂ 

∂xi 

(D ∂c 

) + r(c). 

∂xi 

Dabei sind w = (wi)i das Geschwindigkeitsfeld der Strömung im Reaktor, D der Diffusionskoeffizient 

und r(c) der Reaktionsterm. Zur Vereinfachung nehmen wir einen stationären Reaktorbetrieb, 

d.h. ∂c 

∂t = 0, konstante Diffusionskonstante D und ein konstantes Geschwindigkeitsfeld 

w = (w,0,0) an. Ferner sollen Änderungen der Konzentration c nur in axialer Richtung x des 

rotationssymmetrischen Reaktors betrachtet werden. Dann vereinfacht sich die Stoffbilanzgleichung 

zur gewöhnlichen Differentialgleichung 2. Ordnung 

−D d2c dc 

+ w + r(c) = 0, 0 < x < L. 

dx2 dx 

Durch Entdimensionierung mittels ξ := x c 

L ,u := c0 mit der Anfangskonzentration c0 erhalten wir 

mit der Peclet-Zahl P := wL 

D 

− 1 

P 

d2u du 

+ + R(u) = 0, 0 < ξ < 1. 

dξ2 dξ 

Die Lösung kann vereinfachend durch die Randbedingungen 

u(0) − 1 du(0) 

= 1, 

P dξ 

du(1) 

dξ 

festgelegt werden. ✷ 

57 

= 0

58 KAPITEL 6. RANDWERTAUFGABEN 

Wir geben nachfolgend eine Klassifikation gewöhnlicher Differentialgleichungen 2. Ordnung 

F(x,u(x),u ′ (x),u ′′ (x)) = 0. (6.1) 

Definition 6.2. Eine Differentialgleichung 2. Ordnung heißt quasilinear, falls 

semilinear, falls 

bzw. linear, falls 

F(x,u,u ′ ,u ′′ ) := −u ′′ + B(x,u)u ′ + C(x,u) = 0, 

F(x,u,u ′ ,u ′′ ) := −u ′′ + b(x)u ′ + C(x,u) = 0, 

F(x,u,u ′ ,u ′′ ) := −u ′′ + b(x)u ′ + c(x)u − f(x) = 0. 

Offenbar ist die im Beispiel 6.1 betrachtete Gleichung semilinear. 

Die Randbedingungen sind im allgemeinen Fall 

Gi(a,b,u(a),u(b),u ′ (a),u ′ (b)) = 0, i = 1,2 

nichtlinear und gekoppelt. In Anwendungen ist es oft ausreichend, Randbedingungen in linearer 

und entkoppelter Form zu betrachten. Dies vereinfacht auch die Untersuchung entsprechender 

Randwertprobleme (RWP) erheblich. 

Definition 6.3. Lineare und entkoppelte Randbedingungen der Form 

u(a) = α, u(b) = β (6.2) 

u ′ (a) = α, u ′ (b) = β (6.3) 

c1u(a) + u ′ (a) = α, c2u(b) + u ′ (b) = β (6.4) 

heißen Randbedingungen 1. Art (oder vom Dirichlet-Typ), 2. Art (oder vom Neumann-Typ) 

bzw. 3. Art (oder vom Robin-Typ). 

Man spricht von gemischten Randbedingungen, wenn auf x = a und x = b unterschiedliche 

Typen von Randbedingungen gestellt werden. Dies trifft in Beispiel 6.1 zu. 

Bei den weiteren Betrachtungen werden wir in der Regel vereinfachend lineare RWP 1. Art, d.h. 

betrachten. Mittels 

(Lu)(x) := −u ′′ (x) + b(x)u ′ (x) + c(x)u(x) = f(x), a < x 

u(a) = α, u(b) = β (6.6) 

x − b − a 

u(x) = v(x) + α + βx 

a − b b − a 

kann man die Untersuchung auf den Fall homogener Randbedingungen, d.h. α = β = 0 zurückführen. 

Über x = (b − a)ξ transformiert man das RWP auch oft auf das Einheitsintervall, d.h. 

(Lu)(x) := −u ′′ (x) + b(x)u ′ (x) + c(x)u(x) = f(x), 0 < x < 1 (6.7) 

u(0) = u(1) = 0. (6.8)

6.2. LÖSBARKEIT DES 1. RWP IM SYMMETRISCHEN FALL 59 

6.2 Lösbarkeit des 1. RWP im symmetrischen Fall 

Nachfolgendes Beispiel zeigt, daß RWP 2. Ordnung nicht in jedem Fall lösbar oder eindeutig 

lösbar sind. 

Beispiel 6.4. Die allgemeine Lösung der Schwingungsgleichung 

−u ′′ (x) − u(x) = 0, 0 < x < b 

hat die Form u(x) = c1 cos x+c2 sin x. Die beiden Konstanten sind so zu bestimmen, daß jeweils 

die folgenden Randbedingungen u(0) = α, u(b) = β erfüllt werden. Daraus ergibt sich das 

lineare System 

cos(0)c1 + sin(0)c2 = α, cos(b)c1 + sin(b)c2 = β. 

Die Matrix A dieses Systems hat die Determinante det(A) = sinb. Aus der Lösungstheorie 

linearer Gleichungssysteme folgt, daß das System bei sin b = 0 eine eindeutige Lösung sowie bei 

sin b = 0 in Abhängigkeit von b, α und β entweder keine oder unendlich viele Lösungen hat. ✷ 

Wir betrachten noch einen Spezialfall, in dem die Lösung in Integralform angebbar ist. Die 

mehrdimensionale Verallgemeinerung ist das für Anwendungen wichtige Poisson-Problem. 

Lemma 6.5. Die Funktion 

u(x) = 

1 

0 

G(x,t)f(t)dt, x ∈ [0,1] 

mit der Greenschen Funktion (vgl. dazu Übungsaufgabe) 

G(x,t) := 

löst das 1. RWP der Poisson-Gleichung 

t(1 − x), 0 ≤ t ≤ x ≤ 1 

x(1 − t), 0 ≤ x ≤ t ≤ 1 

−u ′′ (x) = f(x), x ∈ (0,1); u(0) = u(1) = 0. 

Zur Klärung der Lösbarkeit des RWP (6.7), (6.8) betrachten wir hier zunächst den allgemeinen 

symmetrischen Fall mit b(x) ≡ 0. Hier gilt der 

Satz 6.6. Gelte c,f ∈ C[0,1] sowie b(x) ≡ 0,c(x) ≥ 0 in [0,1]. Dann existiert eine und nur 

eine Lösung u ∈ C 2 [0,1] des RWP (6.7), (6.8). 

Beweis: (i) Eindeutigkeit: Wir nehmen an, u1,u2 sind Lösungen des RWP (6.7), (6.8). Dann 

genügt u := u1 − u2 dem homogenen RWP 

−u ′′ + cu = 0, 0 < x < 1; u(0) = u(1) = 0. 

Multiplikation der Differentialgleichung mit u, Integration über [0,1] und partielle Integration 

des Integralterms mit u ′′ u führt unter Beachtung der Randbedingungen auf 

0 = 

1 

0 

(−u ′′ + cu)udx = 

1 

{(u 

0 

′ ) 2 + cu 2 }dx. 

Wegen c ≥ 0 und u ∈ C[0,1] folgt daraus u(x) ≡ 0 in [0,1] und damit die Eindeutigkeit der 

Lösung von (6.7), (6.8).


(ii) Existenz: Die allgemeine Lösung des RWP (6.7), (6.8) hat die Gestalt 

u(x) = α1u1(x) + α2u2(x) + ũ(x). 

Dabei bilden u1,u2 ein Fundamentalsystem aus zwei linear unabhängigen Lösungen der homogenen 

Differentialgleichung (d.h. mit f(x) ≡ 0.) ũ ist eine (beliebige) Lösung der Gleichung (6.7). 

Die Aussage läßt sich mit Hilfe des Satzes von Picard-Lindelöf zeigen, der im Zusammenhang 

mit der Lösbarkeit von Anfangswertproblemen behandelt wurde (vgl. Übungsaufgabe dazu). 

Zur Erfüllung der Randbedingungen entsteht das lineare Gleichungssystem 

u1(0)α1 + u2(0)α2 = −ũ(0) 

u1(1)α1 + u2(1)α2 = −ũ(1) 

für die Koeffizienten α1 und α2. Dieses System ist eindeutig lösbar. Sind nämlich αi,i = 1,2 

Lösung des zugehörigen homogenen Systems, wäre u = α1u1 + α2u2 Lösung des entsprechenden 

homogenen RWP und damit u ≡ 0 nach Teil (i). Wegen der linearen Unabhängigkeit von u1,u2 

impliziert dies α1 = α2 = 0. ✷ 

Bemerkung 6.7. Die Existenz- und Eindeutigkeitsaussage von Satz 6.6 läßt sich unter Verwendung 

Greenscher Funktionen ausdehnen auch auf den semilinearen Fall 

−u ′′ (x) = g(x,u(x)), x ∈ (0,1), u(0) = u(1) = 0. 

6.3 Lösbarkeit des 1. RWP im nichtsymmetrischen Fall 

Wir betrachten nun das (eventuell nichtsymmetrische) RWP 

(Lu)(x) := −u ′′ (x) + b(x)u ′ (x) + c(x)u(x) = f(x), 0 < x < 1 (6.9) 

u(0) = α, u(1) = β. (6.10) 

Zunächst gelingt eine Transformation auf den symmetrischen Fall mittels 

x 

1 

u(x) = v(x)exp b(t)dt . 

2 

Nach kurzer Rechnung erhält man für v das RWP 

mit 

( ˜ Lv)(x) := −v ′′ (x) + ˜c(x)v(x) = ˜ f(x), 0 < x < 1; v(0) = ˜α, v(1) = ˜ β 

˜c(x) := c(x) + 1 

4 b2 (x) − 1 

2 b′ 

(x), f(x) ˜ := f(x)exp − 1 

2 

0 

x 

0 

 

b(t)dt . 

Unter der Voraussetzung ˜c(x) ≥ 0,x ∈ [0,1] erhält man sofort nach Satz 6.6 Existenz und 

Eindeutigkeit der Lösung des RWP (6.9),(6.10), sofern etwa b ∈ C 1 [0,1] gilt. 

Allgemeiner gilt der folgende Satz. 

Satz 6.8. (i) Hat das (6.9),(6.10) zugeordnete homogene RWP (d.h. f(x) ≡ 0,α = β = 0) nur 

die triviale Lösung, so hat das RWP (6.9),(6.10), eine und nur eine Lösung in 

X := {v ∈ C 2 [0,1] : v(0) = α, v(1) = β}.

6.3. LÖSBARKEIT DES 1. RWP IM NICHTSYMMETRISCHEN FALL 61 

(ii) Ist c(x) ≥ 0, so hat das (6.9),(6.10) zugeordnete homogene RWP nur die triviale Lösung. 

(Nach Aussage von Teil (i) des Satzes 6.8. ergibt sich daraus auch eine Existenzaussage für das 

RWP (6.9),(6.10).) 

Wir beweisen hier nur das Resultat (ii) mittels des wichtigen Maximum-Minimum Prinzips. 

Lemma 6.9. Gelte b,c ∈ C[0,1) sowie c(x) ≥ 0. Dann gelten für u ∈ C[0,1] ∩ C 2 (0,1) die 

Aussagen: 

(i) (Lu)(x) ≤ 0 in (0,1) =⇒ u(x) ≤ max{0;u(0),u(1)} 

(ii) (Lu)(x) ≥ 0 in (0,1) =⇒ u(x) ≥ min{0;u(0),u(1)}. 

Beweis: (1) Für den Differentialoperator ˜ Lu := −u ′′ + bu ′ , d.h. c ≡ 0, beweisen wir zuerst die 

Aussagen 

(i’) ( ˜ Lu)(x) ≤ 0 in (0,1) =⇒ u(x) ≤ max{u(0),u(1)} 

(ii’) ( ˜ Lu)(x) ≥ 0 in (0,1) =⇒ u(x) ≥ min{u(0),u(1)}. 

Wir beschränken uns beim Nachweis auf (i’). 

(i ′ 1 ) Sei (˜ Lu)(x) < 0 in (0,1). Wir nehmen an, daß u ein Maximum in x0 ∈ (0,1) annimmt. 

Wegen u ′ (x0) = 0 folgt 

( ˜ Lu)(x0) = −u ′′ (x0) < 0 

im Widerspruch zur Bedingung u ′′ (x0) < 0 für ein Maximum. 

(i ′ 2 ) Sei nun (˜ Lu)(x) ≤ 0 in (0,1). Für die Hilfsfunktion v(x) := δ exp (λx) mit δ > 0 gilt 

( ˜ Lv)(x) = λ(b − λ)δe λx < 0 

für geeignetes λ. Wegen ˜ L(u + v)(x) < 0 ergibt (i ′ 1 ) 

Im Grenzfall δ → 0 folgt die gesuchte Aussage. 

(u + v)(x) ≤ max{(u + v)(0),(u + v)(1)}. 

(2) Sei jetzt c(x) ≥ 0 in (0,1) Die Punktmenge 

ist wegen u ∈ C[0,1] offen. Ferner ist 

G + := {x ∈ (0,1) : u(x) > 0} 

( ˜ Lu)(x) ≤ −c(x)u(x) ≤ 0 auf G + . 

Anwendung von (1) auf jeder Zusammenhangskomponente Gi von G + zeigt 

u(x) ≤ max u(x), ∀x ∈ G 

x∈∂Gi 

+ . 

Dabei ist ∂Gi der Rand von Gi. Nach Definition von G + impliziert das die gewünschte Aussage 

u(x) ≤ max{0;u(0),u(1)}. 

(3) Die Minimumaussage (ii) wird analog bewiesen. ✷ 

Als Folgerung beweisen wir folgendes Resultat über die Stabilität der Lösung bezüglich der Problemdaten 

f,α,β.


Satz 6.10. Seien b,c ∈ C[0,1] und c(x) ≥ 0. Für Lösungen u ∈ C 2 (0,1) ∩ C[0,1] des RWP 

gilt 

Beweis: Für die Hilfsfunktion 

Lu(x) = f(x), x ∈ (0,1); u(0) = α, u(1) = β 

mit hinreichend großer Konstante λ > 0 gilt 

Mit B := f C[0,1] folgern wir daraus 

Ferner gilt für die Randwerte x = 0 und x = 1 

u C[0,1] ≤ Cf C[0,1] + max {u(0),u(1)}. 

v(x) := A − Be λx , A,B > 0 

Lv(x) = −Be λx {c(x) + b(x)λ − λ 2 } + c(x)A 

≥ Be λx {λ 2 − λb(x) − c(x)} ≥ B. 

L(v ± u)(x) ≥ B ± f(x) ≥ B − f C[0,1] = 0. 

(v ± u)(x) = A − Be λx ± u(x) ≥ A − Be λ − max {u(0),u(1)} = 0, 

sofern A := max {u(0),u(1)} + Be λ . Wegen L(v ± u) ≥ 0 in (0,1) und v ± u ≥ 0 für die 

Randpunkte x = 0 und x = 1 erhalten wir nach dem Lemma 6.9 

d.h. 

(v ± u)(x) ≥ 0, x ∈ (0,1), 

|u(x)| ≤ v(x) ≤ A − B 

≤ max {u(0),u(1)} + B(e λ − 1) 

≤ max {u(0),u(1)} + (e λ − 1)f C[0,1]. 

Das ist die Behauptung. ✷ 

Beweis von Satz 6.8 (ii): Die Aussage des Satzes 6.10 impliziert nun die Eindeutigkeit der 

Lösung, d.h. die Aussage von Satz 6.8 (ii). ✷ 

6.4 Exkurs: Klassische Lösungen elliptischer RWP 

Man kann viele Aussagen für Zweipunkt-RWP übertragen auf lineare elliptische Differentialgleichungen 

2. Ordnung 

(Lu)(x) := − 

n ∂2u (x) + 

∂x 

i=1 

2 i 

n 

j=1 

bj(x) ∂u 

(x) + c(x)u(x) = f(x), x ∈ Ω (6.11) 

∂xj 

bei gegebenen Funktionen bj,c,f : Ω → R, j = 1,...,n in einem beschränkten Gebiet Ω ⊂ R n . 

Einfachster und zugleich wichtiger Spezialfall von (6.11) ist die Poisson-Gleichung 

− 

n ∂2u (x) = f(x), x ∈ Ω. (6.12) 

∂x 

i=1 

2 i

6.4. EXKURS: KLASSISCHE LÖSUNGEN ELLIPTISCHER RWP 63 

Bei gegebener Funktion g : ∂Ω → R betrachten wir das Dirichletsche RWP 

(Lu)(x) = f(x), x ∈ Ω; u(x) = g(x), x ∈ ∂Ω. (6.13) 

Für die nachfolgenden Ausführungen benötigen wir den Begriff Hölder-Stetigkeit. Seien 0 ≤ s ≤ 1 

und m ∈ N0. Dann istr Hölder-Raum C m;s (Ω) die Menge der Funktionen aus C m (Ω) mit 

u C m;s (Ω) := u C m (Ω) + 

|α|=m 

|D 

sup 

x,y∈ Ω 

x=y 

αu(x) − Dαu(y)| |x − y| s < ∞. (6.14) 

Man sagt, dass der Gebietsrand ∂Ω zur Klasse C m,s gehört, falls eine endliche offene Überdeckung 

des Randes lokal mittels Funktionen aus der Klasse C m,s beschrieben werden kann. 

Definition 6.11. Für ein beschränktes Gebiet Ω ⊂ R n der Klasse C 2;s mit s ∈ (0,1] und 

hinreichend glatte Daten gemäß 

bj,c,f ∈ C 0;s (Ω), i,j = 1,...,n; ∃˜g ∈ C 2;s (Ω) : ˜g|∂Ω = g (6.15) 

heißt u ∈ C 2;s (Ω) klassische Lösung des Dirichletschen Randwertproblems (6.13) genau dann, 

wenn die Gleichungen (6.13) punktweise auf Ω bzw. ∂Ω erfüllt sind. 

Es kann gezeigt werden, daß der (gegenüber Definition 6.11) abgeschwächte klassische Lösungsbegriff 

u ∈ C 2 (Ω) ∩ C(Ω) nicht für eine geeignete Lösbarkeitstheorie für das Randwertproblem 

(6.13) ausreichend ist. Von Schauder stammt eine entsprechende Existenztheorie in Hölder- 

Räumen C 2;s (Ω) mit s ∈ (0,1). Insbesondere gilt folgender Alternativsatz, den wir bereits für 

den eindimensionalen Fall in Kapitel 1 besprochen hatten. 

Satz 6.12. Unter den Voraussetzungen der Definition 6.11 gilt für die Lösbarkeit des Randwertproblems 

(6.13) die folgende Fredholm-Alternative: Es gilt genau einer der Fälle (i) oder (ii). 

(i) Das homogene RWP 

(Lu)(x) = 0 in Ω; u(x) = 0 auf ∂Ω 

hat nur die triviale Lösung. Dann besitzt das inhomogene RWP 

(Lu)(x) = f(x) in Ω; u(x) = g(x) auf ∂Ω 

eine und nur eine klassische Lösung u ∈ C 2;s (Ω) für beliebige Daten f und g gemäß (6.15). 

(ii) Das homogene Problem hat nichttriviale Lösungen, die einen endlichdimensionalen Teilraum 

von C 2;s (Ω) bilden. 

Wir suchen nun (wie bereits im eindimensionalen Fall in Abschnitt 6.3) nach hinreichenden Bedingungen 

für die Eindeutigkeit der Lösung des Randwertproblems (6.13) oder alternativ dafür, 

daß das entsprechende homogene Problem nur die triviale Lösung besitzt. Dazu kann man den 

folgenden Vergleichssatz benutzen, der aus dem Maximum-Prinzip folgt. 

Satz 6.13. Sei Ω ⊂ R n ein beschränktes Gebiet mit mindestens Lipschitz-stetigem Rand. Der 

Differentialoperator L aus (6.13) sei gleichmäßig elliptisch, ferner sei c(x) ≥ 0. Für zwei Funktionen 

U,V ∈ C 2 (Ω) ∩ C(Ω) gelte 

(LU)(x) ≤ (LV )(x) ∀x ∈ Ω 

U(x) ≤ V (x) ∀x ∈ ∂Ω.


Dann folgt U(x) ≤ V (x) für alle Punkte x ∈ Ω. 

Beweis: Folgerung aus nachstehendem Maximum-Minimum Prinzip. 

Für die Daten des Operators L seien die Voraussetzungen von Satz 6.14 erfüllt. Für die Funktion 

u ∈ C 2 (Ω) ∩ C(Ω) gelten dann folgende Aussagen: 

(i) Aus (Lu)(x) ≤ 0 folgt u(x) ≤ max{0;maxx∈∂Ω u(x)}. 

(ii) Aus (Lu)(x) ≥ 0 folgt u(x) ≥ min{0;minx∈∂Ω u(x)}. 

(Beweis: vgl. Übungsaufgabe - erfolgt analog zum eindimensionalen Fall) ✷ 

Als Folgerung ergibt sich die gesuchte Existenzaussage. 

Folgerung 6.14. Unter den Voraussetzungen der Definition 6.11 und des Satzes 6.13 gibt es 

eine und nur eine klassische Lösung des RWP (6.13).

Kapitel 7 

Finite-Differenzen-Verfahren 

Im vorliegenden Kapitel besprechen wir das klassische Finite Differenzen Verfahren (FDM) 

zur Lösung von Zweipunkt-Randwertaufgaben. Bei der Finite-Differenzen Methode ersetzt man 

Ableitungen in der Differentialgleichung durch Differenzenquotienten. Dies führt dann zu einem 

linearen Gleichungssystem für Näherungswerte u∆ an die gesuchten Werte u der Lösung in 

vorgegebenen Knotenpunkten. 

7.1 Definition der klassischen FDM 

Ausgangspunkt ist das lineare Randwertproblem (RWP) 

−u ′′ (x) + b(x)u ′ (x) + c(x)u(x) = f(x), 0 < x < 1 (7.1) 

u(0) = u(1) = 0. (7.2) 

Wir betrachten vereinfachend eine äquidistante Zerlegung ∆ := {xi = ih, i = 0,...,n + 1} mit 

der Schrittweite h = 1 

n+1 , n ∈ N. Zur Approximation der ersten Ableitung u′ (xi) betrachten wir 

drei Varianten, die auf dem sogenannten Dreipunktestern {xi−1,xi,xi+1} basieren. 

• Vorwärtsdifferenzen-Quotient: D + u(xi) := u(xi+1)−u(xi) 

h 

• Rückwärtsdifferenzen-Quotient: D − u(xi) := u(xi)−u(xi−1) 

h 

• Zentraler Differenzen-Quotient: D 0 u(xi) := u(xi+1)−u(xi−1) 

2h 

Zur Approximation von u ′′ (xi) nutzen wir den zentralen Differenzenquotienten 2. Ordnung 

D + D − u(xi) := u(xi+1) − 2u(xi) + u(xi−1) 

h2 . 

Für die Näherungswerte u∆(xi) an die gesuchten Lösungswerte u(xi) in den Knotenpunkten xi 

erhalten wir bei Approximation der ersten und zweiten Ableitungen in der Differentialgleichung 

(7.1) durch die zentralen Differenzenquotienten 1. bzw. 2. Ordnung das System 

− u∆(xi+1) − 2u∆(xi) + u∆(xi−1) 

h 2 

Mit der Notation 

+ b(xi) u∆(xi+1) − u∆(xi−1) 

2h 

ui := u∆(xi); bi := b(xi), ci := c(xi), fi := f(xi) 

65 

+ c(xi)u∆(xi) = f(xi)

66 KAPITEL 7. FINITE-DIFFERENZEN-VERFAHREN 

erhalten wir das System von Differenzengleichungen 

1 

h2 

− 1 + bih 

 

ui−1 + 

2 

2 + cih 2 

ui − 1 − bih 

 

2 

ui+1 

Hinzu kommen wegen der Randbedingungen (7.2) die Forderungen 

 

= fi, i = 1,...,n. (7.3) 

u0 = un+1 = 0. (7.4) 

Mit den Bezeichnungen 

A := 1 

h2tridiag 

− 1 + bih 

 

;(2 + cih 

2 

2 

); − 1 − bih 

 

2 

und U = (u1,...,un) T ,F = (f1,...,fn) T ergibt sich aus (7.3), (7.4) das lineare Gleichungssystem 

AU = F. (7.5) 

Bemerkung 7.1. Im Fall inhomogener Randbedingungen 1. Art u(0) = α,u(1) = β setzt man 

u0 = α,un+1 = β und bringt die entsprechenden Matrixeinträge 1 

h2 

1 + b1h 

 

2 α für i = 1 und 

1 

h2 

bnh 1 − 2 β für i = n auf die rechte Seite. 

Die Diskretisierung von Randbedingungen 2. und 3. Art behandeln wir in den Übungen. ✷ 

Von Interesse sind nun folgende Fragen: 

• Lösbarkeit des diskreten Problems (7.5) 

• Konvergenz der Lösung von (7.5) für h → 0 gegen die Lösung des Zweipunkt-RWP 

(7.1),(7.2). 

7.2 Lösung des diskreten Problems 

Eine hinreichende Lösbarkeitsbedingung für das diskrete Problem (7.5) gibt 

Satz 7.2. Für das Problem (7.1),(7.2) gelte 

ci = c(xi) ≥ 0, 

 

 

 

bih 

 

2 ≤ 1, i = 1,...,n. (7.6) 

Dann hat das zugehörige klassische Finite-Differenzen Schema (7.3),(7.4) bzw. (7.5) eine und 

nur eine Lösung U = (u1,....,un) T . 

Bemerkung 7.3. Für bi = 0 ergibt Bedingung (7.6) eine Schrittweitenbeschränkung h ≤ h0. 

Wir kommen auf dieses Problem in Abschnitt 7.3 zurück. ✷ 

Beweis von Satz 7.2: Die Matrix A ist unter Voraussetzung (7.6) schwach diagonal-dominant, 

denn: 

|aii| := |2 + cih 2 | ≥ 

 

 

|aij| := 

bih 

1 + 

2 + 

 

 

 

bih 

1 − 

2 = 2, i = 1,... ,n. 

j=i 

Ferner ist A irreduzibel. Dies impliziert die Invertierbarkeit von A und damit die eindeutige 

Lösbarkeit des Systems (7.5). ✷ 

Unter den Voraussetzungen von Satz 7.2 ist das diskrete Problem durch die einfachsten iterativen 

Verfahren (wie Gesamt- und Einzelschritt Verfahren, SOR) lösbar. Ein derartiger Zugang

7.2. LÖSUNG DES DISKRETEN PROBLEMS 67 

ist auch beim allgemeineren Problem von Randwertaufgaben bei partiellen Differentialgleichungen 

für die dort entstehenden sehr großen und schwachbesetzten linearen Gleichungssysteme 

erforderlich. Aufgrund der sehr speziellen Tridiagonalstruktur der Matrix A erweist sich aber 

hier die direkte Lösung mittels LU−Zerlegung als wesentlich efffizienter. Wir betrachten dazu 

allgemeiner Tridiagonalmatrizen 

Für die LU−Zerlegung setzen wir an 

A = tridiag (bi,ai,ci) ∈ R n×n , b1 = cn = 0. 

A = LU, L = tridiag(bi;αi;0) ∈ R n×n , U = tridiag(0;1;γi) ∈ R n×n . 

Ausmultiplizieren auf der Hauptdiagonalen ergibt die Beziehungen 

auf der oberen Nebendiagonalen entsteht 

a1 = α1; ai = αi + biγi−1, i = 2,...,n, 

ci = γiαi, i = 1,...,n − 1. 

Dies ermöglicht eine rekursive Berechnung der Größen αi und γi über 

α1 = a1; γi−1 = ci−1 

, αi = ai − biγi−1, i = 2,...,n. 

αi−1 

Die Realisierbarkeit dieses Verfahrens ist bei αi = 0, i = 1,...,n gesichert (siehe unten). 

Wir erhalten damit den folgenden Thomas-Algorithmus: 

1. LU−Zerlegung von A, d.h. Bestimmung von αi,γi 

2. Löse das gestaffelte System Lz = F durch Vorwärtseinsetzen 

z1 = f1 

α1 , zi = 1 

αi (fi − bizi−1), i = 2,...,n 

3. Löse das gestaffelte System Uu = z durch Rückwärtseinsetzen 

un = zn, ui = zi − γiui+1, i = n − 1,...,1. 

Eine hinreichende Lösbarkeitsbedingung liefert das 

Lemma 7.4. Für die Matrix A = tridiag (bi,ai,ci) ∈ R n×n gelte 

|a1| > |c1| > 0; |an| > |cn| > 0; 

|ai| ≥ |bi| + |ci| > 0, bici = 0, i = 2,...,n − 1. (7.7) 

Dann ist die Matrix A nichtsingulär und für die Koeffizienten der LU−Zerlegung gilt 

|γi| < 1, i = 1,...,n − 1; αi = 0, i = 1,...,n. 

Beweis: vgl. Kurs Numerische Mathematik I , Lemma 2.18 ✷ 

Bemerkung 7.5. Für den Thomas-Algorithmus benötigt man 0(n) wesentliche Operationen, 

d.h. der Rechenaufwand ist asymptotisch für n → ∞ optimal. ✷


7.3 Stabilitäts- und Konvergenzanalyse 

Wir führen hier die für die Fehleranalyse des Verfahrens wesentlichen Begriffe ein. Sie sind so 

allgemein gehalten, daß sich die Analyse auf allgemeinere Diskretisierungsverfahren für Randwertaufgaben 

übertragen läßt. 

Seien ∆ := {x1,...,xn} die inneren Knotenpunkte im Intervall (0,1) und γ := ∆\∆ = {x0,xn+1} 

die Randpunkte. Rhv bezeichne die Einschränkung von v ∈ C[0,1] auf ∆ und L den Differentialoperator 

des Randwertproblems. u bzw. U sind die Lösung des Randwertproblems bzw. des 

diskreten Problems. Dann gilt für den Diskretisierungsfehler Rhu − U 

A(Rhu − U) = ARhu − AU = ARhu − F = ARhu − RhLu. 

Der letzte Term wird auch als Defekt bezeichnet. 

Zur Fehlerabschätzung sind nun sowohl eine Abschätzung des Defekts nach oben (Konsistenzanalyse) 

als auch eine Abschätzung des links stehenden Terms nach unten (Stabilitätsanalyse) in 

einer geeigneten Norm erforderlich. Bei unseren Untersuchungen verwenden wir die Maximum- 

Norm 

V ∞,∆ := max 

i=1,...,n |vi| für V = (v1,...,vn) T . 

Dies führt auf die 

Definition 7.6. (i) Eine FDM heißt konsistent in der Maximum–Norm , falls 

lim 

h→0 ARhu − RhLu∞,∆ = 0. 

(ii) Die FDM hat die Konsistenzordnung p, falls mit einer von h unabhängigen Konstanten 

CK > 0 gilt 

ARhu − RhLu∞,∆ ≤ CKh p . 

Der Konsistenzbegriff beschreibt, wie gut der Differentialoperator durch das Differenzenverfahren 

approximiert wird. 

Definition 7.7. Eine FDM heißt stabil in der Maximum-Norm, falls für den Vektor W aus 

AW = F in ∆, W = 0 in γ 

die Existenz einer von h unabhängigen Konstanten CS folgt mit 

W ∞,∆ = A −1 F ∞,∆ ≤ CSF ∞,∆. 

Definition 7.8. (i) Eine FDM heißt konvergent in der Maximum-Norm , falls 

lim 

h→0 Rhu − U∞,∆ = 0. 

(ii) Die FDM hat die Konvergenzordnung p, falls mit einer von h unabhängigen Konstanten 

M > 0 gilt 

Rhu − U∞,∆ ≤ Mh p . 

Wir beginnen mit der Analyse des Konsistenzfehlers: 

Die Abschätzung des Konsistenzfehlers der klassischen FDM (7.3),(7.4) für das Zweipunkt-RWP 

(7.1),(7.2) erfolgt mittels des Taylorschen Satzes. Zunächst betrachten wir die Genauigkeit der

7.3. STABILITÄTS- UND KONVERGENZANALYSE 69 

Approximation der auftretenden Ableitungen durch zentrale Differenzenquotienten. 

Lemma 7.9. Es gilt 

bzw. 

(i) (D 0 u)(x) = u ′ (x) + h 2 R, |R| ≤ 1 

6 u(3) C[0,1], falls u ∈ C 3 [0,1] 

(ii) (D + D − u)(x) = u ′′ (x) + h 2 R, |R| ≤ 1 

12 u(4) C[0,1], falls u ∈ C 4 [0,1]. 

Beweis: Aus der Taylor-Entwicklung an der Stelle x folgt 

mit 

u(x ± h) = u(x) ± hu ′ (x) + h 2u′′ (x) 

2 ± h3 R ± 3 

u(x ± h) = u(x) ± hu ′ (x) + h 2u′′ (x) 

2 ± h3u(3) (x) 

+ h 

6 

4 R ± 4 

R ± 3 

R ± 4 

= 1 

h 3 

= 1 

h 4 

Dann ergibt sich die Aussage (i) aus 

(D 0 u)(x) = 

x±h 

x 

x±h 

x 

u ′′ (t) − u ′′ (x) (x ± h − t)dt 

 

u (3) (t) − u (3) 

(x ± h − t) 2 

(x) dt. 

2 

u(x + h) − u(x − h) 

2h 

= u ′ (x) + h 2 R + 3 − R− 

3 

und einer Abschätzung der Restglied–Differenz. Aussage (ii) beweist man analog. ✷ 

Damit finden wir 

Lemma 7.10. Unter der Voraussetzung u ∈ C 4 [0,1] an die Lösung des RWP (7.1),(7.2) hat 

die FDM (7.3),(7.4) die Konsistenzordnung 2. 

Beweis: Aus (7.3),(7.4) bzw. (7.1),(7.2) haben wir unter Beachtung der eingeführten Bezeichnungen 

Lemma 7.9 ergibt daraus 

(ARhu − RhLu)(xi) = −D + D − u(xi) + biD 0 u(xi) + ciu(xi) 

− −u ′′ (xi) + biu ′ (xi) + ciu(xi) . 

|(ARhu − RhLu)(x)| ≤ 1 

12 h2 u (4) C[0,1] + 1 

6 h2 b C[0,1]u (3) C[0,1], x ∈ ∆. 

Maximumbildung über alle Gitterpunkte xi liefert die Behauptung. ✷ 

Bemerkung 7.11. Die Voraussetzung an die Lösung u des RWP ist in der Regel nicht realistisch. 

Eine sorgfältige Abschätzung zeigt 

 

Chα , u ∈ C2;α [0,1] 

ARhu − RhLu∞,∆ ≤ 

Ch1+α , u ∈ C3;α [0,1]


mit 0 ≤ α ≤ 1 und den Hölder–Räumen 

 

C k;α [0,1] := 

v ∈ C k [0,1] : sup 

x,y∈0,1);x=y 

|v (k) (x) − v (k) (y)| 

x − y α 

< ∞ 

 

. ✷ 

Wir kommen nun zur Stabilitätsanalyse der klassischen FDM: Die oben angegebene Stabilitätsdefinition 

ist äquivalent zu 

A −1 ∞ ≤ CS mit B∞ := max 

i=1,...,n 

j=1 

n 

|bij|. 

Bei den weiteren Untersuchungen nutzen wir die Halbordnungsrelation x ≥ 0 für Vektoren x, 

falls komponentenweise gilt xi ≥ 0. Entsprechend gilt x ≥ y, falls x − y ≥ 0. Ferner schreiben 

wir für Matrizen A ≥ 0, falls komponentenweise gilt aij ≥ 0. 

Definition 7.12. Eine Matrix A heißt inversmonoton, falls aus der Halbordnungsrelation 

Ax ≤ Ay auch x ≤ y folgt. 

Zur Inversmonotonie von A ist die Existenz von A −1 mit A −1 ≥ 0 äquivalent. 

Lemma 7.13. Unter den Voraussetzungen von Satz 7.2 ist A inversmonoton, d.h. A −1 ≥ 0. 

Beweis: Wir betrachten die iterative Lösung des linearen Gleichungssystems Az = r mit 

dem Gesamtschritt- oder Jacobi-Verfahren. Aus der Zerlegung A = D + AL + AR mit der 

Diagonalmatrix D und den strikten unteren bzw. oberen Dreiecksmatrizen AL und AR ergibt 

sich die Iteration 

zm+1 = −D −1 (AL + AR)zm + D −1 r, m = 0,1,.... (7.8) 

Das Jacobi-Verfahren konvergiert unter den Voraussetzungen des Satzes 7.2, denn die Matrix A 

ist sowohl schwach diagonaldominant als auch irreduzibel. Man vergleiche hierzu die Ergebnisse 

von Kapitel 5 aus dem Kurs Numerische Mathematik I. 

Für die Spalten der inversen Matrix A −1 = (a1,...,an) gilt Aai = ei, i = 1,...,n mit den 

kartesischen Einheitsvektoren ei. Damit entsteht ai als Grenzelement der Iteration (7.8) mit 

r = ei und dem Startvektor z0 = 0. 

Nach den Voraussetzungen von Satz 7.2 sind die Elemente von D −1 und −D −1 (AL + AR) 

nichtnegativ. Daraus folgt die Aussage A −1 ≥ 0. ✷ 

Nun besteht das Ziel darin, die Stabilitätskonstante CS abzuschätzen. Wir nutzen dazu das 

Lemma 7.14. (M-Kriterium) 

Sei A ∈ R n×n L−Matrix, d.h. gelte aij ≤ 0,i = j. Dann ist A inversmonoton genau dann, wenn 

ein (majorisierender) Vektor e > 0 existiert mit Ae > 0. Ferner gilt dann die Abschätzung 

A −1 ∞ ≤ 

e 

. 

mink(Ae)k 

Beweis: (i) Sei A inversmonoton. Dann wähle man e = A −1 (1,... ,1) T . 

(ii) Übungsaufgabe ! ✷ 

Die gesuchte Abschätzung der Stabilitätskonstanten CS gelingt nun bei geeigneter Wahl eines 

majorisierenden Vektors e zur Matrix A gemäß Lemma 7.14.

7.3. STABILITÄTS- UND KONVERGENZANALYSE 71 

u(x) 

1.6 

1.4 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

−0.2 

Loesung 

h=0.2 

h=0.1 

h=0.01 

h=0.001 

−0.4 

0 0.1 0.2 0.3 0.4 0.5 

x 

0.6 0.7 0.8 0.9 1 

Abbildung 7.1: Lösung von −u ′′ (x) + 100u ′ (x) = 100 für h = 0.2, 0.1, 0.01 und h = 0.001 

Lemma 7.15. 

(i) Unter der Voraussetzung c(x) ≥ c ∗ > 0 gilt 

A −1 ∞ ≤ 

1 

 

mink akk − 

j=k |ajk| 

. 

(ii) Bei c(x) ≥ 0 existiert eine Konstante CS > 0 (vgl. Beweis) mit 

A −1 ∞ ≤ CS. 

Beweis: (i) Bei c(x) ≥ c ∗ > 0 ist A streng diagonaldominant. Die Behauptung folgt aus 

Lemma 7.14 mit e = (1,1,...,1) T . 

(ii) Sei E(x) Lösung des RWP 

−E ′′ (x) + b(x)E ′ (x) = 1, 0 < x < 1; E(0) = E(1) = 0. 

Aus dem Maximumprinzip (vgl. Lemma 6.9) folgt E(x) > 0, 0 < x < 1. Ferner ist nach 

Konstruktion (LE)(x) ≥ 1, 0 < x < 1. Nun wählen wir den Vektor 

e := RhE = (e(x1),...,e(xn)) T . 

Aus Konsistenzgründen ist Ae ≥ 1 

2 für h ≤ ˜ h0, denn in der Darstellung 

Ae = ARhE = (ARh − RhL)E + RhLE 

konvergiert der erste Term der rechten Seite nach Lemma 7.10 gegen 0. Für den zweiten Term 

ist RhLE ≥ 1. Die Behauptung folgt dann nach Anwendung von Lemma 7.14. ✷ 

Beispiel 7.16. Die Abbildung 7.3 zeigt die diskrete Lösung des RWP 

−u ′′ (x) + 100u ′ (x) = 100, 0 < x < 1; u(0) = u(1) = 0 

mit der klassischen FDM auf einem äquidistanten Gitter mit h = 0.2, 0.1, 0.01 und h = 0.001 

bei linearer Interpolation. Man erkennt Oszillationen der diskreten Lösungen für die groben Gitterweiten 

h = 0.2 und h = 0.1, offenbar ist das Maximumprinzip im diskreten Fall nicht erfüllt. 

Für die feineren h-Werte wird die exakte Lösung gut approximiert. Im Fall der Oszillationen


u(x) 

0.25 

0.2 

0.15 

0.1 

0.05 

Loesung 

h=0.2 

h=0.1 

h=0.01 

h=0.001 

0 

0 0.1 0.2 0.3 0.4 0.5 

x 

0.6 0.7 0.8 0.9 1 

Abbildung 7.2: FDM-Lösung zu Beispiel 7.18 bei h = 1 1 1 

2 , 10 , 100 , 1 

1000 

ist die Bedingung 1 

2 h|bi| ≤ 1 aus Satz 7.2 nicht erfüllt; insofern ist diese Bedingung scharf (vgl. 

auch Übungsaufgabe, Blatt 7). ✷ 

Wir kombinieren die Ergebnisse zum folgenden Konvergenzsatz. 

Satz 7.17. Unter den Voraussetzungen von Satz 7.2 liege die Lösung u des RWP (7.1),(7.2) in 

C 4 [0,1]. Ferner sei eventuell h hinreichend klein. Dann gilt für den Diskretisierungsfehler der 

klassischen FDM (7.3),(7.4) 

Rhu − U∞,∆ = max |u(xi) − ui| ≤ Mh 

i 

2 , 

d.h. das Verfahren hat die Konvergenzordnung 2. 

Beweis: Nach Konstruktion ist Rhu − U = 0 auf γh. Nach Lemma 7.10 ist ferner 

Mittels Lemma 7.15 folgt 

ARhu − RhLu∞,∆ ≤ CKh 2 . 

C −1 

S Rhu − U∞,∆ ≤ ARhu − RhLu∞,∆ ≤ CKh 2 

und damit die Konvergenzaussage mit M = CSCK. ✷ 

Beispiel 7.18. Die Abbildung 7.2 zeigt die diskrete Lösung des RWP 

−u ′′ (x) + sin(πx)u(x) = 2 + sin(πx)x(1 − x), 0 < x < 1; u(0) = u(1) = 0 

mittels klassischer FDM auf einem äquidistanten Gitter mit den Schrittweiten h = 0.2, 0.1, 0.01 

und h = 0.0001. Die Knotenwerte wurden linear interpoliert. Man erkennt die Konvergenz der 

diskreten Lösung für h → 0. 

7.4 Exkurs: Finite-Differenzen-Methode für Poisson-Problem 

Wir wollen nun die numerische Lösung von Zweipunkt-RWP im eindimensionalen Fall auf 

mehrdimensionale Probleme erweitern. Vereinfachend betrachten wir auf dem Einheitsquadrat 

Ω = (0,1) × (0,1) das Dirichletsche RWP der Poisson-Gleichung, d.h. 

 

∂2u −(∆u)(x1,x2) := − + ∂2 

u 

= f(x1,x2), (x1,x2) ∈ Ω (7.9) 

∂x 2 1 

∂x 2 2 

u(x1,x2) = g(x1,x2), (x1,x2) ∈ ∂Ω. (7.10)

7.4. EXKURS: FINITE-DIFFERENZEN-METHODE FÜR POISSON-PROBLEM 73 

Zur Definition des klassischen Differenzen-Verfahrens (FDM) definieren wir mit der (vereinfa- 

, N ∈ N die Menge der Gitterpunkte 

chend) äquidistanten Schrittweite h = 1 

N 

Zh := {(x1,x2) : x1 = z1h,x2 = z2h, z1,z2 ganz}. 

Die Menge der inneren Gitterpunkte sei ωh := Zh ∩Ω, die Menge der Randgitterpunkte entsprechend 

γh := Zh ∩ ∂Ω. 

Wir approximieren die zweiten partiellen Ableitungen in x1− bzw. x2-Richtung wie im eindimensionalen 

Fall durch den zentralen Differenzenquotienten 2. Ordnung, d.h. 

(∆hu)(x1,x2) := 1 

h 2 ({u(x1 + h,x2) − 2u(x1,x2) + u(x1 − h,x2)} 

+ {u(x1,x2 + h) − 2u(x1,x2) + u(x1,x2 − h)}) . (7.11) 

Man spricht auch von einem sogenannten Fünfpunkte-Stern. Bezeichne wie im eindimensionalen 

Fall Rhv die Einschränkung einer Funktion v : Ω → R auf das Gitter ωh∪γh. Ferner sei der Vektor 

U = (Ui) M i=1 die durch die FDM erzeugte Näherung an die Werte Rhu der gesuchten stetigen 

Lösung auf dem Gitter. Dann lautet das dem 1. RWP der Poisson-Gleichung zugeordnete lineare 

Gleichungssystem 

−∆hU = Rhf in ωh (7.12) 

U = Rhg in γh. (7.13) 

Im Fall Dirichletscher Randbedingungen kann man die Randwerte U = Rhg eliminieren. Die 

konkrete Gestalt des linearen Gleichungssystems hängt dann von der Numerierung der Gitterpunkte 

in ωh ab. Der einfachste Fall entsteht bei lexikographischer Anordnung gemäß 

(h,h), (2h,h), ..., (1 − h,h) 

(h,2h), (2h,2h), ..., (1 − h,2h) 

., ., ., ., 

(h,1 − h), (2h,1 − h), ..., (1 − h,1 − h) 

und Numerierung der Unbekannten in den Gitterpunkten auf ωh gemäß 

Mit der Tridagonal-Matrix 

U1,...,UN−1,UN,...,U2N−2,U2N−1....,U3N−3,...,U (N−1)(N−1). 

T = tridiag (−1, 4, −1) ∈ R (N−1)×(N−1) 

und der Einheitsmatrix I ∈ R (N−1)×(N−1) hat die entstehende Systemmatrix die Blocktridiagonal- 

Gestalt 

A = 1 

h2tridiag(−I, T, −I) ∈ R(N−1)2 ×(N−1) 2 

. (7.14) 

Man charakterisiert Differenzenverfahren auf regelmäßigen Gittern oft durch Differenzensterne 

bezüglich eines Gitterpunktes (x1,x2). Im allgemeinen Fall entsteht als Approximation des 

Differentialoperators bei geeigneten Größen cij das Schema 

 

cijU(x1 + ih,x2 + jh). 

i,j


Für den Fall |i|, |j| ≤ 1 spricht man von kompakten Differenzen-Sternen. Der allgemeinste Fall 

ist dabei dann ein Neunpunkte-Stern. Der oben genannte Fünfpunkte-Stern ist ein Spezialfall. 

Man kann die FDM auf allgemeineren Gebieten als dem hier betrachteten Einheitsquadrat erzeugen. 

Man überzieht den R 2 erneut mit dem Gitter Zh und verfährt in inneren Gitterpunkten 

Zh ∩ Ω wie oben beschrieben. Die Approximation in den randnahen Gitterpunkten erfordert 

jedoch eine gesonderte Behandlung. 

Wir analysieren nun exemplarisch die gerade eingeführte klassische FDM für das 1. RWP des 

Poisson-Problems (7.9),(7.10) auf dem Einheitsquadrat. Dabei benutzen wir die zuvor eingeführten 

Grundbegriffe Konsistenz, Stabilität und Konvergenz wieder bezüglich der Maximum-Norm. 

Lemma 7.19. Die klassische Lösung des Problems (7.9),(7.10) liege in C 4 (Ω). Dann gilt für 

den Konsistenzfehler der klassischen FDM (7.12),(7.13) 

ARhu − RhLu∞,ωh 

≤ 1 

6 h2 u C 4 (Ω) . (7.15) 

Beweis: vgl. Übungsaufgabe ✷ 

Lemma 7.20. Die klassische FDM (7.12),(7.13) für das Problem (7.9),(7.10) ist bezüglich der 

Maximum-Norm stabil. Es gilt 

A −1 ∞ ≤ CS = 1 

. (7.16) 

8 

Beweis: Wir betrachten (ohne Beschränkung der Allgemeinheit) die bei lexikographischer 

Anordnung der inneren Gitterpunkte entstehende Matrix A aus (7.14). A = (aij) ist eine 

L0−Matrix, denn es gilt aii > 0 sowie aij < 0 für i = j. Ferner prüft man sofort nach, daß 

die Matrix schwach diagonaldominant und irreduzibel ist. Damit ist A M−Matrix, daher kann 

das M−Kriterium angewendet werden. 

Wir nehmen vereinfachend an, daß der Punkt ( 1 

1 

2 , 2 ) zum Gitter ωh gehört. Für das Polynom 

e∗ (x1,x2) := x1(1−x1)+x2(1−x2) gilt offenbar sowohl e∗ > 0 als auch −∆e∗ = 4. Für e := Rhe∗ gilt −∆he = 4, da quadratische Polynome durch den Fünfpunkte-Stern exakt diskretisiert werden. 

Wegen e∞,ωh folgt nach dem M−Kriterium die gesuchte Aussage. ✷ 

≤ 1 

2 

Beide Lemmata ergeben dann die gewünschte Konvergenzaussage 

Satz 7.21. Die klassische FDM (7.12),(7.13) für das Problem (7.9),(7.10) ist unter der Regularitätsvoraussetzung 

u ∈ C 4 (Ω) bezüglich der Maximum-Norm konvergent. Es gilt 

Rhu − U∞,ωh 

≤ 1 

48 h2 u C 4 (Ω) . (7.17) 

Zur Illustration dieser Untersuchungen betrachten wir die folgenden Beispiele. Die Rechnungen 

wurden dazu mit einem in MATLAB erstellten Finite-Differenzen-Programm durchgeführt. 

Beispiel 7.22. Wir betrachten das Problem (7.9)- (7.10) mit f(x1,x2) = 4sin 2πx1 sin πx2 und 

g(x1,x2) = 0. Die Lösung u(x1,x2) = sin2πx1 sin πx2 entspricht damit gerade einer Eigenfunktion 

des Laplace-Operators mit homogenen Dirichlet-Bedingungen. Die Abbildung 7.3 zeigt die 

Lösung und den Fehler des Finite-Differenzen-Schemas bei grober äquidistanter Schrittweite 

h = 0.1. Ferner wird der Fehler in der Maximum-Norm in zwei Diagrammen dokumentiert. In 

der halblogarithmischen Darstellung erkennt man sehr gut die in Satz 7.21 ermittelte quadratische 

Konvergenzordnung. ✷ 

Beispiel 7.23. Wir ermitteln die Lösung von Problem (7.9) - (7.10) mit g(x1,x2) = 0 und der

7.4. EXKURS: FINITE-DIFFERENZEN-METHODE FÜR POISSON-PROBLEM 75 

|e| 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

u(x) 

Konvergenz in der Supremumsnorm 

0 

0 0.02 0.04 0.06 0.08 0.1 

h 

1 

0 

−1 

1 

0.5 

y 

Loesung fuer h=0.1 

0 

0 

x 

0.5 

1 

|e| 

e(x) 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

0.05 

−0.05 

1 

Konvergenz in der Supremumsnorm 

0 

0 0.002 0.004 0.006 0.008 0.01 

h 2 

0 

0.5 

y 

Fehler fuer h=0.1 

Abbildung 7.3: Lösungs- und Fehlerdarstellung zu Beispiel 7.22 für h = 0.1 

y 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

h=0.05 

0 

0 0.2 0.4 0.6 0.8 1 

x 

5 

4 

3 

2 

1 

0 

0 

x 10 −3 

0.5 

0 

h=0.05 

Abbildung 7.4: Lösungsdarstellung zu Beispiel 7.22 für h = 0.05 

u(x) 

x 

0 

1 0 

0.2 

x 

0.4 

0.6 

0.5 

1 

0.8 

y 

1


unstetigen Quellfunktion f mit f(x1,x2) = 1 in Ω0 := [0.6,0.65] × [0.6,0.65] und f(x1,x2) = 0 

in Ω \ Ω0. 

Die FDM-Lösung mit der äquidistanten Schrittweite h = 0.05 ist in Abbildung 7.4 zu sehen. 

Trotz der relativ groben Diskretisierung wird die korrekte Lösung qualitativ richtig widergespiegelt. 

Man kann die Lösung u als Temperatur interpretieren. Insbesondere erkennt man die Rolle 

des Laplace-Operators, der die im Teilgebiet Ω0 vorgegebene (unstetige) Wärmequelle diffusiv 

verteilt. ✷

Kapitel 8 

Ritz-Galerkin-Verfahren für RWP 

Im vorliegenden Kapitel schwächen wir den bisher verwendeten ”klassischen” Lösungsbegriff 

für Zweipunkt-Randwertaufgaben ab. Dies erlaubt zugleich einen natürlichen Zugang zu der 

Finite-Elemente Methode (FEM) und vereinfacht die Konvergenzanalyse. 

8.1 Variationsgleichungen 

Betrachtet wird die Zweipunkt-Randwertaufgabe 

−u ′′ (x) + b(x)u ′ (x) + c(x)u(x) = f(x), 0 < x < 1 (8.1) 

u(0) = u(1) = 0. (8.2) 

Zunächst streben wir eine Abschwächung des klassischen Lösungsbegriffs, d.h. von u ∈ C 2 (0,1)∩ 

C[0,1], an. Sei etwa b = c ≡ 0 sowie f ∈ C(0,1). Dann liegt die Lösung nicht in C 2 (0,1). 

Multiplikation von Gleichung (8.1) mit einer beliebigen Testfunktion 

und Integration über (0,1) ergibt 

v ∈ ˜ X := {w ∈ C 1 (0,1) ∩ C[0,1] : w(0) = w(1) = 0} (8.3) 

1 

0 

−u ′′ + bu ′ + cu v dx = 

1 

0 

fv dx. 

Partielle Integration des Terms − 1 

0 u′′ v dx liefert unter Beachtung der Randwerte v(0) = 

v(1) = 0 

1 

u ′ v ′ 1 

 

1 

′ 

dx + bu + cu v dx = fv dx ∀v ∈ ˜ X. (8.4) 

0 

0 

Klassische Lösungen u ∈ C 2 (0,1) ∩C[0,1] von (8.1),(8.2) lösen offenbar auch (8.4). Ebenso sind 

(bei hinreichend glatten Daten) nach Rückwärtsausführung der vorgenommenen Umformungen 

klassische Lösungen von (8.4) auch Lösungen von (8.1),(8.2). Offenbar reicht aber z.B. schon die 

Forderung u ∈ ˜ X für die Lösungen von (8.4) aus. Daher bezeichnet man die Aufgabe 

0 

Finde u ∈ ˜ X, so daß a(u,v) = f(v), ∀v ∈ ˜ X (8.5) 

77

78 KAPITEL 8. RITZ-GALERKIN-VERFAHREN FÜR RWP 

mit 

a(u,v) := 

f(v) := 

1 

u 

0 

′ v ′ 1 

dx + 

0 

1 

0 

bu ′ + cu v dx (8.6) 

fv dx (8.7) 

auch als verallgemeinerte Aufgabenstellung zu (8.1),(8.2) bzw. als zugehörige Variationsgleichung. 

Wir vertiefen diesen Gedanken im Abschnitt 8.2 weiter. Zuvor betrachten wir noch den Zusammenhang 

mit Variationsproblemen. Seien vereinfachend b(x) ≡ 0 und c(x) ≥ 0. Mit dem 

Funktional 

betrachten wir das Variationsproblem 

Dann gilt 

J(u) := 1 

a(u,u) − f(u) (8.8) 

2 

= 1 

1 

{(u 

2 

′ ) 2 + cu 2 1 

} dx − fu dx, u ∈ ˜ X 

0 

0 

Finde u ∈ ˜ X, so daß J(u) ≤ J(v), ∀v ∈ ˜ X. (8.9) 

Lemma 8.1. Notwendige Lösbarkeitsbedingung für das Variationsproblem (8.9) ist im Fall 

b(x) ≡ 0, c(x) ≥ 0 die Variationsgleichung (8.5). 

Beweis: Wir setzen für festes u,v ∈ ˜ X und t ∈ R 

Φ(t) := J(u + tv). 

Notwendige Minimumbedingung für die reellwertige Funktion Φ ist wegen 

dann 

J(u + tv) = 1 

2 

1 

{(u 

0 

′ + tv ′ ) 2 + c(u + tv) 2 1 

} dx − 

0 

1 

{2(u ′ + tv ′ )v ′ 1 

+ 2c(u + tv)v} dx |t=0 − 

0 

Φ ′ (0) = 1 

2 0 

= a(u,v) − f(v) = 0. ✷ 

f(u + tv) dx 

fv dx 

Bemerkung 8.2. Man kann zeigen, daß unter gewissen Glattheitsforderungen an die Daten 

(z.B. c,f ∈ C[0,1]) eine Lösung u ∈ ˜ X der Variationsgleichung (8.5) auch Minimum von (8.9) 

ist. ✷ 

Variationsprobleme treten sehr oft in Naturwissenschaften und Technik als bekannte Grundprinzipien 

(z.B. Prinzip der minimalen Energie usw.) auf und bilden einen wesentlichen Zugang zur 

mathematischen Modellierung realer Vorgänge. 

Es sei hervorgehoben, daß die Variationsgleichung (8.5) als verallgemeinerte Aufgabenstellung 

zu (8.1)-(8.2) auch im allgemeinen Fall sinnvoll bleibt, wenn nicht b(x) ≡ 0 gilt.

8.2. VERALLGEMEINERTE ABLEITUNGEN 79 

8.2 Verallgemeinerte Ableitungen 

Wir untersuchen jetzt Eigenschaften des Raumes ˜ X (vgl. (8.3)) in Verbindung mit der Sobolev- 

Norm 

1 

1 

′ 2 

uH1 := u (x) dx + [u(x)] 2 1/2 

dx . (8.10) 

0 

Der Raum { ˜ X; · H 1} ist offenbar normierter Raum, jedoch nicht vollständiger Raum (vgl. 

Übungsaufgabe), d.h. kein Banach-Raum. 

Die Norm (8.10) ist auch noch für meßbare Funktionen u,u ′ sinnvoll, die quadratisch über (0,1) 

im Lebesgue-Sinne integrierbar sind, d.h. für Funktionen im Lebesgue-Raum 

L 2 (0,1) := {v : (0,1) → R meßbar : 

0 

1 

0 

[v(x)] 2 dx < ∞}. (8.11) 

Im Hinblick auf die Näherungslösung von Zweipunkt-Randwertaufgaben mittels FEM ist eine 

weitere Abschwächung des klassischen Lösungsbegriffs sinnvoll. Wir wollen den entsprechenden 

Gedankengang hier nur skizzieren: 

Zunächst benötigen wir einige Begriffe. Es bezeichnet clV (A) den Abschluß der Teilmenge A von 

V in der Topologie des Raumes V. Dann heißt 

Träger von v ∈ C[0,1]. Sei 

supp v := clR{x ∈ (0,1) : v(x) = 0} 

C ∞ 0 (0,1) := {v ∈ C∞ (0,1) : supp v ⊂ (0,1)}, 

d.h. Elemente dieser Menge verschwinden von beliebiger Ordnung bei x = 0 und x = 1. Ferner 

sei 

 

|v(x)| dx < ∞ ∀A ⊂⊂ (0,1))}. 

L 1 loc (0,1) := {v : (0,1) → R meßbar : 

A ⊂⊂ B bedeutet dabei, daß A abgeschlossen ist und A ⊂ B gilt. 

Partielle Integration ergibt für u ∈ C 1 [0,1] und beliebige Testfunktionen v ∈ C ∞ 0 (0,1) 

1 

Nach der Hölder’schen Ungleichung 

 

1 

 

uv ′ 

 

dx 

= 

 

 

 

 

bzw. 

0 

1 

0 

0 

u ′ 

 

v dx 

= 

 

 

 

 

u ′ v dx = − 

supp v 

supp v 

A 

1 

0 

uv ′ 

 

dx 

≤ v′ 

C[0,1] u ′ 

 

v dx 

≤ v 

C[0,1] 

ergeben die Integrale in (8.12) noch Sinn für u,u ′ ∈ L 1 loc (0,1). 

uv ′ dx. (8.12) 

supp v 

supp v 

|u| dx 

|u ′ | dx 

Definition 8.3 w ∈ L1 loc (0,1) heißt verallgemeinerte erste Ableitung von u ∈ L1 loc (0,1), falls 

1 1 

wv dx = − uv 

0 

0 

′ dx, ∀v ∈ C ∞ 0 (0,1)


gilt. Man schreibt w = u ′ . 

Wir erklären nun 

Definition 8.4. Die Menge 

H 1 (0,1) := {v ∈ L 2 (0,1) : ∃v ′ ∈ L 2 (0,1)} 

heißt Sobolev-Raum der Funktionen mit verallgemeinerten und quadratisch auf (0,1) integrierbaren 

Ableitungen. Ferner ist 

H 1 0(0,1) := cl H 1 (0,1)C ∞ 0 (0,1). 

Bemerkung 8.5. Man kann zeigen, daß auch gilt 

Ohne Beweis zitieren wir 

H 1 (0,1) := cl H 1 (0,1)C ∞ (0,1). ✷ 

Satz 8.6. Die Räume {H 1 (0,1); · H 1 (0,1)} und {H 1 0 (0,1); · H 1 (0,1)} sind Hilbert-Räume 

mit dem Skalarprodukt 

(u,v) H 1 := 

1 

0 

uv dx + 

1 

u 

0 

′ v ′ dx. 

Offenbar ist X := H1 0 (0,1) der geeignete Funktionenraum, um eine verallgemeinerte Aufgabenstellung 

zu (8.1)-(8.2) bzw. zu (8.5)-(8.7) zu formulieren: 

Finde u ∈ H 1 0 (0,1) : a(u,v) = f(v) ∀v ∈ H1 0 (0,1). (8.13) 

Vertiefende Kenntnisse über die hier zum Teil nur heuristisch eingeführten Inhalte, insbesondere 

zur Existenz verallgemeinerter Lösungen (Satz von Lax-Milgram) kann man in einer Vorlesung 

über partielle Differentialgleichungen oder über Lineare Funktionalanalysis erwerben. 

8.3 Ritz-Galerkin Verfahren 

Im vorliegenden Kapitel führen wir Näherungsverfahren zur approximativen Lösung von Variationsgleichungen 

ein. Die Darstellung ist dabei zunächst möglichst allgemein gehalten. Erst im 

abschließenden Teil betrachten wir speziell eine Finite-Elemente-Methode (FEM) für Zweipunkt- 

Randwertaufgaben. 

Ausgangspunkt ist die Variationsgleichung 

Finde u ∈ X : a(u,v) = f(v) ∀v ∈ X (8.14) 

im Hilbert-Raum X. Dabei verwenden wir die im Kapitel vorne eingeführten Bezeichnungen 

und Voraussetzungen an die Bilinearform a(·, ·) sowie die Linearform f(·). 

Gesucht ist nun eine Näherung u n an die Lösung u von (8.14) im endlich-dimensionalen Teilraum 

Xn ⊂ X mit dim Xn = n < ∞. Offenbar ist dann {Xn; · X} Banach-Raum. 

Definition 8.7. Die Aufgabe 

Finde u n ∈ Xn : a(u n ,v) = f(v) ∀v ∈ Xn (8.15) 

heißt Ritz-Galerkin-Verfahren zur Variationsgleichung (8.14).

8.3. RITZ-GALERKIN VERFAHREN 81 

Wir zeigen nun, daß das Ritz-Galerkin-Verfahren stets einem linearen Gleichungssystem entspricht. 

Sei {φi} n i=1 Basis von Xn. Es bezeichne P : R n → Xn ⊂ X die durch 

Pv = 

n 

viφi, v = (v1,...,vn) T 

i=1 

erklärte Abbildung. Offensichtlich ist P ein Isomorphismus zwischen R n und Xn. Unter Beachtung 

der Basisdarstellung in Xn = span{φ1,...,φn} erhält man das 

Lemma 8.8. Das Ritz-Galerkin-Verfahren (8.15) ist äquivalent zu dem System der Gleichungen 

Finde u n ∈ Xn : a(u n ,φi) = f(φi) i = 1,...,n (8.16) 

Mit den Bezeichnungen 

formulieren wir 

u = (u1,...,un) T ∈ R n , u n := Pu; 

A = (aij) ∈ R n×n , aij := a(φj,φi) 

f = (f1,...,fn) T ∈ R n , fi := f(φi) 

Satz 8.9. Das Ritz-Galerkin-Verfahren (8.15) ist äquivalent zu dem linearen Gleichungssystem 

Au = f. (8.17) 

Beweis: Nach Lemma 8.8 sind (8.15) und (8.16) äquivalent. Die Behauptung folgt nun mit 

u n = Pu = n 

j=1 ujφj aus 

a(u n ,φi) = 

n 

uja(φj,φi) = 

j=1 

n 

aijuj = f(φi) = fi, i = 1,...,n ✷ 

j=1 

Bemerkungen 8.10. (i) Mit dem Skalarprodukt 

im R n sowie u = Pu, v = Pv gilt 

〈u,v〉 := 

n 

i=1 

uivi 

a(u,v) = 〈Au,v〉, f(v) = 〈f,v〉. 

(ii) Das lineare Gleichungssystem (8.17) besitzt genau dann eine eindeutig bestimmte Lösung 

u n ∈ Xn, wenn die Matrix A nicht singulär ist. ✷ 

Folgende Aufgaben sind nun zu lösen: 

• Konstruktion geeigneter Unterräume Xn 

• Generierung und Lösung des linearen Gleichungssytems 

• Fehlerabschätzung.


Nachfolgend geben wir hinreichende Lösbarkeitsbedingungen für das Ritz-Galerkin-Verfahren 

sowie eine a-priori Abschätzung der Lösung an. 

Satz 8.11. Seien Xn ⊂ X, dim Xn = n < ∞ und X Hilbert-Raum. Ferner sei a(·, ·) : 

X × X → R X−elliptische, stetige Bilinearform, d.h. gelte 

sowie 

und f : X → R sei linear und stetig, d.h. 

∃γ > 0 : a(v,v) ≥ γv 2 X 

∀v ∈ X (8.18) 

∃M > 0 : |a(u,v)| ≤ MuXvX ∀u,v ∈ X, (8.19) 

∃K > 0 : |f(v)| ≤ KvX ∀v ∈ X. (8.20) 

Dann gilt 

(i) Die Matrix A = (a(φj,φi)) ∈ R n×n ist nicht singulär. (Daraus folgt die eindeutige Lösbarkeit 

von (8.17).) 

(ii) Für die Lösung u n ∈ Xn des Ritz-Galerkin-Verfahrens gilt die a-priori Abschätzung 

u n X ≤ K 

. (8.21) 

γ 

Beweis: (i) Mit u = 0 folgt Pu = 0 sowie wegen der X−Elliptizität von a(·, ·) die Aussage 

d.h. Au = 0. 

(ii) Wegen (8.19) und (8.20) gilt 

< Au,u >= a(Pu,Pu) ≥ γPu 2 X 

> 0, 

γPu 2 X ≤ a(Pu,Pu) = f(Pu) ≤ KPuX, 

also (8.21). ✷ 

Eine Abschätzung zwischen den Lösungen u ∈ X der Variationsgleichung (8.14) und u n ∈ Xn 

des Ritz-Galerkin-Verfahrens (8.15) liefert der 

Satz 8.12. Seien Xn ⊂ X, dim Xn = n < ∞, X Hilbert-Raum und a(·, ·) : X × X → R 

X−elliptische, stetige Bilinearform, d.h. gelte (8.18) und (8.19). 

Dann folgt 

u − u n X ≤ M 

γ inf u − vX. (8.22) 

v∈Xn 

Beweis: Aus (8.14) und (8.15) folgern wir zunächst die sogenannte Fehlergleichung 

a(u − u n ,w) = a(u,w) − a(u n ,w) = 0 ∀w ∈ Xn. (8.23) 

Man nennt (8.23) auch Galerkin-Orthogonalität. Unter Beachtung von (8.14),(8.15) und (8.19) 

ergibt sich 

γu − u n 2 X ≤ a(u − un ,u − u n ) = a(u − u n ,u − w) 

≤ Mu − u n Xu − wX, ∀w ∈ Xn. 

Daraus folgt durch Bildung des Infimums in Xn die Behauptung (8.22). ✷

8.4. FINITE-ELEMENTE-METHODE FÜR ZWEIPUNKT-RWP 83 

Mit dem Satz 8.12 ist die Fehlerabschätzung auf eine Abschätzung des Interpolationsfehlers 

zurückgeführt. Auf Details dieser Interpolationstheorie in Sobolev-Räumen können wir hier 

nicht eingehen. Es gilt zumindest 

Lemma 8.13. Seien 

sowie X = ∪ ∞ n=1 Xn. Dann ist 

X1 ⊂ ... ⊂ Xn−1 ⊂ Xn ⊂ ... ⊂ X 

lim 

n→∞ inf u − wX = 0. (8.24) 

w∈Xn 

Beweis: Folgerung aus Dichtheit von ∪ ∞ n=1 Xn in X. ✷ 

8.4 Finite-Elemente-Methode für Zweipunkt-RWP 

Wir betrachten jetzt speziell die zum Zweipunkt-RWP 

gehörige Variationsgleichung 

mit 

−u ′′ (x) = f(x), x ∈ (0,1); u(0) = u(1) = 0 (8.25) 

Finde u ∈ X = H 1 0(0,1) : a(u,v) = f(v) ∀v ∈ X (8.26) 

a(u,v) := 

1 

u 

0 

′ (x)v ′ 1 

(x) dx, f(v) := 

0 

f(x)v(x) dx. (8.27) 

Man kann einfach zeigen (über die Friedrichs-Ungleichung im Beweis von Lemma 8.15), daß 

durch die Halbnorm 

vX := (a(v,v)) 1 

1 

2 = u 

0 

′ (x)v ′ 

(x) dx 

1 

2 

sogar eine Norm auf dem Raum X = H1 0 (0,1) erklärt wird. Hierbei sind die (verallgemeinerten) 

homogenen Randbedingungen wesentlich. Dann ist die Bilinearform a offenbar X-elliptisch mit 

der Konstanten γ = 1 und stetig mit der Konstanten M = 1. Beide Konstanten sind optimal. 

Wir konstruieren nun passende Unterräume Xn ⊂ X. Unter Zerlegung des Intervalls 

[0,1] = ∪ n+1 

i=1 Mi, Mi := [xi−1,xi] 

mit der Gitterweite hi := xi − xi−1 betrachten wir den endlich-dimensionalen Raum 

Xn := {v ∈ C[0,1] : v(0) = v(1) = 0, v|Mi ∈ Π1(Mi),i = 1,...,n + 1}. (8.28) 

Mittels stückweise linearer Lagrange’scher Basisfunktionen (finite Elemente) 

⎧ 

x−xi−1 , xi−xi−1 

⎪⎨ 

xi+1−x 

φi(x) := , 

x ∈ Mi 

x ∈ Mi+1 , i = 1,... ,n 

ergibt sich 

⎪⎩ 

xi+1−xi 

0, sonst 

Xn = span{φ1(x),....,φn(x)} ⊂ X. (8.29)


Man beachte hierbei, daß die Funktionen aus Xn per Konstruktion die homogenen Dirichlet- 

Randbedingungen erfüllen. 

Lemma 8.14. Jede Funktion vn ∈ Xn ist durch die Knotenwerte vi = v(xi) eindeutig festgelegt 

und besitzt die Darstellung 

v n n 

= vjφj(x). 

Beweis: Übungsaufgabe. 

j=1 

Wir kommen nun zur Generierung des linearen Gleichungssystems: Wegen supp(φi) = (xi−1,xi+1) 

ist 

aij = 

1 

φ 

0 

′ jφ ′ i dx = 0, |i − j| ≥ 2. 

Für die Nichtnullelemente der Matrix A erhalten wir nach kurzer Rechnung 

d.h. 

ai,i−1 = 

−1 

xi − xi−1 

, ai,i = 

A = tridiag 

1 

xi − xi−1 

Für die rechte Seite des Gleichungssystems folgt 

fi = 

1 

0 

fφi dx = 

+ 

1 

xi+1 − xi 

, ai,i+1 = 

−1 

xi+1 − xi 

 

− 1 

; 

hi 

1 

+ 

hi 

1 

; − 

hi+1 

1 

 

. (8.30) 

hi+1 

xi 

xi−1 

fφi dx + 

xi+1 

xi 

fφi dx. (8.31) 

Die Koeffizienten aij sind in diesem Spezialfall exakt integrierbar. Im allgemeinen Fall interpoliert 

man die Daten durch Splines und/oder integriert mit passenden Quadraturformeln. Dadurch 

entsteht dann in der Regel ein kleiner Konsistenzfehler. 

Die bei der klassischen Finite-Differenzen Methode entstehende Matrix A für Problem (8.25) 

stimmt mit der bei stückweise linearen finiten Elementen entstehenden Matrix A im äquidistanten 

Fall h = hi,i = 1,...,n + 1 bis auf den Skalierungsfaktor 1 

h überein. Unterschiede entstehen 

jedoch ggf. bei der rechten Seite. Zur Lösung des linearen Gleichungssystems für die FEM können 

damit der Thomas-Algorithmus oder Standard-Iterationsverfahren herangezogen werden. 

Es verbleibt die Ableitung einer Fehlerabschätzung. Zuvor beweisen wir Interpolationsabschätzungen 

im Finite-Elemente-Raum Xn. 

Lemma 8.15. Unter der Voraussetzung u ′′ ∈ L 2 (a,b) gilt 

sowie 

inf u − wL2 (a,b) ≤ (b − a) 

w∈Xn 

2 u ′′ L2 (a,b). (8.32) 

inf (u − w) 

w∈Xn 

′ L2 (a,b) ≤ (b − a)u ′′ L2 (a,b). (8.33) 

Beweis: Für ζ ∈ C 1 [a,b] mit ζ(a) = 0 gilt ζ(x) = x 

a ζ′ (t)dt. Mit Ungleichung von Cauchy- 

Schwarz folgt 

|ζ(x)| 2 ≤ (b − a)ζ ′ 2 L2 (a,b) , x ∈ [a,b]. 

Durch Integration über (a,b) folgt die sogenannte Friedrichs-Ungleichung 

ζ L 2 (a,b) ≤ (b − a)ζ ′ L 2 (a,b). 

,

8.4. FINITE-ELEMENTE-METHODE FÜR ZWEIPUNKT-RWP 85 

Sei zunächst u ∈ C 2 [a,b], Πhu die lineare Lagrange-Interpolierende sowie Ru := u −Πhu. Wegen 

der Interpolationsbedingungen ist (Ru)(a) = (Ru)(b) = 0. Dann ergibt partielle Integration 

b 

[u 

a 

′ − (Πhu) ′ ] 2 b 

dx = 

a 

u ′′ (Πhu − u)dx. 

Die Ungleichung von Cauchy-Schwarz sowie die Friedrichs-Ungleichung für ζ := Ru liefern dann 

(Ru) ′ 2 L 2 (a,b) ≤ u′′ L 2 (a,b)Ru L 2 (a,b) ≤ (b − a)u ′′ L 2 (a,b)(Ru) ′ L 2 (a,b), 

also (Ru) ′ 2 L 2 (a,b) ≤ (b − a)u′′ L 2 (a,b). Erneute Anwendung der Friedrichs-Ungleichung ergibt 

Ru 2 L 2 (a,b) ≤ (b − a)2 u ′′ L 2 (a,b). 

Damit sind die gesuchten Aussagen für u ∈ C 2 [a,b] bewiesen. Sie gelten auch noch für u ′ ∈ 

H 1 (a,b) mit u ′′ ∈ L 2 (a,b), da der Raum C 1 (a,b) dicht in H 1 (a,b) ist. ✷ 

Damit können wir unter Benutzung von Satz 8.12 folgende Konvergenzaussage zeigen. 

Satz 8.16. Für die Lösung u ∈ H 1 0 (0,1) gelte u′′ ∈ L 2 (0,1). Dann gilt für den Approximationsfehler 

der FEM mit stückweise linearer Lagrange-Basis 

Beweis: Nach Satz 8.12 gilt die Abschätzung 

(u − u n ) ′ L 2 (0,1) ≤ hu ′′ L 2 (0,1). 

u − u n H1 0 (0,1) := (u − un ) ′ L2 (0,1) ≤ inf (u − w) 

w∈Xn 

′ )L2 (0,1), 

denn für die Elliptizitätskonstante und Beschränktheitskonstante gilt γ = M = 1. Dann liefert 

Lemma 8.15 die Behauptung, indem man die Aussage über die Approximation für jedes der 

Teilintervalle (a,b) := Mi,i = 1,... ,n anwendet und aufsummiert. ✷ 

Mit einem Dualitätsargument nach Aubin/ Nitsche kann man eine bessere Fehlerabschätzung 

in der L 2 -Norm ableiten. 

Satz 8.17. Unter den Voraussetzungen von Satz 8.16 gilt 

u − u n L 2 (0,1) ≤ Ch 2 u ′′ L 2 (0,1). 

Beweis: Sei zn ∈ H1 0 (0,1) verallgemeinerte Lösung des Problems 

Mit v = u − u n folgt 

a(v,z n ) = (v,u − u n ) L 2 (0,1) 

∀v ∈ H 1 0(0,1). 

a(u − u n ,z n ) = u − u n 2 L2 (0,1) . (8.34) 

Wegen a(v,u) = a(v,u n ) = f(v) für alle v ∈ Xn und der Symmetrie von a gilt 

a(v,u − u n ) = a(u − u n ,v) = 0 ∀v ∈ Xn. (8.35) 

Sei nun ˜z n ∈ Xn Ritz-Galerkin Lösung zu z n . Wir setzen in (8.35) v = ˜z n und ziehen dies von 

(8.34) ab. Dann gilt wegen der Beschränktheit von a 

u − u n 2 L 2 (0,1) = a(u − un ,z n − ˜z n ) ≤ (u − u n ) ′ L 2 (0,1)(z n − ˜z n ) ′ L 2 (0,1).


Satz 8.16 ergibt 

u − u n 2 L 2 (0,1) ≤ Kh2 u ′′ L 2 (0,1)(z n ) ′′ L 2 (0,1). 

Aus der Differentialgleichung −(˜z n ) ′′ = u−u n ersieht man sofort (z n ) ′′ L 2 (0,1) ≤ u−u n L 2 (0,1) 

und damit die gesuchte Aussage. ✷ 

Bemerkung 8.18. Zur Gewinnung der optimalen Fehlerabschätzung im Raum X bzw. in 

L 2 (0,1) muß man zusätzlich die Existenz der verallgemeinerten zweiten Ableitung u ′′ ∈ L 2 (0,1) 

fordern. Man vergleiche jedoch die hier verwendeten Regularitätsannahmen an die Lösung des 

RWP mit denen, die für die Konvergenzanalyse bei der klassischen Finite-Differenzen-Methode 

in Kapitel 7 gestellt wurden. ✷ 

Die Darlegungen in diesem Abschnitt können in mehrfacher Hinsicht verallgemeinert werden: 

• Zunächst kann die Methode auf den Fall des RWP (8.1),(8.2) sowie für gemischte Randbedingungen 

erweitert werden. Die Voraussetzungen der Existenz- und Konvergenzsätze 

gelten zum Beispiel beim 1. RWP unter der Voraussetzung c(x) − 1 

2 b′ (x) ≥ 0. 

• Bei der Generierung des entsprechenden linearen Gleichungssystems muß man bei variablen 

Daten b,c,f aber numerisch integrieren. 

• Schließlich kann man allgemeiner global stetige und stückweise polynomiale Basisfunktionen 

höheren Grades verwenden.

Teil II 

Numerische Lineare Algebra 

87

Kapitel 9 

Krylov-Unterraum-Methoden 

In Teil II der Vorlesung wollen wir die Kenntnisse zur Numerischen Linearen Algebra aus dem 

Kurs Numerische Mathematik I erweitern. Zunächst befassen wir uns im vorliegenden Kapitel 

mit Krylov-Unterraum-Methoden. Dies sind spezielle iterative Lösungsmethoden für lineare 

Gleichungssysteme 

Au = b (9.1) 

mit regulärer Koeffizientenmatrix A. Bei dieser Verfahrensklasse ist vor allem die effiziente Berechenbarkeit 

gewisser Matrix-Vektorprodukte (z.B. Au) wesentlich. 

Ihren Ursprung haben diese Methoden im Verfahren der konjugierten Gradienten (CG-Verfahren) 

von Hestenes und Stiefel (1952) für den Spezialfall symmetrischer und positiv definiter Matrizen. 

Es gibt inzwischen zahlreiche Verallgemeinerungen auf Gleichungssysteme mit nichtsymmetrischer 

und/oder indefiniter Matrix A. Einen guten Überblick findet man in den Lehrbüchern 

von A. Greenbaum [7] oder von Y. Saad [19]. 

9.1 Krylov-Unterräume 

Iterationsverfahren vom Krylov-Typ basieren auf der Konstruktion von Teilräumen des R n , 

die der Matrix A angepaßt sind. 

Definition 9.1. Für eine gegebene Matrix A ∈ R n×n und einen Vektor v ∈ R n \ {0} wird ein 

Krylov-Unterraum definiert durch 

Kk(A,v) := span{v,Av,... ,A k−1 v} = {p(A)v : p ∈ Pk−1}. (9.2) 

Sind keine Mißverständnisse möglich, schreiben wir auch Kk := Kk(A,v). 

Sei u0 eine Näherung an die Lösung des Gleichungssystems (9.1). Dann gilt für das Start- 

Residuum bzw. den -Defekt 

r0 := b − Au0 

in der Regel r0 = 0, anderenfalls wäre u0 bereits Lösung. Bei einem Krylov-Verfahren sucht 

man eine geeignete Näherungslösung uk im affinen Teilraum u0 + Kk(A,r0) durch bestimmte 

Zusatzforderungen: Entweder soll der Defekt 

rk := b − Auk, k ∈ N 

zu Kk(A,r0) bzw. einem anderen geeigneten Krylov-Unterraum orthogonal sein (Galerkin- 

Bedingung) oder man minimiert rk in einer passenden Norm auf Kk(A,r0) bw. einem anderen 

geeigneten Krylov-Unterraum. Dann erhöht man k oder startet das Verfahren mit 

89

90 KAPITEL 9. KRYLOV-UNTERRAUM-METHODEN 

u0 := uk, r0 := b − Au0 neu (Restart). Man hofft, daß man bereits für k ≪ n eine gute 

Näherung erhält. 

Wir definieren implizit im nächsten Lemma die Dimension eines Krylov-Unterraumes. Sei dazu 

deg(v) := min{l : ∃p ∈ Pl \ {0} mit p(A)v = 0}. (9.3) 

Wir erinnern an den Satz von Caley/Hamilton: Sei p(λ) := det(A −λI) das charakteristische 

Polynom der Matrix A ∈ R n×n . Dann gilt p(A) = 0. Insbesondere folgt dann für beliebige 

Vektoren v ∈ R n , daß deg(v) ≤ n. 

Lemma 9.2. Gegeben seien die Matrix A ∈ R n×n und der Vektor v ∈ R n \ {0}. Weiter sei 

m := deg(v). Dann gelten folgende Aussagen: 

(i) Es gilt A(Km) ⊂ Km, d.h. der Krylov-Unterraum Km ist invariant unter A. Ferner gilt 

Kk = Km für alle k ≥ m. 

(ii) Es gilt dim (Kk) = k genau für m ≥ k. 

(iii) Es gilt dim (Kk) = min(k,m). 

Beweis: (i) Für u ∈ Km gilt per Konstruktion u = m−1 

i=0 αiA i v. Ferner findet man Konstanten 

β0,...,βm, die nicht alle gleichzeitig verschwinden, so daß 

m 

βiA i v = 0. 

Wegen deg(v) = m ist βm = 0. Daraus folgt nach Nullergänzung wegen 

Au = 

m 

i=1 

i=0 

αi−1A i v − αm−1 

βm 

= − αm−1 

β0v + 

βm 

m−1 

i=1 

 

m 

βiA i v 

i=0 

αi−1 − αm−1 

βi 

βm 

 

A i v ∈ Km, 

daß A(Km) ⊂ Km. Für k ≥ m folgt Km ⊂ Kk. 

Seien nun k > m und u ∈ Kk. Dann gilt u = k−1 i=0 αiAiv. Außerdem findet man Konstanten 

β0,...,βm mit βm = 0 und 

m 

βiA i v = 0. 

Nullergänzung ergibt 

u = 

= 

k−1 

i=0 

i=0 

αiA i v − αk−1 

A 

βm 

k−m−1 

k−1 

αiA i v − αk−1 

βm 

i=0 

m 

i=0 

 

m 

βiA i 

v 

i=0 

βiA i+k−m−1 v ∈ Kk−1. 

Dieser Schluß kann bis zur Aussage u ∈ Km fortgeführt werden. Damit ist Teil (i) bewiesen.

9.2. ARNOLDI-VERFAHREN 91 

(ii) Die Vektoren {v,Av,... ,A k−1 v} bilden genau dann eine Basis von Kk, wenn für jede Menge 

{γ0,... ,γk−1} nicht gleichzeitig verschwindender Zahlen die Aussage 

k−1 

γiA i v = 0 

i=0 

folgt. Dies entspricht aber gerade der Bedingung, daß genau das Nullpolynom p in Pk−1 der 

Bedingung p(A)v = 0 genügt. Dies ist äquivalent zu m = deg(v) ≥ k. 

(iii) Aussage (ii) impliziert 

dim (Kk) = k = min(k,m), m ≥ k. 

Im Fall m < k liefert Teil (i) die Aussage Kk = Km, somit ist dim (Kk) = dim (Km) = m. Damit 

ist der Satz bewiesen. ✷ 

9.2 Arnoldi-Verfahren 

Jetzt konstruieren wir ein Orthonormalsystem (ONS) für den Krylov-Unterraum 

Kk := span{v,Av,... ,A k−1 v}, 

wobei wir k ≪ n annehmen wollen. Wir betrachten das folgende modifizierte Gram-Schmidt- 

Verfahren. Es heißt in der aktuellen Literatur auch 

Arnoldi-Verfahren bzw. Modifiziertes Gram-Schmidt-Verfahren 

(1) Eingabegrößen: A ∈ R n×n , v ∈ R n \ {0} sowie k ∈ N. 

(2) Berechne q1 := v/v2. 

(3) Für j = 1,... ,k: 

– w := Aqj 

– Für i = 1,... ,j: 

∗ hij := q T i w 

∗ w := w − hijqi. 

– hj+1,j := w2 

– Falls hj+1,j = 0, dann: STOP. 

– qj+1 := w/hj+1,j. 

(4) Ausgabegrößen: Ohne vorherigen Abbruch erhält man die Matrizen 

und 

⎛ 

⎜ 

˜Hk 

⎜ 

:= ⎜ 

⎝ 

Qk := ( q1 · · · qk ) ∈ R n×k , (9.4) 

h11 h12 · · · · · · h1k 

h21 h22 

. .. 

. .. h2k 

. .. 

. .. 

. .. 

. 

. .. hk−1,k 

hk,k−1 hk,k 

hk+1,k 

⎞ 

⎟ ∈ R 

⎟ 

⎠ 

(k+1)×k . (9.5)


Mit Hk ∈ R k×k bezeichnen wir die Hessenberg-Matrix, die aus ˜ Hk durch Streichen der 

letzten Zeile entsteht. Ferner ermittelt man auch den Vektor qk+1 ∈ R n . Damit ist auch 

die Matrix Qk+1 := ( Qk qk+1 ) wohldefiniert. 

Die Eigenschaften der im Verfahren erzeugten Matrizen fassen wir zusammen im 

Lemma 9.3. Das oben beschriebene Arnoldi-Verfahren breche nicht vorzeitig ab. Dann gelten 

folgende Aussagen: 

(i) Die Spalten q1,... ,qk von Qk bilden eine Orthonormalbasis von Kk. 

(ii) Es gilt AQk = Qk+1 ˜ Hk sowie Q T k AQk = Hk. 

Beweis: (i) Mittels vollständiger Induktion nach j beweisen wir, daß {q1,...,qj} mit j = 

1,... k + 1 ein ONS bildet. Der Induktionsanfang für j = 1 ist wegen q1 := v/v2 offenbar 

erfüllt. 

Sei {q1,...,qj} ein ONS. Per Konstruktion ist qj+12 = 1. Zu zeigen ist noch q T l qj+1 = 0 für 

l = 1,... j. Dazu notieren wir die Berechnungsvorschrift für qj+1 wie folgt: 

• w (0) := Aqj. 

• Für i = 1,... ,j: w (i) := w (i−1) − q T i w(i−1) qi. 

• qj+1 := w (j) /w (j) 2. 

Hieraus folgt für l = 1,... ,j mit der Induktionsvoraussetzung q T l qj = δlj, daß 

q T l w(j) = q T l w(j−1) − q T j w(j−1) q T l qj = q T l w(j−1) − q T j w(j−1) δlj. 

Damit ist q T l w(j) = 0 für l = j, ferner gilt q T l w(j) = q T l w(j−1) für l < j. 

Nun schließen wir analog weiter wegen 

q T l w(j−1) = q T l w(j−2) − q T j−1 w(j−2) q T l qj−1 = q T l w(j−2) − q T j−1 w(j−2) δl,j−1. 

Diese Prozedur kann weitergeführt werden. Man erhält, daß w (j) und damit qj+1 orthogonal zu 

q1,...,qj ist. Daher ist {q1,... ,qj+1} ein ONS. 

Wir zeigen, daß Kk = span{q1,... ,qk}. Hierzu wird durch vollständige Induktion nach j bewiesen, 

daß mit geeignetem Polynom pj−1 ∈ Pj−1 gilt qj = pj−1(A)v. Der Induktionsanfang für 

j = 1 folgt wegen q1 = v/v2 mit p0(t) := 1/v2. 

Für den Induktionsschritt sehen wir mit der Festsetzung des Polynoms pj ∈ Pj mittels 

daß 

qj+1 = 

= 

pj(t) := 1 

 

tpj−1(t) − 

w2 

j 

 

hijpi−1(t) 

i=1 

 

j 

 

w 1 

= Aqj − hijqi 

w2 w2 i=1 

 

j 

 

1 

Apj−1(A)v − hijpi−1(A)v 

w2 

i=1 

= pj(A)v.

9.3. FOM-VERFAHREN 93 

Hieraus folgt span{q1,... ,qk} ⊂ Kk. Per Konstruktion ist {q1,... ,qk} ONS von Kk. 

(ii) Wir notieren zuerst 

j+1 

 

AQkej = Aqj = hijqi = Qk+1 ˜ Hkej, j = 1,... ,k. 

i=1 

Damit ist AQk = Qk+1 ˜ Hk, folglich auch QT k AQk = QT k Qk+1 ˜ Hk. Es bleibt zu zeigen, daß 

QT k Qk+1 ˜ Hk = Hk ist. Dies folgt aber wegen 

Q T k Qk+1 ˜ Hk = Q T k ( Qk qk+1 ) 

 

Hk 

hk+1,ke T k 

 

 

= ( I 0 ) 

Hk 

hk+1,ke T k 

 

= Hk. 

Daraus ergibt sich die noch fehlende Aussage Q T k AQk = Hk. ✷ 

Notwendige und hinreichende Abbruchbedingungen beim Arnoldi-Verfahren gibt 

Lemma 9.4. Das Arnoldi-Verfahren bricht im Schritt j genau dann ab, wenn deg(v) = j. 

Dann ist Kj ein unter A invarianter Unterraum. 

Beweis: Gelte deg(v) = j. Nach Lemma 9.2 hat man dim(Kj) = j, das Arnoldi-Verfahren 

kann also nicht vor dem Schritt j abgebrochen sein. Es bricht jedoch zwingend im Schrit j ab. 

Sonst könnte der normierte und zu q1,...,qj orthogonale Vektor qj+1 ermittelt werden. Dann 

wäre im Widerspruch zu Aussage (iii) von Lemma 9.2 dim (Kj+1) = j + 1. 

Wir nehmen nun an, daß das Arnoldi-Verfahren im Schritt j abbricht. Nach Definition des 

Grades wäre dann deg(v) ≤ j. Tatsächlich ist deg(v) = j, denn sonst wäre der Algorithmus 

schon in einem früheren Schritt abgebrochen. ✷ 

9.3 FOM-Verfahren 

Zur Näherungslösung des linearen Systems Au = b mit regulärer Matrix A ∈ R n×n und b ∈ R n 

wird zu einer Startlösung u0 ∈ R n der Defekt r0 := b −Au0 berechnet. Der zugehörige Krylov- 

Unterraum ist 

Kk := Kk(A,r0) = span{r0,Ar0,... ,A k−1 r0}. 

Das hier darzustellende FOM-Verfahren bestimmt eine Näherung uk ∈ u0 + Kk so, daß 

b − Auk ⊥ Kk. 

Es basiert auf dem folgenden technischen Resultat. 

Lemma 9.5. Sei dim (Kk) = k. Mit dem Arnoldi-Verfahren seien die Matrix Qk = (q1 · · · qk) ∈ 

R n×k und die obere Hessenberg-Matrix Hk ∈ R k×k mit 

Q T k Qk = I, Kk = span{q1,... ,qk}, Q T k AQk = Hk 

ermittelt worden, insbesondere ist q1 = r0/r02. Ferner sei Hk nichtsingulär. Dann gelten für 

den Vektor 

uk := u0 + QkH −1 

k (r02e1) (9.6) 

die Aussagen uk ∈ u0 + Kk und b − Auk ⊥ Kk. 

Beweis: Die Spalten von Qk bilden nach Lemma 9.3 (i) eine Basis des Krylov-Unterraums 

Kk. Daher ist uk ∈ u0 + Kk.


Da {q1,... ,qk} Basis von Kk ist, gilt b − Auk ⊥ Kk genau bei Q T k (b − Auk) = 0. Die letztere 

Beziehung gilt wegen 

Q T k (b − Auk) = Q T k r0 − Q T k 

−1 

AQkHk 

=I 

(r02e1) = Q T k r0 − r02e1 

= Q T k (r0 − r02Qke1) = Q T k (r0 − r02q1) = 0. 

Daraus folgt die Behauptung. ✷ 

Auf Basis des Arnoldi-Verfahrens erhält man folgendes Verfahren zur Lösung von (9.1): 

”Full Orthogonalization Method” (FOM) Arnoldi-Verfahren 

(1) Berechne für die Startlösung u0 den Defekt r0 := b−Au0 sowie q1 := r0/r02. Initialisiere 

Hk = (hij)1≤i,j≤k := 0. 

(2) Für j = 1,... ,k: 

– w := Aqj 

– Für i = 1,... ,j: 


∗ w := w − hijqi. 

– hj+1,j := w2 

– Falls hj+1,j = 0, dann: Setze k := j und gehe zu Schritt (3). 

– qj+1 := w/hj+1,j. 

(3) Setze Qk := ( q1 · · · qk ) ∈ R n×k , Hk := (hij)1≤i,j≤k und berechne 

uk := u0 + QkH −1 

k (r02e1). 

Das im Vergleich zum Ausgangsproblems (9.1) niedrigdimensionale System 

Hky = r02e1, (9.7) 

kann mittels Givens-Rotationen (vgl. folgender Abschnitt) oder auch einem direkten Eliminationsverfahren 

effizient realisiert werden. Der wesentliche Aufwand des Verfahrens liegt im Schritt 

(2) beim Arnoldi-Verfahren in der Berechnung der Matrix-Vektorprodukte Aqj. 

9.4 GMRES-Verfahren 

Wir behandeln nun eine alternative Methode zur Lösung des Problems (9.1). Wir benutzen die 

Bezeichnungen und den Ansatz aus dem vorhergehenden Abschnitt. Im Unterschied zur FOM 

wird jetzt die neue Lösung uk ∈ u0 + Kk durch den Minimierungsansatz 

Minimiere b − Au2, u ∈ u0 + Kk. (9.8) 

Mittels der Orthonormalbasis { q1, · · · ,qk} von Kk bzw. der Matrix Qk = ( q1 · · · qk ) erhält 

man die äquivalente Aufgabe 

Minimiere J(y) := b − A(u0 + Qky)2 = r0 − AQky2, y ∈ R k . (9.9)

9.4. GMRES-VERFAHREN 95 

Nach Lemma 9.3 gilt AQk = Qk+1 ˜ Hk mit der aus dem Arnoldi-Verfahren bestimmten Matrix 

˜Hk ∈ R (k+1)×k . Für den ersten Spaltenvektor von Qk bzw. Qk+1 gilt q1 = r0/r02, damit gilt 

r0 − AQky = Qk+1 

 

r02e1 − ˜ 

Hky . 

Die Spalten der Matrix Qk+1 sind jedoch orthonormiert, somit ist das folgende lineare Ausgleichsproblem 

zu lösen: 

 

 

Minimiere J(y) := r02e1 − ˜ 

 

Hky 

, y ∈ R 

2 k . (9.10) 

Für die unreduzierte obere Hessenberg-Matrix ˜ Hk ist hj+1,j = 0 bei j = 1,... k, somit hat Hk 

den Rang k. Dies impliziert die eindeutige Lösbarkeit des Ausgleichsproblems. 

Damit ergibt sich das folgende Verfahren. 

”Generalized Minimum Residual Method” (GMRES): 

(1) Berechne für die Startlösung u0 den Defekt r0 := b − Au0 sowie q1 := r0/r02. 

Initialisiere 

:= 0. 

(2) Für j = 1,... ,k: 

– w := Aqj 

– Für i = 1,... ,j: 


∗ w := w − hijqi. 

– hj+1,j := w2 

˜Hk = (hij)1≤i≤k+1 

1≤j≤k 


– qj+1 := w/hj+1,j. 

(3) Bestimme die Lösung yk des linearen Ausgleichsproblems 

 

 


 

Hky 

, y ∈ R 

2 k . 

Setze anschließend uk := u0 + Qkyk mit Qk := (q1 · · · qk). 

Der Hauptaufwand des Verfahrens liegt wieder im Arnoldi-Prozeß in der Berechnung der 

Matrix-Vektorprodukte in Schritt (2). Zur effizienten Lösung des linearen Ausgleichsproblems 

mit der niedrigdimensionalen Hessenberg-Matrix ˜ Hk bietet sich die QR-Zerlegung mittels 

Givens-Rotationen an: 

Dabei multipliziert man die Matrix ( ˜ Hk r02e1 ) ∈ R (k+1)×(k+1) sukzessive mit den Rotationsmatrizen 

Gj,j+1, die sich von der Einheitsmatrix lediglich in den Positionen (j,j),(j,j + 1),(j + 

1,j),(j + 1,j + 1) unterscheiden, in denen sie die Werte 

 

cj sj 

, j = 1,... ,k (9.11) 

−sj cj


annehmen mit cj = cos φ, sj = sin φ. Durch Wahl des Winkels φ wird erreicht, daß in der jeweils 

aktuellen Matrix das an der Position (j +1,j) stehende Element für j = 1, · · · ,k annuliert wird. 

Somit erhält man nach k Schritten die Matrix 

( ˜ Rk ˜gk ) := Fk( ˜ Hk r02e1 ), Fk := Gk,k+1 · · · G12. 

Offenbar sind die Rotationsmatrizen und damit auch Fk orthogonal. (Hinsichtlich einer genaueren 

Darstellung zur Givens-Rotation sei auf Abschnitt 12.5 verwiesen.) 

Wir bezeichnen jetzt mit Rk ∈ Rk×k die aus ˜ Rk ∈ R (k+1)×k durch Streichen der letzten (Null-) 

Zeile entstehende Matrix. Analog erhält man aus ˜gk = (γi) k+1 

i=1 ∈ Rk+1 den Vektor gk ∈ Rk durch 

Weglassen der letzten Komponente. 

Da ˜ Hk den Rang k hat, ist Rk regulär. Dann ist die Lösung des linearen Ausgleichsproblems 

gegeben durch 

yk = R −1 

k gk. 

Wegen der Dreiecksstruktur von Rk benötigt man hier nur eine Rückwärtselimination. Ferner 

ist 

 

b − Auk = Qk+1 r02e1 − ˜ 

Hkyk = Qk+1F T k (˜gk − ˜ Rkyk) = Qk+1F T k (γk+1ek+1) 

und aufgrund der Orthonormierung der Spalten von Qj+1 sowie der Orthogonalität von Fk ergibt 

sich 

b − Auk2 = |γk+1|. 

Man kann den Vektor ˜gk = (γi)1≤i≤k+1 sehr einfach wie folgt berechnen: Wegen 

˜gk = Fk(r02e1) = Gk,k+1 · · · G12(r02e1) 

mit den Givens-Rotationen aus (9.11) erhält man γ1,... ,γk+1 aus 

• γ1 := r02. 

• Für j = 1,... ,k : γj 

γj+1 

 

:= 

cj sj 

−sj cj 

γj 

0 

Insbesondere ist γj+1 = −sjγj. Daraus ergibt sich ein Abbruchkriterium für das GMRES- 

Verfahren. 

Lemma 9.6. Bei regulärer Matrix A ∈ R n×n bricht das GMRES-Verfahren im j−ten Schritt 

wegen hj+1,j = 0 genau dann ab, wenn uj bereits Lösung des zu lösenden Gleichungssytems 

Au = b ist. 

Beweis: Wir nehmen an, daß hj+1,j = 0 ist. Im Verfahren wird dann k := j gesetzt. Da das 

zu annulierende Element bereits verschwindet, ist die letzte Givens-Rotation die Identität, d.h. 

sk = 0 und damit γk+1 = 0. Also ist Auk = b. Die Umkehrung wird analog gezeigt. ✷ 

Wir wollen uns nun mit Konvergenzeigenschaften des GMRES-Verfahrens für wachsende Dimension 

der Krylov-Unterräume Kk(A,r0) befassen. Theoretisch würde man bei exakter Arithmetik 

spätestens für k = n die exakte Lösung des Systems b − Au = 0 erhalten. Da der Rechen- und 

Speicheraufwand des Verfahrens mit k wächst, hofft man auf Konvergenz des Residuums unter 

eine bestimmte Toleranz für k ≪ n. Eine praktisch wichtige Variante besteht in der Restart- 

Version GMRES(m). Dabei beschänkt man beim Aufbau der Arnoldi-Basis deren Dimension 

auf m ∈ N mit m ≪ n. Nach Berechnung der Lösungsfolge (uk) für k ≤ m setzt man dann 

 

.

9.4. GMRES-VERFAHREN 97 

u0 := um und startet den GMRES-Prozess neu. 

Wir wollen jetzt das Konvergenzverhalten der Restart-Version GMRES(m) untersuchen. Sei ũ 

Lösung des Gleichungssystems. Per Konstruktion ist dann 

Minimiere b − Au2 = A(ũ − u)2, u ∈ u0 + Kk, (9.12) 

also b − Auk2 ≤ b − Au02. Die Defektfolge ist also zumindest nach oben beschränkt. Für 

positiv definite, aber nicht notwendig symmetrische Matrizen A gilt sogar 

Satz 9.7. Sei A ∈ R n×n strikt positiv definit, d.h. v T Av ≥ αv 2 2 für beliebige v ∈ Rn \ {0}. Für 

die Näherungslösung uk des GMRES(m)-Verfahrens mit Restart-Länge m und Startwert u0 gilt 

b − Auk2 ≤ 

 

1 − α2 

σ2 k/2 b − Au02, k ∈ N. (9.13) 

Dabei ist σ := A2. Insbesondere konvergiert das Verfahren für k → ∞ gegen die Lösung des 

Systems Au = b. 

Beweis: Für beliebiges ω ∈ R und v ∈ R n gilt 

Für ω = ω0 := α 

A 2 2 

(I − ωA)v 2 2 = v2 2 − 2ωvT Av + ω 2 Av 2 2 ≤ (1 − 2ωα + ω2 A 2 2 )v2 2 . 

folgt 

(I − ω0A)v ≤ qv2, q := 

 

1 − α2 

A2 1 

2 

. 

2 

Für 1 ≤ k ≤ m stimmen die Näherung uk des GMRES(m)-Verfahrens und die des GMRES- 

Verfahrens überein. Wegen der Minimaleigenschaft der GMRES-Iterierten kann man das zugehörige 

Residuum vergleichen mit dem Residuum von 

Wegen 

folgt 

ũk = u0 + ω0 

j=0 

k−1 

(I − ω0A) j r0 ∈ u0 + Kk(A,r0). 

k−1 

b − Aũk = r0 − ω0A (I − ω0A) j r0 

j=0 

k−1 

= r0 − (I − ω0A) j k−1 

r0 + (I − ω0A) j+1 r0 

j=0 

j=0 

= r0 − r0 + (I − ω0A) k r0 = (I − ω0A) k r0 

b − Auk2 ≤ b − Aũk2 = (I − ω0A) k r02 ≤ q k r02. 

Nach dem ersten Restart, d.h. für m < k ≤ 2m gilt entsprechend 

b − Auk2 ≤ q k−m b − Aum2 ≤ q k−m q m r02.


Analog gilt diese Abschätzung für alle k ∈ N. Die Konvergenz des Verfahrens für k → ∞ gegen 

die Lösung von Au = b ergibt sich wegen u − uk = A −1 b − uk = A −1 (b − Auk) aus 

u − uk2 ≤ q k A −1 2r02, k ∈ N. ✷ 

Bemerkung 9.8. (i) Die Konvergenzaussage von Satz 9.7 ist wenig hilfreich, wenn α ≪ σ := 

A2 gilt. In vielen Fällen kann man jedoch die Situation durch geeignete Vorkonditionierung 

(vgl. folgender Abschnitt) erheblich verbessern. 

(ii) Die Aussage von Satz 9.7 kann verallgemeinert werden auf den Fall diagonalisierbarer 

Matrizen A, d.h. man findet eine Matrix X ∈ R n×n mit A = XΛX −1 und Λ := diag(λ1,...,λn). 

Dabei sind λ1,... ,λn die Eigenwerte von A. ✷ 

9.5 Vorkonditionierung von Krylov-Verfahren 

Bemerkung 9.8 zeigt, daß die Konvergenz des GMRES-Verfahrens wesentlich vom Spektrum, d.h. 

den Eigenwerten der Matrix A, abhängt. Bei der Diskretisierung von Randwertaufgaben folgt 

für die aus der Diskretisierung resultierenden Matrizen mit der Verfeinerung des Gitters, daß 

limh→0 α2 

σ 2 = 0. Das GMRES-Verfahren konvergiert dann in der bisherigen Version zunehmend 

schlechter. 

Ein Ausweg aus dieser Situation ergibt sich durch geeignete Vorkonditionierung des Problems 

mit einer regulären Matrix M ∈ R n×n . Bei der Linksvorkonditionierung betrachtet man das zum 

Ausgangssystem (9.1) äquivalente Problem 

M −1 Au = M −1 b. (9.14) 

Dabei soll M so gewählt werden, daß einerseits M −1 A ≈ I und damit die Kondition des geänderten 

Systems günstiger als die von A ist. Andererseits soll (9.14) ”leicht(er)” lösbar sein als das 

Ausgangsproblem. 

Bei der Rechtsvorkonditionierung gelangt man über die Transformation u = M −1 x zum System 

AM −1 x = b. Man konstruiert M so, daß möglichst AM −1 ≈ I gilt. Man kann die Links- und 

Rechtvorkonditionierung auch kombinieren durch u = M −1 

2 

x und M −1 

1 

AM −1 

2 

−1 

x = M1 b. 

Wir besprechen exemplarisch die Vorkonditionierung des GMRES-Verfahrens. Dabei spezifizieren 

wir die Vorkonditionierungsmatrizen noch nicht. 

Algorithmus: GMRES-Verfahren mit Linksvorkonditionierung 

(1) Berechne für die Startlösung u0 den vorkonditionierten Defekt z0 := M −1 (b − Au0) sowie 

q1 := z0/z02. Initialisiere 

(2) Für j = 1, · · · ,k: 

– w := M −1 Aqj 

– Für i = 1, · · · ,j: 


∗ w := w − hijqi. 

– hj+1,j := w2 

˜Hk = (hij)1≤i≤k+1 

1≤j≤k 

:= 0.

9.5. VORKONDITIONIERUNG VON KRYLOV-VERFAHREN 99 


– qj+1 := w/hj+1,j. 


 

 

Minimiere J(y) := z02e1 − ˜ 

 

Hky 

, y ∈ R 

2 k . 

Setze anschließend uk := u0 + Qkyk mit Qk := ( q1 · · · qk ). 

Hier wird eine Orthonormalbasis zum modifizierten Krylov-Raum Kk(M −1 A,z0) bestimmt. 

Man beachte, daß dabei der Defekt vorkonditioniert wird. Man hat jedoch nicht unmittelbar Zugriff 

auf den nicht vorkonditionierten Defekt. Dies gilt jedoch auch für den jetzt zu betrachtenden 

Fall der Rechtsvorkonditionierung, bei dem zunächst eine Orthonormalbasis für Kk(AM −1 ,r0) 

bestimmt wird. 

Algorithmus: GMRES-Verfahren mit Rechtsvorkonditionierung 

(1) Berechne für die Startlösung u0 den Defekt r0 := b−Au0 sowie q1 := r0/r02. Initialisiere 

(2) Für j = 1, · · · ,k: 

– w := AM −1 qj 

– Für i = 1, · · · ,j: 


∗ w := w − hijqi. 

– hj+1,j := w2 

˜Hk = (hij)1≤i≤k+1 

1≤j≤k 

:= 0. 


– qj+1 := w/hj+1,j. 


 

 


 

Hky 

, y ∈ R 

2 k . 

Setze anschließend uk := u0 + M −1 Qkyk mit Qk := ( q1 · · · qk ). 

Der wesentliche Unterschied zwischen beiden Varianten der Vorkonditionierung soll im folgenden 

Lemma verdeutlicht werden. 

Lemma 9.9. Die Näherungslösung uk ergibt sich im Fall des von links vorkonditionierten 

GMRES als Lösung von 

Minimiere M −1 (b − Au)2, u ∈ u0 + Kk(M −1 A,z0). 

im Fall des von rechts vorkonditionierten GMRES als Lösung von 

Minimiere b − Au2, u ∈ u0 + M −1 Kk(AM −1 ,r0),


mit r0 := b − Ax0 und z0 := M −1 r0. In beiden Varianten haben die (nicht zwingend gleichen) 

Lösungen uk die Gestalt 

uk = u0 + sk−1(M −1 A)z0 = u0 + M −1 sk−1(AM −1 )r0, sk−1 ∈ Pk−1. 

Beweis: Die Aussage zur Linksvorkonditionierung folgt, da uk bei Anwendung von GMRES auf 

das System M −1 Au = M −1 b gebildet wird. Speziell findet man ein Polynom sk−1 ∈ Pk−1 mit 

uk = u0 + sk−1(M −1 A)z0 = u0 + sk−1(M −1 A)M −1 r0 = u0 + M −1 sk−1(AM −1 )r0. 

Hierbei benutzt man die durch vollständige Induktion beweisbare Aussage 

(M −1 A) j M −1 = M −1 (AM −1 ) j , j = 0, · · · k − 1. 

Im Fall der Rechtsvorkonditionierung ist uk = M −1 xk, wobei xk Lösung der Minimierungsaufgabe 

Minimiere b − AM −1 x2, x ∈ x0 + Kk(AM −1 ,r0) 

mit u0 = M −1 x0 und r0 := b−Au0 ist. Die gesuchte Aussage erhält man mittels Transformation 

u = M −1 x. ✷ 

Zur Vorkonditionierung kommen zum Beispiel folgende Verfahren in Frage: 

• Basis-Iterationsverfahren wie Gesamt- bzw. Einzelschrittverfahren bzw. dazugehörige Relaxationsverfahren 

(vgl. Kurs Numerische Mathematik I), 

• unvollständige LU−Zerlegungen. 

In der Regel erhält man dadurch eine deutliche Beschleunigung gegenüber nichtvorkonditionierten 

Krylov-Methoden. Mitunter erreicht man auch erst dadurch Konvergenz der Iteration.

Kapitel 10 

Eigenwertprobleme 

In den nachfolgenden Kapiteln behandeln wir Eigenwertprobleme (EWP) quadratischer Matrizen. 

Diesem Problem begenet man oft in der Physik oder in Ingenieurwissenschaften (z.B. bei der 

Berechnung von Schwingungsvorgängen), aber auch in der Satistik im Kontext von Varianzanalysen. 

Im Kurs Numerische Mathematik I traten EWP be der Bestimmung der Konditionszahl 

von Matrizen auf. Dabei bauen wir auf Kenntnissenden in den Kursen AGLA und Numerische 

Mathematik I auf. 

10.1 Einführende Beispiele 

Definition 10.1. Eine Zahl λ ∈ C heißt Eigenwert einer Matrix A ∈ C n×n , wenn es ein 

Element x ∈ C n mit x = 0 und der Eigenschaft 

Ax = λx (10.1) 

gibt. x heißt Eigenvektor (oder Eigenelement) zum Eigenwert λ. Der Nullraum 

N(A − λI) := {x ∈ C n : Ax = λx} (10.2) 

wird als Eigenraum, seine Dimension als Vielfachheit des Eigenwertes bezeichnet. 

Zur Motivation betrachten wir zwei einfache Beispiele. 

Beispiel 10.2. Schwingungen einer Saite 

Die Wellengleichung 

mit den Randbedingungen 

∂2u 1 

= 

∂x2 c2 ∂2u ∂t2 u(0,t) = u(1,t) = 0, t ≥ 0 

beschreibt die vertikale Auslenkung u = u(x,t) (d.h. die Schwingungen) einer eingespannten 

Saite. c ist dabei die Schallgeschwindigkeit in der Saite. Mit dem zeitharmonischen Ansatz 

ergibt sich die Eigenwertgleichung 

u(x,t) = U(x)e iωt 

−U ′′ (x) = λU(x), λ := ω2 

, 0 < x < 1 (10.3) 

c2 101

102 KAPITEL 10. EIGENWERTPROBLEME 

mit den Nebenbedingungen 

U(0) = U(1) = 0. (10.4) 

Mit den Festsetzungen X = C[0,1], U = {v ∈ C 2 [0,1] : v(0) = v(1) = 0} und A : U → X 

mit A : v ↦→ −v ′′ erhalten wir ein Eigenwertproblem für den linearen Operator A auf dem 

unendlich-dimensionalen Raum X. In diesem Fall kann man das EWP relativ elementar lösen. 

Eine Diskretisierung des Eigenwertproblems (10.3), (10.4) in den Gitterpunkten 

xi = ih, i = 0,...,n + 1, h = 1 

n + 1 

und mit Approximation des Operators d2 

dx 2 durch den zentralen Differenzenquotienten 2. Ordnung 

v ′′ (xi) ≈ 1 

h 2 {v(xi+1) − 2v(xi) + v(xi−1)} 

führt mit der Bezeichnung vi = v(xi) auf das System von Differenzengleichungen 

−vi−1 + 2vi − vi+1 = h 2 λvi, i = 1,...,n 

mit v0 = vn+1 = 0 für die Näherungen vi an die Funktionswerte U(xi). In Matrixschreibweise 

erhält man mit 

Ah := 1 

h2tridiag(−1,2, −1), 

∗ 

u = (v1,...,vn) 

das lineare Matrix-EWP Ahu = λu. ✷ 

Beispiel 10.3. Lösung linearer Gleichungwsysteme 

Auch bei der iterativen Lösung linearer Gleichungssysteme 

Au = b 

mit regulärer Matrix A ∈ C N×N stößt man auf EWP. Wir schreiben das Problem in der folgenden 

äquivalenten Form 

Bu = (B − A)u + b 

mit einer zu spezifizierenden regulären Matrix B. Zur iterativen Berechnung der Lösung betrachten 

wir das Verfahren 

Bu k+1 = (B − A)u k + b 

mit geeignetem Startvektor u 0 ∈ C N . Notwendig und hinreichend für die Konvergenz des Verfahrens 

ist, daß der Spektralradius, also der betragsmäßig größte Eigenwert der Iterationsmatrix 

B −1 (B − A) kleiner als 1 ist. 

10.2 Algebraische Grundlagen 

Wir stellen einige elementare Grundlagen der Eigenwert-Theorie zusammen, die uns später nützlich 

sein werden. 

Lemma 10.4. Für eine Matrix A = (aik ∈ C n×n gelten folgende Aussagen: 

(i) Die Matrix hat mindestens einen und höchstens n Eigenwerte. 

(ii) Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig.

10.2. ALGEBRAISCHE GRUNDLAGEN 103 

(iii) Die Eigenwerte der Matrix A und der adjungierten Matrix A ∗ = (a ∗ ik ) mit a∗ ik = aki sind 

zueinander konjugiert komplex. 

Beweis: (i): Folgerung aus dem Fundamentalsatz der Algebra für das charakteristische Polynom 

det(A − λI). 

(ii): Wir führen den Induktionsbeweis nach der Anzahl m der Eigenvektoren. Offenbar ist die 

Behauptung richtig für m = 1. Unter der Annahme der linearen Unabhängigkeit der Eigenvektoren 

zu m paarweise verschiedenen Eigenwerten sei 

Über den Ansatz 

folgt 

Axi = λxi, i = 1,...,m + 1, mit λi = λj, i = j. 

m+1 

i=1 

m+1 

i=1 

αixi = 0 

αiλixi = 0 

nach Multiplikation mit A. Subtraktion der beiden letzten Gleichungen liefert 

m 

αi(λi − λm+1)xi = 0. 

i=1 

Per Annahme ist αi(λi − λm+1) = 0, damit αi = 0, i = 1,...,m. Folglich ist auch αm+1 = 0. 

(iii): Die Aussage 

folgt aus 

(Ax,y) = 

= 

(Ax,y) = (x,A ∗ y), ∀x,y ∈ C m 

m 

(Ax)iyi = 

i=1 

m 

m 

k=1 i=1 

m 

xka ∗ ki yi = 

m 

i=1 k=1 

m 

k=1 

aikxkyi 

xkA ∗ yk = (x,A ∗ y). 

Die Behauptung (iii) folgt wegen det(λI − A) = det (λI − A ∗ ). ✷ 

Eine naive Idee wäre die Bestimmung der Egenwerte von A durch Ermittlung der Nullstellen des 

charakteristischen Polynoms det(λI − A). Dies wäre ohnhin nur für kleine Werte von n sinnvoll. 

Aber selbst hierbei ist zu beachten, daß die Nullstellenbestimmung von Polynomen schlecht 

konditioniert und daher sehr anfällig gegenüber Rundungsfehlern ist. 

Im allgemeinen Fall benutzt man zur Berechnung von Eigenwerten iterative Näherungsverfahren, 

die wir in den folgenden Kapiteln behandeln. Eine Grundidee besteht in der Konstruktion einer 

Folge von Matrizen (Qn) mit 

Q −1 

n AQn → D, n → ∞, 

wobei die Eigenwerte von D leicht bestimmbar sind. Dabei nutzt man folgendes Resultat. 

Lemma 10.5. Die Eigenwerte einer Matrix A ändern sich bei einer Ähnlichkeitstransformation 

Q −1 AQ mit einer regulären Matrix Q nicht.


Beweis: Unter Nutzung des Multiplikationssatzes für Determinanten ergibt sich aus 

det(λI − A) = det(λI − A)det(Q −1 Q) = det[Q −1 (λI − A)Q] = det(λI − Q −1 AQ) (10.5) 

bereits die Gleichheit der Eigenwerte von A und Q −1 AQ. ✷ 

Wir erinnern an den Begriff der unitären oder orthogonalen Matrix Q mit QQ ∗ = Q ∗ Q = I, 

d.h. Q ∗ = Q −1 . 

Lemma 10.6. (Satz von Schur) 

Zu jeder Matrix A existiert eine unitäre Matrix Q so, daß R := Q ∗ AQ obere Dreiecksmatrix ist. 

Die Darstellung A = QRQ ∗ heisst Schur--Zerlegung von A. 

Beweis: Sei λ Eigenwert einer Matrix An := A ∈ C n×n mit dem (o.B.d.A. orthonormierten) 

Eigenvektor u, d.h. (u,u) = 1. Man kann nun u (zum Beispiel unter Nutzung des Orthogonalisierungsverfahrens 

von Gram-Schmidt) zu einer orthonormalen Basis {u,v2,...,vn} des Raumes 

C n erweitern. Offenbar ist die Matrix 

U := (u v2 ... vn) 

unitär. Unter Beachtung von (u,vi) = 0, i = 2,...,n finden wir 

U ∗ AnU = U ∗ 

λ ∗ 

(λu Anv2 ... Anvn) = 

0 An−1 

mit einer Matrix An−1 ∈ C (n−1)×(n−1) . Nun verfährt man induktiv. ✷ 

Ene wichtige Folgerung aus dem Lemma von Schur ist, daß man die Eigenwerte der Matrix A 

auf der Diagonale der oberen Dreiecksmatrix R findet. 

10.3 Spezialfall hermitescher Matrizen 

Wir betrachten nun den wichtigen Fall hermitescher Matrizen, d.h. A = A ∗ . Der folgende Satz 

beschreibt gerade die Hauptachsentransformation hermitescher Matrizen. 

Lemma 10.7. Für hermitesche Matrizen A ergibt sich 

R := Q ∗ AQ = D := diag(λ1,...,λn). (10.6) 

Die Spalten der Matrix Q = (u1 ... un) sind die Eigenvektoren von A. Sie bilden ein Orthonormalsystem 

des C n . Ferner sind die Eigenwerte von A sämtlich reell. 

Beweis: Unter Benutzung von Lemma 10.6 gilt 

R ∗ = (Q ∗ AQ) ∗ = Q ∗ A ∗ Q ∗∗ = Q ∗ AQ = R. 

Also ist R Diagonalmatrix. Die Darstellung (10.6) folgt aus dem Beweis von Lemma 10.6. 

Aus Q ∗ AQ = D ergibt sich AQ = QD, d.h. für die Spalten in Q gilt Aui = λiui, i = 1,...,n. 

Die Vektoren ui sind somit die Eigenvektoren von A und formieren ein Orthonormalsystem des 

C n . Wegen 

λi = (Aui,ui) = (ui,Aui) = (Aui,ui) 

sind alle Eigenwerte von A reell. ✷ 

Jetzt geben wir Charakterisierungen der Eigenwerte hermitescher Matrizen.

10.3. SPEZIALFALL HERMITESCHER MATRIZEN 105 

Satz 10.8. (Satz von Rayleigh) 

Sei A hermitesche Matrix mit den Eigenwerten λ1 ≥ λ2 ≥ ... ≥ λn und den zugehörigen orthonormalen 

Eigenvektoren x1,x2,...,xn. Mit den Unterräumen V1 := C n sowie 

gilt die Darstellung 

Vk := {x ∈ C n : (x,xi) = 0, i = 1,...,k − 1}, k = 2,...,n (10.7) 

λk = max 

x ∈ V k 

x2 = 1 

Beweis: Sei x ∈ Vk mit x2 = 1. Dann haben wir 

Daraus ergeben sich 

sowie 

Daraus folgern wir nun 

x = 

(Ax,x) = 

n 

(x,xi)xi mit 

i=k 

Ax = 

(Ax,x), k = 1,...,n. (10.8) 

n 

|(x,xi)| 2 = 1. 

i=k 

n 

λi(x,xi)xi 

i=k 

n 

λi|(x,xi)| 2 ≤ λk 

i=k 

sup 

x ∈ V k 

x2 = 1 

n 

|(x,xi)| 2 = λk. 

i=k 

(Ax,x) ≤ λk. 

Die Behauptung folgt dann mit (Axk,xk) = λk sowie xk ∈ Vk. ✷ 

Satz 10.8 erlaubt untere Abschätzungen für den kleinsten Eigenwert. Schranken für die weiteren 

Eigenwerte erfordern Kenntnis der Eigenvektoren. Abhilfe schafft 

Satz 10.9. (Minimum-Maximum Prinzip von Courant) 

Sei A hermitesche Matrix mit den Eigenwerten λ1 ≥ λ2 ≥ ... ≥ λn. Dann gilt die Darstellung 

λk = min 

Uk⊂Mk 

max 

x ∈ U k 

x2 = 1 

(Ax,x), k = 1,...,n, (10.9) 

wobei Mk die Menge aller Unterräume Uk von C n der Dimension n + 1 − k ist. 

Beweis: Zunächst ist festzustellen, dass wegen der Stetigkeit der Abbildung x ↦→ (Ax,x) das 

in (10.9) auftretende Maximum tatsächlich existiert. 

Seien x1,...,xn die nach Lemma 10.7 orthonormalen Eigenvektoren zu den Eigenwerten λ1 ≥ 

λ2 ≥ ... ≥ λn. Es wird nun gezeigt, daß zu einem Unterraum Uk stets ein Element x ∈ Uk 

existiert mit 

(x,xi) = 0, i = k + 1,...,n. 

Sei {φ1,...,φn+1−k} eine Basis von Uk. Mit der Basisdarstellung 

x = 

n+1−k 

j=1 

ajφj 

(10.10)


sind die n + 1 − k Koeffizienten a1,...,an+1−k aus dem nichttrivial lösbaren linearen Gleichungssystem 

n+1−k 

j=1 

aj(φj,xi) = 0, i = k + 1,...,n 

mit n−k Gleichungen zu bestimmen. O.B.d.A. ist für x aus (10.10) x2 = 1. Mit der Darstellung 

folgern wir 

Daraus folgt 

(Ax,x) = 

x = 

k 

(x,xj)xj 

j=1 

k 

λj|(x,xj)| 2 ≥ λk 

j=1 

max 

x ∈ U k 

x2 = 1 

k 

|(x,xj)| 2 = λk. 

j=1 

(Ax,x) ≥ λk. 

Andererseits besteht nach Satz 10.8 für Uk := {x ∈ Cn : (x,xi) = 0, i = 1,...,k − 1} die 

Gleichheit 

max (Ax,x) = λk. ✷ 

x ∈ Uk x2 = 1 

10.4 Lokalisierung von Eigenwerten 

Wir zeigen nachfolgend einige Abschätzungen über die Lage von Eigenwerten aus den Matrixdaten. 

Derartige Angaben sind u.a. von Interesse, um geeignete Startwerte für Iterationsverfahren 

zur Bestimmung der Eigenwerte zu finden. 

Lemma 10.10. Seien A und B hermitesche Matrizen mit den Eigenwerten 

λ1(A) ≥ λ2(A) ≥ ... ≥ λn(A) und λ1(B) ≥ λ2(B) ≥ ... ≥ λn(B). 

Dann gilt in jeder Norm die Abschätzung 

Beweis: Die Cauchy-Schwarzsche Ungleichung zeigt 

daher 

|λk(A) − λk(B)| ≤ A − B, k = 1,...,n. (10.11) 

((A − B)x,x) ≤ (A − B)x2x2 ≤ A − B2x 2 2, 

(Ax,x) ≤ (Bx,x) + A − B2x 2 2 . 

Mit den Bezeichungen von Satz 10.9 bilden wir nacheinander für k = 1,... ,n das Supremum 

über x ∈ Uk zuerst auf der rechten und dann auf der linken Seite der Ungleichung. Dann bilden 

wir das Infimum über Uk ⊂ Mk auf der linken und dann auf der rechten Seite. Satz 10.9 ergibt 

dann 

λk(A) ≤ λk(B) + A − B2, k = 1,...,n 

und nach Vertauschung von A und B 

λk(B) ≤ λk(A) + A − B2, k = 1,...,n

10.4. LOKALISIERUNG VON EIGENWERTEN 107 

somit 

|λk(A) − λk(B)| ≤ A − B2, k = 1,...,n. 

Die Behauptung des Lemmas folgt aus der Abschätzung für den Spektralradius ρ 

A − B2 = ρ(A − B) ≤ A − B. 

In der letzten Abschätzungskette haben wir die Sätze 4.23 und 4.24 aus dem Kurs Numerische 

Mathematik I benutzt. ✷ 

Folgerung 10.11. Für die Eigenwerte λ1 ≥ λ2 ≥ ... ≥ λn einer hermiteschen Matrix A = (aik) 

gilt 

|aik| 2 , j = 1,...,n. (10.12) 

Dabei ist a , 

derart, daß a , 

11 

|λj − a , 

jj |2 ≤ 

i, k 

i = k 

11 ,...,a, nn eine geeignete Permutation der Hauptdiagonalelemente a11,...,ann von A 

≥ a, 

22 ≥ ... ≥ a, nn. 

Beweis: Man wendet Lemma 10.10 mit B = diag(a , 

ii ) und der Norm · 2 an. ✷ 

Im Fall allgemeiner Matrizen gilt der folgende Lokalisierungssatz für Eigenwerte. 

Satz 10.12. (Satz von Gerschgorin) 

Seien A = (aik) ∈ C n×n sowie 

und 

Ki := 

K ∗ i := 

⎧ 

⎪⎨ 

λ ∈ C : |λ − aii| ≤ 

⎪⎩ 

⎧ 

⎪⎨ 

λ ∈ C : |λ − aii| ≤ 

⎪⎩ 

n 

k = 1 

k = i 

n 

k = 1 

k = i 

|aik| 

|aki| 

⎫ 

⎪⎬ 

, 

⎪⎭ 

i = 1,...,n (10.13) 

⎫ 

⎪⎬ 

, 

⎪⎭ 

i = 1,...,n. (10.14) 

Dann erhält man für alle Eigenwerte λ von A die Abschätzung 

 

n 

λ ∈ 

 

n 

∩ 

 

. (10.15) 

i=1 

Ki 

Beweis: Sei Ax = λx und x∞ = 1. Wählt man einen Index i mit |xi| = x∞ = 1, so gilt 

wegen 

n 

aikxk = λxi 

die Aussage 

Daraus ergibt sich 

k=1 

 

 

 

 

|λ − aii| = |(λ − aii)xi| = 

 

 

 

λ ∈ 

n 

k = 1 

k = i 

i=1 

n 

Ki. 

i=1 

K ∗ i 

aikxk 

 

 

 

 

 

≤ 

 

 

n 

k = 1 

k = i 

|aik|.


Da A ∗ nach Lemma 10.4 die konjugiert komplexen Eigenwerte der Matrix A hat, gilt auch 

λ ∈ 

n 

K ∗ i . ✷ 

i=1 

Bemerkung 10.13. Die hier angegebenen Lokalisierungsresultate können auch benutzt werden, 

um bei den nachfolgend zu beschreibeneden iterativen Lösungsverfahren für Eigenwerte in jedem 

Schritt eine a posteriori Fehlerschrake zu erhalten. Man kann dann jeweils entscheiden, ob die 

erzielte Genauigkeit ausreicht oder weitere Iterationsschritte erforderlich sind. ✷

Kapitel 11 

Verfahren der Vektoriteration 

Wir betrachten in den beiden folgenden Kapiteln numerische Lösungsverfahren für allgemeine 

(nichtsymmetrische) Eigenwertprobleme. Dabei konzentrieren wir uns vor allem auf diagonalisierbare 

(oder diagonalähnliche) Matrizen, d.h. es gibt eine reguläre Matrix X ∈ C n×n , so daß 

X −1 AX Diagonalmatrix ist. Nach Lemma 10.7 trifft dies natürlich auf hermitesche Matrizen 

als Spezialfall zu. Wir gehen zunächst im Kapitel 11 auf Methoden der Vektoriteration ein. 

Dann betrachten wir in Kapitel 12 das heute im Fall allgemeiner quadratischer Matrizen wohl 

wichtigste numerische Verfahren zur Eigenwertberechnung von Matrizen, das QR-Verfahren. 

11.1 Potenzmethode 

Die Potenzmethode nach von Mises (1929) erlaubt die iterative Berechnung des betragsmäßig 

größten Eigenwertes, der als kritischer Parameter in Anwendungen oftmals zuerst interessiert. 

Wir betrachten eine diagonalisierbare Matrix A nehmen an, daß ein Eigenwert die anderen 

betragsmäßig dominiert, d.h. 

|λ1| > |λ2| ≥ · · · ≥ |λn|. (11.1) 

Die zugehörigen Eigenvektoren x1,...,xn bilden eine Basis des C n . (Für hermitesche Matrizen 

folgt dies aus Lemma 10.7. Im Fall diagonalisierbarer Matrizen sei dies zur Übung empfohlen.) 

Bei beliebigem Startvektor v (0) ∈ C n iteriert man 

v (k) := A k v (0) , k ∈ N, d.h. v (k) := Av (k−1) . (11.2) 

Aus Stabilitätsgründen baut man bei der Implementierung jedoch eine Orthonormierung ein. 

Vektoriteration nach von MISES 

Initialisierung: A ∈ C n×n , Startvektor v (0) = n 

i=1 αixi ∈ C n mit α1 = 0; 

k = 0; 

repeat 

y (k+1) := Av (k) ; 

v (k+1) := y (k+1) /y (k+1) 2; 

k := k + 1; 

until stop 

Ergebnis: v (k) ist Näherung eines Eigenvektors zum Eigenwert λ1 und y (k) 2 ≈ |λ1|. 

Die von Mises-Iteration setzt natürlich nicht die Diagonalisierbarkeit von A voraus. Unter dieser 

109

110 KAPITEL 11. VERFAHREN DER VEKTORITERATION 

Voraussetzung kann man aber den folgenden Konvergenzsatz beweisen. 

Satz 11.1. Sei A ∈ Cn×n eine diagonalisierbare Matrix mit Eigenwerten gemäß (11.1). Ferner 

gelte in der Basisdarstellung des Startvektors v (0) = n i=1 αixi, daß α1 = 0. Dann ergibt sich 

für die Potenzmethode die Konvergenzaussage 

Ferner gilt 

dist(v (k) ,span{x1}) := min 

β∈C v(k) − βx12 ≤ M 

|y (k) 2 − |λ1|| ≤ M 

 

 

 

 

λ2 

λ1 

 

 

 

 

k 

 

 

 

 

λ2 

λ1 

 

 

 

 

k 

. (11.3) 

. (11.4) 

Beweis: Nach Iterationsvorschrift und Voraussetzung an den Startvektor gilt induktiv 

ferner 

Av (0) = 

A 2 v (0) = 

A k v (0) = 

n 

αiAxi = 

i=1 

n 

αiλiAxi = 

i=1 

n 

i=1 

. 

n 

αiλixi, 

i=1 

n 

i=1 

αiλ k i Axi = α1λ k 1 

. 

αiλ 2 i xi 

 

x1 + 

n 

k αi λi 

xi 

α1 λ1 

i=2 

v (k) = A k v (0) /A k v (0) 2 ∈ span{A k v (0) }, v (k) 2 = 1, k = 1,2,... . 

Sei sign(λ) := λ/|λ| für λ ∈ C \ {0}. Dann folgt (11.3) aus 

min 

β∈C v(k) 

 

A 

− βx12 = min 

β∈C 

kv (0) 

Akv (0) 

 

 

− βx1 

2 

2 

 

 

 

 

= min sign(α1λ 

β∈C 

 

k x1 + 

1) 

n i=2 αi 

k λi 

xi 

α1 λ1 

x1 + n i=2 αi 

 

 

 

 

− βx1 

k 

λi 

xi2 

α1 λ1 

1 

≤ 

x1 + n i=2 αi 

n 

 

αi k 

 

 

|λi| 

k 

λi α1 

xi2 

|λ1| 

xi2 i=2 

α1 λ1 

 

λ2 

k 

≤ M 

. 

λ1 

Hinsichtlich des Beweises für die Ausage (11.4) wird verwiesen auf [10], Satz 25.1. ✷ 

Satz 11.1 zeigt, daß die Folge {v (k) } der ”Richtung nach gegen x1 konvergiert”. Der Skalierungsfaktor 

λ k 1 ist a-priori unbekannt. Dies ist unwesentlich, da der Eigenvektor x1 nur bis auf eine 

multiplikative Konstante bestimmt ist. Wesentlich ist lediglich die Richtung des Eigenvektors. 

Die Konvergenz des Verfahrens hängt natürlich vom Kontraktionsfaktor q := |λ2|/|λ1| ab. Das 

folgende einfache Beispiel zeigt, daß die praktische Konvergenz des Verfahrens nicht befriedigt. 

 

, 

2

11.2. INVERSE ITERATION MIT SHIFT-STRATEGIE 111 

Beispiel 11.2. Die Matrix 

⎛ 

A = ⎝ 

−4 14 0 

−5 13 0 

−1 0 2 

hat die Eigenwerte λ1 = 6, λ2 = 3 und λ3 = 2. Die Voraussetzungen von Satz 11.1 sind erfüllt mit 

dem Startvektor v (0) = (1,1,1) T . Tabelle 11.1 zeigt die lineare Konvergenz der mit der Methode 

Tabelle 11.1: Konvergenz der Potenzmethode für Beispiel 11.2 

k v (k) 

1 

v (k) 

2 

v (k) 

3 

⎞ 

⎠ 

λk 

0 1.0 1.000000 1.000000 

1 1.0 0.800000 0.100000 10.00000 

2 1.0 0.750000 -0.111000 7.200000 

3 1.0 0.730769 -0.188034 6.500000 

4 1.0 0.722200 -0.220850 6.230769 

5 1.0 0.718182 -0.235915 6.111000 

6 1.0 0.716216 -0.243095 6.054546 

. . . . . 

10 1.0 0.714405 -0.249579 6.003352 

11 1.0 0.714346 -0.249790 6.001675 

12 1.0 0.714316 -0.249895 6.000837 

erzeugten Folge (v (k) ) zur Näherung des dominierenden Eigenwertes λ1 = 6. Wir werden in den 

folgenden Abschnitten sehen, dass sich diese unbefriedigende Konvergenzgeschwindigkeit durch 

geeignete Modifikation des Basisverfahrens deutlich verbessern lässt. ✷ 

Bemerkung 11.3. Die Bedingung α1 = 0, d.h. v (0) ∈ span{x2,...,xn}, stellt sich im allgemeinen 

Fall durch Rundungsfehler ein. ✷ 

11.2 Inverse Iteration mit shift-Strategie 

Die Potenzmethode erlaubt nur die Berechnung des betragsmäßig größten Eigenwertes und eines 

dazugehörigen Eigenvektors. Durch eine scheinbar einfache Modifikation kann man auch die 

anderen Eigenwerte und Eigenvektoren ermitteln: 

• Bei der inversen Iteration ersetzt man die reguläre Matrix A durch A−1 . Da A−1 die Eigenwerte 

λ −1 

i , i = 1,... ,n mit den gleichen Eigenvektoren hat, konvergiert dieses Verfahren 

gegen den dominanten Eigenwert λ−1 n von A−1 . 

• Sei σ eine Näherung an einen Eigenwert λj von A und selbst aber kein Eigenwert. Dann 

verwendet man die inverse Iteration mit shift oder gebrochene Iteration nach Wielandt. 

(A − σI) −1 hat die Eigenwerte (λi − σ) −1 , i = 1,... ,n. Die Iteration approximiert dann 

einen Eigenvektor zu dem Eigenwert λj von A, der am nächsten zu σ liegt. 

Inverse Iteration mit shift nach WIELANDT 

Initialisierung: Näherung σ ∈ C an Eigenwert λj von A ∈ C n×n , Startvektor v (0) ∈ C n ; 

k = 0; 

repeat


y (k+1) := (A − σI) −1 v (k) ; 

v (k+1) := y (k+1) /y (k+1) 2; 

k := k + 1; 

until stop 

Ergebnis: v (k) ist Näherung eines Eigenvektors zum Eigenwert λj. 

Im Unterschied zur Potenzmethode ist hier zur Berechnung von y (k+1) , d.h. in jedem Iterationsschritt, 

ein lineares Gleichungssystem mit der Matrix A − σI zu lösen. Dies ist natürlich teurer 

als die Matrix-Vektor-Multiplikationen bei der Potenzmethode. Wir wollen jedoch motivieren, 

warum die inverse Iteration potentiell sehr gute Konvergenzeigenschaften hat. 

Ausgehend von der Basisdarstellung des Startvektors erhält man analog zum Beweis von Satz 

11.1 die Aussagen v (k) ∈ span{(A − σI) −k v (0) } und 

(A − σI) −k v (0) = 

n 

i=1 

αi 

(λi − σ) k xi. (11.5) 

Falls der Parameter σ sehr viel näher beim Eigenwert λj als bei den restlichen Eigenwerten 

λi, i = j liegt, erhält man 

1 

|λi − σ| ≪ 

1 

, 

|λj − σ| 

i = j. (11.6) 

Aus der Darstellung (11.5) ersieht man, daß der j−te Summand die übrigen Terme der rechts 

stehenden Summe stark dominiert. Dies bedeutet, daß v (k) eine gute Näherung für den zum 

Eigenwert λj gehörenden Eigenvektor ist. Die Konvergenzgeschwindigkeit des Verfahrens wird 

dann bestimmt durch den Kontraktionsfaktor 

q := max 

i=j 

|λj − σ| 

|λi − σ| 

Die Idee des shift-Verfahrens durch Wahl eines geeigneten Parameters σ werden wir auch beim 

QR-Verfahren im nächsten Kapitel aufgreifen. 

11.3 Rayleigh-Quotienten-Iteration 

Man kann bei der Potenzmethode bzw. der inversen (gebrochenen) Iteration eine deutliche Verbesserung 

der Konvergenzgeschwindigkeit für den gesuchten Eigenwert λj erreichen, wenn man 

ihn durch die Näherungsfolge auf Basis des sogenannten Rayleigh-Quotienten ermittelt, d.h. 

≪ 1. 

RA(v) := (Av,v) 

(v,v) . 

Seien nachfolgend λ1,...,λn die Eigenwerte von A sowie x1,...,xn ein zugehöriges Orthonormalsystem 

von Eigenvektoren. Das Rayleigh-Quotienten Verfahren basiert im Fall hermitescher 

Matrizen auf den folgenden Beobachtungen: 

• Die Funktion f : R → R mit f(λ) := 1 

eindeutiges Minimum auf R in RA(x) an, denn 

2 Ax − λx2 2 

f(λ) = λ2 

2 x2 2 − λx ∗ Ax + 1 

2 Ax2 2 

nimmt bei gegebenem x = 0 ihr 

nimmt das (eindeutige) Minimum an bei λ = RA(x). Ist also v = 0 eine brauchbare Näherung 

für einen Eigenvektor von A, so ist RA(v) eine gute Näherung für einen zugehörigen 

Eigenwert.

11.3. RAYLEIGH-QUOTIENTEN-ITERATION 113 

• Sei λ eine gute Näherung für einen Eigenwert von A, jedoch selbst kein Eigenwert. Ferner 

sei v ∈ Cn mit v2 = 1 eine Näherung für einen zugehörigen Eigenvektor. Dann ergibt 

sich mit 

v+ := (A − λI)−1v (A − λI) −1 (11.7) 

v2 

in der Regel eine verbesserte Approximation für einen normierten Eigenvektor. 

Sei genauer λ eine wesentliche bessere Näherung für den Eigenwert λj als für die restlichen 

Eigenwerte. Ferner sei v = n 

i=1 αixi. Dann ist 

v+ := 

(A − λI) −1 v 

(A − λI) −1 v2 

= 

= sign(λj − λ)αjxj + 

 

α2 

j + i=j α2 i 

 

i αi 

λi−λ xi 

[ 

i 

i=j 

λj−λ 

λi−λ 

α2 1 

i 2 

(λi−λ) 2] 

αi λj−λ 

|λi−λ| xi 

2 1 

2 

(11.8) 

wegen |λj − λ| ≪ |λi − λ|, i = j eine i.a. bessere Näherung für den Eigenvektor xj als v. 

Darauf basiert das Rayleigh-Quotienten Verfahren, bei dem zu einer aktuellen Näherung für 

einen Eigenvektor zunächst der zugehörige Rayleigh-Quotient berechnet und danach mit diesen 

Daten ein Schritt der inversen Iteration ausgeführt wird. 

Rayleigh-Quotienten-Verfahren 

Initialisierung: Matrix A ∈ C n×n , Startvektor v (0) ∈ C n mit v02 = 1.; 

k = 0; 

repeat 

ρk := RA(vk); 

if A − ρkI singulär 

else 

until stop 

v (k+1) mit (A − ρkI)v (k+1) = 0, v (k+1)2 = 1, stop; 

y (k+1) := (A − ρkI) −1 v (k) ; 

v (k+1) := y (k+1) /y (k+1) 2; 

k := k + 1; 

Ergebnis: v (k) ist Näherung eines Eigenvektors A. ρk ist Näherung an zugehörigen Eigenwert. 

In jedem Iterationsschritt ist also wie bei der inversen Iteration ein lineares Gleichungssystem 

(A − ρkI)y (k+1) = v (k) 

(11.9) 

zu lösen. Im Unterschied zur inversen Iteration ist jedoch in jedem Iterationsschritt die Koeffizientenmatrix 

zu modifizieren. 

Die hervorragenden Eigenschaften des Verfahrens im Fall hermitescher Matrizen beschreibt der 

folgende lokale Konvergenzsatz.


Satz 11.4. Durch das Rayleigh-Quotienten Verfahren für die hermitesche Matrix A ∈ C n×n 

werde die Folge {(v (k) ,ρk)} erzeugt, wobei {v (k) } gegen einen durch z2 = 1 normierten Eigenvektor 

z von A mit Eigenwert λ konvergiere. Dann konvergieren die Folge {v (k) } kubisch gegen 

z und die Folge {ρk} quadratisch gegen λ. Genauer gibt es Konstanten C1,C2 > 0 mit 

v (k+1) − z2 ≤ C1v (k) − z 3 2 , |ρk − λ| ≤ C2vk − z 2 2 . 

Beweis: Der Beweis ist technisch hinreichend kompliziert. Wir verweisen hierzu auf [12], S. 70 

ff. Eine Beweisskizze findet man bei [10], Satz 25.4. ✷ 

Bemerkung 11.5. Man kann natürlich auch bei der Potenzmethode oder der Wielandt- 

Iteration eine verbesserte Näherung an den jeweiligen Eigenwert durch Benutzung des Rayleigh- 

Quotienten erreichen. Für hermitesche Matrizen kann im Fall der Potenzmethode folgende gegenüber 

(11.4) verbesserte Konvergenzaussage bewiesen werden 

 

 

|λ1 − ρk| ≤ M 

 

Einen Beweis findet man in [10], Korollar 25.3. ✷ 

λ2 

λ1 

 

 

 

 

2k 

.

Kapitel 12 

QR-Verfahren für allgemeine EWP 

Wir behandeln nun das derzeit wohl wichtigste numerische Verfahren zur Eigenwertberechnung 

von Matrizen, das QR-Verfahren. Wir entwickeln zunächst die Idee des Verfahrens und beweisen 

die Konvergenz im einfachsten Fall. Hier betrachten wir den Fall diagonalisierbarer Matrizen. 

Dann gehen wir auf Fragen der effizienten Implementierung und Konvergenzbeschleunigung ein. 

Die Darstellung folgt teilweise der bei [10], Kap. 26-27. 

12.1 Basisalgorithmus des QR-Verfahrens 

Die QR-Zerlegung ist uns bereits aus dem Kurs Numerische Mathematik I, Kap. 3 bekannt. 

Beim QR-Verfahren erzeugt man auf der Basis von QR-Zerlegungen eine Folge von Ähnlichkeits- 

Transformationen der Matrix A. Diese konvergiert unter bestimmten Voraussetzungen gegen eine 

obere Dreiecksmatrix, auf deren Diagonale die Eigenwerte von A stehen. 

Initialisierung: A ∈ C n×n gegebene Matrix 

m = 0; 

A0 := A; 

repeat 

Am = QmRm; // QR-Zerlegung 

Am+1 := RmQm; 

m := m + 1; 

until stop 

QR-Verfahren (Basisalgorithmus) 

Ausgabe: Mit Qm := Q0Q1 · · · Qm−1 ist A = QmAmQ ∗ m, wobei QmAmQ ∗ m i.a. Fall gegen eine 

Schur-Zerlegung von A konvergiert. 

Das folgende Lemma zeigt, daß hierbei tatsächlich eine Folge von Ähnlichkeitstransformationen 

entsteht. 

Lemma 12.1. Für den Basisalgorithmus des QR-Verfahrens gilt für m ∈ N: 

Am = Q ∗ m−1 Am−1Qm−1 (12.1) 

Am = Q ∗ m AQm, (12.2) 

A m = QmRm mit Rm := Rm−1 · · · R0. (12.3) 

115

116 KAPITEL 12. QR-VERFAHREN FÜR ALLGEMEINE EWP 

Beweis: (i) Aussage (12.1) folgt aus 

Am = Rm−1Qm−1 = Q ∗ m−1Qm−1Rm−1Qm−1 = Q ∗ m−1Am−1Qm−1. 

(ii) Aussage (12.2) ergibt sich aus (12.1) nach Induktion über m. 

(iii) Erneute Induktion über m liefert mittels (12.2) 

A m+1 = AA m = QmAmQ ∗ m QmRm = QmQmRmRm = Qm+1Rm+1. ✷ 

Wir werden den aufwendigen Nachweis, dass die Folge (Am)m gegen eine obere Dreiecksmatrix 

konvergiert, erst im folgenden Abschnitt bringen. Wir wollen aber bereits hier diese Konvergenz 

unter Bezug auf Verfahren der Vektoriteration motivieren. 

Ein Spaltenvergleich in (12.3) zeigt 

A m e1 = QmRme1 = Qmr (m) 

11 e1 = r (m) 

11 q(m) 

1 . 

Dabei sind r (m) 

11 = (Rm)11 sowie q (m) 

1 der erste Spaltenvektor von Qm. Bis auf Normierung 

stimmen also die Vektoren q (m) 

1 

mit denen überein, die bei Anwendung der Vektoriteration mit 

Startwert x0 = e1 entstehen. Nach Satz 11.1 konvergiert die Folge (q (m) 

1 ) i.a. Fall gegen einen 

Eigenvektor zum betragsmäßig größten Eigenwert λ1. (Dieser Satz gilt auch ohne die bei der 

Potenzmethode vorgenommene Orthonormierung.) Unter Benutzung von (12.2) gilt damit für 

hinreichend große Zahlen m 

d.h. es gilt 

Ame1 = Q ∗ mAQme1 = Q ∗ mAq(m) 1 ≈ λ1Q ∗ mq(m) 1 = λ1e1, 

⎛ 

λ1 

⎜ 0 

Am ≈ ⎜ 

⎝ . 

∗ 

∗ 

. 

· · · 

⎞ 

∗ 

∗ ⎟ 

. ⎠ 

0 ∗ · · · ∗ 

. 

Wenn A regulär ist, so entsteht für die letzte Spalte q (m) 

n von Qm unter Benutzung von (12.3) 

die Relation 

q (m)∗ 

n 

= e ∗ nQ ∗ m = e ∗ nQ −1 

m = e ∗ nRmA −m = r (m) 

nn e ∗ nA −m . 

Daher ist q (m) 

n das Ergebnis von m Schritten der inversen Iteration zur Berechnung des betragsmäßig 

kleinsten Eigenwertes von A ∗ . Letzterer ist konjugiert-komplex zum betragsmäßig 

kleinsten Eigenwert λn von A. Nach Satz 11.1 erhalten wir somit 

e ∗ nAm = e ∗ nQ ∗ mAQm = q (m) 

n AQm = (A ∗ q (m) 

n ) ∗ Qm ≈ λnq (m)∗ 

n Qm = λne ∗ n. 

Da die letzte Zeile von Am somit approximativ ein Vielfaches von e ∗ n 

mit der oberen Darstellung 

⎛ 

λ1 

⎜ 0 

⎜ 

Am ≈ ⎜ . 

⎝ 0 

∗ 

∗ 

. 

∗ 

· · · 

· · · 

∗ 

∗ 

. 

∗ 

⎞ 

⎟ . 

⎟ 

⎠ 

0 0 · · · λn 

ist, erhalten wir zusammen

12.2. KONVERGENZ DES EINFACHEN QR-VERFAHRENS 117 

12.2 Konvergenz des einfachen QR-Verfahrens 

Wir zeigen nun die Konvergenz des einfachen QR-Verfahrens für den Fall, daß alle Eigenwerte 

paarweise verschiedenen Betrag haben. Dabei nutzen wir die Eindeutigkeit der QR-Zerlegung. 

Lemma 12.2. Seien A = Q1R1 = Q2R2 zwei QR-Zerlegungen einer regulären Matrix A ∈ 

C n×n . Dann existiert eine unitäre Diagonalmatrix S mit Q1 = Q2S ∗ und R1 = SR2. 

. Daher muß 

die obere Dreiecksmatrix S := R1R −1 

2 unitär sein. Wegen der Orthogonalität der Spalten einer 

unitären Matrix ist S Diagonalmatrix. Damit ist der Beweis vollständig. ✷ 

Beweis: Wegen der Regularität von A und damit von R2 folgt Q∗ 1Q2 = R1R −1 

2 

Satz 12.3. Sei A ∈ C n×n diagonalisierbar mit Eigenwerten 

|λ1| > |λ2| > ... > |λn| > 0. (12.4) 

Sei Λ := diag(λ1,... ,λn) die Eigenwert-Matrix und X := (x1,...,xn) die zugehörige Eigenvektor- 

Matrix, d.h. es ist A = XΛX −1 . Ferner existiere eine LU-Zerlegung X −1 = LU. Dann konvergieren 

die Matrizen Am des Basis-Verfahrens des QR-Verfahrens gegen eine obere Dreiecksmatrix. 

Die Diagonaleinträge (Am)ii konvergieren mindestens linear gegen die Eigenwerte λi. 

Beweis: (i) QR-Zerlegung von A m : Wegen der existierenden Zerlegung X −1 = LU folgt 

A m = (XΛX −1 ) m = XΛ m X −1 = XΛ m LU = (XΛ m LΛ −m ) 

 

=:Xm 

Λ m U. 

Sei nun Xm = PmUm eine QR-Zerlegung von Xm. Wegen der Regularität von Xm ist auch die 

obere Dreiecksmatrix Um regulär. Neben (12.3) finden wir somit eine weitere QR-Zerlegung 

A m = Pm(UmΛ m U). 

Nach Lemma 12.2 gibt es dann eine unitäre Diagonalmatrix Sm mit 

Qm = PmS ∗ m, Rm = SmUmΛ m U. (12.5) 

(ii) Asymptotik der Matrizen Xm: Die Diagonaleinträge der Matrix L = (lij) sind gleich 1 

und die Einträge λi der Diagonalmatrix Λ sind der Größe nach geordnet. Dann gelten mit 

q := maxi=2,...,n |λi|/|λi−1| ∈ (0,1) die Aussagen 

sowie 

(Λ m LΛ −m )ij = λ m i 

lijλ −m 

j = 

⎧ 

⎨ 

⎩ 

0, falls i < j 

1, falls i = j 

0(q m ), falls i > j 

Xm = XΛ m LΛ −m = X + Em, Em2 = 0(q m ), m → ∞. (12.6) 

(iii) Darstellung von Am: Wegen der Definition von Qm und Rm sowie wegen (12.5) haben wir 

und 

Qm = Q −1 

m Qm+1 = SmP −1 

m Pm+1S ∗ m+1 

Rm = Rm+1R −1 

m = Sm+1Um+1Λ m+1 UU −1 Λ −m U −1 

m S∗ −1 

m = Sm+1Um+1ΛUm S∗ m .


Daraus folgt 

Am = QmRm = SmP −1 

m Pm+1S ∗ −1 

m+1Sm+1Um+1ΛUm S∗ m 

= SmUmU −1 

m P −1 

m Pm+1Um+1ΛU −1 

m S ∗ m 

= SmUmX −1 

m Xm+1ΛU −1 

m S ∗ m. (12.7) 

(iv) Konvergenz der Matrizen Am: Wegen (12.6) ist 

Dann liefert (12.7) 

X −1 

m Xm+1 = (X + Em) −1 (X + Em+1) = I + Fm, Fm2 = 0(q m ). 

Am = SmUmΛU −1 

m S ∗ m + SmUmFmΛU −1 

m S ∗ m. 

Wegen Xm = PmUm und der Unitarität der Matrizen Pm und Sm ist 

Um2 = P ∗ m Xm2 = Xm2, U −1 

m 2 = X −1 

m 2. 

Für den zweiten Summanden in der letzten Formel für Am ergibt sich dann 

SmUmFmΛU −1 

m S∗ m 2 ≤ Xm2X −1 

m 2 |λ1| Fm2 = 0(q m ), m → ∞ (12.8) 

und damit die asymptotische Darstellung 

Am ∼ SmUmΛU −1 

m S ∗ m, m → ∞. 

Dabei ist die rechte Seite als Produkt oberer Dreieckmatrizen selbst obere Dreiecksmatrix. Dann 

erhalten wir 

= Λ, m → ∞. 

diag(Am) ∼ Smdiag(Um)Λ diag(Um) −1 S ∗ m 

Wegen (12.8) erhalten wir für den Fehler 

Am − SmUmΛU −1 

m S ∗ m2 = SmUmFmΛU −1 

m S ∗ m2 

lineare Konvergenz gegen Null. ✷ 

Die Voraussetzung der Existenz einer LU-Zerlegung von X −1 verallgemeinert die Voraussetzung 

aus Satz 11.1 für die Potenzmethode, daß der Startvektor nicht eine Linearkombination der 

übrigen Eigenvektoren ist. Diesen Sachverhalt beschreibt das folgende Lemma. 

Lemma 12.4. Für die Matrix X −1 existiert genau dann eine LU-Zerlegung, wenn 

span{e1,... ,ek} ∩ span{xk+1,...,xn} = {0}, k = 1,... ,n − 1. (12.9) 

Beweis: Für k ∈ {1,... ,n − 1} gehört der Vektor x ∈ C n genau dann zu der Menge auf der 

linken Seite von (12.9), d.h. es gilt für Koeffizienten αj,βj ∈ C 

falls 

x = 

X −1 x = 

k 

αjej = 

j=1 

n 

j=k+1 

k 

αjX −1 ej = 

j=1 

βjxj, 

n 

j=k+1 

βjej.

12.3. NACHTEILE DES BASISVERFAHRENS 119 

Einen derartigen Vektor x = 0 findet man genau dann, wenn die k-te Hauptabschnittsdeterminante 

von X −1 nicht verschwindet. Die Behauptung folgt somit, da eine Matrix genau dann eine 

LU-Zerlegung besitzt, wenn alle Hauptabschnittsdeterminanten nicht verschwinden. ✷ 

Bemerkungen 12.5. (i) Die technische Voraussetzung (12.9) ist nicht erforderlich. Man erhält 

dann unter der Voraussetzung (12.4) noch Konvergenz des QR-Verfahrens, jedoch sind die Eigenwerte 

auf der Hauptdiagonale nicht mehr notwendig betragsmäßig der Größe nach angeordnet. 

(ii) Im Falle von Eigenwerten gleichen Betrages konvergiert die Folge (Am) gegen eine obere 

Blockmatrix. Dabei entspricht die Größe der Blöcke gerade der Anzahl der Eigenwerte gleichen 

Betrages. Hinsichtlich einer genaueren Darstellung dieses allgemeineren Falles verweisen wir auf 

[13], Kap. 6.4. ✷ 

12.3 Nachteile des Basisverfahrens 

Wir wollen zunächst diskutieren, daß die Basisvariante des QR-Verfahrens aus Abschnitt 12.1 

nicht effizient ist. Folgendes Beispiel zeigt, daß die Konvergenz selbst bei kleiner Dimension n 

unzureichend ist. 

Beispiel 12.6. Für die Matrix 

⎛ 

A = A1 := ⎝ 

2 −1 0 

−1 2 −1 

0 −1 2 

lauten die Eigenwerte mit einer Genauigkeit von 10 −5 : 

⎞ 

⎠ ∈ R 3×3 

λ1 = 3.414214, λ2 = 2.000000, λ3 = 0.5857864. 

Das einfache QR-Verfahren liefert die Iterierten 

A2 = 

A3 = 

A4 = 

A5 = 

A6 = 

A7 = 

⎛ 

⎝ 

⎛ 

⎝ 

⎛ 

⎝ 

⎛ 

⎝ 

⎛ 

⎝ 

⎛ 

⎝ 

2.8000 −0.7483 −0.0000 

−0.7483 2.3429 0.6389 

−0.0000 0.6389 0.8571 

3.1429 −0.5594 0.0000 

−0.5594 2.2484 −0.1878 

0.0000 −0.1878 0.6087 

3.3084 −0.3722 −0.0000 

−0.3722 2.1039 0.0522 

−0.0000 0.0522 0.5876 

3.3761 −0.2292 0.0000 

−0.2292 2.0380 −0.0149 

0.0000 −0.0149 0.5859 

3.4009 −0.1367 −0.0000 

−0.1367 2.0133 0.0043 

−0.0000 0.0043 0.5858 

3.4096 −0.0805 0.0000 

−0.0805 2.0046 −0.0013 

0.0000 −0.0013 0.5858 

⎞ 

⎠ 

⎞ 

⎠ 

⎞ 

⎠ 

⎞ 

⎠ 

⎞ 

⎠ 

⎞ 

⎠ . ✷


Neben dieser unbefriedigenden Konvergenzaussage erfordert jeder (!) Schritt des QR-Basisalgorithmus 

bei vollbesetzter Matrix A ∈ C n×n bis zu O(n 3 ) wesentliche Rechenoperationen. Natürlich reduziert 

sich diese Zahl (bei geschickter Implementierung) stark, wenn die Matrix A schwachbesetzt 

ist, d.h. sehr viele Nullelemente hat. Speziell sind alle iterierten Matrizen von Tridiagonalmatrizen 

selbst wieder Tridiagonalmatrizen. Ebenso bleibt die Form von Hessenberg-Matrizen, d.h. 

bei Matrizen A = (aik) mit 

bei der QR-Zerlegung erhalten. 

aik = 0, 1 ≤ k ≤ i − 2, i = 3,...,n, 

Man erhält eine erhebliche Senkung des Rechenaufwandes und eine Konvergenzbeschleunigung 

mit dem shift QR-Verfahren, das folgenden Aufbau hat: 

• In einem Reduktionsschritt führt man die gegebene Matrix A ∈ C n×n in eine orthogonal 

ähnliche obere Hessenberg-Matrix A0 über. 

• Für m = 0,1,...: 

– Bestimme einen shift-Parameter σm ∈ R. 

– Bestimme den orthogonalen Anteil Qm ∈ C n×n einer QR-Zerlegung Am − σmI = 

QmRm und berechne Am+1 := Q ∗ mAmQm. 

12.4 Reduktionsschritt auf Hessenberg-Form 

Der Reduktionsschritt auf eine orthogonal ähnliche Hessenberg-Matrix A0 erfolgt mit Hilfe 

von n − 2 Ähnlichkeitstransformationen mit Householder-Matrizen. Man konstruiert geeignete 

Householder-Matrizen P1,...,Pn−2 und transformiert A schrittweise 

A ↦→ A0 = P ∗ AP, P := P1 · · · Pn−2. 

Bei dieser abwechselnden Links- und Rechtstransformation mit Householder-Matrizen verschwinden 

nacheinander die Einträge unter der ersten unteren Nebendiagonalen. Bei den Rechtsmultiplikationen 

wird diese Struktur nicht zerstört, wie man an dem folgenden Schema für n = 5 

sieht. Dabei stehen • bzw. ∗ für Elemente, die im aktuellen Schritt unverändert bzw. verändert 

werden. 

⎛ 

⎜ 

⎝ 

⎛ 

⎜ 

A = ⎜ 

⎝ 

• • • • • 

• • • • • 

∗ ∗ ∗ ∗ 

∗ ∗ ∗ 

∗ ∗ ∗ 

• • • • • 

• • • • • 

• • • • • 

• • • • • 

• • • • • 

⎞ 

⎟ 

⎠ →·P2 

⎛ 

⎜ 

⎝ 

⎞ 

⎟ 

⎠ →P1· 

⎛ 

⎜ 

⎝ 

• • ∗ ∗ ∗ 

• • ∗ ∗ ∗ 

• ∗ ∗ ∗ 

∗ ∗ ∗ 

∗ ∗ ∗ 

• • • • • 

* ∗ ∗ ∗ ∗ 

∗ ∗ ∗ ∗ 

∗ ∗ ∗ ∗ 

∗ ∗ ∗ ∗ 

⎞ 

⎟ 

⎠ →P3· 

⎛ 

⎜ 

⎝ 

⎞ 

⎟ 

⎠ →·P1 

⎛ 

⎜ 

⎝ 

• • • • • 

• • • • • 

• • • • 

∗ ∗ ∗ 

∗ ∗ 

• ∗ ∗ ∗ ∗ 

• ∗ ∗ ∗ ∗ 

∗ ∗ ∗ ∗ 

∗ ∗ ∗ ∗ 

∗ ∗ ∗ ∗ 

⎞ 

⎟ 

⎠ →·P3 

⎛ 

⎜ 

⎝ 

⎞ 

⎟ 

⎠ →P2· 

• • • ∗ ∗ 

• • • ∗ ∗ 

• • ∗ ∗ 

• ∗ ∗ 

∗ ∗ 

Wir erinnern an folgende Eigenschaft von Householder-Matrizen, die für v ∈ C n \ {0} definiert 

sind durch Pv = I − 2 

v ∗ v vv∗ . Nachfolgend wird folgende Aussage wesentlich benutzt. 

⎞ 

⎟ 

⎠

12.4. REDUKTIONSSCHRITT AUF HESSENBERG-FORM 121 

Lemma 12.7. Für u ∈ Cn \ {0} sei v := 1 u1u2 (u + u2 |u1| e1) für u1 = 0 bzw. v := u 

u2 + e1 für 

u1 = 0. Dann gilt 

Pvu = −sign(u1)u2e1, sign(u1) := 

u1 

|u1| , u1 = 0 

1, u1 = 0 . 

Wir benutzen jetzt zur Konstruktion des Reduktionsschrittes ein Induktionsargument: Seien 

bereits k − 1 Householder-Matrizen P1,... ,Pk−1 bestimmt mit 

Pk−1 · · · P1AP1 · · · Pk−1 = 

Hk Bk 

0 ak Ck 

 

(12.10) 

mit einer Hessenberg-Matrix Hk ∈ C k×k , den Matrizen Bk ∈ C k×(n−k) ,Ck ∈ C (n−k)×(n−k) und 

dem Vektor ak ∈ C n−k . Man wählt nun Pk gemäß 

 

Ik 0 

Pk = 

0 Pk 

˜ 

mit der Einheitsmatrix Ik ∈ R k×k und einer Householder-Matrix ˜ Pk, für die ˜ Pkak ein Vielfaches 

des ersten Einheitsvektors im C n−k ergibt. Nach Lemma 12.7 ist das gewährleistet, wenn ak = 0. 

Sonst setzt man ˜ Pk = In−k. Dann erhalten wir 

Pk · · · P1AP1 · · · Pk = 

= 

Ik 0 

 

0 ˜ Pk 

Hk 

0 ˜ Pkak 

Hk Bk 

0 ak Ck 

Bk ˜ Pk 

˜PkCk ˜ Pk 

 

. 

Ik 0 

0 ˜ Pk 

Dies ist gerade eine Zerlegung der Form (12.10) für k. Daher liefert der folgende Algorithmus 

die Transformation einer Matrix in n − 2 Schritten auf Hessenberg-Form. 

Initialisierung: A = (aij) ∈ C n×n . 

for k = 1,... ,n − 2 do 

n γk := j=k+1 |ajk| 2 ; 

if γk = 0; 

else 

end 

Pk = In; 

Reduktion auf Hessenberg-Gestalt 

uk := (ak+1,k + sign(ak+1,k)γk,ak+2,k,...,an,k) ∗ ; 

βk := 

1 

γk(γk+|ak+1,k|) 

˜Pk := In−k − βkuku ∗ k ; 

Pk := diag (Ik, ˜ Pk); 

A := PkAPk;


end 

Ergebnis: Die Matrix A wird in n−2 Schritten mit der orthogonal ähnlichen oberen Hessenberg- 

Matrix P ∗ AP mit P := P1 · · · Pn−2 überschrieben. 

Wie beim QR-Verfahren (vgl. Kurs Numerische Mathematik I, Kap. 3) vermeidet man teure 

Matrix-Matrix-Multiplikationen der Hessenberg-Matrix P = I +βvv ∗ mit einer Matrix B durch 

geschickte Klammerung 

PB = B + βv(v ∗ B), BP = B + (Bv)(βv ∗ ). 

Die Ermittlung von ˜ PkCk ˜ Pk erfordert etwa 2(n − k) 2 wesentliche Operationen. Die Berechnung 

von Bk ˜ Pk benötigt etwa 2k(n − k) wesentliche Operationen. Die Komplexität des Reduktionsschritts 

besteht damit aus 

n−2 2 

2(n − k) + 2k(n − k) ≈ 

k=1 

wesentlichen Rechenoperationen. 

n 

(2m 2 + 2mn) ≈ 2 

3 n3 + n 3 = 5 

3 n3 

m=1 

Bemerkung 12.8. Im Fall hermitescher Matrizen entsteht im Reduktionsschritt sogar eine 

Tridiagonalmatrix, denn eine hermitesche Hessenberg-Matrix ist tridiagonal. ✷ 

12.5 QR-Zerlegung mit Givens-Rotationen 

Für die QR-Zerlegung der erhaltenen Hessenberg-Matrix benutzt man jetzt Givens-Rotationen 

anstelle von Householder-Matrizen. Dabei heißt eine Matrix aus Cn×n der Form 

⎛ 

1 

⎞ 

⎜ 

G(j,k;c,s) = ⎜ 

⎝ 

. .. 

1 

c 

−s 

1 

. .. 

1 

s 

c 

1 

. .. 

⎟ 

⎠ 

Givens-Rotation, falls |c| 2 + |s| 2 = 1. In der Darstellung stehen die Einträge c,s in der j-ten 

Zeile und −s,c in der k-ten Zeile. 

Offenbar sind Givens-Rotationen unitär, denn 

 

c s c −s |c| 2 + |s| 2 0 

= 

−s c s c 0 |c| 2 + |s| 2 

Im wichtigsten 

 

Fall 

 

c,s ∈ R gibt es einen Winkel θ ∈ [0,2π) mit c = cos θ und s = sin θ. Die 

c s 

Matrix beschreibt eine Drehung in der Ebene R 

−s c 

2 um den Winkel θ. 

 

. 

1

12.5. QR-ZERLEGUNG MIT GIVENS-ROTATIONEN 123 

Bei einer Linksmultiplikation GA einer Matrix A ∈ C n×n bewirkt die Givens-Rotation G = 

G(j,k;c,s), daß die j-te bzw. k-te Zeile a ∗ j bzw. a∗ k von A durch ca∗ j +sa∗ k bzw. −sa∗ j +ca∗ k ersetzt 

wird. Man kann nun zu gegebenen Indizes j,k,l mit j = k und gegebener Matrix A ∈ C n×n eine 

Givens-Rotation G = G(j,k;c,s) finden, daß (GA)kl = 0 wird. Dies entspricht der Lösung von 

Eine Lösung ist c 

s 

−sajl + cakl = 0, |c| 2 + |s| 2 = 1. 

 

= giv rot(ajl,akl) := 

1 

 

|ajl| 2 + |akl| 2 

 

ajl 

akl 

Zur overflow-Vermeidung verwendet man die dazu äquivalenten Formeln 

c = ajl/|ajl| 

, s = 

1 + |t| 2 

c = 

 

. 

t akl 

, t = 

1 + |t| 2 |ajl| , falls |ajl| ≥ |akl|, 

t akl/|akl| ajl 

, s = , t = 

1 + |t| 2 1 + |t| 2 |akl| , falls |ajl| < |akl|, 

Für eine QR-Zerlegung der Hessenberg-Matrix A (0) := A ∈ C n×n benutzen wir 

A (k) := G(k,k + 1;ck,sk)A (k−1) , (ck,sk) T = giv rot(A (k−1) 

kk ,A (k−1) 

k+1,k 

Für n = 4 verläuft dies schematisch wie folgt: 

⎛ 

• 

⎜ 

A = ⎜ • 

⎝ 

• 

• 

• 

• 

• 

• 

⎞ 

• 

• ⎟ 

• ⎠ 

• • 

→k=1 

⎛ 

∗ 

⎜ 

⎝ 

∗ 

∗ 

• 

∗ 

∗ 

• 

⎞ 

∗ 

∗ ⎟ 

• ⎠ 

• • 

→k=2 

⎛ 

⎜ 

⎝ 

• • • • 

∗ ∗ ∗ 

∗ ∗ 

• • 

⎞ 

⎟ 

⎠ →k=3 

); k = 1,... ,n − 1. 

⎛ 

⎜ 

⎝ 

• • • • 

• • • 

∗ ∗ 

∗ 

⎞ 

⎟ 

⎠ = R. 

Dabei kennzeichnet ∗ Elemente, die in einem Schritt verändert werden, und • die sonstigen (i.a. 

Fall) von Null verschiedenen Elemente. 

In algorithmischer Form ist folgendes auszuführen: 

QR-Zerlegung einer Hessenberg-Matrix mit Givens-Rotationen 

Initialisierung: Hessenberg-Matrix A = (ajk) ∈ C n×n ; 

for k = 1,... ,n − 1 do 

end 

(ck,sk) T := giv rot(akk,ak+1,k); 

for l = k,... ,n do 

 

akl 

 

:= 

end 

ak+1,l 

ck sk 

−sk ck 

akl 

ak+1,l 

Ergebnis: A wird mit der oberen Dreiecksmatrix R = G(n − 1,n;cn−1,sn−1) · · · G(1,2;c1,s1)A 

überschrieben. 

Die Anzahl von Multiplikationen für diesen Algoritmus ist etwa 

 

; 

n−1 

4(n − k + 1) = 

k=1 

n 

4k ≈ 2n 2 

k=2


und damit um den Faktor 1 

3n kleiner als bei einer QR-Zerlegung mit Householder-Matrizen. 

Bemerkung 12.9. Im Fall einer hermiteschen Matrix entstand im Reduktionsschritt eine 

hermitesche Tridiagonalmatrix. Bei der Givens-Rotation kommt man dann sogar mit O(n) elementaren 

Operationen statt ca. O(n 2 ) aus. ✷ 

12.6 Konvergenzbeschleunigung durch shift-Strategie 

Wir hatten bereits bei der inversen Iteration gesehen, daß die Konvergenz des Verfahrens erheblich 

mittels einer shift-Strategie beschleunigt werden kann. Man nutzt aus, daß die Eigenvektoren 

von A mit denen von A − σI, σ ∈ C übereinstimmen und die Eigenwerte von A − σI gerade 

λj −σ, j = 1,... ,n sind. Daher kann das QR-Verfahren auch auf die Matrix mit shift angewendet 

werden. Ferner modifiziert man den shift-Parameter eventuell in jedem Schritt. Dann gilt 

folgende Verallgemeinerung von Lemma 12.1. Das Resultat zeigt wieder, daß im modifizierten 

Algorithmus tatsächlich eine Folge von Ähnlichkeitstransformationen entsteht. 

Lemma 12.10. Seien A = A0 ∈ C n×n eine gegebene Matrix und σ0,σ1,... ∈ C gegebene shift- 

Parameter. Sind die Matrizen Am,Qm,Rm für m ∈ N0 gegeben durch 

Am − σmI = QmRm (QR-Zerlegung) (12.11) 

Am+1 = RmQm + σmI, (12.12) 

so gelten die Aussagen (12.1)-(12.2) aus Lemma 12.1 mit Qm := Q0 · · · Qm−1 und Rm := 

Rm−1 · · · R0 sowie 

m 

(A − σkI) = Qm+1Rm+1. (12.13) 

k=0 

Beweis: Aussage (12.1) ergibt sich wegen (12.11)-(12.12) aus 

Am+1 = RmQm + σmI = Q ∗ m(QmRm + σmI)Qm = Q ∗ mAmQm. 

Aussage (12.2) folgt hieraus durch Induktion. 

Wir zeigen noch (12.13) durch Induktion über m. Für m = 0 ist (12.13) mit (12.11) identisch. 

Wenn (12.13) für m − 1 ∈ N0 gilt, so ergibt sich aus der Voraussetzung sowie (12.11) und (12.2) 

schließlich 

Qm+1Rm+1 = QmQmRmRm = Qm(Am − σmI)Rm 

= QmQ ∗ m AQmRm − σmQmRm 

= (A − σmI)QmRm = 

m 

(A − σk)I. ✷ 

Nun wollen wir überlegen, wie man die shift-Parameter σm geeignet wählt. Nach Abschnitt 11.2 

folgt, daß die Basisversion des QR-Verfahrens der Wielandt-Iteration für den betragsmäßig 

kleinsten Eigenwert von A entspricht. Wir wollen dabei den shift-Parameter so bestimmen, daß 

die Wielandt-Iteration durch die wesentlich schneller konvergierende Rayleigh-Quotienten- 

Methode ersetzt wird. In Abschnitt 12.1 hatten wir gezeigt, daß en eine Näherung eines Ei- 

genvektors zum kleinsten Eigenwert λn von A ∗ m 

k=0 

ist. Der zugehörige Rayleigh-Quotient ist 

σm = e ∗ n Amen = (Am)nn. Man darf daher schnelle Konvergenz von (Am)nn gegen λn erwarten, 

wenn man σm = (Am)nn setzt.

12.6. KONVERGENZBESCHLEUNIGUNG DURCH SHIFT-STRATEGIE 125 

Noch günstiger ist in der Regel, wenn man den rechten unteren 2 × 2-Block von Am = (a (m) 

ik ), 

d.h. 

A 2×2 

m = 

 

a (m) 

n−1,n−1 a(m) 

n−1,n 

a (m) 

n,n−1 

zur Bestimmung des shift-Parameters benutzt. Man wählt σm als den Eigenwert von A2×2 m , der 

am nächsten bei a (m) 

n,n liegt. Dann konvergiert a (m) 

n,n in der Regel sehr schnell gegen einen Eigenwert 

von A und a (m) 

n,n−1 

konvergiert gegen 0, d.h. 

a (m) 

n,n 

⎛ 

∗ 

⎜ 

Am → ⎜ 

⎝ 0 

· 

. .. 

. .. 

· · · 

. .. 

∗ 

∗ 

. 

. 

∗ 

∗ 

. 

. 

∗ 

⎞ ⎛ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ = ⎜ 

⎟ ⎜ 

⎠ ⎝ 

Bm 

∗ 

. 

∗ 

⎞ 

⎟ . 

⎟ 

⎠ 

0 · · · · · · 0 λn 

0 · · · 0 λn 

Erfahrungsgemäß reichen zwei Iterationen aus, damit der Wert |a (m) 

n,n−1 | hinreichend klein wird. 

Man kann dann im weiteren Verlauf mit der kleineren Hessenberg-Matrix Bm ∈ C (n−1)×(n−1) 

weiter rechnen. Es findet also eine systematische Ordnungsreduktion statt. Daraus ergibt sich 

folgender Algorithmus. 

Initialisierung: Matrix A ∈ C n×n ; 

TOL > 0 Toleranzwert; 

QR-Verfahren mit shifts 

Reduziere A mit Householder-Transformationen auf Hessenberg-Gestalt A := U ∗ AU; 

for j = n,n − 1,... ,2 do 

end 

while |aj,j−1| > TOL(|ajj| + |aj−1,j−1|) do 

end 

Wähle σ als Eigenwert von 

aj−1,j−1 aj−1,j 

aj,j−1 

Berechne QR-Zerlegung QR = A − σI mit Givens-Rotationen; 

Setze A := RQ + σI; 

ajj 

 

, 

 

, der am nächsten zu ajj liegt; 

Ergebnis: A wird mit einer unitär äquivalenten oberen Dreiecksmatrix überschrieben. 

Bei der Implementierung sind folgende Punkte zu beachten: 

• Man berechnet die unitäre Matrix 

Q ∗ = G(n − 1,n;cn−1,sn−1) · · · G(1,2;c1,s1) 

aus Effizienzgründen nicht explizit. Es reicht aus, die Koeffizienten cj,sj der Givens- 

Rotationen zu speichern. Zur Berechnung von RQ werden Givens-Rotationen von rechts 

an R multipliziert. Analog zur Multiplikation von Givens-Rotationen von links realisiert 

man dies durch Bildung von Linearkombinationen von Spalten von R.


• Für j < n ist die rechte untere Teilmatrix von R vom Format (n − j + 1) × (n − j + 1) 

bereits obere Dreiecksmatrix. Daher sind nur j−1 Givens-Rotationen für die QR-Zerlegung 

erforderlich. 

• Falls A reelle Matrix mit lediglich reellen Eigenwerten ist, kann die beschriebene Version 

des QR-Verfahrens bei Wahl von reellen shift-Parametern in reeller Arithmetik ausgeführt 

werden. Hat A Paare konjugiert-komplexer Eigenwerte, sind die shift-Parameter komplex 

zu wählen, um Konvergenz gegen eine obere Dreiecksmatrix zu gewährleisten. Durch einen 

sogenannten QR-Doppelschritt kann man jedoch auch dann die komplexe Arithmetik umgehen. 

Im Grenzprozeß erhält man (wie bei der reellen Jordan-Zerlegung) eine reelle Matrix 

mit 2 × 2-Blöcken auf der Diagonalen, deren Eigenwerte den gesuchten Paaren konjugiertkomplexer 

Eigenwerte von A entsprechen.

Teil III 

Lineare Optimierung 

127

Kapitel 13 

Grundlagen der Optimierung 

In der endlich-dimensionalen (kontinuierlichen) Optimierung sucht man das Infimum einer Zielfunktion 

f : M → R auf einer Menge der zulässigen Punkte M ⊂ R n , d.h. 

Finde inf f(x). (13.1) 

x∈M 

Im Fall der Existenz sucht man einen Punkt x∗ ∈ M mit f(x∗) = infx∈M f(x). Die Menge M 

wird in der Regel durch Restriktionen in Gleichungs- und Ungleichungsform charakterisiert. 

Wir werden uns in den folgenden Kapiteln 14 und 15 vorwiegend mit linearen Optimierungsproblemen 

befassen. Hierbei sind sowohl die Zielfunktion als auch die Restriktionen linear. Im 

vorliegenden Kapitel darf die Zielfunktion noch nichtlinear sein. 

13.1 Definitionen. Vorbemerkungen 

Wir wollen zunächst die Beschreibung der Nebenbedingungen formalisieren. Seien G bzw. U 

disjunkte, endliche Indexmengen sowie ci : R n → R mit i ∈ G ∪ U Funktionen. Dann sei die 

Menge der Nebenbedingungen (Restriktionen) gegeben durch 

M := {x ∈ R n : ci(x) = 0, i ∈ G; ci(x) ≥ 0, i ∈ U}. (13.2) 

Jede Nebenbedingung kann o.B.d.A. so formuliert werden, daß auf der rechten Seite der Bedingung 

0 steht und bei Ungleichungsrestriktionen das ≥-Zeichen steht. 

Ferner kann man das Maximierungsproblem supx∈M f(x) auf ein Minimierungsproblem (12.1) 

umformen wegen 

sup f(x) = − inf 

x∈M x∈M [−f(x)]. 

Im Fall M = R n , d.h. bei G∪U = ∅ nennt man (13.1) unrestringiertes Optimierungsproblem. Wir 

behandeln in Teil III dieser Vorlesung lediglich (das in der Regel kompliziertere) restringierte 

Optimierungsproblem für affin-lineare Funktionen ci, i ∈ G ∪ U und lineare Zielfunktionen f. 

Nimmt eine Funktion f : M → R auf einer Menge M ∈ R n ihr Infimum auf M an, d.h. es gibt 

ein x ∗ ∈ M mit f(x ∗ ) = minx∈M f(x), so schreiben wir infx∈M f(x) = minx∈M f(x). 

Das Minimum muß nicht zwingend existieren, wie die Funktion f(x) = 1 

x in Verbindung mit 

der Menge M = [1, ∞) zeigt. Ferner kann das Infimum auch −∞ sein. Dazu betrachte man die 

Funktion f(x) = −x mit der Menge M = [1, ∞). 

Definition 13.1. Für M ⊂ R n und f : M → R heißt ein Punkt x ∈ M 

129

130 KAPITEL 13. GRUNDLAGEN DER OPTIMIERUNG 

• lokales Minimum von f in M, wenn es eine Umgebung U(x) ⊂ M mit f(x) ≤ f(y) für 

alle y ∈ U(x) gibt, 

• striktes lokales Minimum von f in M, wenn sogar f(x) < f(y) für alle y ∈ U(x) \ {x} gilt, 

• globales Minimum von f in M, falls f(x) ≤ f(y) für alle y ∈ M. 

Für eine in x ∈ M differenzierbare Funktion f mit ∇f(x) = 0 heißt x stationärer Punkt von f. 

13.2 Optimalitätsbedingungen 

Wir erinnern an die Landau-Symbolik: Für normierte Räume X,Y sei U ⊂ X und x0 ∈ U. Für 

Funktionen f : U \ {x0} → Y und g : U \ {x0} → (0, ∞) schreibt man 

f(x)Y 

f(x) = o(g(x)), x → x0, falls lim 

x→x0 g(x) 

f(x)Y 

f(x) = O(g(x)), x → x0, falls lim sup 

x→x0 g(x) 

Wir wollen nun allgemeine Optimalitätsbedingungen herleiten. 

= 0, 

< ∞. 

Satz 13.2. (Notwendige Optimalitätsbedingungen 1. Ordnung) 

Seien M ⊂ R n eine offene Menge und f : M → R eine differenzierbare Funktion. Ist x ∈ M 

lokales Minimum von f, so gilt ∇f(x) = 0. 

Beweis: Sei p := −∇f(x) = 0. Wegen der Offenheit von M gibt es eine Zahl r > 0, so daß 

x + ǫp ∈ M für alle |ǫ| < r. Die Differenzierbarkeit von f impliziert die Taylor-Entwicklung 

f(x + ǫp) = f(x) + ǫp T ∇f(x) + o(ǫ) = f(x) − ǫ∇f(x) 2 2 + o(ǫ), ǫ → 0. 

Damit gilt f(x + ǫp) < f(x) für hinreichend kleine Werte ǫ > 0. Dies ergibt einen Widerspruch 

zur Voraussetzung eines Minimums im Punkt x. ✷ 

Für eine zweimal differenzierbare Funktionen f definieren wir die Hesse-Matrix 

 

∂2 

f 

(Hf)(x) := (x) . 

∂xi∂xj i,j=1,...,n 

Wegen der Vertauschbarkeit der Differentiationsreihenfolge ist (Hf)(x) symmetrisch. 

Satz 13.3. (Optimalitätsbedingungen 2. Ordnung) 

Seien M ⊂ R n eine offene Menge und f ∈ C 2 (M). Ferner sei x ∈ M stationärer Punkt von f. 

Dann gelten folgende Aussagen: 

(i) Hinreichende Bedingung: Ist (Hf)(x) positiv definit, d.h. y T (Hf)(x)y > 0 für alle y ∈ 

R n \ {0}, so ist x lokales Minimum von f. 

(ii) Notwendige Bedingung: Ist x lokales Minimum von f, so ist (Hf)(x) positiv semi-definit, 

d.h. y T (Hf)(x)y ≥ 0 für alle y ∈ R n . 

Beweis: Für f ∈ C 2 (M) gilt die Taylor-Entwicklung 

f(x + h) = f(x) + h T ∇f(x) + 1 

2 hT (Hf)(x)h + r(h), r(h) = o(h 2 ), h → 0.

13.3. LAGRANGE-FORMALISMUS FÜR LINEARE GLEICHUNGSRESTRIKTIONEN 131 

Wegen ∇f(x) = 0 ist dann 

f(x + h) − f(x) = 1 

2 hT (Hf)(x)h + r(h). (13.3) 

Wegen der Symmetrie der Hesse-Matrix gibt es nach dem Satz über die Hauptachsentransformation 

(vgl. Lemma 10.7) eine orthogonale Matrix U ∈ R n×n und eine Diagonalmatrix 

D = diag(d1,...,dn) mit 

(Hf)(x) = UDU T . 

(i) Sei zunächst (Hf)(x) positiv definit: Mit dem j-ten Einheitsvektor ej gilt 

dj = e T j Dej = e T j UT UDU T Uej = (Uej) T (Hf)(x)(Uej) > 0. 

Dann gilt κ := min{d1,... ,dn} > 0. Mit beliebigem h ∈ R n und g := U T h ergibt die Orthogonalität 

von U, daß 

h T (Hf)(x)h = g T Dg = 

n 

i=1 

g 2 i di ≥ κ 

n 

i=1 

g 2 i = κg2 2 = κh2 2 . 

Wegen der letzten Ungleichung und (13.3) findet man eine Zahl ǫ > 0, so daß f(x+h)−f(x) > 0 

für alle h < ǫ und h = 0. Damit hat f in x ein lokales Minimum. 

(ii) Sei x lokales Minimum von f: Für h ∈ R n folgt aus (13.3) wegen r(ǫh) = o(ǫ 2 ) die Aussage 

1 

2 hT (Hf)(x)h = lim 

ǫ→0 

1 

2ǫ2(ǫh)T (Hf)(x)(ǫh) 

1 

= lim 

ǫ→0 ǫ2[f(x + ǫh) − f(x) − r(ǫh)] 

1 

= lim 

ǫ→0 ǫ2[f(x + ǫh) − f(x)]. 

Da f in x ein lokales Minimum hat, gilt offenbar f(x + ǫh) − f(x) > 0 bei hinreichend kleinen 

Werten ǫ. Dann ist aber 1 

2 hT (Hf)(x)h ≥ 0, d.h. (Hf)(x) positiv semidefinit. ✷ 

13.3 Lagrange-Formalismus für lineare Gleichungsrestriktionen 

Wir behandeln von jetzt ab Optimierungsprobleme mit (affin)-linearen Nebenbedingungen 

Minimiere f(x) auf M := {x ∈ R n : AGx = bG, AUx ≥ bU} (13.4) 

mit AG ∈ R mG×n , AU ∈ R mU ×n , bG ∈ R mG, bU ∈ R mU mit mG,mU ∈ N0. Dabei wird für 

Vektoren x,y ∈ R k die Relation x ≤ y komponentenweise verstanden. 

Als Standardform der Restriktionen bezeichnet man für x ∈ R n und A ∈ R m×n , b ∈ R m für 

m ∈ N0,n ∈ N die Darstellung: 

Ax = b, x ≥ 0. (13.5) 

Jedes Problem der Form (13.4) kann auf Standardform gebracht werden: 

• Man führt Schlupfvariable z ∈ R mU ein und ersetzt die Restriktionen AUx ≥ b durch 

AUx − z = bU, z ≥ 0.


• Eine Vorzeichenbeschränkung der Variablen erhält man durch 

x + := max{x,0}, x − := max{−x,0}. 

Dann gilt x = x + − x − , x + ,x − ≥ 0 sowie A G/U := A G/Ux + − A G/Ux − . 

Man erhält dann die Restriktionen in der Form 

 

AG 

AU 

−AG 

−AU 

 

0 

−I 

⎛ 

⎝ 

⎞ 

⎠ = 

x + 

x − 

z 

bG 

bU 

 

, 

⎛ 

⎝ 

x + 

x − 

z 

⎞ 

⎠ ≥ 0. 

Lemma 13.4: Seien M0 ⊂ R n ein Untervektorraum, m0 ∈ R n sowie M := m0 + M0. Ferner 

seien f : R n → R differenzierbar und x∗ ein lokales Minimum von f auf M. Dann gilt 

∇f(x∗) ∈ M ⊥ 0 := {v ∈ Rn : v T w = 0 ∀w ∈ M0}. 

Beweis: Sei ∇f(x∗) ∈ M ⊥ 0 . Dann gibt es ein Element p ∈ M0 mit p T ∇f(x∗) = 0. Die skalare 

Funktion φ : R → M mit φ(t) := f(x∗ + tp) ist wohldefiniert mit φ ′ (0) = p T ∇f(x∗) = 0. Somit 

hat φ in t = 0 kein lokales Minimum im Widerspruch zur Voraussetzung über die Existenz eines 

lokalen Minimums von f in x∗. ✷ 

Folgerung 13.5. Unter den Voraussetzungen von Lemma 13.4 sei 

M := {x ∈ R n : a T j x = bj, j = 1,... ,m} 

mit linear unabhängigen Vektoren a1,... ,am ∈ Rn und b1,... ,bm ∈ R. Dann existieren eindeutig 

Zahlen λ1,...,λm ∈ R mit 

m 

∇f(x∗) = λiai. (13.6) 

Beweis: Man benutzt Lemma 13.4 mit 

M0 := {x ∈ R n : a T j x = 0, j = 1,... ,m}, M ⊥ 0 = span{a1,... ,am}. ✷ 

Die Zahl λj wird als Lagrange-Multiplikator zur Nebenbedingung a T j x = bj bezeichnet. Dieser 

Parameter ist ein Maß für die Sensitivität des Minimums gegenüber der Verletzung der 

zugehörigen Restriktion. Als Beispiel betrachten wir die gestörten Nebenbedingungen 

i=1 

a T 1 x = b1 + ǫ; a T j x = bj, j = 2,... ,m 

mit dem kleinen Parameter ǫ > 0. Für hinreichend kleines ǫ sei x∗(ǫ) eine nach ǫ differenzierbare 

Lösung des gestörten Optimierungsproblems. Dann gilt 

sowie 

a T j 

d 

dǫ x∗(ǫ) = δ1j 

d 

dǫ f(x∗(ǫ))|ǫ=0 

T d 

= ∇f(x∗(0)) 

dǫ x∗|ǫ=0 = 

m 

j=1 

λja T j 

d 

dǫ x∗|ǫ=0 = 

m 

λjδ1j = λ1. 

Somit zeigt λ1 an, wie stark sich das Minimum von f ändert, wenn man b1 in der ersten Restriktion 

stört. 

j=1

13.4. KKT-BEDINGUNGEN FÜR LINEARE UNGLEICHUNGSBEDINGUNGEN 133 

Definition 13.6. Als Lagrange-Funktion L : R n × R m → R für das Optimierungsproblem 

bezeichnet man 

Minimiere f(x) unter den Restriktionen a T j x = bj, j = 1,... ,m 

L(x,λ) := f(x) − 

m 

j=1 

λj(a T j x − bj). (13.7) 

Mittels Lemma 13.4 und Folgerung 13.5 ergeben sich die Optimalitätsbedingungen erster Ordnung 

für die Lagrange-Funktion wie folgt. 

Folgerung 13.7. Unter den Voraussetzungen von Lemma 13.4 und Folgerung 13.5 existiert ein 

eindeutig bestimmter Vektor λ∗ ∈ R m mit 

d.h. (x∗,λ∗) ist stationärer Punkt von L bzw. ∇L(x∗,λ∗) = 0. 

∇xL(x∗,λ∗) = 0, (13.8) 

∇λL(x∗,λ∗) = 0, (13.9) 

Beweis: (13.8) ist äquivalent zu (13.6). Wegen ∂L 

∂λj = −(aT j x − bj) ist (13.9) äquivalent zu 

x∗ ∈ M. ✷. 

Durch Einführung der Lagrange-Multiplikatoren wird gegenüber dem ursprünglichen Optimierungsproblem 

einerseits die Dimension des Problems von n auf n + m reelle Variable erhöht. 

Andererseits entledigt man sich der Nebenbedingungen auf der (n − m)-dimensionalen Mannigfaltigkeit 

M durch Übergang zu einem Gleichungssystem. Man kann dann zum Beispiel direkt 

mit dem Newton-Verfahren arbeiten. 

13.4 KKT-Bedingungen für lineare Ungleichungsbedingungen 

Wir suchen jetzt nach Optimalitätsbedingungen, falls zusätzlich zur Situation im vorgehenden 

Abschnitt auch lineare Ungleichungsrestriktionen vorliegen. Wir starten mit einem Beispiel. 

Beispiel 13.8. Für eine differenzierbare Funktion f : R → R sowie a,b ∈ R mit a = 0 wird 

das skalare Problem 

Minimiere f(x) auf M := {x ∈ R : ax ≥ b}. 

betrachtet. Sei x∗ ∈ M lokales Minimum von f in M, so existiert (Begründung ?) ein Lagrange- 

Multiplikator s∗ ≥ 0 mit 

f ′ (x∗) = as∗, s∗(ax∗ − b) = 0. 

Im Fall ax∗ − b > 0 liegt x∗ im Inneren von M. Nach Satz 13.2 gilt f ′ (x∗) = 0. Dann sind die 

beiden Gleichungen mit s∗ = 0 erfüllt. 

Bei ax∗−b = 0 liegt x∗ auf dem Rand von M. Die Optimalitätsbedingung von x∗ impliziert dann 

eine Vorzeichenbeschränkung an f ′ (x∗), die durch die erste Bedingung charakterisiert wird. ✷ 

Wir kommen nun sofort zur Verallgemeinerung dieses Resultates für Optimierungsprobleme mit 

linearen Nebenbedingungen 

Minimiere f(x) auf M := {x ∈ R n : AGx = bG, AUx ≥ bU} (13.10) 

mit den Bezeichnungen aus Abschnitt 13.3.


Satz 13.9. (KKT-Bedingungen) 

Sei f : Rn → R differenzierbar. Ist x∗ ∈ M lokales Minimum des Optimierungsproblems (13.10), 

so gibt es Lagrange-Multiplikatoren λ∗ ∈ RmG und s∗ ∈ R mU 

+ , die die folgenden Karush- 

Kuhn-Tucker-Bedingungen (KKT-Bedingungen) erfüllen: 

∇f(x∗) = A T G λ∗ + A T U s∗ 

(13.11) 

(AUx∗ − bU) T s∗ = 0. (13.12) 

Beweis: vgl. nächster Abschnitt. ✷ 

Mit der Lagrange-Funktion 

L(x,λ,s) := f(x) − (AGx − bG) T λ − (AUx − bU) T s 

kann man (13.11) analog zu Folgerung 13.7 einfach notieren als 

∇xL(x∗,λ∗,s∗) = 0. 

Mit AU = (a1 · · · amU )T und bU = (b1 · · · bmU )T lauten die Ungleichungsrestriktionen in (13.10) 

a T i x − bi ≥ 0, i = 1,... ,mU. 

Für jeden zulässigen Vektor x ∈ M wird die Indexmenge U := {1,... ,mU} disjunkt zerlegt 

gemäß U = A(x) ∪ I(x) mit i ∈ A(x), falls a T i x − bi = 0. Ungleichungen mit Index i ∈ A(x) 

bzw. i ∈ I(x) = U \ A(x) heißen aktive Restriktion in x bzw. inaktive Restriktion in x. 

Die sogenannte Komplementaritätsbedingung (13.12) kann mit s∗ = (s1,...,smU )T notiert wer- 

den als 

i∈U 

(a T i x∗ − bi)si = 0. 

Die Lagrange-Multiplikatoren der inaktiven Ungleichungen verschwinden notwendig, da alle 

Summanden nichtnegativ sind. Die Umkehrung gilt auch, d.h. 

13.5 Farkas-Lemma 

(13.12) ⇐⇒ si = 0, ∀i ∈ I(x∗). (13.13) 

Zum Beweis der KKT-Bedingungen benötigen wir das Farkas-Lemma. 

Definition 13.10. Eine Teilmenge K ⊂ R n heißt Kegel, falls aus x ∈ K auch λx ∈ K für alle 

λ > 0 folgt. 

Lemma 13.11. Für a1,...,am ∈ Rm ist durch 

 

m 

 

cone {a1,... ,am} := λiai : λ1,... ,λm ≥ 0 

ein konvexer, abgeschlossener Kegel gegeben. 

i=1 

(13.14) 

Beweis: Per Definition ist K := cone {a1,... ,am} ein Kegel. Die Konvexität folgt ebenfalls 

aus der Definition. 

Zum Nachweis der Abgeschlossenheit führen wir eine Induktion über m durch. Der Induktionsanfang 

für m = 1 ist offenbar erfüllt. Induktionsannahme sei nun, daß jeder von weniger als m

13.5. FARKAS-LEMMA 135 

Vektoren erzeugte Kegel abgeschlossen ist. Sei (x (k) )k∈N eine Folge im Kegel K, die gegen einen 

Punkt x∗ ∈ R n konvergiert. Zu zeigen ist die Aussage x∗ ∈ K. 

Wegen der Definition von K in (13.14) gibt es Zahlen λ (k) 

i ≥ 0 mit x(k) = m i=1 λ(k) 

Der Unterraum V := span{a1,...,am} ist abgeschlossen. Die Folge (x (k) )k∈N liegt in V , somit 

ist auch x∗ ∈ V . Somit findet man Zahlen α1,... ,αm ∈ R mit x∗ = m i=1 αiai. 

Der Beweis wäre erledigt bei αi ≥ 0, i = 1,... ,m. Wir nehmen daher an, daß es wenigstens 

einen Index i ∈ {1,... ,m} mit αi < 0 gibt. Wir konstruieren nun eine Vektorfolge 

so daß in 

alle Zahlen r (k) 

gibt. Für 

ist γk ∈ [0,1], ferner ist 

z (k) := x (k) + γk(x∗ − x (k) ), γk ∈ [0,1], 

z (k) = 

m 

i=1 

r (k) 

i ai, r (k) 

i = λ(k) 

i + γk(αi − λ (k) 

i ) 

i ai für k ∈ N. 

i nichtnegativ sind und es für jedes k ∈ N wenigstens einen Index ik mit r (k) 

ik 

γk := min 

r (k) 

i 

 

λ (k) 

i 

λ (k) 

i 

− αi 

Für wenigstens einen Index i = ik gilt Gleichheit. 

: i ∈ {1,... ,m} mit αi < 0 

= λ(k) 

i + γk(αi − λ (k) 

i ) ≥ 0, i = 1,... ,m. 

Nach Konstruktion ist z (k) ∈ K und wegen γk ∈ [0,1] gilt 

d.h. es folgt auch z (k) → x∗,k → ∞. 

z (k) − x∗2 = (1 − γk)x (k) − x∗2 → 0, k → ∞, 

Die Indexfolge (ik)k∈N hat wenigstens einen Häufungpunkt i∗ ∈ {1,... ,m} , d.h. man findet 

eine Teilfolge (ik(l))l∈N mit ik(l) = i∗ für alle l ∈ N. Dann ist r (k(l)) 

= 0 für alle l ∈ N und daher 

i∗ 

z (k(l)) ∈ K∗ := cone {ai : i = i∗}. Wegen der Induktionsvoraussetzung ergibt sich, daß x∗ als 

Grenzwert der Folge (zk(l) )l∈N zur Menge K∗ gehört. Wegen der Inklusion K∗ ⊂ K folgt die 

Abgeschlossenheit von K. ✷ 

Lemma 13.12. (Lemma von Farkas) 

Bei gegebenen Vektoren a1,... ,am ∈ R n und g ∈ R n sind die folgende Aussagen äquivalent: 

(i) g ∈ K := cone {a1,... ,am}. 

(ii) Für alle d ∈ R n mit a T j d ≥ 0 für j = 1,... ,m gilt dT g ≥ 0. 

Beweis: ”(i) ⇒ (ii)”: Sei g = m i=1 λiai mit λi ≥ 0. Ferner sei d ∈ Rn mit dTai ≥ 0 für 

i = 1,... ,m. Dann folgt 

d T m 

g = λid T ai ≥ 0. 

i=1 

”(ii) ⇒ (i)”: Wir führen den Beweis indirekt. Sei also (i) nicht richtig, d.h. g ∈ K . Die Funktion 

l(h) := h − g2 wächst für h2 → ∞ nach unendlich. Da ferner K abgeschlossen ist, gibt es 

ein globales Minimum g0 ∈ K von l in K. Wegen g ∈ K ist 

d := g0 − g = 0. 

 

. 

= 0


Wegen der Kegeleigenschaft von K ist tg0 ∈ K für t ≥ 0. Somit ist 1 

2tg0 − g2 2 minimal für 

t = 1 und es folgt 

0 = 1 d 

2 dt tg0 − g 2 2|t=1 = (g0 − g) T g0 = d T g0. (13.15) 

Für einen weiteren Vektor h ∈ K gilt wegen der Konvexität von K und der Minimalitätseigenschaft 

von g0, daß 

g0 + t(h − g0) − g 2 2 ≥ g0 − g 2 2, t ≥ 0. 

Dies impliziert 

2td T (h − g0) + t 2 h − g0 2 2 ≥ 0 

bzw. nach Division durch 2t und Grenzübergang für t → +0 und Beachtung von (13.15), daß 

Speziell für h = aj,j = 1,... ,m ist a T j 

0 ≤ d T (h − g0) = d T h, ∀h ∈ K. 

d ≥ 0 und damit erneut mit (13.15) 

d T g = d T (g0 − d) = d T g0 − d T d = −d 2 2 < 0. 

Daher kann Aussage (ii) nicht gelten. Nach dem Prinzip des indirekten Beweises folgt dann (i) 

aus (ii). ✷ 

Wir können nun schließlich den Satz über die KKT-Bedingungen beweisen. 

Beweis von Satz 13.9. Wegen 

a T i x = bi ⇐⇒ a T i x − bi ≥ 0, −a T i x + bi ≥ 0 

können wir nachfolgend lediglich mit Ungleichungsrestriktionen arbeiten. 

Wir führen den Beweis indirekt. Sei dazu x∗ lokales Minimum von f in 

M := {x ∈ R n : a T i x ≥ bi, i = 1,... ,mU} 

und es gäbe kein s∗ = (si) ∈ R mU 

+ , das die KKT-Bedingungen erfüllt. Für alle Vektoren s∗ ∈ 

R mU 

+ , die (13.12) erfüllen, kann dann (13.11) nicht gelten, d.h. ∇f(x∗) = A T U s∗. Die Aussage 

(13.13) impliziert dann si = 0 für i ∈ I(x∗) und daher 

∇f(x∗) ∈ cone {ai : i ∈ A(x∗)}. 

Nach dem Farkas-Lemma findet man dann einen Vektor d ∈ R n mit a T i 

und 

d ≥ 0 für alle i ∈ A(x∗) 

d T ∇f(x∗) < 0. (13.16) 

Sei φ(t) := f(x∗ + td), t ≥ 0. Wegen φ ′ (0) = d T ∇f(x∗) < 0 liegt im Nullpunkt kein Minimum 

von φ im Bereich [0, ∞). Wir wollen zeigen, daß es eine Zahl t0 > 0 gibt mit x∗ + td ∈ M 

für t ∈ [0,t0]. Dann hätten wir einen Widerspruch erzeugt zur Annahme, daß x∗ ein lokales 

Minimum von f in M ist, 

Für i ∈ A(x∗) ist 

a T i (x∗ + td) = a T i x∗ + ta T i d ≥ aT i x∗ = bi, ∀t ≥ 0, 

d.h. x∗ + td erfüllt alle in x∗ aktiven Restriktionen für alle t ≥ 0. Sei dann i ∈ I(x∗), d.h. 

a T i x∗ − bi > 0. Dann gibt es ein ti > 0 mit 

a T i (x∗ + td) − bi ≥ 0, t ∈ [0,ti]. 

Mit t0 := min{ti : i ∈ I(x∗)} > 0 ist x∗ +td ∈ M für t ∈ [0,t0]. Der Beweis ist damit geführt. ✷

Kapitel 14 

Lineare Optimierung 

Im vorliegenden und folgenden Kapitel betrachten wir das lineare Optimierungsproblem (LOP) 

Minimiere f(x) := c T x auf M := {x ∈ R n : AGx = bG, AUx ≥ bU} (14.1) 

mit c ∈ R n , AG ∈ R mG×n , AU ∈ R mU ×n , bG ∈ R mG, bU ∈ R mU und mG,mU ∈ N0. 

14.1 Einführende Beispiele 

Beispiel 14.1. (Produktionsplanung) 

Es sind n verschiedene Produkte aus m verschiedenen Ausgangsstoffen herzustellen. Sollen xj 

Einheiten des j−ten Produktes hergestellt werden, so kann der Produktionsplan durch den Vektor 

x = (x1,... ,xn) T charakterisiert werden. Zur Beschreibung des Problems führen wir folgende 

Größen ein: 

cj – Nettogewinn bei Herstellung einer Einheit des j−ten Produktes 

aij – Einheiten des i−ten Ausgangsstoffes zur Herstellung einer Einheit 

des j−ten Produktes 

bi – Einheiten des i−ten Ausgangsstoffes als Ressource. 

Die Erzielung eines möglichst großen Nettogewinns wird durch die Maximierung der linearen 

Zielfunktion 

f(x) := c T n 

x = 

charakterisiert. Ein zulässiger Produktionsplan x = (x1,...,xn) T liegt vor, wenn die Vorzeichenbedingungen 

xj ≥ 0, i = 1,... ,n 

und Nebenbedingungen 

i=1 

cixi 

n 

aijxj ≤ bi, i = 1,... ,m 

j=1 

erfüllt sind. Mit der Matrix A = (aij) ergibt sich für den zulässigen Bereich 

M := {x ∈ R n : Ax ≤ b, x ≥ 0}. 

Das den gesuchten Produktionsplan beschreibende lineare Optimierungsproblem lautet dann: 

Bestimme x = (x1,... ,xn) T ∈ M, so daß f(x) ≥ f(z), ∀z ∈ M. ✷ 

137

138 KAPITEL 14. LINEARE OPTIMIERUNG 

Wir wollen noch ein weiteres Beispiel zur Produktionsplanung besprechen, bei dem jedoch Zielfunktion 

und Nebenbedingungen in etwas anderer Form vorkommen. 

Beispiel 14.2. (Diätplan) 

Ein Diätplan soll aus n verschiedenen Nahrungsmitteln, die ihrerseits aus m Grundsubstanzen 

bestehen, zusammengestellt werden. Dabei enthält eine Einheit des j−ten Nahrungsmittels aij 

Einheiten der i−ten Grundsubstanz. Der Diätplan verlangt, daß von der i−ten Grundsubstanz 

mindestens bi Einheiten enthalten sind. Ferner koste eine Einheit des j−ten Nahrungsmittels cj 

Geldeinheiten. 

Ein Diätplan kann nun durch den Vektor x = (x1,... ,xn) T charakterisiert werden, wobei xj die 

Zahl der im Plan enthaltenen Einheiten des j−ten Nahrungsmittels ist. Die Kosten des Diätplanes 

beschreibt die lineare Funktion f(x) := c T x, die nachfolgend minimiert werden soll. 

Wir erhalten in diesem Fall Nebenbedingungen der Form 

n 

aijxj ≥ bi, i = 1,... ,m 

j=1 

sowie als Vorzeichenbedingungen xj ≥ 0, j = 1,... ,n. Der zulässige Bereich wird unter Benutzung 

der Matrix A = (aij) beschrieben durch die Menge 

M := {x ∈ R n : Ax ≥ b, x ≥ 0}. 

Das den gesuchten Diätplan charakterisierende lineare Optimierungsproblem ist dann 

Bestimme x = (x1,... ,xn) T ∈ M, so daß f(x) ≤ f(z), ∀z ∈ M. ✷ 

14.2 Existenz von Lösungen 

Wir wenden zunächst den Satz 13.9 über die KKT-Bedingungen auf das Problem (14.1) an. 

Satz 14.3. Für das lineare Optimierungsproblem (14.1) sind in einem zulässigen Punkt x∗ ∈ M 

folgende Aussagen äquivalent: 

(i) Der Punkt x∗ ist globales Minimum von f in M. 

(ii) Es existieren die Lagrange-Multiplikatoren λ∗ ∈ R mG und s∗ ∈ R mU 

+ mit 

In diesem Fall gilt 

A T G λ∗ + A T U s∗ = c (14.2) 

(AUx∗ − bU) T s∗ = 0. (14.3) 

c T x∗ = b T G λ∗ + b T U s∗. (14.4) 

Ferner ist x ∈ M genau dann ein globales Minimum von f in M, wenn 

(AUx − bU) T s∗ = 0. (14.5) 

Beweis: ”(i) ⇒ (ii)”: Wegen ∇f(x) = c für alle x ∈ R n ergibt sich dieser Schluß gerade aus 

Satz 13.9 über die KKT-Bedingungen.

14.2. EXISTENZ VON LÖSUNGEN 139 

”(ii) ⇒ (i)”: Seien nun die Bedingungen (14.2)-(14.3) erfüllt. Wegen dieser Bedingungen sowie 

mit AGx∗ = bG folgt die Aussage (14.4), denn 

c T x∗ = (A T Gλ∗ + A T Us∗) T x∗ = b T Gλ∗ + b T Us∗. 

Für einen beliebigen zulässigen Punkt x ∈ M gilt AGx = bG und AUx − bU ≥ 0. Wegen s∗ ≥ 0 

und (14.4) erhalten wir 

c T x = (A T Gλ∗ + A T Us∗) T x = b T Gλ∗ + (AUx) T s∗ ≥ b T Gλ∗ + b T Us∗ = c T x∗, 

d.h. x∗ ist globales Minimum von f in M. Die letzte Formelzeile zeigt ferner, daß der Punkt x 

genau dann globales Minimum von f in M ist, wenn (14.5) gilt. ✷ 

Im Gegensatz zu allgemeinen Optimierungsproblemen kann man für lineare Optimierungsprobleme 

zeigen, daß das Minimierungsproblem immer eine Lösung besitzt, sofern das Infimum von 

f auf M nur endlich ist. Im Beweis spielt wieder das Lemma von Farkas eine zentrale Rolle. 

Satz 14.4. Für das lineare Optimierungsproblem (14.1) sei infx∈M c T x ∈ R. Dann gibt es einen 

Punkt x∗ ∈ M mit 

c T x∗ = inf 

x∈M cT x. 

Beweis: Wir gehen o.B.d.A. von der Standardform M = {x ∈ R n : Ax = b, x ≥ 0} aus. Nach 

Voraussetzung ist f∗ := infx∈M c T x endlich. Der Beweis wird indirekt geführt. 

Wir nehmen an, daß kein Punkt x ≥ 0 existiert mit cTx = f∗ und Ax = b. Mit der Festsetzung 

 

f ∗ 

g := , ãi := (ci, −a1i,...,−ami) 

−b 

T , i = 1,... ,n 

ist die Annahme äquivalent zu g ∈ cone{ã1,... ,ãn}. Nach dem Lemma von Farkas findet man 

dann einen Punkt d T = (α,λ) T ∈ R × R m mit 

sowie 

0 ≤ ã T i d = αci − 

0 > d T g = αf∗ − λ T b (14.6) 

m 

ajiλj, i = 1,... ,n. 

j=1 

Die letzte Bedingung kann man kurz notieren als 

0 ≤ αc − A T λ. (14.7) 

Per Voraussetzung ist infx∈M c T x = ∞, d.h. M = ∅, und es existiert wenigstens ein Punkt 

x ∈ M. Linksmultiplikation in (14.7) mit x T liefert mit (14.6) 

αx T c ≥ x T A T λ = b T λ > αf∗. 

Wegen der Annahme c T x > f∗ ergibt dies α > 0. Dann können wir (14.6) und (14.7) jeweils 

durch α divieren und erhalten 

f∗ < λ T b, A T λ ≤ c; λ := 1 

α λ. 

Mit einer Minimalfolge (xk) in M, d.h. mit limk→∞ c T xk = infx∈M c T x, erhalten wir nun einen 

Widerspruch, denn 

f∗ = lim 

k→∞ xTk c ≥ lim 

k→∞ xTk ATλ = b T λ > f∗. 

Damit ergibt sich nach dem Prinzip des indirekten Beweises die gewünschte Aussage. ✷


14.3 Dualität 

Betrachtet wird jetzt ein lineares Optimierungsproblem in Standardform 

mit c ∈ R n , A ∈ R m×n , b ∈ R m . 

Minimiere c T x auf M := {x ∈ R n : Ax = b, x ≥ 0} (14.8) 

Definition 14.5. Als zum (primalen) Problem (14.8) zugeordnetes duales Problem bezeichnet 

man die Aufgabe 

Maximiere b T λ auf N := {λ ∈ R m : A T λ ≤ c}. (14.9) 

Es gilt zunächst folgender Zusammenhang zwischen dualem und primalem Problem. 

Lemma 14.6. Die Lagrange-Multiplikatoren λ des primalen Problems sind die optimalen 

Lösungen des dualen Problems. Die Lagrange-Multiplikatoren x des dualen Problems sind die 

optimalen Lösungen des primalen Problems. 

Beweis: Wir schreiben das duale Problem (14.9) als 

Minimiere − b T λ auf N := {λ ∈ R m : − A T λ ≥ −c}. 

Nach Satz 14.3 ist λ∗ ∈ R m genau dann Lösung des dualen Problems, wenn es Lagrange- 

Multiplikatoren x ∈ R n gibt mit 

Ax = b, (14.10) 

(c − A T λ) T x = 0, (14.11) 

A T λ ≤ c, (14.12) 

x ≥ 0. (14.13) 

Hier sind (14.10)-(14.11) gerade die KKT-Bedingungen (14.2)-(14.3). Ferner sind (14.12) die 

Nebenbedingung und (14.3) die Vorzeichenbedingung x ∈ R n + an die Lagrange-Multipikatoren. 

Mittels Transformation 

findet man das äquivalente System 

s = c − A T λ (14.14) 

Ax = b, (14.15) 

s T x = 0, (14.16) 

s ≥ 0, (14.17) 

x ≥ 0. (14.18) 

Hierbei sind (14.14) und (14.16) die KKT-Bedingungen (14.2)-(14.3) des primalen Problems. 

(14.15) und (14.18) sind die Nebenbedingungen sowie (14.17) die Vorzeichenbedingung an die 

Lagrange-Multiplikatoren. ✷ 

Weiterhin gilt folgendes Resultat: 

Lemma 14.7. Das zum dualen Problem duale Problem ist äquivalent zum primalen Problem.

14.3. DUALITÄT 141 

Beweis: Man transformiert das duale Problem mit den Schlupfvariablen s = c − A T λ ≥ 0 und 

der Zerlegung λ = λ+ − λ− mit λ+,λ− ≥ 0 auf Standardform: 

Minimiere 

⎛ 

⎝ 

−b 

b 

0 

⎞ 

⎠ 

T ⎛ 

⎝ 

λ+ 

λ− 

s 

⎞ 

⎠ mit (A T − A T 

⎛ 

I) ⎝ 

Per Definition ist das hierzu duale Problem gerade 

Maximiere c T ⎛ ⎞ 

A 

⎛ 

z mit⎝ 

−A ⎠z ≤ ⎝ 

I 

λ+ 

λ− 

s 

−b 

b 

0 

⎞ 

⎠ = c, 

⎞ 

⎠ . 

⎛ 

⎝ 

λ+ 

λ− 

s 

⎞ 

⎠ ≥ 0. 

Die beiden Ungleichungen Az ≤ −b und −Az ≤ b sind äquivalent zu Az = b. Damit erhalten 

wir das äquivalente Problem 

Maximiere c T z mit Az = b, z ≤ 0. 

Mit z = −x erhalten wir hieraus das primale Problem (14.8). ✷ 

Wir können nun den zentralen Satz dieses Abschnitts, den Dualitätssatz, behandeln. 

Satz 14.8. Für das primale Problem (14.8) und das duale Problem (14.9) sei M = ∅ oder 

N = ∅. Dann gilt 

Ferner gelten folgende Äquivalenzen: 

inf 

x∈M cTx = sup b 

λ∈N 

T λ. (14.19) 

(i) M = ∅ ⇐⇒ sup b 

λ∈N 

T λ = ∞, (ii) N = ∅ ⇐⇒ inf 

x∈M cTx = −∞, 

Beweis: Für x ∈ M und λ ∈ N gilt 

und damit b T λ ≤ c T x sowie 

0 ≤ x T (c − A T λ) = c T x − b T λ 

sup b 

λ∈N 

T λ ≤ inf 

x∈M cTx. (14.20) 

(i) Fall infx∈M c T x = −∞: Es muß N = ∅ sein, sonst entsteht ein Widerspruch zu (14.20). 

(ii) Fall infx∈M c T x ∈ R: Nach dem Existenzsatz 14.4 gibt es eine Lösung x∗ ∈ M mit c T x∗ = 

infx∈M c T x. Nach Satz 14.3 findet man die Vektoren λ∗ ∈ R m und s∗ ∈ R n + mit 

A T λ∗ + s∗ = c, c T x∗ = b T λ∗. 

Wegen A T λ∗ ≤ c ist λ∗ ∈ N. Man erhält somit (14.19). 

(iii) Fall infx∈M c T x = ∞: Dann ist M = ∅. Wir nehmen an, daß sup λ∈N b T λ < ∞. Wegen der 

Annahme M = ∅ und/oder N = ∅ gilt sup λ∈N b T λ > −∞. Nach dem Existenzsatz 14.4 findet 

man λ∗ ∈ N mit b T λ∗ = sup λ∈N b T λ. und nach Satz 14.3 einen Lagrange-Multiplikator x∗ ≥ 0 

mit −Ax∗ = −b. Damit ist x∗ ∈ M im Widerspruch zur Annahme M = ∅. ✷ 

Anhand des Produktionsplanes aus Beispiel 14.1 kann man eine anschauliche ökonomische Interpretation 

des Dualitätssatzes geben.


Beispiel 14.9. Wir bringen das Problem des Produktionsplans 

auf Standardform 

Minimiere (−c 0) 

Das hierzu duale Problem ist 

Maximiere c T x mit Ax ≤ b, x ≥ 0 (14.21) 

x 

y 

bzw. mit der Transformation µ = −λ 

 

mit 

x 

y 

 

 

x 

≥ 0, (A I) 

y 

Maximiere b T λ mit A T λ ≤ −c, λ ≤ 0 

 

≥ b. 

Minimiere b T µ mit A T µ ≥ c, µ ≥ 0. (14.22) 

Wir interpretieren das Problem (14.22) ökonomisch wie folgt: 

Ein Konkurrent will von einem Betrieb ˜bi Einheiten des i−ten Ausgangsstoffes kaufen oder mieten. 

Dafür bietet er µi Geldeinheiten pro Einheit. Somit wären seine Gesamtkosten ˜b T µ, die er 

natürlich minimieren will. Der Betrieb kann aus ökonomischen Gründen auf das Konkurrenzangebot 

nur eingehen, wenn für jedes Produkt j die Summe der Preise für die zur Herstellung 

erforderlichen Ausgangsstoffe m i=1 aijµi mindestens so groß ist wie der Reingewinn cj, der bei 

Eigenproduktion erzielt werden könnte. Damit erhalten wir die Nebenbedingung AT µ ≥ c. Will 

der Konkurrent alle Ausgangsstoffe kaufen, d.h. für ˜b = b, hat er gerade das duale Problem 

(14.22) zu lösen. 

Der Dualitätssatz hat nun folgende Bedeutung: Seien x ein zulässiger Produktionsplan und µ 

ein akzeptables Konkurrenzangebot, so gilt wegen (14.19) 

c T x ≤ b T µ. 

Geht der Betrieb also auf das Angebot ein, so macht er wenigstens so viel Gewinn, als wenn er 

selbst produzieren würde. Er muß nicht einmal einen optimalen Produktionsplan suchen. 

Ist x∗ ein optimaler Produktionsplan und µ∗ ein für den Konkurrenten optimales Angebot, so 

gilt 

c T x∗ = b T µ∗. 

Man nennt die Zahlen (µ∗)i auch Schattenpreise. Nach dem Satz 13.9 über die KKT-Bedingungen 

hat man die Komplementaritätsbedingungen 

(Ax∗ − b)µ∗ = 0, (A T µ∗ − c)x∗ = 0. 

Wird also die Kapazitätsschranke bi für den i−ten Ausgangsstoff nicht ausgenutzt, so wird der 

Konkurrent in einem optimalen Angebot nichts für diesen Ausgangsstoff bezahlen, d.h. µi = 0. 

Wird das j−te Produkt produziert, ist damit (x∗)j > 0, d.h. es muß bei dem optimalen Angebot 

die Restriktion 

m 

i=1 

aijµi ≥ cj 

mit Gleichheit erfüllt sein. ✷

Kapitel 15 

Simplex-Verfahren 

Im abschließenden Kapitel betrachten wir mit dem Simplex-Verfahren das klassische Verfahren 

zur numerischen Lösung des linearen Optimierungsproblems (LOP) 

Minimiere f(x) := c T x auf M := {x ∈ R n : AGx = bG, AUx ≥ bU} (15.1) 

mit c ∈ R n , AG ∈ R mG×n , AU ∈ R mU ×n , bG ∈ R mG, bU ∈ R mU und mG,mU ∈ N0. 

Auf die Klasse der Innere-Punkte-Methoden können wir aus Zeitgründen im Rahmen dieser 

Einführung leider nicht eingehen. 

15.1 Ecken und Basislösungen 

Definition 15.1. Als abgeschlossenen Halbraum bezeichnet man Teilmengen des R n der Form 

{x ∈ R n : a T x ≥ b}, a ∈ R n \ {0}, b ∈ R. 

Ein Polyeder ist die Schnittmenge endlich vieler abgeschlossener Halbräume. Ein beschränktes 

Polyeder heißt Polytop. 

Ein Punkt eines Polyeders P heißt Ecke. falls er sich nicht als Konvexkombination von zwei 

anderen Punkten des Polyeders darstellen läßt, d.h. 

x = (1 − t)y + tz, t ∈ [0,1], y,z ∈ P =⇒ x = y = z. 

Wir gehen von einem linearen Optimierungsproblem in Standardform aus und können damit 

den zulässigen Bereich 

M = {x ∈ R n : x ≥ 0, Ax = b} (15.2) 

mit A ∈ R m×n , n ≥ m und b ∈ R m als spezielles Polyeder betrachten. O.B.d.A. ist 

rang (A) = m, (15.3) 

denn sonst streicht man ggf. einige (redundante) Zeilen von A und b. Für Polyeder (15.2) mit 

Bedingung (15.3) gibt es eine schöne algebraische Charakterisierung von Ecken. Zuvor benötigen 

wir aber einige Begriffe, für die wir eine Matlab-Notation benutzen. 

Definition 15.2. Seien m,n,r ∈ N sowie I = {i1,... ,ir} ⊂ {1,2,... ,n} mit i1 < i2 < · · · < ir. 

Für einen Vektor x ∈ R n und eine Matrix A ∈ R m×n definiert man 

xI := (xi1 ,...,xir) T ∈ R r , A[:, I] := 

143 

⎛ 

⎜ 

⎝ 

a1,i1 · · · a1,ir 

. 

am,i1 · · · am,ir 

. 

⎞ 

⎟ 

⎠ ∈ R m×r .

144 KAPITEL 15. SIMPLEX-VERFAHREN 

Für die zulässige Menge M aus (15.2) mit Bedingung (15.3) heißt ein Punkt x ∈ M Basislösung 

mit Basisindizes B = {b1,... ,bm} ⊂ {1,... ,n}, falls 

(i) xi = 0, i ∈ B; (ii) A[:, B] regulär. (15.4) 

Eine Basislösung x ∈ M heißt nicht-entartet, falls xB > 0. Anderenfalls heißt x entartet. 

Die gesuchte algebraische Charakterisierung gibt das folgende Lemma. 

Lemma 15.3. Ein Punkt x ∈ M ist genau dann Ecke von M, wenn x Basislösung ist. 

Beweis: (i) Für die Basislösung x zur Basis B sei o.B.d.A. B = {1,... ,m}. Sei nun x = 

(1 − t)y + tz mit y,z ∈ M und t ∈ [0,1]. Wegen xi = 0, i = m + 1,... ,n folgt für diese Indizes 

auch yi = zi = 0. Dann ist Ax = Ay = Az = b und damit A[:, B]xB = A[:, B]yB = A[:, B]zB. 

Wegen (15.4)(ii) folgt xB = yB = zB, damit x = y = z. Nach Definition ist x dann Ecke von M. 

(ii) Sei nun x Ecke von M. Wir setzen I := {i : xi > 0} und J := {j : xj = 0}. Wir nehmen 

an, daß die Spalten der Matrix A[:, I] linear abhängig sind. Dann muß ein Vektor zI ∈ R r \ {0} 

mit A[:, I]zI = 0 existieren. Durch die Komplettierung zJ = 0 erhalten wir einen Vektor z ∈ R n 

und definieren 

x(δ) := x + δz, δ ∈ R. (15.5) 

Es gilt Ax(δ) = Ax + δAz = b. Wegen xI > 0 ist x(δ)I > 0 für hinreichend kleines |δ|. Dann 

findet man eine Zahl ˆ δ > 0 mit x( ˆ δ),x(−ˆ δ) ∈ M und x = 1 

2x(ˆ δ) + 1 

2x(−ˆ δ). Das ist aber ein 

Widerspruch zur Annahme, daß x Ecke von M ist. Daher sind die Spalten von A[: .I] linear 

unabhängig. Aufgrund der Annahme rang(A) = m kann man die Indexmenge I zu einer Menge 

B mit m Elementen ergänzen, so daß Bedingung (15.4) (ii) gilt. ✷ 

Satz 15.4. Sei M gegeben durch (15.2)-(15.3) sowie sei c ∈ R n . Dann gelten folgende Aussagen: 

(i) M besitzt mindestens eine und höchstens endlich viele Basislösungen. 

(ii) Existiert ein globales Minimum von f(x) = cTx in M, so gibt es auch ein globales Minimum, 

das Ecke von M ist. 

 

n 

Beweis: zu (i): Es kann nur endlich viele Basislösungen in M geben, da maximal Teil- 

m 

mengen der Indexmenge {1,... ,n} existieren. Somit ist noch die Existenz mindestens einer 

Basislösung zu zeigen. Dazu sei x ∈ M ein Vektor, der unter allen Vektoren in M eine Minimalzahl 

nichtverschwindender Komponenten besitzt. Diese Zahl sei p. Ferner benutzen wir die 

bereits eingeführten Bezeichnungen I := {i : xi > 0} und J := {j : xj = 0}. 

Wir nehmen an, daß die Spalten der Matrix A[:, I] linear abhängig sind. Weiterhin benutzen 

wir die Vektoren z und x(δ) aus dem Beweis von Lemma 15.3. Für hinreichend kleines |δ| gilt 

x(δ)I > 0, sowie x(δ)J = 0 und Ax(δ) = b für alle δ ∈ R. Wegen z = 0 findet man ein betragsmäßig 

kleinstes ˆ δ ∈ R, so daß x( ˆ δ)I ≥ 0 gilt und wenigstens eine Komponente von x( ˆ δ)I 

verschwindet. Dann ist x( ˆ δ) ∈ M und x( ˆ δ) hat höchstens p −1 nichtverschwindende Komponenten. 

Das steht aber im Widerspruch zur Festsetzung von p. Daher sind die Spalten von A[:, I] 

linear unabhängig. Weiterhin kann man die Indexmenge I zu einer m-elementigen Menge B 

ergänzen, so daß die Matrix A[:, B] regulär ist. Dann ist x Basislösung zur Basis B. 

zu (ii): Sei x ∈ M globales Minimum der Zielfunktion f in M mit einer Minimalzahl p nichtverschwindender 

Komponenten. Wir nehmen dann an, daß die Matrix A[:, I] nicht vollen Spaltenrang 

hat. Definiert man nun x und x(δ) wie im Beweisteil (ii) zu Lemma 15.3, gilt x(δ) ∈ M für

15.2. ENTWICKLUNG DES SIMPLEX-VERFAHRENS 145 

hinreichend kleines |δ|. Ferner ist für diese Werte auch c T (x+δz) ≥ c T x, da x globales Minimum 

ist. Folglich muß c T z = 0 sein. Wie in Teil (i) des Beweises gibt es ein ˆ δ = 0, so daß x( ˆ δ) ∈ M 

und c T x( ˆ δ) = c T x gilt und daß x( ˆ δ) höchstens p − 1 nichtverschwindende Komponenten besitzt. 

Dies steht wieder im Widerspruch zur Festlegung von p. Die Spalten von A[:, I] sind somit linear 

unabhängig. Man kann I zu einer m−elementigen Indexmenge B ergänzen, so daß A[:, B] regulär 

ist. Somit ist x Basislösung. ✷ 

15.2 Entwicklung des Simplex-Verfahrens 

Ausgangspunkt ist ein lineares Optimierungsproblem in der Standardform 

Minimiere f(x) := c T x auf M := {x ∈ R n : Ax = b, x ≥ 0} (15.6) 

mit der Bedingung rang(A) = m ≤ n. Ist ferner M = ∅ und die Zielfunktion auf M nach unten 

beschränkt, so muß nach den Sätzen 14.4 und 15.4 eine der (endlich vielen) Ecken des Polyeders 

M eine Lösung von (15.6) sein. Da die Anzahl der Ecken jedoch sehr groß sein kann, verbietet 

sich eine unsystematische Durchmusterung aller Ecken. 

Beim Simplex-Verfahren gelangt man in jedem Schritt von einer Ecke x von M zu einer benachbarten 

Ecke durch Austausch eines Index der entsprechenden Basis B(x). Dabei soll sich der 

Wert der Zielfunktion nicht vergrößern und möglichst immer verringern. 

Bei der Entscheidung, einen Index der aktuellen Basis B zu wählen, machen wir Gebrauch von 

den KKT-Bedingungen. Nach Satz 14.3 ist ein optimales Lösungstripel (x∗,λ∗,s∗) ∈ R n × R m × 

R n eindeutig bestimmt durch die folgenden Bedingungen: 

Ax∗ = b, (15.7) 

x∗ ≥ 0 (15.8) 

A T λ∗ + s∗ = c, (15.9) 

s∗ ≥ 0, (15.10) 

x T ∗ s∗ = 0. (15.11) 

Sei bereits die Basis B einer beliebigen Basislösung x von M bekannt. Sei N := {1,... ,n} \ B. 

Dann ist x wegen (15.7) gegeben durch 

Wegen der Annahme x ∈ M ist auch Bedingung (15.8) erfüllt. 

xN = 0, xB = A[:, B] −1 b. (15.12) 

Wir wollen nun die Lagrange-Multiplikatoren s und λ aus den restlichen KKT-Bedingungen 

bestimmen. Wegen (15.11) setzen wir 

sB = 0. 

Damit folgt aus (15.9) 

Wegen der Regularität von A[:, B] finden wir 

A[:, B] T λ = cB, A[:, N] T λ + sN = cN. 

λ = A[:, B] −T cB, (15.13) 

sN = cN − A[:, N] T λ. (15.14)


Bis auf (15.10) sind damit alle KKT-Bedingungen erfüllt. Andererseits ist nach Satz 14.3 eine 

optimale Lösung ermittelt und man kann abbrechen, wenn (15.10) erfüllt ist. 

Im allgemeinen Fall ist sB = 0, nicht jedoch sN = 0. Man wird daher einen Index q ∈ N 

mit sq < 0 als neuen Index in die Basis B aufnehmen. Ferner ist zu überlegen, welcher Index 

hierfür aus der Basis B zu entfernen ist. Man fordert für die neue Basislösung x + , daß für alle 

> 0 ist zugelassen. Weiterhin soll gelten 

Indizes j von N \ {q} weiter xj = 0 bleibt. Der Fall x + q 

Ax + = b = Ax, d.h. 

Dies ergibt 

Wir definieren w ∈ R n durch 

A[:, B]x + 

B + A[:,q]x+ q 

= A[:, B]xB. 

x + 

B = xB − A[:, B] −1 A[:,q]x + q . 

wB := A[:, B] −1 A[:,q]; wq := −1, w N \{q} := 0. 

Später wird gezeigt, daß sich f in Richtung w verringert, d.h. w ist eine Abstiegsrichtung. 

Man wählt jetzt 

x + q 

 

xi 

:= min 

wi 

 

: i ∈ B, wi > 0 . 

Dies bedeutet geometrisch gerade, daß man sich vom Punkt x soweit auf der durch die Richtung 

w bestimmten Kante bewegt, bis man zum nächsten Eckpunkt gelangt. Im Fall w ≤ 0 kann man 

x + q beliebig groß wählen. Es wird noch gezeigt, daß die Zielfunktion in diesem Fall nicht nach 

unten beschränkt ist. Der Algorithmus soll dann mit einer entsprechenden Meldung abbrechen. 

Wir beschreiben jetzt einen Schritt des Simplex-Verfahrens. 

Schritt des Simplex-Verfahrens 

Initialisierung: Vektor c ∈ R n der Zielfunktion c T x; 

Zulässigkeitsbereich M = {x ∈ R n : x ≥ 0, Ax = b}; 

Basis B ⊂ {1,... ,n} einer Basislösung von M; 

B := A[:, B]; 

N := {1,... ,n} \ B; 

Berechne Basislösung x ∈ R n mit xB := B −1 b und xN := 0; 

λ := B −T cB; 

sN := cN − A[:, N] T λ; 

if sN ≥ 0 

STOP: x ist Lösung des Minimierungsproblems. 

Bestimme ein q ∈ N mit sq = min{si : i ∈ N }; 

Berechne wB := B −1 A[:,q]; 

if wB ≤ 0 

STOP: Zielfunktion ist in M nicht nach unten beschränkt. 

x + = 0; 

Setze x + q := min{ xi 

wi 

x + 

B := xB − wBx + q ; 

B + := (B ∪ {q}) \ {p}; 

: i ∈ B, wi > 0} und bestimme p ∈ B mit x + q = xp 

wp ; 

Ergebnis: Falls der Algorithmus nicht vorzeitig abbricht, ist x + Basislösung zur Basis B + . Es 

gilt c T x + ≤ c T x.

15.3. ANALYSE EINES SIMPLEX-SCHRITTS 147 

15.3 Analyse eines Simplex-Schritts 

Satz 15.5. Es wird angenommen, daß der Simplex-Schritt nicht mit einer optimalen Lösung 

abbricht wegen sN ≥ 0. Dann gelten folgende Aussagen: 

(i) Sei wB ≤ 0. Ist A[:,p] die k−te Spalte von B und fügt man die neue Spalte A[:,q] an der 

gleichen Stelle in die Matrix B, so ist die Matrix 

B+ := B + (A[:,q] − A[:,p])e T k 

regulär und die inverse Matrix erfüllt die update-Formel 

B −1 

+ = 

 

I − (wB − ek)e T k 

wp 

(ii) Ist wB ≤ 0, so ist x + Basislösung zur Basis B + . 

(iii) Falls wB ≤ 0, so gilt infx∈M c T x = −∞, anderenfalls ist 

Ist x nicht entartet, so gilt sogar c T x + < c T x. 

Beweis: zu (i): Mit v := A[:,q] − A[:,p] gilt 

 

B −1 . (15.15) 

c T x + ≤ c T x. (15.16) 

B+ = B + ve T k , B−1 v = wB − ek. 

Hierzu sei daran erinnert, daß A[:,p] die p−te Spalte von A, aber die k-te Spalte von B = A[:, B] 

ist. 

Aus den Nebenrechnungen 

 

I − B−1veT k 

1 + eT k B−1 

B 

v 

−1 (B + ve T k ) = 

sowie 

ergibt sich (15.15). 

 

I − B−1 ve T k 

= I + B −1 ve T k 

= I 

1 + e T k B−1 v 

 

(I + B −1 ve T k ) 

 

1 + −1 − eT k B−1v 1 + eT k B−1 

v 

1 + e T k B−1 v = 1 + e T k (B−1 A[:,q] − B −1 A[:,p]) = 1 + e T k (wB − ek) = wp > 0 

zu (ii): Zunächst erhält man 

Ax + = Bx + 

B + A[:,q]x+ q 

= BxB − BwBx + q + A[:,q]x + q 

= b − A[:,q]x + q + A[:,q]x + q = b 

(15.17) 

Bei der Herleitung des Simplex-Schrittes im vorhergehenden Abschnit hatten wir gesehen, daß 

wegen w ≤ 0 für die angegebene Wahl von x + q die Aussage x+ ≥ 0 folgt. Somit ist x + 

B ∈ M. 

= 0. Wegen der Regularität 

Ferner ist x + i = 0 für i ∈ B+ ∪{q} und x + p = xp −wpx + q = xp −wp xp 

wp 

von B+ nach (i) ist x + dann Basislösung zur Basis B + .


zu (iii): Aufgrund der Voraussetzung sN ≥ 0 ist sq ≤ 0. Wir betrachten zuerst den Fall w ≤ 0, 

für den gilt 

Wegen x + q ≥ 0 und sq < 0 erhalten wir (15.16). 

c T x + = c T Bx + 

B + cqx + q 

= c T BxB − x + q c T BB −1 A[:,q] + cqx + q 

= c T BxB + x + q (cq − λ T A[:,q]) 

= c T x + x + q sq. (15.18) 

Falls x nicht-entartet ist, gilt xq = xp 

wp > 0 und damit cT x + < c T x. 

Im Fall wB ≤ 0 hat man bei beliebiger Wahl von x + q 

> 0 und x+ 

B := xB − wx + q sowie x+ i := 0 

bei i ∈ N \ {q}, daß Ax + = b wie in (15.17) sowie x + ≥ 0. Damit ist x + ∈ M. Wegen (15.18) 

ist somit die Zielfunktion c T x auf M nicht nach unten beschränkt. ✷ 

15.4 Bemerkungen zur Implementierung 

Sei eine geeignete Basislösung zum Start des Simplex-Verfahrens bekannt, vgl. folgender Abschnitt. 

Man führt dann solange Simplex-Schritte aus, bis eines der Abbruchkriterien erfüllt 

ist. Beim neuen Simplex-Schritt wird dabei jeweils als Basis B die im vorhergehenden Schritt 

berechnete Basis B + verwendet. 

Wenn alle Basislösungen des Problems nicht entarten, so hat man in jedem Schritt eine tatsächliche 

Reduktion der Zielfunktion. Dann kann eine Basislösung bzw. Ecke von M nicht mehrfach 

”besucht” werden. Nach Satz 15.4 gibt es nur endlich viele Basislösungen von M. Da wenigstens 

eine Ecke davon Lösung des Minimierungsproblems ist, muß der Algorithmus nach endlich vielen 

Schritten abbrechen. 

Falls nun eine Basislösung x zur Basis B entartet, kann der Fall B + = B mit x + = x eintreten. 

Hier muß man am besten durch geeignete Modifikation des Verfahrens eine Reduktion der Zielfunktion 

erzwingen. Gelangt man jedoch zu einer bereits zuvor berechneten Basis zurück, wird 

man in einem Zyklus immer wieder zu dieser Basis zurückkehren. Derartige Zyklen treten in der 

Praxis sehr selten auf. Man findet aber in der Literatur konstruierte Beispiele. 

Durch Zusatzregeln, sogenannnte Anti-Zyklen-Regeln, bei der Auswahl der Indizes q und p kann 

man Zyklen vermeiden. Eine einfache Variante ist, daß q als kleinster Index mit sq < 0 und p 

gewählt wird. 

als kleinster Index mit x + q = xp 

wp 

Insgesamt gilt folgender Sachverhalt: 

Folgerung 15.6. Seien alle Ecken von M nicht-entartet. Dann bricht das Simplex-Verfahren 

nach endlich vielen Schritten mit einem globalen Minimum oder der Mitteilung infx∈M c T x = 

−∞ ab. Die gleiche Aussage gilt auch bei entarteten Ecken, wenn durch eine Anti-Zyklen-Regel 

bei der Auswahl der Indizes q und p gesichert wird, daß dieselbe Basis B nicht zweimal auftauchen 

kann. 

Wir schließen diesen Abschnitt mit Bemerkungen über den Aufwand des Verfahrens. Der Hauptaufwand 

besteht in der Berechnung von λ = B−T cB und von wB = B−1A[:,q]. Statt der Berechnung 

einer LU-Zerlegung von B in jedem Schritt empfiehlt es sich, einmal die Inverse von B 

auszuwerten und dann eine Aktualisierung mittels Formel (15.15) vorzunehmen. Mit der Klammerung 

B −1 

+ = B−1 − wB − ek 

(e 

wp 

T k B−1 )

15.5. BESTIMMUNG EINER BASISLÖSUNG 149 

wird dabei der Rechenaufwand gegenüber (15.15) mit O(m 3 ) Operationen auf O(m 2 ) wesentliche 

Operationen reduziert. Eine andere Variante besteht in der Berechnung einer LU-Zerlegung von 

B, die ständig aktualisiert wird. Diese Möglichkeit weist bessere Stabilitätseigenschaften auf. 

Im ungünstigsten Fall steigt der Aufwand exponentiell mit der Zahl der Unbekannten. Von Klee 

und Minty wurde 1972 tatsächlich ein derartiges Beispiel konstruiert. Praktisch konvergiert das 

Simplex-Verfahren jedoch in der Regel erheblich schneller. 

15.5 Bestimmung einer Basislösung 

Bislang blieb offen, wie man eine zulässige Basislösung zum Start des Simplex-Verfahrens erhält. 

Der einfachste Fall liegt vor, wenn das Ausgangsproblem die Form 

Minimiere c T x unter den Nebenbedingungen Ax ≤ b, x ≥ 0 (15.19) 

mit b ≥ 0 hat. Durch Überführung auf Standardform 

Minimiere 

c 

0 

T x 

s 

findet man sofort die Basislösung x = 0, s = b. 

 

unter den Nebenbedingungen Ax + s = b, x ≥ 0, s ≥ 0 

Ein wichtiges Beispiel für den angegebenen Fall hat man mit der Produktionsplanung, vgl. 

Beispiel 14.1. Ein anderer Fall liegt beim dualen Problem (14.9) eines allgemeinen Minimierungsproblems 

der Form (14.8) vor, nachdem man die Zerlegung λ = λ+ − λ− mit λ+,λ− ≥ 0 

wählt, falls der Kostenvektor des primalen Problems (14.12) c ≥ 0 erfüllt. 

Im allgemeinen Fall ermittelt man eine zulässige Basislösung mittels eines Hilfsproblems 

Minimiere c T x + Me T z unter den Nebenbedingungen Ax + z = b, x ≥ 0, z ≥ 0 (15.20) 

mit e := (1,... ,1) T ∈ R m und einer Zahl M > 0. Dabei wird benutzt, daß man bei Gleichungsrestriktionen 

(ggf. nach Multiplikation mit dem Faktor −1) o.B.d.A. eine nicht-negative rechte 

Seite annehmen kann. Es ist jedoch keine Rangbedingung an A gefordert. 

Satz 15.7. Vorausgesetzt wird, daß im LOP (15.6) b ≥ 0 gilt. Dann gelten für das Hilfsproblem 

(15.20) folgende Aussagen: 

(i) Das Hilfsproblem (15.20) hat die Basislösung 

 

x∗ 

 

0 

= 

b 

zur Basis B = {n + 1,... ,n + m}. 

(ii) Ist 

x∗ 

z∗ 

 

z∗ 

eine Lösung von (15.20) mit z∗ = 0, so ist x∗ eine Lösung von (15.2). 

(iii) Hat das Problem (15.6) eine Lösung, so gibt es eine Konstante M∗ > 0, so daß für M > M∗ 

 

x∗ 

gilt: Das Hilfsproblem (15.20) ist lösbar. Für jede Lösung von (15.20) ist z∗ = 0. 

 

0 

Beweis: zu (i): Die Basislösung ist zulässig wegen b ≥ 0. Die zur Basis gehörige Teilmatrix 

b 

ist gerade die Einheitsmatrix. Wegen x∗ = 0 liegt eine Basislösung vor. 

z∗


zu (ii): Aufgrund der Voraussetzungen ist x∗ zulässige 

 

Basislösung des LOP (15.6). Sei ˆx ein 

ˆx 

beliebiger zulässiger Vektor von (15.6). Dann ist zulässiger Punkt von (15.20). Aufgrund 

0 

 

x∗ 

der Optimalität von haben wir 

0 

d.h. x∗ ist Lösung von (15.7). 

c T x∗ = c T x∗ + Me T z∗ ≤ c T ˆx + Me T 0 = c T ˆx, 

zu (iii): Die dualen Probleme sind zum LOP in Standardform (15.7): 

sowie zum Hilfsproblem (15.20): 

bzw. 

Maximiere b T λ auf N := {λ ∈ R m : A T λ ≤ c} (15.21) 

Maximiere b T λ unter der Nebenbedingung 

A T 

Im 

 

c 

λ ≤ 

Me 

Maximiere b T λ auf NM := {λ ∈ R m : A T λ ≤ c, λi ≤ M, i = 1,... ,m}. (15.22) 

Eine Lösung ˜x von (15.7) existiert nach Voraussetzung. Die entsprechenden Lagrange-Multiplikatoren 

˜ λ sind Lösung des dualen Problems (15.21). Mit M∗ := ˜ λ∞ hat man ˜ λ ∈ NM für 

M ≥ M∗. Wegen NM ⊂ N ergibt sich 

sup b 

λ∈NM 

T λ ≤ sup b 

λ∈N 

T λ = b T λ, ˜ falls M ≥ M∗. 

Daher ist ˜ λ auch Lösung von (15.22) für M ≥ M∗. 

 

˜x 

Die primale Aufgabe (15.20) hat ebenso eine Lösung mit dem Lagrange-Multiplikator 

˜z 

 

˜λ. 

x∗ 

Nach Formel (14.5) aus Satz 14.3 ist ein zulässiger Punkt genau dann Lösung des 

Hilfsproblems (15.20), wenn die Komplementaritätsbedingungen 

 

c AT − 

Me 

 

˜λ 

x∗ 

· 

 

= 0, i = 1,... ,n + m 

Im 

i 

z∗ 

erfüllt sind. Wegen M > M∗ findet man aus dem unteren Block, daß z∗ = 0. ✷ 

Bei einem konkreten Beispiel stellt man zunächst die Form mit b ≥ 0 her. Dann startet man 

das Simplex-Verfahren für das Hilfsproblem (15.20) mit einer beliebigen Zahl M > 0, z.B. mit 

M = 103 , mit dem in Satz 15.7 (i) angegebenen Startvektor. 

 

x∗ 

• Ergibt das Verfahren eine Lösung mit z∗ = 0, so hat man nach Satz 15.7 (ii) eine 

Lösung x∗ des Ausgangsproblems gefunden. 

z∗ 

• Anderenfalls vergrößert man die Zahl M, etwa durch Multiplikation mit dem Faktor 10, 

und wendet erneut das Simplex-Verfahren an. Gestartet werden kann mit der Lösung des 

letzten Hilfsproblems. Besitzt das Problem (15.2) eine Lösung, so erhält man 

 

mit 

 

dieser 

x∗ 

Vorgehensweise nach endlich vielen Schritten eine Lösung von (15.20) mit . 

0 

Bemerkung 15.8. Man kann zeigen, daß die Zielfunktion im Hilfsproblem (15.20) genau dann 

nach unten unbeschränkt ist, wenn dies auch auf (15.2) zutrifft. ✷ 

i 

z∗

Literaturverzeichnis 

[1] H. Amann: Gewöhnliche Differentialgleichungen, de Gruyter Lehrbuch 1983 

[2] V.I. Arnold: Gewöhnliche Differentialgleichungen, Deutscher Verlag der Wissenschaften, 

Berlin 1979 

[3] J.C. Butcher: Implicit Runge-Kutta processes, Math. Comp. 18 (1964), 50-64 . 

[4] P. Deuflhard, F. Bornemann: Numerische Mathematik II, de Gruyter Lehrbuch, Berlin - 

New York 1994 

[5] O. Forster: Analysis 2, Differentialrechnung im R n . Gewöhnliche Differentialgleichungen, 

Vieweg Braunschweig 1984 

[6] G. Fulford, P. Forrester, A. Jones: Modelling with Differential and Difference Equations, 

Austral. Math. Soc. Lect. Series 10, Cambridge. Univ. Press 1997 

[7] A. Greenbaum: Iterative Methods for Solving Linear Systems, SIAM 1997. 

[8] E. Hairer, C. Lubich: Asymptotic expansions of the global error of fixed-stepsize methods, 

Numer. Math. 45 (1984), 345-360 

[9] E. Hairer, G. Wanner: Solving Ordinary Differential Equations II. Stiff and Differential- 

Algebraic Problems, Springer-Verlag 1991 

[10] M. Hanke-Bourgeois: Grundlagen der Numerischen Mathematik und des Wissenschaftlichen 

Rechnens, Teubner-Verlag 2006 

[11] R. Kreß: Numerical Analysis, Graduate Texts in Mathematics 181, Springer 1998 

[12] B.N. Parlett: The symmetric eigenvalue problem, Prentice-Hall, Englewood Cliffs 1980. 

[13] H.R. Schwarz Numerische Mathematik, B.G. Teubner, Stuttgart 1993 

[14] L.F. Shampine, M.W. Reichelt: The MATLAB ODE Suite, SIAM J. Sc. Comput. 18 (1997) 

1, 1-22 

[15] C. Sparrow: The Lorenz Equations: Bifurcations, Chaos, and Strange Attractors, Springer, 

New York, 1982 

[16] J. Stoer, R. Bulirsch: Numerische Mathematik 2., Springer 1990 

[17] K. Strehmel, R. Weiner: Numerik gewöhnlicher Differentialgleichungen, Teubner Studienbücher 

Mathematik, Stuttgart 1995 

151

152 LITERATURVERZEICHNIS 

[18] W. Walther: Gewöhnliche Differentialgleichungen, Springer-Verlag, Berlin, Heidelberg, New 

York 1985 

[19] Y. Saad: Iterative Methods for Sparse Linear Systems, PWS Publ. Comp. 2003

NUMERISCHE MATHEMATIK II Sommersemester 2010 - Institut für ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?