SkriptNumII_SS08.pdf

Numerische Mathematik II 

Peter Knabner 

Sommersemester 2008 

Überarbeitete Fassung: 09.07.2008 

1

Inhaltsverzeichnis 

1 Nichtlineare Optimierung ohne Nebenbedingungen 5 

1.1 Nichtlineare Optimierung (mit linearen Gleichungsbedingungen) . . . . 5 

1.2 Eindimensionale Optimierung . . . . . . . . . . . . . . . . . . . . . . . 8 

1.3 Zusammenhang Optimierung – Gleichungssysteme, Newtonverfahren 

und Varianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

1.4 Konvexe und quadratische Funktionale . . . . . . . . . . . . . . . . . . 13 

1.5 Gradientenverfahren und 

Methode der konjugierten Gradienten für quadratische Optimierungsprobleme 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

1.6 Exkurs: Grosse dünnbesetzte lineare Gleichungssysteme aus der Diskretisierung 

partieller Differentialgleichungen und die Effizienz von 

Lösungsverfahren dafür . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

1.7 Vorkonditionierte CG-Verfahren . . . . . . . . . . . . . . . . . . . . . . 32 

1.8 Krylov-Unterraum-Methoden für nichtsymmetrische Gleichungssysteme 39 

1.9 Verfahren der konjugierten Gradienten für nichtquadratische Optimierung 45 

2 Beispiele Gewöhnlicher Differentialgleichungen (GDG) 48 

2.1 Beispiele von Anfangswertaufgaben (AWA) für GDG . . . . . . . . . . 48 

2.2 Elemente der Analysis von AWA für GDG . . . . . . . . . . . . . . . . 54 

2.3 Beispiele von Randwertaufgaben (RWA) für GDG . . . . . . . . . . . . 59 

3 Einschrittverfahren 64 

3.1 Beispiele für Einschrittverfahren, Konsistenz . . . . . . . . . . . . . . . 64 

3.2 Runge–Kutta-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

3.2.1 Explizite Runge–Kutta-Verfahren . . . . . . . . . . . . . . . . . 79 

3.2.2 Implizite Runge–Kutta-Verfahren . . . . . . . . . . . . . . . . . 87 

3.3 Stabilität und Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . 94 

3.4 Implizite Runge–Kutta-Verfahren und Kollokation . . . . . . . . . . . . 105 

2

3.5 Spezielle Runge-Kutta-Verfahren und linear-implizite Verfahren . . . . 113 

3.6 Extrapolationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

3.7 Die Euler–MacLaurin’sche Summenformel . . . . . . . . . . . . . . . . 123 

3.8 Extrapolation. Das Romberg–Verfahren . . . . . . . . . . . . . . . . . . 126 

3.9 Methoden von Neville und Aitken . . . . . . . . . . . . . . . . . . . . . 129 

3.10 Schrittweitensteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 

3.11 Stabilität bei fester Schrittweite, steife Differentialgleichungen . . . . . 137 

4 (Lineare) Mehrschrittverfahren 150 

4.1 Definition, Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 

4.1.1 Mehrschrittverfahren via numerische Quadratur . . . . . . . . . 151 

4.1.2 Mehrschrittverfahren via numerische Differentiation . . . . . . . 159 

4.1.3 Prädiktor-Korrektor-Verfahren . . . . . . . . . . . . . . . . . . . 161 

4.2 Konsistenz(-ordnung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 

4.3 (Lipschitz)Stabilität und Konvergenz . . . . . . . . . . . . . . . . . . . 170 

4.4 Stabilität bei fester Schrittweite, Extrapolationsverfahren . . . . . . . . 184 

5 Die Finite-Differenzen-Methode für die Poisson-Gleichung 197 

5.1 Das Dirichlet-Problem für die Poisson-Gleichung . . . . . . . . . . . . . 197 

5.2 Die Finite-Differenzen-Methode . . . . . . . . . . . . . . . . . . . . . . 198 

5.3 Verallgemeinerung und Grenzen 

der Finite-Differenzen-Methode . . . . . . . . . . . . . . . . . . . . . . 207 

5.4 Maximumprinzipien und Stabilität . . . . . . . . . . . . . . . . . . . . 212 

6 (Informelle) Einführung in die Methode der Finiten Elemente für 

elliptische Probleme 219 

6.1 Variationsformulierung für ein eindimensionales Modellproblem . . . . . 219 

6.2 Die FEM für das Modellproblem mit stückweise linearen Funktionen . . 225 

6.3 Eine Fehlerabschätzung der FEM für das Modellproblem . . . . . . . . 239 

3

6.4 Allgemeinere eindimensionale Randwertaufgaben . . . . . . . . . . . . . 243 

6.5 Zur Implementierung der FEM für 2 Punkt Randwertaufgaben . . . . . 256 

6.6 Variationsgleichungen und Funktionenräume . . . . . . . . . . . . . . . 262 

6.7 Allgemeine Konvergenzordnungsaussagen . . . . . . . . . . . . . . . . . 271 

4

1 Nichtlineare Optimierung ohne Nebenbedingungen 

1.1 Nichtlineare Optimierung (mit linearen Gleichungsbedingungen) 

Ein weiteres Grundproblem der numerischen Mathematik besteht in der 

Optimierungsaufgabe mit Nebenbedingungen: 

Gegeben sei ein F : R n → R und M ⊂ R n . Gesucht ist x ∗ ∈ M mit 

F(x ∗ ) ≤ F(x) für alle x ∈ M . (1.1) 

Neben einem solchen globalen Minimum (falls existent) gibt es i.a. lokale Minima, d.h. 

˜x ∈ M, für die ein ε > 0 existiert, so dass 

F(˜x) ≤ F(x) für alle x ∈ Bε(˜x) ∩ M . (1.2) 

Die Einschränkungsmenge M ist oft (auch) durch Ungleichungsbedingungen 

und durch Gleichungsbedingungen 

gegeben. 

gi(x) ≤ 0 , i = 1, . . .,m (1.3) 

hj(x) = 0 , i = 1, . . ., k (1.4) 

Ein wichtiger Spezialfall ist die lineare Programmierung, bei der F, gi und hj affinlinear 

sind. Dafür und allgemein für Optimierungsaufgaben mit Nebenbedingungen sei 

auf eine Spezialvorlesung verwiesen. 

Ist F differenzierbar (im Folgenden vorausgesetzt), so gilt: 

Ist ˜x ein lokales Minimum auf R n (d.h. ohne Nebenbedingungen), so gilt 

DF(˜x) = 0 und damit 

∇F(˜x) = 0 . (1.5) 

Dabei wird die Ableitung von F bei ˜x mit DF(˜x) bezeichnet, ist also hier konkret die 

Jacobi-Matrix DF(˜x) ∈ R 1,n (als Zeile), d.h. die lineare Abbildung von R n nach R, für 

die 

F(˜x + h) = F(˜x) + DF(˜x)h + o(�h�) für h ∈ R n 

5

gilt. Stellt man DF(˜x)h als Euklidisches Skalarprodukt 

mit der Spalte 

dar, erhält man den Gradienten. 

DF(˜x)h = 〈DF(˜x) T , h〉 

∇F(˜x) = DF(˜x) T ∈ R n 

Dies ist ein (nichtlineares) Gleichungssystem, auf das die Methoden von Kapitel 4 

angewendet werden können, um solch einen stationären Punkt zu berechnen. 

Für weitere Zwecke bemerken wir: 

Wird F nur auf einen affinen Unterraum 

W = ¯x + U 

minimiert, so ist also die (1.5) entsprechende Bedingung 

und dies wiederum ist äquivalent zu 

(im Euklidischen Skalarprodukt 〈·, ·〉), da 

DF|W(˜x) = 0 

〈∇F(�x), u〉 = 0 für alle u ∈ U (1.6) 

DF(˜x)h = 〈∇F(˜x), h〉 für h ∈ R n 

und die Ableitung DF(�x) (als lineare Abbildung von R n nach R). 

Daraus ergibt sich folgende notwendige Optimalitätsbedingung für Optimierungsaufgaben 

mit linearen Gleichungseinschränkungen: 

Satz 1.1 Sei F : R n → R differenzierbar, A ∈ R n,m , b ∈ R m . 

Betrachtet werde das Minimierungsproblem 

Minimiere x ↦→ F(x) unter 

A T x = b . 

Das lineare Gleichungssystem A T x = b sei lösbar. 

Ist ˜x ∈ R n ein lokales Minimum. Sei a (i1) , . . ., a (il) eine Basis des Spaltenraums von A. 

Dann gibt es ein eindeutiges λ ∈ R l , den Lagrange-Multiplikator, so dass 

∇F(˜x) + 

l� 

λja (ij) 

= 0 . (1.7) 

j=1 

6

Beweis: Sei U = Kern A T , ¯x eine spezielle Lösung von A T ¯x = b, dann wird also F 

auf dem affinen Unterraum W = ¯x + U minimiert. Ein lokales Minimum �x erfüllt also 

nach (1.6) 

〈∇F(�x), u〉 = 0 für alle u ∈ U 

also ∇F(�x) ∈ (Kern A T ) ⊥ = Bild A . 

Hat der Spaltenraum Bild A die Basis a (i1) , . . .,a (il) , so folgt daraus die Behauptung. 

✷ 

Bemerkungen: 

1) Aus (1.7) folgt die (i.a. nicht eindeutige) Existenz von λ ∈ R m , so dass 

∇F(˜x) + Aλ = 0 . 

2) Die notwendigen Optimalitätsbedingungen sind also folgender Satz von Gleichungen 

∇F(˜x) + Aλ = 0 

AT (1.8) 

˜x = b , 

d.h. wieder ein nichtlineares Gleichungssystem für �x und λ. 

3) Führt man das Lagrange-Funktional 

L(x, y) := F(x) + y T (A T x − b) 

ein, so lässt sich (1.8) auch schreiben als 

∂ 

L(˜x, λ) = ∇F(�x) + Aλ = 0 

∂x 

∂ 

∂y L(˜x, λ) = AT ˜x − b = 0 . 

Das Minimum ˜x mit seinem Lagrange-Multiplikator λ entspricht aber keinem 

Minimum von L, sondern einem Sattelpunkt, d.h. L wird in x minimiert und in 

y maximiert: siehe Optimierung. 

4) Es gibt analoge Aussagen für nichtlineare Gleichungseinschränkungen oder für 

lineare oder nichtlineare Ungleichungseinschränkungen: 

A T x ≤ b 

bzw. gi(x) ≤ 0, i = 1, . . .,m mit g : R n → R m : siehe Optimierung 

7

5) Der Spezialfall eines linearen F mit linearen Ungleichungsbedingungen (lineare 

Optimierung, lineare Programmierung, LP) wird in Linearer Algebra behandelt. 

6) Lösungsansätze für Optimierungsaufgaben über notwendige Optimalitätsbedingungen 

führen also oft auf nichtlineare Gleichungssysteme vom Typ (1.5). 

Wenn auch ∇F auswertbar ist, sind dafür also alle Verfahren aus Kapitel 4 anwendbar. 

Brauchen diese Verfahren auch die Jacobi-Matrix wie das Newton-Verfahren, dann 

muss auch 

� � 2 ∂ F 

D(∇F)(x) = (x) =: H(F)(x) , (1.9) 

∂xi∂xj 

die Hesse-Matrix, auswertbar sein. 

Im Folgenden werden nur Optimierungsaufgaben ohne Nebenbedingungen, d.h. 

M = R n betrachtet. 

1.2 Eindimensionale Optimierung 

Allgemein braucht ein stationärer Punkt weder ein (lokales) Maximum noch Minimum 

zu sein. Das ist auch in einer Raumdimension so, wenn z.B. für ein Intervall [a, b] 

f ′ (a)f ′ (b) < 0 gilt und damit ein stationären Punkt (aber nicht notwendig ein Minimum) 

in (a, b) existiert, der sicher mit dem Bisektionsverfahren oder Verbesserungen 

gefunden werden kann. Ein Minimum wird dann gefunden, wenn verschärft für ein 

¯x ∈ (a, b) (das dann Minimum ist) gilt: 

f ′ (x) < 0 für x ∈ (a, ¯x) 

f ′ (x) > 0 für x ∈ (¯x, b) . 

Dies ist hinreichend, dafür dass f auf [a, b] unimodal ist, d.h. 

f ist strikt monoton fallend für x ∈ (a, ¯x) , 

f ist strikt monoton wachsend für x ∈ (¯x, b) . 

ij 

(1.10) 

(1.11) 

Anstatt z.B. das Bisektionsverfahren auf f ′ (x) = 0 anzuwenden, reicht es f an zwei 

Punkten x1 < x2 in (a, b) auszuwerten, um das Intervall der Unimodalität (das ein 

lokales Minimum enthält) zu verkleinern: 

A) Ist f(x1) < f(x2), kann das Minimum nicht in (x2, b] liegen, 

und so [a, b] durch [a, x2] ersetzt werden. 

B) Ist f(x1) > f(x2), kann das Minimum nicht in [a, x1) liegen, 

und so [a, b] durch [x1, b] ersetzt werden. 

C) Ist f(x1) = f(x2), muss das Minimum in [x1, x2] liegen, 

so dass dieser Fall bei A) oder B) hinzugenommen werden kann. 

8 

(1.12)

Um eine lineare Konvergenzrate mit festem Kontraktionsfaktor C < 1 zu garantieren 

sollten x1, x2 so sein, dass (x2 − a) = τ(b − a) = b − x1 für ein festes 0 < τ < 1 (dann 

C = τ). Dies ist erfüllt für (bei 0.5 < τ < 1): 

x1 = a + (1 − τ)(b − a) , 

x2 = a + τ(b − a) , 

(1.13) 

d.h. die Punkte werden von den Intervallgrenzen mit dem relativen Abstand 1 −τ und 

τ positioniert. Eine Wahl von τ direkt bei 0.5 macht die Abfrage f(x1) < 

≥ f(x2) in 

(1.12) instabil. Jeder Iterationsschritt braucht zwei Funktionsauswertungen. Es ist also 

vorteilhaft, wenn bei einem (speziellen) τ (nahe bei 0.5) nur eine Funktionsauswertung 

pro Iteration gebraucht wird. Das ist dann der Fall, wenn im Fall B) von (1.12) gilt 

xalt 2 = xneu ⇐⇒ 

1 

a + τ(b − a) = xalt 1 + (1 − τ)(b − xalt 1 ) 

= 

⇐⇒ 

a + (1 − τ)(b − a) + (1 − τ)τ(b − a) 

τ = 1 − τ + τ − τ2 ⇐⇒ 

Diese quadratische Gleichung hat die positive Lösung 

τ 2 = 1 − τ . (1.14) 

τ = (5 1/2 − 1)/2 ∼ 0.618 . 

Bei dieser Wahl gilt auch im Fall A) von (1.12) 

xalt 1 = xneu ⇐⇒ 

2 

a + (1 − τ)(b − a) = a + τ(xalt 2 − a) 

= a + τ2 ⇐⇒ 

(b − a) 

τ2 = 1 − τ . 

Die Wahl von τ entspricht gerade dem Verhältnis des goldenen Schnitts, daher heißt 

das Verfahren Goldene Schnitt Suche. 

9

Algorithmus 1.2 (Minimierung durch Goldene Schnitt Suche) 

tau = (5^{1/2} - 1)/2; 

x_1 = a + (1 - tau)*(b-a); 

f_1 = f(x_1); 

x_2 = a + tau*(b-a); 

f_2 = f(x_2); 

while (b-a) > eps 

if (f_1 > f_2) 

a = x_1; 

x_1 = x_2; 

f_1 = f_2; 

x_2 = a + tau*(b-a); 

f_2 = f(x_2); 

else 

b = x_2; 

x_2 = x_1; 

f_2 = f_1; 

x_1 = a + (1 - tau)*(b-a); 

f_1 = f(x_1); 

end 

end 

Wähle a (1) , b (1) ∈ R so, dass (1.11) erfüllt ist und berechne 

Für k = 1, . . . setze 

wenn f (k) 

1 > f (k) 

2 

x (1) 

1 

f (1) 

1 

x (1) 

2 

f (1) 

2 

τ = 

√ 5 − 1 

2 

= a(1) + (1 − τ)(b (1) − a (1) ) 

= f(x (1) 

1 ) 

= a (1) + τ(b (1) − a (1) ) 

= f(x (1) 

2 ) 

10

dann: 

sonst: 

a (k+1) = x (k) 

1 

b (k+1) = b (k) 

x (k+1) 

1 

f (k+1) 

1 

x (k+1) 

2 

f (k+1) 

2 

a (k+1) = a (k) 

b (k+1) = x (k) 

2 

x (k+1) 

2 

f (k+1) 

2 

x (k+1) 

1 

f (k+1) 

1 

= x (k) 

2 

= f (k) 

2 

= a (k+1) + τ(b (k+1) − a (k+1) ) 

= f(x (k+1) 

2 ) 

= x (k) 

1 

= f (k) 

1 

= a (k+1) + (1 − τ)(b (k+1) − a (k+1) ) 

= f(x (k+1) 

1 ) 

bis das Abbruchkriterium ( ” |b − a| = 0“) erfüllt ist. 

1.3 Zusammenhang Optimierung – Gleichungssysteme, Newtonverfahren 

und Varianten 

Wir betrachten wieder (1.1) bzw. (1.2) mit M = R n . 

I.a. ist ein stationärer Punkt (1.5) kein lokales Minimum, für konvexe Funktionale ist 

das aber gesichert, dann ist ein stationärer Punkt sogar ein globales Minimum (ohne 

Beweis). 

In diesem Fall ist es also äquivalent, ein Minimierungsproblem (1.1)/(1.2) oder ein 

lineares Gleichungssystem (1.5) zu lösen. 

Hinsichtlich der Wahl einer der Alternativen ist auch Folgendes zu beachten: 

(1.1)/(1.2) sensitiver ist als ein nichtlineares Gleichungssystem f(x) = 0 : Setzt man 

für die Nullstelle ¯x die Invertierbarkeit von Df(x) in einer Umgebung von ¯x voraus, 

dann ist approximativ zu lösen 

f(¯x + h) − Df(¯x + h)h = 0 , 

11

um ¯x = ¯x + h − h aus ¯x + h zu erhalten, so dass sich das Fehlerniveau ε von f (≥ 

Maschinengenauigkeit τ) vermittelt durch die Kondition von Df(¯x+h) auf ¯x überträgt. 

Bei der Minimierung von F gilt stattdessen nahe bei der Minimalstelle ¯x approximativ 

F(¯x + h) + 1 

2 hT H(F)(¯x + h)h = 0 , 

so dass man nur das Fehlerniveau Cε 1/2 für h erwarten kann. 

Da aber bei (1.5) f = ∇F ist, ist zu berücksichtigen, ob ∇F exakt auswertbar ist. 

Wird ∇F etwa über Differenzenquotienten approximiert, ist die Schlechtgestelltheit des 

numerischen Differenzierens zu berücksichtigen, was den Unterschied wieder ausgleicht 

(selbst bei optimal gewählten Diskretisierungsschrittweiten δ > 0: siehe Abschnitt 2.7). 

Verfahren für stationäre Punkte 

Die Anwendung des Newtonverfahrens auf (1.5) führt auf den Basisiterationsschritt 

x (i+1) = x (i) + δ (i) mit 

H(F)(x (i) )δ (i) = −∇F(x (i) ) . 

(1.15) 

Da hier der Aufbau des Gleichungssystems besonders aufwändig ist, sind alle Überlegungen 

aus Abschnitt 4.5 zur Verringerung dieses Aufwandes sinnvoll. Insbesondere 

entstehen Quasi-Newtonverfahren dadurch, dass in (1.15) eine die Hesse-Matrix approximierende 

Matrix B(x (i) ) durch sogenannte Sekanten-Updates (bzw. genauer die 

LR-Zerlegung) aufgebaut wird. Von diesen ist der nach Broyden, Fletcher, Goldfarb 

und Shanno BFGS genannte einer der bekannteren. Auch die in Abschnitt 4.5 besprochenen 

(Dämpfungs-) Strategien zur Vergrößerung des Konvergenzeinzugsbereichs sind 

sinnvoll. Man kann noch weitergehen, und mit dem Trust-region Ansatz auch die Richtung 

δ (i) des Newton-Schrittes modifizieren. Nach Lemma 1.4 (siehe unten) ist (1.15) 

äquivalent mit 

Minimiere F q;x (i)(δ) , wobei 

F q;x (i)(δ) := F(x (i) ) + ∇F(x (i) ) T δ 

+ δ T H(F)(x (i) )δ , 

d.h. statt des nichtlinearen Funktionals wird ein quadratisches “Modell” minimiert. 

(1.16) 

Die Trust-region Strategie vergleicht für die Richtung δ (i) den Abstieg in F q;x (i) mit 

dem in F(x (i) + .) und modifiziert und dämpft δ (i) , so dass die Gültigkeit des lokalen 

quadratischen Modells gesichert bleibt. 

12

Als ein vereinfachtes Newton-Verfahren kann auch das Gauss-Newton Verfahren aus 

Abschnitt 4.3 interpretiert werden. Hier wird der Newton-Schritt für ∇F(x) = 0 für F 

nach (4.42), 

� 

m� 

� 

Df(x (k) ) T Df(x (k) ) + 

i=1 

fi(x (k) )Hi(x (k) ) 

δ (k) = −Df(x (k) ) T f(x (k) ) , (1.17) 

wobei Hi(x) die Hesse-Matrix von fi an der Stelle x bezeichnet. Durch Wegfall der 

Summe, was für kleine Residua fi gerechtfertigt erscheint, entsteht bei vollem Rang 

von Df(x (k) ) das Gauss-Newton Verfahren. 

1.4 Konvexe und quadratische Funktionale 

Definition: Sei X ein R-Vektorraum und F : X → R . 

F heißt konvex, wenn für x, y ∈ X, λ ∈ [0, 1] gilt 

F(λx + (1 − λ)y) ≤ λF(x) + (1 − λ)F(y) . 

Spezielle konvexe Funktionale sind quadratische Funktionale, d.h. 

Lemma 1.3 Sei A ∈ R n,n symmetrisch, positiv semidefinit, und b ∈ R n . Dann ist das 

Funktional 

F(x) := 1 

2 xT Ax − b T x (1.18) 

ein konvexes Funktional. 

Definiere zu einer symmetrischen Matrix A ∈ R n,n : 

〈x, y〉A := x T Ay für alle x, y ∈ R n . (1.19) 

Dies ist ein Skalarprodukt mit Ausnahme der Definitheitseigenschaft; diese gilt auch, 

wenn A positiv definit ist. Also definiert 

�x�A := 〈x, x〉 1/2 

A = (xT Ax) 1/2 

(1.20) 

eine Halbnorm bzw. Norm auf R n , die von A erzeugte Energienorm. Es gilt also die 

Cauchy–Schwarz’sche Ungleichung 

|〈x, y〉A| ≤ �x�A�y�A für alle x, y ∈ R n . (1.21) 

13

Beweis von Lemma 1.3: 

Es reicht, den nichtlinearen Anteil, d.h. b = 0 zu betrachten. 

Seien x, y ∈ R n , λ ∈ [0, 1], ¯ λ := 1 − λ ∈ [0, 1]: 

F(λx + ¯ λy) = 1 � � 

λx + λy ¯ T � � 

A λx + λy ¯ 

1 

= 

2 

2 λ2x T Ax + λ¯ λx T Ay + 1 

2 ¯ λ 2 y T Ay 

≤ 1 � � 2 T 

λ x Ax + λλ(x ¯ T T 

Ax + y Ay) + λ¯ 2 T 

y Ay . (1.22) 

2 

Bei der letzten Abschätzung gingen (1.21) und die sofort aus der binomischen Formel 

folgende Ungleichung 

2|ab| ≤ εa 2 + 1 

(1.23) 

für a, b ∈ R, ε > 0 ein, d.h. nämlich mit ε = 1 

ε b2 

x T Ay ≤ �x�A�y�A ≤ 1 � 2 

�x�A + �y� 

2 

2 � 

A . 

Die Abschätzung in (1.22) kann nun folgendermaßen fortgesetzt werden: 

Es gilt also 

F(λx + ¯ λy) ≤ 1 

2 (λ(λ + ¯ λ)x T Ax + ¯ λ(λ + ¯ λ)y T Ay) = λF(x) + ¯ λF(y) . 

Lemma 1.4 Für das quadratische Funktional (1.18) mit symmetrischen A ∈ R n,n gilt 

für x ∈ R n : 

∇F(x) = Ax − b . 

Ist A zusätzlich positiv semidefinit, dann sind äquivalent: 

(1) x ∗ ist globales Minimum von F auf W := ¯x + U für einen linearen Unterraum 

U ⊂ R n . 

(2) 〈∇F(x ∗ ), u〉 = 0 für alle u ∈ U. 

Beweis: 

1 

2 (x + h)T A(x + h) − b T (x + h) = 1 

2 xT Ax − b T x + (Ax − b) T h + 1 

2 hT Ah (1.24) 

und 1 

2 hT Ah = O(�h� 2 ), also gilt 

∇F(x) = Ax − b für alle x ∈ R n . (1.25) 

14 

✷

Also gilt (1)⇒(2) unter Beachtung von (1.6). Die Implikation (2)⇒(1) folgt aus der 

folgenden Konsequenz von (1.24), ( 1.25). 

F(x + h) = F(x) + ∇F(x) T h + 1 

2 hT Ah ≥ F(x) + ∇F(x) T h für alle h ∈ R n , 

d.h. für 〈∇F(x ∗ ), u〉 = 0 für u ∈ U folgt für x ∗ statt x, x statt x ∗ + h mit h ∈ U 

Wegen 

F(x) ≥ F(x ∗ ) für alle x ∈ W . 

�Ax − b� 2 2 = xT A T Ax − (A T b) T x + b T b 

ist das Ausgleichsproblem von der Form (1.18) mit der symmetrisch, positiv semidefiniten 

Matrix 1 

2 AT A, also äquivalent zu den Normalgleichungen 

A T Ax = A T b . 

Allgemein ist ein Funktional auf einem normierten Raum X 

für ein f ∈ X konvex, denn: 

ϕ(u) = �f − u� 2 

ϕ(λu + ¯ λv) = �λ(f − u) + ¯ λ(f − v)� 2 

≤ (λ�f − u� + ¯ λ�f − v�) 2 

= λ 2 �f − u� 2 + 2λ ¯ λ�f − u��f − v� + ¯ λ� 2 f − v� 2 

≤ λ 2 �f − u� 2 + λ ¯ λ(�f − u� 2 + �f − v� 2 ) + λ 2 �f − v� 2 

≤ λ�f − u� 2 + ¯ λ�f − v� 2 , 

(siehe (1.22)). 

Ist die Norm �·� auf X durch ein Skalarprodukt 〈·, ·〉 erzeugt, ist ϕ auch differenzierbar 

und sogar ein quadratisches Funktional für endlich-dimensionales X (in den Parametern 

α1, . . .,αn, wenn dim X = n) - siehe Lineare Algebra. 

Betrachtet man die Minimierung von ϕ auf einem affinen Teilraum W = w0 + U, also 

das Problem der besten Approximation von f in W, dann ist dies äquivalent zu 

Dϕ(w0 + u) = D(�f − w0 − u� 2 ) = 0 für u ∈ U 

⇐⇒ 2〈f − (w0 + u), v〉 = 0 für alle v ∈ U . 

Sei nun U endlich-dimensional, dim U = n (X darf unendlich-dimensional sein), dann 

ist nach Wahl einer Basis v1, . . ., vn von U 

n� 

für u = αivi dies äquivalent zu 

〈f − w0 − 

i=1 

n� 

αivi, vj〉 = 0 für alle j = 1, . . ., n , 

i=1 

15 

✷

also zu dem linearen Gleichungssystem (mit der Gramschen Matrix) 

- siehe Lineare Algebra - 

A = (〈vj, vi〉)i,j 

Aα = b 

für α = (αi) T i , b = (〈f − w0, vi〉) T i . 

Mittels Verfahren für die Optimierungsaufgabe für (1.18) entstehen also neue Verfahren 

zur Lösung linearer Gleichungssysteme, falls A symmetrisch und positiv definit ist. 

Das ist dann relevant, wenn A eine solche Matrix ist, die durch die Diskretisierung 

einer partiellen Differentialgleichung (einer elliptischen Randwertaufgabe) entstanden 

ist. Dann sind die in Kapitel 1 besprochenen Verfahren nur bedingt brauchbar, da die 

dünne Besetzung der Matrix z.T. verloren geht; die iterativen Verfahren aus Kapitel 4 

sind wegen ihrer geringen und mit wachsender Dimension schlechter werdenden Konvergenzgeschwindigkeit 

nicht brauchbar. Das heute für mittlere Komplexität (n ≤ 5000) 

Verfahren der Wahl ist (eine vorkonditionierte Version) des CG–Verfahrens. 

1.5 Gradientenverfahren und 

Methode der konjugierten Gradienten für quadratische 

Optimierungsprobleme 

In diesem Abschnitt sei A ∈ R n,n symmetrisch und positiv definit. 

Das Gleichungssystem Ax = b ist dann äquivalent zu 

Minimiere f(x) := 1 

2 xT Ax − b T x für x ∈ R n , (1.26) 

da für ein solches Funktional eine Minimalstelle genau einem stationären Punkt entspricht, 

das heißt einem x mit 

0 = ∇f(x) = Ax − b . (1.27) 

Eng verknüpft mit (1.26) ist das folgende Skalarprodukt auf R n 

das sogenannte Energie-Skalarprodukt. 

〈x, y〉A := x T Ay , (1.28) 

16

Ein allgemeines Iterationsverfahren zur Lösung von (1.26) hat die Struktur: 

Bestimme eine Suchrichtung d (k) . 

Minimiere α ↦→ ˜ f(α) := f � x (k) + αd (k)� 

exakt oder approximativ, dies ergibt αk . 

(1.29) 

Setze x (k+1) := x (k) + αkd (k) . (1.30) 

Ist f wie in (1.26) definiert, so ergibt sich das exakte αk aus der Bedingung ˜ f ′ (α) = 0 

und 

˜f ′ (α) = ∇f � x (k) + αd (k)� T d (k) 

als 

wobei 

αk = − g(k)T d (k) 

d (k)T , (1.31) 

Ad (k) 

g (k) := Ax (k) − b = ∇f � x (k)� . (1.32) 

Der Fehler der k-ten Iterierten werde mit e (k) bezeichnet: 

e (k) := x (k) − x . 

Einige allgemein gültige Beziehungen sind dann: 

Wegen der eindimensionalen Minimierung von f gilt 

und aus (1.32) folgt sofort: 

Wir betrachten die Energienorm 

die vom Energieskalarprodukt erzeugt wird. 

g (k+1)T d (k) = 0 , (1.33) 

Ae (k) = g (k) , e (k+1) = e (k) + αkd (k) , (1.34) 

g (k+1) = g (k) + αkAd (k) . (1.35) 

�x�A := � x T Ax � 1/2 , (1.36) 

17

Vergleichen wir die Lösung x = A −1 b mit einem beliebigen y ∈ R n , dann gilt 

1 

2 �y − x�2 A 

Wir summieren (1.37) (1.38), dann gilt 

Ax = b 

f(x) = 1 

2 xT Ax − b T x 

= 1 

2 xT b − b T x = − 1 

2 bT x (1.37) 

= 1 

2 yT Ay + 1 

2 xT Ax 

� �� 

1 

2 bT x 

− y T Ax 

�� 

b 

= f(y) + 1 

2 bT x . (1.38) 

f(y) = f(x) + 1 

2 �y − x�2 A , (1.39) 

so dass in (1.26) also auch der Abstand zu x in � · �A minimiert wird. Der Energienorm 

wird deshalb eine besondere Bedeutung zukommen. Darin gilt wegen (1.34) 

und so wegen (1.34) und (1.33): 

� 

� e (k) � � 2 

A = e(k)T g (k) = g (k)T A −1 g (k) 

� 

� e (k+1) � � 2 

A = g(k+1)T e (k) . 

Der Vektor −∇f � x (k)� gibt in x (k) die Richtung des lokal steilsten Abstiegs an, was 

das Gradientenverfahren nahelegt, das heißt 

und so 

d (k) := −g (k) 

(1.40) 

αk = d(k)T d (k) 

d (k)T . (1.41) 

Ad (k) 

Mit den obigen Identitäten ergibt sich für das Gradientenverfahren aus (1.35): 

� 

� (k+1) 

e � �2 A = � g (k) + αkAd (k)� � 

T (k) (k) 2 

e = �e �A 1 − αk 

d (k)T d (k) 

� 

und damit mittels der Definition von αk aus (1.41): 

18 

d (k)T A −1 d (k)

� 

� x (k+1) − x � � 2 

A = � � x (k) − x � � 2 

A 

Mit der Ungleichung von Kantorowitsch: 

x T Axx T A −1 x 

(x T x) 2 

≤ 

⎧ 

⎪⎨ 

1 − 

⎪⎩ 

� 

d (k)T d (k) 

�2 d (k)T Ad (k) d (k)T A −1 d (k) 

� 

1 

2 κ1/2 + 1 

2 κ−1/2 

�2 wobei κ := κ(A) die spektrale Konditionszahl ist, folgt wegen 

1 − 

4 

(a 1/2 + a −1/2 ) 

Satz 1.5 Für das Gradientenverfahren gilt: 

� 

� x (k) − x � �A ≤ 

(a − 1)2 

2 = 

(a + 1) 2 für a > 0 : 

, 

⎫ 

⎪⎬ 

⎪⎭ . 

� �k κ − 1 ��x � 

(0) 

− x�A . (1.42) 

κ + 1 

Das ist die gleiche Abschätzung wie für das optimal relaxierte Richardson-Verfahren 

(mit der Verschärfung �M�A ≤ κ−1 

κ+1 

statt ̺(M) ≤ κ−1 

κ+1 ). 

Der wesentliche Unterschied besteht aber darin, dass dies ohne Kenntnis der Eigenwerte 

von A möglich ist. 

Für Finite-Differenzen- oder Finite-Element-Diskretisierungen von elliptischen partiellen 

Differentialgleichungen (siehe Abschnitt 7.6 und Numerik partieller Differentialgleichungen) 

ist dies trotzdem die gleiche schlechte Konvergenzrate wie für das Jacobi- oder 

ähnliche Verfahren. Das Problem liegt darin, dass zwar wegen (1.33) g (k+1)T g (k) = 0 

gilt, nicht aber im Allgemeinen g (k+2)T g (k) = 0; vielmehr sind diese Suchrichtungen 

oftmals fast parallel. 

m = 2: 

.x (0) 

f = const 

.. 

(Hohenlinien) 

Abbildung 1: Zick-Zack-Verhalten des Gradientenverfahrens (lese n = 2 statt m = 2) 

19

� 

1 0 

Beispiel: Für A = 

0 9 

gilt 

und damit 

� � 

0 

, b = 

0 

x (i) = (0.8) i−1 

� 

und x (1) = 

� 

9 

(−1) i−1 

�x (i) �2 = 0.8�x (i−1) �2 . 

Dieses Problem beruht darauf, dass für große κ die Suchrichtungen g (k) und g (k+1) bzgl. 

des Skalarprodukts 〈·, ·〉A fast parallel sein können, aber bzgl. � · �A der Abstand zur 

Lösung minimiert wird (vgl. (1.39)). 

Die Suchrichtungen d (k) sollten also orthogonal bzgl. 〈·, ·〉 A , das heißt konjugiert sein: 

� 

� 9 

1 

Definition: Vektoren d (0) , . . .,d (l) ∈ R n heißen konjugiert, wenn gilt: 

� d (i) , d (j) � 

A 

, 

� 

= 0 für i, j = 0, . . .,l, i �= j . 

Wenn die Suchrichtungen eines nach (1.30), (1.31) definierten Verfahrens konjugiert 

gewählt werden, dann heißt es ein Verfahren der konjugierten Richtungen. 

Seien d (0) , . . .,d (n−1) konjugierte Richtungen, dann sind sie insbesondere linear unabhängig 

und bilden daher eine Basis, bzgl. derer die Lösung x (von Ax = b) dargestellt 

werden kann mit Koeffizienten γk: 

�n−1 

x = γkd (k) . 

k=0 

Wegen der Konjugiertheit der d (k) und wegen Ax = b gilt 

γk = d(k)T b 

d (k)T , (1.43) 

Ad (k) 

und die γk sind so ohne Kenntnis von x zu bestimmen. Wären also die d (k) a priori, 

zum Beispiel durch Orthogonalisierung einer Basis bzgl. 〈·, ·〉 A , gegeben, dann wäre x 

durch (1.43) bestimmt. 

Wenden wir (1.43) an, um für x − x (0) die Koeffizienten in der Form 

x = x (0) �n−1 

+ γkd (k) 

20 

k=0

zu bestimmen, das heißt wir ersetzen in (1.43) b durch b − Ax (0) , so erhalten wir 

Es gilt für die k-te Iterierte nach (1.30) 

und damit (vgl. (1.32)) 

γk = − g(0)T d (k) 

d (k)T . 

Ad (k) 

x (k) = x (0) k−1 

+ 

� 

αid (i) 

i=0 

g (k) = g (0) k−1 

+ 

� 

αiAd (i) 

und somit für ein Verfahren der konjugierten Richtungen: 

Also folgt 

i=0 

g (k)T d (k) = g (0)T d (k) . 

γk = − g(k)T d (k) 

d (k)T Ad (k) = αk , 

das heißt x = x (n) . Ein Verfahren der konjugierten Richtungen ist also nach maximal n 

Schritten exakt. Unter Umständen kann das CG-Verfahren schon vor Erreichen dieser 

Schrittzahl mit g (k) = 0 und der aktuellen Iterierten x (k) = x abbrechen. Bei seiner 

Erfindung des CG-Verfahrens in den 1950er Jahren durch Hestenes und Stiefel war 

es ursprünglich auch als direktes Verfahren konzipiert. Wenn n sehr groß ist, ist aber 

die Exaktheit des CG-Verfahrens weniger wichtig als die Tatsache, dass die Iterierten 

als Lösung eines zu (1.26) approximativen Minimierungsproblems interpretiert werden 

können: 

Satz 1.6 Sei x die Lösung von Ax = b. Die in einem Verfahren der konjugierten 

Richtungen bestimmte Iterierte x (k) minimiert sowohl das Funktional f aus (1.26) als 

auch den Fehler y ↦→ � � y − x � �A auf x (0) + Kk(A; g (0) ), wobei 

Es gilt nämlich 

Kk(A; g (0) ) := span � d (0) , . . .,d (k−1)� . 

g (k)T d (i) = 0 für i = 0, . . ., k − 1 . (1.44) 

21

Beweis: Nach (1.6) reicht es, (1.44) zu zeigen. 

Wegen der eindimensionalen Minimierung ist klar, dass dies bei k = 1 und für i = k −1 

gilt (siehe (1.33) angewendet auf k − 1). Wegen (1.35) folgt auch für 0 ≤ i < k − 1: 

d (i)T� g (k) − g (k−1) � = αk−1d (i)T Ad (k−1) = 0 . 

Beim Verfahren der konjugierten Gradienten bzw. CG-Verfahren (CG : Conjugate 

Gradients) werden die d (k) während der Iteration durch den Ansatz 

bestimmt. Zu klären bleibt, ob dadurch 

� d (k) , d (i) � 

d (k+1) := −g (k+1) + βkd (k) 

A 

= 0 für k > i 

erreicht werden kann. Die notwendige Forderung � d (k+1) , d (k)� = 0 führt zu 

A 

− � g (k+1) , d (k)� 

� 

(k) (k) + βk d , d A � 

= 0 ⇐⇒ 

βk = g(k+1)T Ad (k) 

d (k)T Ad (k) 

A 

✷ 

(1.45) 

. (1.46) 

Man beachte, dass vorerst nicht klar ist, dass die durch (1.45), (1.46) definierten Richtungen 

konjugiert sind. Das wird erst in Satz 1.9 abgeklärt werden. 

Bei der Realisierung des Algorithmus empfiehlt es sich, nicht g (k+1) direkt auszuwerten, 

sondern stattdessen (1.35) zu benutzen, da Ad (k) schon zur Bestimmung von αk und 

βk nötig ist. 

Unter dem Vorbehalt, dass das CG-Verfahren auch ein Verfahren konjugierter Richtungen 

ist, gelten die folgenden Aussagen. Der Vorbehalt wird schließlich in Satz 1.9 

abgesichert. 

Satz 1.7 Falls das CG-Verfahren nicht bei x (k−1) vorzeitig mit Erreichen der Lösung 

von Ax = b abbricht, gilt für 1 ≤ k ≤ n: 

Kk(A; g (0) ) = span � g (0) , Ag (0) , . . .,A k−1g (0)� 

= span � g (0) , . . .,g (k−1)� (1.47) 

. 

Weiter gilt 

und dim Kk(A; g (0) ) = k . 

g (k)T g (i) = 0 für i = 0, . . .,k − 1 

(1.48) 

Der Raum Kk(A; g (0) ) = span � g (0) , Ag (0) , . . .,A k−1 g (0)� heißt der Krylov-(Unter- 

)Raum der Dimension k von A bzgl. g (0) . 

22

Beweis: Die Identitäten (1.48) sind eine unmittelbare Folge von (1.47) und Satz 1.6. 

Der Beweis von (1.47) erfolgt durch vollständige Induktion: 

Für k = 1 ist die Aussage trivial, es gelte also für ein k ≥ 1 die Identität (1.47) und 

daher auch (1.48). Wegen (1.35) (angewendet auf k − 1) folgt wegen 

und so 

Ad (k) ∈ A � � 

(0) 

Kk A; g �� ⊂ span � g (0) , . . ., A k g (0)� 

g (k) ∈ span � g (0) , . . ., A k g (0)� 

span � g (0) , . . .,g (k)� = span � g (0) , . . .,A k g (0)� , 

da die Teilmengenbeziehung gilt und wegen (1.48) sowie g (i) �= 0 für alle i = 0, . . .,k 

die Dimension des linken Teilraums maximal (= k + 1) ist. Die Identität 

span � d (0) , . . ., d (k)� = span � g (0) , . . .,g (k)� 

folgt aus der Induktionsvoraussetzung und (1.45). ✷ 

Die Anzahl der Operationen pro Iterationsschritt kann auf eine Matrix-Vektor-, zwei 

Skalarprodukt-, und drei SAXPY-Operationen reduziert werden, wenn folgende äquivalente 

Ausdrücke benutzt werden: 

αk = g(k)T g (k) 

d (k)T Ad (k) 

Dabei ist eine SAXPY-Operation von der Form 

für Vektoren x, y, z und einen Skalar α. 

, βk = g(k+1)T g (k+1) 

g (k)T g (k) 

z := x + αy 

Die Gültigkeit der Identitäten (7.47) kann man folgendermaßen einsehen: 

Bezüglich αk beachte man, dass wegen (1.33) und (1.45) gilt: 

−g (k)T d (k) = −g (k)T� − g (k) + βk−1d (k−1)� = g (k)T g (k) 

. (1.49) 

und bezüglich βk wegen (1.35), (1.48), (1.46) und der Identität für αk (1.31): 

g (k+1)T g (k+1) = g (k+1)T� g (k) + αkAd (k)� = αkg (k+1)T Ad (k) = βkg (k)T g (k) 

und somit die Behauptung. 

23

Algorithmus 1.8 (CG-Verfahren) 

x = x0; 

g = A * x - b; 

d = - g; 

k = 0; 

eps2 = eps * eps; 

noq2_g_alt = transpose(g) * g; 

while(noq2_g_alt > eps2 && k < kmax) 

alpha = transpose(g)*g/(transpose(d)*A*d); 

x = x + alpha * d; 

g = g + alpha * A * d; 

noq2_g_neu = transpose(g) * g; 

beta = noq2_g_neu / noq2_g_alt; 

noq2_g_alt = noq2_g_neu; 

d = - g + beta * d; 

k = k + 1; 

end 

Wähle x (0) ∈ R m beliebig und berechne 

Für k = 0, 1, . . . setze 

d (0) 

:= −g (0) = b − Ax (0) . 

αk = g(k)T g (k) 

d (k)T , 

Ad (k) 

x (k+1) = x (k) + αkd (k) , 

g (k+1) = g (k) + αkAd (k) , 

βk = g(k+1)T g (k+1) 

g (k)T g (k) 

d (k+1) = −g (k+1) + βkd (k) , 

bis das Abbruchkriterium ( ” �g (k+1) �2 = 0“) erfüllt ist. 

Das wirklich Erstaunliche am CG-Verfahren ist, dass die durch die Drei-Term- 

Rekursion (1.45), (1.46) definierten Richtungen konjugiert sind. 

Satz 1.9 Solange g (k−1) �= 0 erfüllt ist, gilt d (k−1) �= 0 und d (0) , . . .,d (k−1) sind konjugiert. 

24 

,

Beweis: Der Beweis erfolgt durch vollständige Induktion: 

Für k = 1 ist die Aussage klar. Es seien also d (0) , . . ., d (k−1) �= 0 und konjugiert. Damit 

gelten nach Satz 1.6 und Satz 4.22 die Identitäten (1.44)–(1.48) bis zum Index k. Wir 

zeigen als erstes: d (k) �= 0: 

Wegen g (k) +d (k) = βk−1d (k−1) ∈ Kk(A; g (0) ) folgte aus d (k) = 0 direkt g (k) ∈ Kk(A; g (0) ). 

Aber nach (1.47) und (1.48) für den Index k gilt 

was im Widerspruch zu g (k) �= 0 steht. 

g (k)T x = 0 für alle x ∈ Kk(A; g (0) ) , 

Beim Nachweis von d (k)T Ad (i) = 0 für i = 0, . . .,k−1 ist nach (1.46) nur noch der Fall 

i ≤ k − 2 zu betrachten. Es gilt: 

d (i)T Ad (k) = −d (i)T Ag (k) + βk−1d (i)T Ad (k−1) . 

Der erste Term verschwindet wegen Ad (i) ∈ A � � 

(0) 

Kk−1 A; g �� 

(0) ⊂ Kk A; g � , das heißt 

Ad (i) ∈ span � d (0) , . . .,d (k−1)� , und (1.44). Der zweite Term verschwindet nach Induktionsvoraussetzung. 

✷ 

Verfahren, die versuchen, bzgl. einer Norm � · � den Fehler oder den Defekt auf 

� 

(0) 

Kk A; g � zu minimieren, heißen Krylov-Unterraum-Methoden. Hier wird also nach 

(1.39) und Satz 1.6 der Fehler in der Energienorm � · � = � · �A minimiert. 

Aufgrund der Darstellung des Krylov-Raumes in Satz 4.22 sind die Elemente y ∈ 

x (0) � 

(0) + Kk A; g � genau die Vektoren der Form, y = x (0) + q(A)g (0) , wobei q ∈ Πk−1 

beliebig ist. Es folgt 

y − x = x (0) − x + q(A)A � x (0) − x � = p(A) � x (0) − x � . 

Dabei ist p(z) = 1+q(z)z, das heißt p ∈ Πk und p(0) = 1. Andererseits lässt sich jedes 

solche Polynom in besagter Form darstellen (definiere q durch q(z) = (p(z) − 1)/z). 

Also gilt nach Satz 1.6 

für beliebige p ∈ Πk mit p(0) = 1. 

� 

� x (k) − x � �A ≤ �y − x�A = � � p(A) � x (0) − x �� A (1.50) 

Sei z1, . . .,zm eine orthonormale Basis aus Eigenvektoren, das heißt 

Azj = λjzj und z T i zj = δij für i, j = 1, . . .,n . (1.51) 

25

Dann gilt x (0) − x = � n 

j=1 cjzj für gewisse cj ∈ R, das heißt 

und so 

und analog 

p(A) � x (0) − x � = 

n� 

p (λj)cjzj 

j=1 

� 

� x (0) − x � � 2 

A = � x (0) − x � T A � x (0) − x � = 

� 

� p(A) � x (0) − x � � � 2 

A = 

Aus (1.50), (1.52) folgt: 

n� 

j=1 

λj |cjp(λj)| 2 ≤ 

n� 

i,j=1 

cicjz T i Azj = 

n� 

j=1 

λj |cj| 2 

� 

max 

i=1,...,n |p(λi)| 

�2 ��x � 

(0) 

− x�2 . (1.52) 

A 

Satz 1.10 Für das CG-Verfahren gilt für beliebige p ∈ Πk mit p(0) = 1: 

� � 

� (k) 

x − x�A ≤ max 

i=1,...,n |p(λi)| � � 

� (0) 

x − x�A . 

Dabei sind λ1, . . .,λn die Eigenwerte von A. 

Sind nicht die Eigenwerte von A, sondern nur ihre Lage bekannt, das heißt a, b ∈ R so 

dass: 

a ≤ λ1, . . .,λn ≤ b , (1.53) 

dann kann nur die Aussage 

� 

� x (k) − x � �A ≤ max 

λ∈[a,b] |p(λ)| � � x (0) − x � �A (1.54) 

benutzt werden. Es ist also ein p ∈ Πn mit p(0) = 1 zu finden, das 

max � |p(λ)| � � λ ∈ [a, b] � minimiert. 

Dies ist eine Approximationsaufgabe in der Maximumnorm. 

Ihre Lösung lässt sich mittels Tschebyscheff-Polynomen der 1. Art darstellen (siehe 

(??) und folgende). Diese werden rekursiv durch 

T0(x) := 1 , T1(x) := x , Tk+1(x) := 2xTk(x) − Tk−1(x) für x ∈ R 

definiert und haben für |x| ≤ 1 die Darstellung 

Tk(x) = cos(k arccos(x)) , 

26

woraus sofort folgt: 

|Tk(x)| ≤ 1 für |x| ≤ 1 . 

Eine weitere für x ∈ R gültige Darstellung lautet 

Tk(x) = 1 

2 

�� x + � x 2 − 1 �1/2 �k � 

+ x − � x 2 − 1 �1/2 �k � 

Das optimale Polynom in (1.54) wird dann definiert durch 

Daraus folgt: 

p(z) := Tk ((b + a − 2z)/(b − a)) 

Tk ((b + a)/(b − a)) 

für z ∈ R . 

. (1.55) 

Satz 1.11 Sei κ die spektrale Konditionszahl von A und es gelte κ > 1, dann: 

� 

� x (k) − x � �A ≤ 

Tk 

1 

� κ+1 

κ−1 

� � � x (0) − x � �A ≤ 2 

� 1/2 κ − 1 

κ1/2 �k 

��x � 

(0) 

− x�A . (1.56) 

+ 1 

Beweis: Man wähle a als kleinsten Eigenwert λmin und b als größten λmax. 

Die erste Ungleichung folgt dann sofort aus (1.54) und κ = b/a. Für die zweite Ungleichung 

beachte man: 

Nach (1.55) gilt wegen (κ + 1)/(κ − 1) = 1 + 2/(κ − 1) =: 1 + 2η ≥ 1: 

� � 

κ + 1 

Tk 

≥ 

κ − 1 

1 

� 

1 + 2η + 

2 

� (1 + 2η) 2 − 1 �1/2 �k = 1 

� 

1 + 2η + 2 (η(η + 1)) 

2 

1/2� k 

. 

Schließlich ist 

1 + 2η + 2 (η(η + 1)) 1/2 = � η 1/2 + (η + 1) 1/2�2 = (η + 1) 1/2 + η 1/2 

= (1 + 1/η)1/2 + 1 

(1 + 1/η) 1/2 − 1 , 

(η + 1) 1/2 − η 1/2 

was wegen 1 + 1/η = κ den Beweis beendet. ✷ 

Für große κ gilt wieder 

κ 1/2 − 1 

κ 1/2 + 1 

2 

≈ 1 − . 

κ1/2 Gegenüber (1.42) ist also κ zu κ 1/2 verbessert worden. 

27

1.6 Exkurs: Grosse dünnbesetzte lineare Gleichungssysteme 

aus der Diskretisierung partieller Differentialgleichungen 

und die Effizienz von Lösungsverfahren dafür 

Um das in Satz 1.11 beschriebene Konvergenzverhalten einschätzen zu können und auch 

die Verbesserung gegenüber ?? (Abschnitt 4.4), betrachten wir ein typisches Beispiel 

wie es aus der Diskretisierung partieller Differentialgleichungen entsteht. Die einfachste 

elliptische Randwertaufgabe, die Poisson–Gleichung (mit Dirichlet-Randbedingungen) 

in 2 Raumdimensionen lautet für ein Gebiet Ω ⊂ R 2 und seinen Rand ∂Ω : 

− 

d� 

i=1 

∂ 2 

∂x 2 i 

u = f in Ω , (1.57) 

u = g auf ∂Ω . (1.58) 

Das Grundgebiet Ω (in der Anwendung also z.B. das betrachtete Werkstück) sei im 

Folgenden ein Rechteck: Ω = (0, a) × (0, b). 

Bei der Finiten-Differenzen-Methode (FDM) wird ¯ Ω = [0, a] × [0, b] mit Gitterpunkten 

(ih, jh), i = 0, . . .,l, j = 0, . . ., m 

überzogen und dort die Gleichung (5.1) durch eine lineare Gleichung in den Werten 

u(ih, jh) approximiert, indem die Differentialquotienten durch zentrale Differenzenquotienten 

ersetzt werden. Randbedingung (5.2) liefert direkt die Werte u(ih, jh) für 

(ih, jh) ∈ ∂Ω, so dass diese aus den übrigen Gleichungen eliminiert werden können. 

Die für die zentralen Differenzenquotienten in x1 und x2-Richtung herangezogenen Gitterpunkte 

zur Approximation von (−∂x1x1u − ∂x2x2u)(ih, jh) bilden also einen 

5-Punkte-Stern 

(ih, (j + 1)h) 

((i − 1)h, jh) (ih, jh) ((i + 1)h, jh) 

(ih, (j − 1)h) . 

Es entsteht ein lineares Gleichungssystem für n = (l − 1)(m − 1) Werte, die man 

als Näherungen für u(ih, jh) ansehen kann. Ordnet man die Gitterpunkte zeilenweise, 

dann entsteht ein lineares Gleichungssystem mit der Matrix 

28

A = h −2 

⎛ 

T 

⎜ −I 

⎜ 

⎝ 

−I 

T 

.. . 

0 

−I 

.. . 

. .. 

.. . 

. .. 

−I 

0 

. .. 

T 

⎞ 

⎟ 

−I ⎠ 

−I T 

mit der Einheitsmatrix I ∈ Rl−1,l−1 und 

⎛ 

4 

⎜ −1 

⎜ 

T = ⎜ 

⎝ 

−1 

4 

. .. 

0 

−1 

. .. 

. .. 

. .. 

. .. 

−1 

0 

. .. 

4 

⎞ 

⎟ ∈ R 

⎟ 

−1 ⎠ 

−1 4 

l−1,l−1 . 

(1.59) 

Im Folgenden wird der Faktor 1/h 2 weggelassen, da er auf die rechte Seite multipliziert 

werden kann und die Matrix weiter mit A bezeichnet. Es muss aber beachtet werden, 

dass wegen der dann besseren Approximation an das kontinuierliche Ausgangsproblem 

(5.1), (5.2) h klein gewählt werden muss und damit die Dimension n der Matrix groß. 

Zur Bewertung von iterativen Lösungsverfahren betrachten wir also den Grenzfall 

h → 0 

bzw. l = a/h → ∞, m = b/h → ∞ 

und so n = (l − 1)(m − 1) → ∞ . 

Typische Größenordnungen für n sind 10 4 −10 6 . Im Folgenden wird zur Vereinfachung 

der Notation der Fall eines Quadrats Ω = (0, a) × (0, a) und so 

n = (m − 1) 2 

zugrunde gelegt. 

Die Matrix A ist symmetrisch und positiv definit, Eigenvektoren und -werte können 

exakt bestimmt werden: 

mit den Eigenwerten 

� z k,l � 

ij 

= sin ikπ 

m 

sin jlπ 

m , 

� 

2 2 − cos kπ 

� 

lπ 

− cos 

m m 

29 

1 ≤ k, l ≤ m − 1 

1 ≤ i, j ≤ m − 1 , 

(1.60)

für A, wobei 1 ≤ k, l ≤ m − 1. Dies lässt sich direkt mit Hilfe der trigonometrischen 

Identitäten überprüfen. 

Also: 

k2(A) = 

m−1 4(1 − cos m π) 

4(1 − cos π 

π 1 + cos m = 

) 1 − cos m π 

m 

≈ 4m2 

π 2 

Für das Jacobi-Verfahren aus Abschnitt 4.4 (Gleichung: (??)) ergibt sich daher 

Die Eigenwerte sind 

bei gleichen Eigenvektoren und damit 

̺(M) = − cos 

M = − 1 

1 

(A − 4I) = I − A . 

4 4 

1 kπ 1 lπ 

cos + cos 

2 m 2 m 

(m − 1)π 

m 

= cos π 

m 

(1.61) 

(1.62) 

= 1 − π2 

2m 2 + O � m −4� . (1.63) 

Ist allgemein für ein iteratives Verfahren eine Abschätzung der Kontraktionszahl ̺ ∈ 

(0, 1) bekannt, d.h. ein ̺ so dass gilt 

� 

� x (k) − x � � ≤ ̺ k � � x (0) − x � � , (1.64) 

dann kann die Anzahl der Iterationsschritte k zur Erreichung eines relativen Fehlerniveaus 

ε > 0, d.h. bis zur Gültigkeit von 

abgeschätzt werden durch 

� 

� x (k) − x � � ≤ ε � �x (0) − x � � , (1.65) 

k ≥ 

� 

ln 1 

� �� 

ln 

ε 

1 

� 

̺ 

. (1.66) 

Wenn also noch der Aufwand pro Iterationsschritt bekannt ist, kann der Gesamtaufwand 

abgeschätzt werden und so auch mit direkten Verfahren verglichen werden. Bei 

wachsender Dimension n der Matrix wächst nicht nur der Aufwand pro Iterationsschritt, 

sondern i.a. auch die Anzahl der Iterationsschritte, da ̺ von n abhängt. 

30

Nur wenn das Verfahren (asymptotisch) optimal ist, indem dies nicht gilt: 

̺ = ̺(n) ≤ ̺ < 1 (1.67) 

wächst der Aufwand nur mit dem Aufwand eines einzelnen Iterationsschritts. Wie hoch 

dieser ist, hängt von der Art der zugrunde liegenden Systemmatrix ab. Das obige Beispiel 

((5.1),(5.2)) gehört zu den dünnbesetzten Matrizen in dem Sinn, dass unabhängig 

von n die Anzahl der Nichtnulleinträge pro Zeile beschränkt ist (hier durch 5). In diesem 

Fall benötigt eine Matrix-Vektoroperation O(n) Operationen, wie allgemein ein Skalarprodukt 

oder SAXPY-Berechnung. Wir gehen also im Folgenden davon aus, dass 

der Aufwand pro Iterationsschritt für die Verfahren aus Abschnitt 4.4 und die hier 

besprochenen CG-Verfahren O(n) ist. 

Wegen (1.66) errechnet sich also die Gesamtzahl der nötigen Operationen für das 

Jacobi-Verfahren wegen ̺ = ̺(M) zu 

ln(1/ε) 1 

· O(n) = ln 

− ln(̺(M)) ε · O � m 2� · O(n) = ln 1 

ε O(n2 ) . 

Dabei geht ln(1 + x) = x + O(x 2 ) in die Identifizierung des führenden Terms von 

−1/(ln(̺(M)) ein. Ein analoges Ergebnis mit besseren Konstanten gilt für das Gauss– 

Seidel-Verfahren. 

Im Vergleich dazu benötigt das Eliminations- bzw. das Cholesky-Verfahren 

O � Bandbreite 2 · n � = O(n 2 ) 

Operationen; es besitzt also die gleiche Komplexität. Beide Verfahren sind damit nur 

für moderat großes n geeignet. 

Ein iteratives Verfahren hat also dann eine bessere Komplexität als das Cholesky- 

Verfahren, wenn für seine Kontraktionszahl gilt 

̺ = ̺(n) = 1 − O(n −α ) (1.68) 

mit α < 1 gilt. Im Idealfall gilt (1.67); dann braucht das Verfahren O(n) Operationen, 

was asymptotisch optimal ist. 

Für das CG-Verfahren gilt 

̺ = 1 − 

2 

κ(A) 1/2 + 1 

≈ 1 − 

2 

2 

πn1/2 + 1 

also α = 1 

2 in (1.68) ≈ 1 − πn1/2 . 

31

Auf der Basis von (1.66) und (1.80) ergibt sich ein Aufwand an Operationen 

ln 

� � 

1 

O 

ε 

� κ 1/2� O(n) = ln 

� � 

1 

O(m)O(n) = ln 

ε 

� � 

1 

O(n 

ε 

3/2 ) 

Das ist eine deutliche Verbesserung gegenüber des Gauss-Seidel-Verfahrens und ist das 

gleiche Verhalten wie beim SOR-Verfahren mit optimalem Relaxationsparameter. Der 

Vorteil besteht aber darin, dass beim CG-Verfahren keine Parameter zu bestimmen 

sind. 

1.7 Vorkonditionierte CG-Verfahren 

Wegen Satz 1.11 sollte κ(A) möglichst klein bzw. nur wenig wachsend in n sein, was 

für die Diskretisierungsmatrix aus Abschnitt 7.6 nicht gilt. 

Die Technik der Vorkonditionierung dient dazu, das Gleichungssystem so zu transformieren, 

dass die Konditionszahl der Systemmatrix reduziert wird, ohne dass der 

Aufwand der Auswertung des Matrix-Vektor-Produktes (zu sehr) ansteigt. 

Bei einer Vorkonditionierung von links wird das Gleichungssystem transformiert zu 

C −1 Ax = C −1 b 

mit einer Vorkonditionierungsmatrix C, bei Vorkonditionierung von rechts zu 

AC −1 y = b , 

so dass sich hier die Lösung von Ax = b als x = C −1 y ergibt. Da die Matrizen im Allgemeinen 

dünnbesetzt sind, ist dies immer als Lösung des Gleichungssystems Cx = y zu 

interpretieren. Eine einfache Vorkonditionierung dieser Art ist die Zeilenäquilibrierung, 

die schon in Abschnitt 2.5 besprochen wurde. 

Ist A symmetrisch und positiv definit, dann ist auch für symmetrisches positiv definites 

C im Allgemeinen bei beiden Varianten diese Eigenschaft für die transformierte 

Matrix verletzt. Wir gehen daher vorläufig aus von einer Zerlegung von C mittels einer 

nichtsingulären Matrix W als 

C = WW T , 

d.h. von einer Cholesky-Zerlegung (siehe Darstellung ??) von C. 

Dann kann Ax = b transformiert werden zu W −1 AW −T W T x = W −1 b, das heißt zu 

By = c mit B = W −1 AW −T , c = W −1 b . (1.69) 

32

Die Matrix B ist symmetrisch und positiv definit. Die Lösung x ergibt sich dann als 

x = W −T y. Diese Vorgehensweise heißt auch gesplittete Vorkonditionierung. 

Wegen W −T BW T = C −1 A bzw. WBW −1 = AC −1 haben B, C −1 A und AC −1 die 

gleichen Eigenwerte, also insbesondere die gleiche spektrale Konditionszahl κ. Insofern 

sollte C möglichst ” nahe“ bei A liegen, um die Konditionszahl zu reduzieren. 

Das CG-Verfahren, angewendet auf (1.69) und wieder zurücktransformiert, liefert die 

Methode der konjugierten Gradienten mit Vorkonditionierung (Preconditioned CG): 

Die Größen des CG-Verfahrens angewendet auf (1.69) werden alle mit ˜ gekennzeichnet, 

mit Ausnahme von αk und βk. 

Wegen der Rücktransformation 

x = W −T ˜x 

hat das Verfahren in der Variable x die Suchrichtungen 

für die transformierte Iterierte 

Der Gradient g (k) von (1.26) in x (k) erfüllt 

und somit 

d (k) := W −T ˜ d (k) 

x (k) := W −T ˜x (k) . (1.70) 

g (k) := Ax (k) − b = W � B˜x (k) − c � = W ˜g (k) 

g (k+1) = g (k) + αkWB ˜ d (k) = g (k) + αkAd (k) , 

so dass diese Formel gegenüber dem CG-Verfahren unverändert bleibt bei neuer Interpretation 

der Suchrichtungen. Diese werden aktualisiert durch 

d (k+1) = −W −T W −1 g (k+1) + βkd (k) = −C −1 g (k+1) + βkd (k) , 

also ist zusätzlich in jedem Iterationsschritt das Gleichungssystem Ch (k+1) = g (k+1) zu 

lösen. 

Schließlich ist 

und 

˜g (k)T 

˜g (k) = g (k)T C −1 g (k) = g (k)T h (k) 

˜d (k)T 

B ˜ d (k) = d (k)T Ad (k) , 

so dass das folgende Verfahren die in Algorithmus 1.12 aufgeführte Gestalt annimmt. 

33

Algorithmus 1.12 (PCG-Verfahren) 

x = x0; 

g = A * x - b; 

h = C \ g; 

d = - h; 

k = 0; 

eps2 = eps * eps; 

g_h_alt = transpose(g) * h; 

while(transpose(g)*g > eps2 && k

Die Auflösung des zusätzlichen Gleichungssystems sollte bei dünnbesetzten Matrizen 

die Komplexität O(n) haben, um die Komplexität für einen Iterationsschritt nicht zu 

verschlechtern. Eine Zerlegung C = WW T muss dabei nicht notwendig bekannt sein. 

Alternativ kann das PCG-Verfahren auch auf die Beobachtung aufgebaut werden, dass 

C −1 A bezüglich des Energieskalarprodukts zu C, 〈·, ·〉C, selbstadjungiert und definit 

ist: 

〈C −1 Ax, y〉C = � C −1 Ax � T Cy = x T Ay = x T C(C −1 Ay) = 〈x, C −1 Ay〉C 

und also auch 〈C −1 Ax, x〉C > 0 für x �= 0. 

Wird das CG-Verfahren für (1.69) bezüglich 〈·, ·〉C gewählt, erhält man genau das obige 

Verfahren. 

� 

Soll als Abbruchkriterium der Iteration weiterhin � (k+1) g 

” 

� � = 0“ benutzt werden, muss 

2 � 

zusätzlich das Skalarprodukt berechnet werden, alternativ wird bei � (k+1) g 

” 

T 

h (k+1)�� = 

0“ der Defekt in der Norm � · �C−1 gemessen. 

Aufgrund der Herleitung des vorkonditionierten CG-Verfahrens und der wegen der 

Transformation (1.70) geltenden Identität 

� 

�x (k) − x � � A = � �˜x (k) − ˜x � � B , 

gelten die Approximationsaussagen für das CG-Verfahren auch für das PCG-Verfahren, 

wobei die spektrale Konditionszahl κ(A) durch κ(B) = κ(C −1 A) zu ersetzen ist, also: 

mit κ = κ(C −1 A). 

� 

� x (k) − x � �A ≤ 2 

� 1/2 κ − 1 

κ1/2 �k 

��x � 

(0) 

− x�A + 1 

Es besteht eine enge Beziehung zwischen guten Vorkonditionierungsmatrizen C, die 

κ(C −1 A) klein halten, und gut konvergenten linear stationären Iterationsverfahren (siehe 

Abschnitt ??) mit N = C −1 (und M = I−C −1 A), sofern N symmetrisch und positiv 

definit ist. Es gilt nämlich: 

κ(C −1 A) ≤ (1 + ̺(M))/(1 − ̺(M)) , 

sofern das durch M und N definierte Verfahren konvergent ist und N für symmetrische 

A auch symmetrisch ist. 

Von den betrachteten linear stationären Verfahren verbleiben wegen der Symmetrieforderung 

35

• das Jacobi-Verfahren: 

Dies entspricht wegen C = N −1 = D aus der Zerlegung (??) und der Äquivalenz 

des PCG-Verfahrens mit der Vorkonditionierung von links und der Benutzung 

von 〈·, ·〉C gerade der Diagonalskalierung, das heißt der Division jeder Gleichung 

mit ihrem Diagonalelement. 

• das SSOR-Verfahren: 

Dies ist eine Variante des SOR-Verfahrens (siehe Abschnitt 4.4), bei der der 

SOR-Schritt nach (??) nur der erste Halbschritt der Iteration ist, im zweiten 

Halbschritt wird ein SOR-Schritt in der umgekehrten Indizierung n, n − 1, . . .,1 

durchgeführt. Das ergibt für M und damit hier als Vorkonditionierungsmatrix. 

Nach (??) sind die zwei Halbschritte 

und so 

dann 

Dx (k+1 

2 ) = ω � − Lx (k+1 

2 ) − Rx (k) + b � + (1 − ω)Dx (k) 

Dx (k+1) = ω � − Lx (k+1 

2 ) − Rx (k+1) + b � + (1 − ω)Dx (k+1 

2 ) 

M = � D + ωL T� −1 � (1 − ω)D − ωL � (D + ωL) −1 � (1 − ω)D − ωL T� , 

N = ω(2 − ω) � D + ωL T� −1 D (D + ωL) −1 , (1.71) 

C = ω −1 (2 − ω) −1 (D + ωL)D −1 (D + ωL T ) . 

Somit ist C symmetrisch und positiv definit. Die Auflösung der Hilfsgleichungssysteme 

erfordert also nur Vorwärts- und Rückwärtssubstitution bei gleicher Besetzungsstruktur 

wie bei der Systemmatrix, so dass auch die Forderung der geringeren Komplexität 

erfüllt ist. Aus einer genauen Abschätzung von κ(C −1 A) sieht man (siehe S. 328 ff., 

Axelsson/Barker): Unter gewissen Bedingungen an A, die also Bedingungen an die 

Randwertaufgabe und die Diskretisierung widerspiegeln, ergibt sich eine erhebliche 

Konditionsverbesserung in Form einer Abschätzung vom Typ 

κ(C −1 A) ≤ const(κ(A) 1/2 + 1) . 

Die Wahl des Relaxationsparameters ω ist nicht kritisch. Anstatt zu versuchen, diesen 

optimal für die Kontraktionszahl des SSOR-Verfahrens zu wählen, kann man eine 

Abschätzung für κ(C −1 A) minimieren (siehe S. 337 ff., Axelsson/Barker), was die Wahl 

von ω in [1.2, 1.6] nahelegt. 

36

Für die 5-Punkte-Stern-Diskretisierung der Poisson-Gleichung auf dem Quadrat ist 

nach (1.61) κ(A) = O(m2 ) = O(n) und besagte Bedingungen sind erfüllt (siehe S. 330 

ff., Axelsson/Barker). Durch SSOR-Vorkonditionierung verbessert sich dies also zu 

κ(C−1A) = O(m) und damit wird die Komplexität des Verfahrens zu 

ln 

� 1 

ε 

� 

O � κ 1/2� O(n) = ln 

� 1 

ε 

� 

O � m 1/2� O(n) = O � n 5/4� . (1.72) 

Direkte Eliminationsverfahren scheiden bei Diskretisierungen von Randwertaufgaben 

für größere Knotenanzahlen aus. L = (lij) bezeichnet eine untere Dreiecksmatrix mit 

lii = 1 für alle i = 1, . . .,n und U = (uij) eine obere Dreiecksmatrix. Die Idee der 

unvollständigen LR-Zerlegung oder - auf englisch - ILU-Zerlegung (incomplete LU decomposition) 

besteht darin, für die Einträge von L und R nur Plätze eines gewissen 

Musters E ∈ {1, . . ., n} 2 zuzulassen, wodurch dann im Allgemeinen nicht mehr A = LR, 

sondern nur 

A = LR − F 

zu fordern ist. Dabei soll die Restmatrix F = (fij) ∈ R n,n folgende Eigenschaften 

erfüllen: 

fij = 0 für (i, j) ∈ E . (1.73) 

Das heißt, die Forderungen 

aij = 

n� 

likrkj für (i, j) ∈ E (1.74) 

k=1 

stellen |E| Bestimmungsgleichungen für die |E| Einträge der Matrizen L und U. (Man 

beachte dabei lii = 1 für alle i.) Die Existenz solcher Zerlegungen wird später diskutiert. 

Analog zum engen Zusammenhang der Existenz der LR-Zerlegung und einer LDL T - 

bzw. LL T -Zerlegung für symmetrische bzw. symmetrisch positiv definite Matrizen kann 

für solche Matrizen etwa der Begriff der IC-Zerlegung (incomplete Cholesky decomposition) 

eingeführt werden, bei der eine Darstellung 

gefordert wird. 

A = LL T − F 

Auf eine ILU-Zerlegung aufbauend, wird ein linear stationäres Verfahren durch N = 

(LR) −1 (und M = I − NA) definiert, die ILU-Iteration. Es handelt sich also um eine 

Erweiterung des alten Verfahrens der Nachiteration. 

Benutzt man C = N −1 = LR zur Vorkonditionierung, hängt die Komplexität der 

Hilfsgleichungssysteme von der Wahl des Besetzungsmusters E ab. Im Allgemeinen 

37

wird gefordert: 

E ′ := � (i, j) � � aij �= 0 , i, j = 1, . . ., n � ⊂ E , � (i, i) � � i = 1, . . .,n � ⊂ E , (1.75) 

wobei die Gleichheitsforderung E ′ = E der am häufigsten benutzte Fall ist. Dann bzw. 

bei festen Erweiterungen von E ′ ist gewährleistet, dass bei einer Sequenz von Gleichungssystemen, 

bei denen A dünnbesetzt im engeren Sinn ist, dies auch auf L und R 

zutrifft und insgesamt wie bei der SSOR-Vorkonditionierung für die Hilfsgleichungssysteme 

inklusive der Bestimmung von L und R jeweils nur O(n) Operationen nötig sind. 

Andererseits sollte die Restmatrix F möglich ” klein“ sein, um eine gute Konvergenz der 

ILU-Iteration bzw. Kleinheit der spektralen Konditionszahl κ(C −1 A) sicherzustellen. 

Mögliche Besetzungsmuster E sind zum Beispiel in [S. 275 ff., Saad] dargestellt. Dort 

wird auch eine spezifischere Struktur von L und U diskutiert, wenn die Matrix A aus 

der Diskretisierung mit einem Finite-Differenzen-Verfahren herrührt. 

Es bleibt die Frage der Existenz (und Stabilität) einer ILU-Zerlegung zu diskutieren. 

Es ist bekannt, dass auch für die Existenz einer LU-Zerlegung Bedingungen zu 

erfüllen sind, wie etwa die M-Matrix-Eigenschaft. Dies ist auch ausreichend für eine 

ILU-Zerlegung. 

Satz 1.13 Sei A ∈ R n,n eine M-Matrix, dann existiert zu einem vorgegebenen Muster 

E, das (1.75) erfüllt, eine ILU-Zerlegung. Die dadurch definierte Aufspaltung von A in 

A = LR − F ist regulär in folgendem Sinn: 

� (LR) −1 � 

ij ≥ 0 , (F)ij ≥ 0 für alle i, j = 1, . . .,n . 

Beweis: Siehe [S. 225, Hackbusch:Iterative]. ✷ 

Eine ILU- (bzw. IC-) Zerlegung kann dadurch bestimmt werden, dass die Gleichungen 

(1.73) als Bestimmungsgleichungen für lij und rij in der richtigen Reihenfolge durchgegangen 

werden. Stattdessen kann aber auch das Eliminations- bzw. Cholesky-Verfahren 

in seiner Grundform auf dem Muster E durchgeführt werden. 

Eine Verbesserung der Eigenwertverteilung von C −1 A ist manchmal möglich, wenn 

statt einer IC- eine MIC-Zerlegung (modified incomplete Cholesky decomposition) zugrunde 

gelegt wird. Hier werden im Gegensatz zu (1.74), die im Eliminationsverfahren 

anfallenden Modifikationsschritte für Positionen außerhalb des Musters nicht ignoriert, 

sondern am jeweiligen Diagonalelement durchgeführt. 

Was die Reduktion der Konditionszahl durch ILU- (IC-) Vorkonditionierung betrifft, 

so gilt für das Modellproblem Analoges wie für die SSOR-Vorkonditionierung. Insbesondere 

gilt auch (1.72). 

38

Das Hilfsgleichungssystem mit C = N −1 , das heißt 

h (k+1) = Ng (k+1) 

kann auch interpretiert werden als ein Iterationsschritt des durch N definierten Iterationsverfahrens 

mit Startiterierter z (0) = 0 und rechter Seite g (k+1) . Eine Erweiterung 

der besprochenen Möglichkeiten zur Vorkonditionierung besteht daher darin, anstelle 

von einem eine feste Anzahl von Iterationsschritten durchzuführen. 

1.8 Krylov-Unterraum-Methoden für nichtsymmetrische 

Gleichungssysteme 

Mit den verschiedenen Varianten der PCG-Verfahren stehen Verfahren zur Verfügung, 

die für die bei der Diskretisierung von Randwertaufgaben entstehenden Gleichungssysteme 

die Zielvorstellungen hinsichtlich ihrer Komplexität recht gut erfüllen. Voraussetzung 

ist allerdings, dass die Systemmatrix symmetrisch und positiv definit ist, 

was die Anwendbarkeit etwa bei Finite-Differenzen-Diskretisierungen auf rein diffusive 

Prozesse ohne konvektiven Transportmechanismus einschränkt. Ausnahmen bilden 

hier nur bei zeitabhängigen Problemen (semi-)explizite Zeitdiskretisierungen und das 

Lagrange–Galerkin-Verfahren (siehe Numerik partieller Differentialgleichungen). Diesem 

kommt auch aufgrund dessen eine besondere Bedeutung zu. Ansonsten sind die 

entstehenden Gleichungssysteme immer nichtsymmetrisch und positiv reell, das heißt, 

es gilt für die Systemmatrix A: 

A + A T 

ist positiv definit. 

Es ist also wünschenswert, die (P)CG-Verfahren auf solche Matrizen zu verallgemeinern. 

Diese sind durch zwei Eigenschaften ausgezeichnet: 

• Die Iterierte x (k) minimiert f(·) = �·−x�A auf x (0) � 

(0) +Kk A; g � , wobei x = A−1b. • Die Basisvektoren d (i) � 

(0) , i = 0, . . ., k − 1, von Kk A; g � müssen nicht von vornherein 

bestimmt (und gespeichert) werden, sondern werden über eine Drei-Term- 

Rekursion (1.45) während der Iteration bestimmt und eine analoge Beziehung gilt 

per definitionem für x (k) (siehe (1.30)). 

Die erste Eigenschaft kann im Folgenden beibehalten werden, wobei die Norm 

der Fehler- oder auch Defektminimierung von Verfahren zu Verfahren variiert, die 

zweite Eigenschaft geht partiell verloren, indem im Allgemeinen alle Basisvektoren 

39

d (0) , . . .,d (k−1) zur Bestimmung von x (k) nötig sind. Dies bringt mit großem k Speicherplatzprobleme 

mit sich. Analog zu den CG-Verfahren werden Vorkonditionierungen 

notwendig sein für ein akzeptables Verhalten der Verfahren. Es ergeben sich die 

gleichen Anforderungen an die Vorkonditionierungsmatrizen mit Ausnahme der Forderung 

nach Symmetrie und Positivdefinitheit. Alle drei Vorkonditionierungsansätze sind 

prinzipiell möglich. Im Folgenden wird daher Vorkonditionierung nicht mehr explizit 

angesprochen und auf Abschn. 1.7 verwiesen. 

Der einfachste Zugang besteht in der Anwendung des CG-Verfahrens auf ein zu Ax = b 

äquivalentes Gleichungssystem mit symmetrisch positiv definiter Matrix. Dies gilt für 

die Normalgleichungen 

A T Ax = A T b . (1.76) 

Dieser Zugang heißt auch CGNR (Conjugate Gradient Normal Residual), da hier die 

� 

T (0) A A; g � mit g (0) = 

Iterierte x (k) die euklidische Norm des Defekts auf x (0) + Kk 

A T� Ax (0) − b � minimiert. Dies folgt aus der Gleichung 

�y − x� 2 

A T A = (Ay − b)T (Ay − b) = �Ay − b� 2 2 

für beliebiges y ∈ R n und die Lösung x = A −1 b. 

(1.77) 

Hier bleiben alle Vorteile des CG-Verfahren erhalten, doch ist in (1.30) und (1.35) und 

Ad (k) durch A T Ad (k) zu ersetzen. Abgesehen von der Verdopplung der Operationen 

kann dies nachteilig sein, wenn κ2(A) groß ist, da κ2(A T A) = κ2(A) 2 dann zu Stabilitäts- 

und Konvergenzproblemen führen kann. Für das in Abschnitt 7.6 angesprochene 

Beispiel (und allgemein für Diskretisierungsmatrizen elliptischer Randwertaufgaben) 

ist wegen 

κ2(A 2 ) ≈ 16 

π 4n2 

dieses Problem für große Anzahlen von Freiheitsgraden zu erwarten. 

Außerdem ist bei listenorientierter Speicherung immer eine der Operationen Ay oder 

A T y sehr suchaufwendig. Es kann sogar sein, dass die Matrix A gar nicht explizit 

vorliegt, sondern nur die Abbildungsvorschrift y ↦→ Ay auswertbar ist, was dann dieses 

Verfahren völlig ausschließt. Gleiche Bedenken gelten, wenn statt (1.76) 

AA T ˜x = b (1.78) 

mit der Lösung ˜x = A −T x zugrunde gelegt wird. In diesem Fall minimiert x (k) := 

AT ˜x (k) , wobei ˜x (k) die k-te Iterierte des CG-Verfahrens angewendet auf (1.78) bezeichnet, 

den Fehler in der euklidischen Norm auf x0 + AT� � 

T (0) 

Kk AA ; g �� , da 

�˜y − ˜x� 2 

AA T = � A T ˜y − x � T � A T ˜y − x � = � �A T ˜y − x � � 2 

2 

40

für beliebiges ˜y ∈ R m und g (0) = Ax (0) − b gilt. Dies erklärt die Bezeichnung CGNE 

(mit E von Error). 

Bei der Frage, ob ein Verfahren den Fehler oder den Defekt minimiert, ist offensichtlich 

auch die zugrunde gelegte Norm zu beachten. Für ein symmetrisch positiv definites 

B ∈ R n,n gilt nämlich für y ∈ R n und x = A −1 b: 

�Ay − b�B = �y − x� A T BA . 

Für B = A −T (für symmetrisch positiv definites A) erhalten wir die Situation des 

CG-Verfahrens: 

�Ay − b� A −T = �y − x�A . 

Für B = I findet sich (1.77) wieder: 

�Ay − b�2 = �y − x� A T A . 

Dieses Funktional auf x (0) � 

(0) +Kk A; g � � 

T (0) (nicht Kk A A; g � ) zu minimieren, führt auf 

das Verfahren GMRES (Generalized Minimum RESidual). 

Algorithmisch beruht dieses (und andere) Verfahren darauf, dass aufeinander aufbau- 

� 

(0) end Orthonormalbasen von Kk A; g � gebildet werden durch den Arnoldi-Prozess, 

der Generieren der Basis nach (1.45) und Orthonormalisieren nach dem Schmidt’schen 

Orthonormalisierungsverfahren miteinander verbindet (siehe Algorithmus 1.14). 

Algorithmus 1.14 (Arnoldi-Verfahren) 

v(:,1) = g0 / sqrt(transpose(g0) * g0); 

for j=1:k 

for i=1:j 

h(i,j) = transpose(v(:,i))*A*v(:,j); 

end 

w = A * v(:,j) 

for i = 1:j 

w = w - h(i,j) * v(:,i) 

end 

h(j+1,j) = sqrt(transpose(w) * w); 

if(h(j+1,j) == 0.) 

return 

else 

v(:,j+1) = w / h(j+1,j); 

end 

end 

41

g (0) ∈ R n , g (0) �= 0 sei gegeben. Setze 

Für j = 1, . . .,k berechne 

v1 := g (0) / �g (0) �2 . 

hij := v T i Avj für i = 1, . . ., j , 

wj := Avj − 

hj+1,j := �wj�2 . 

j� 

i=1 

Falls hj+1,j = 0, Abbruch, sonst setze 

vj+1 := wj/hj+1,j . 

hijvi , 

Das Arnoldi-Verfahren sei bis zum Index k durchführbar, dann setze man: 

hij := 0 für j = 1, . . ., k , i = j + 2, . . .,k + 1 , 

Hk := (hij) ij ∈ R k,k , 

¯Hk := (hij) ij ∈ R k+1,k , 

Vk+1 := (v1, . . .,vk+1) ∈ R n,k+1 . 

Die Grundlage für das GMRES-Verfahren bildet: 

Satz 1.15 Das Arnoldi-Verfahren sei bis zum Index k durchführbar, dann gilt: 

1) v1, . . .,vk+1 bilden eine Orthonormalbasis von Kk+1(A; g (0) ). 

2) 

wobei ek = (0, . . ., 0, 1) T ∈ R k , 

3) Die Aufgabe 

AVk = VkHk + wke T k = Vk+1 ¯ Hk , (1.79) 

V T 

k AVk = Hk . (1.80) 

Minimiere �Ay − b�2 für y ∈ x (0) + Kk(A; g (0) ) 

mit dem Minimum x (k) ist äquivalent mit 

Minimiere 

� � 

�Hkξ ¯ − βe1 

� 

2 für ξ ∈ R k 

mit dem Minimum ξ (k) , wobei β := − � � g (0) � � 2 , und es gilt 

x (k) = x (0) + Vkξ (k) . 

42 

(1.81)

Bricht das Arnoldi-Verfahren beim Index k ab, dann gilt: 

x (k) = x = A −1 b . 

Beweis: Zu 1): Die v1, . . .,vk+1 sind nach Konstruktion orthonormal, so dass nur 

� 

(0) A; g � für i = 1, . . ., k + 1 gezeigt werden muss. Dies wiederum folgt aus 

vi ∈ Kk+1 

der Darstellung 

vi = qi−1(A)v1 mit Polynomen qi−1 ∈ Πi−1 . 

In dieser Form wird die Aussage durch Induktion über k gezeigt. Für k = 0 ist sie 

trivial, sie sei also für k − 1 gültig. Ihre Gültigkeit für k folgt dann aus 

k� 

� 

k� 

� 

hk+1,kvk+1 = Avk − hikvi = Aqk−1(A) − hikqi−1(A) v1 . 

i=1 

Zu 2): Die Beziehung (1.80) folgt aus (1.79) durch Multiplikation mit V T 

k 

und V T 

k wk = hk+1,kV T 

k vk+1 = 0 wegen der Orthonormalität der vi. 

Die Beziehung in (1.79) ist die Matrix-Schreibweise von 

Avj = 

j� 

i=1 

hijvi + wj = 

i=1 

j+1 � 

hijvi für j = 1, . . .,k . 

Zu 3): Der Raum x (0) � 

(0) + Kk A; g � hat wegen 1) die Parametrisierung 

i=1 

, da V T 

k Vk = I 

y = x (0) + Vkξ mit ξ ∈ R k . (1.82) 

Die Behauptung ergibt sich aus der mittels 2) folgenden Identität 

Ay − b = A � x (0) + Vkξ � − b = AVkξ + g (0) 

= Vk+1 ¯ � � 

Hkξ − βv1 = Vk+1 

¯Hkξ − βe1 , 

weil wegen der Orthogonalität von Vk+1 gilt: 

�Ay − b�2 = � �Vk+1( ¯ Hkξ − βe1) � � = 2 � � 

�Hkξ ¯ − βe1 

� . 2 

Die letzte Behauptung kann man schließlich folgendermaßen einsehen: Bricht das 

Arnoldi-Verfahren beim Index k ab, so wird die Beziehung 2) zu 

AVk = VkHk , 

43

zw. 

AVk = Vk+1 ¯ Hk 

gilt weiterhin, wenn vk+1 beliebig gewählt wird (da hk+1,k = 0). Da A nichtsingulär ist, 

muss dies auch für Hk gelten. Also ist die Wahl 

möglich, für die gilt 

ξ := H −1 

k (βe1) 

� � 

�Hkξ ¯ − βe1 

� = �Hkξ − βe1� 2 2 = 0 . 

Das nach (1.82) zugehörige y ∈ R n erfüllt also y = x (k) = x. ✷ 

Ein Problem des Arnoldi-Verfahrens besteht darin, dass durch Rundungsfehlereffekte 

die Orthogonalität der vi leicht verloren geht. Ersetzt man in Algorithmus 1.14 die 

Zuweisung 

j� 

wj := Avj − 

i=1 

hijvi 

durch die den gleichen Vektor definierenden Operationen 

wj := Avj 

Für i = 1, . . .,j berechne 

hij := w T j vi 

wj := wj − hijvi , 

so erhält man das modifizierte Arnoldi-Verfahren, worauf das GMRES-Verfahren in 

seiner Grundform zusammen mit (1.81) aufbaut. Alternativ kann die Schmidt’sche Orthonormalisierung 

durch das Householder-Verfahren ersetzt werden. Bei exakter Arithmetik 

kann das GMRES-Verfahren nur nach Bestimmung der exakten Lösung abbrechen 

(mit hk+1,k = 0). Dies ist bei alternativen Verfahren der gleichen Klasse nicht 

immer der Fall. Für wachsenden Iterationsindex k können für große Problemdimension 

n schnell Speicherplatzprobleme durch die Basisvektoren v1, . . .,vk entstehen. Ein 

Ausweg besteht darin, nur eine feste Anzahl l von Iterationen durchzuführen und dann 

gegebenenfalls das Verfahren mit x (0) := x (l) und g (0) := Ax (0) − b neu zu starten, 

bis schließlich das Konvergenzkriterium erfüllt ist (GMRES-Verfahren mit Restart). Es 

gibt auch die abgeschnittene Version des GMRES-Verfahrens, in der die jeweils letzten l 

Basisvektoren berücksichtigt werden. Die Minimierung des Fehlers in der Energienorm 

(auf dem Vektorraum K) wie beim CG-Verfahren ist nur für symmetrisch positiv definite 

Matrizen A sinnvoll. Die dieses Minimum charakterisierende Variationsgleichung 

(Ay − b) T z = 0 für alle z ∈ K 

44

kann aber allgemein als definierende Bedingung für y gestellt werden. Darauf bauen 

weitere Varianten von Krylov-Unterraum-Methoden auf. Eine weitere große Klasse solcher 

Verfahren beruht auf der Lanczos-Biorthogonalisierung, bei der neben einer Basis 

v1, . . ., vk von Kk(A; v1) eine Basis w1, . . .,wk von Kk(A T ; w1) aufgebaut wird, so dass 

v T j wi = δij für i, j = 1, . . ., k . 

Der bekannteste Vertreter ist das BICGSTAB-Verfahren. Für eine weitere Erörterung 

dieses Themas sei zum Beispiel auf [Saad] verwiesen. 

1.9 Verfahren der konjugierten Gradienten für nichtquadratische 

Optimierung 

Die in den vorigen Abschnitten für quadratische Minimierungsaufgaben entwickelten 

Verfahren lassen sich auch auf die Minimierung allgemeiner Funktionale übertragen, 

d.h. auf (1.1). Die eindimensionale Minimierung in (1.29) kann dann nicht mehr exakt 

durchgeführt werden. Das Graduiertenverfahren nimmt dann folgende Form an: 

Algorithmus 1.16 (Gradientenverfahren; allgemeines Funktional) 

g = - grad F(x); 

d = - g; 

while g ~= 0 

"Minimiere approximativ F(x + t d) in t"; 

x = x + t*d; 

g = grad F(x); 

r = - g; 

end 

Wähle x 0 ∈ R n beliebig und berechne 

g (0) = ∇F(x (0) ) 

d (0) = −g (0) 

Für k = 0, . . . 

Minimiere approximativ F � x (k) + αd (k)� und setze 

x (k+1) = x (k) + αd (k) 

g (k+1) = ∇F(x (k+1) ) 

d (k+1) = −g (k+1) 

45

is das Abbruchkriterium ” �g (k) �2 = 0“ erfüllt ist. 

Das Verfahren wird also abgebrochen, wenn die Iterierte x (exakt) ein kritischer Punkt 

ist. Da (mindestens wegen Rundungsfehlern) dies nie zu erwarten ist, ist das Kriterium 

g �= 0 durch �g� ≥ ε mit einer geeigneten Norm �·� und Steuergröße ε > 0 zu ersetzen. 

Nach (??) empfiehlt sich ε = ˜ε�g (0) � mit dem Defekt der Startiterierten g (0) . 

Das Verfahren kann also aufgefasst werden als ein speziell gedämpftes vereinfachtes 

Newton Verfahren, bei dem die Hesse-Matrix durch die Identität ersetzt wurde. 

Für “Minimiere ...” ist also ein eventuell iteratives Verfahren einzusetzen, wie sie in 

Abschnitt 7.1 besprochen worden sind; zur Durchführung des Algorithmus muss man 

F und ∇F auswerten können. Statt einer eindimensionalen Minimierung begnügt man 

sich oft mit einem Abstieg. -∇ F(x (i) ) ist Abstiegsrichtung, d.h. für t (i) klein genug gilt 

F(x (i+1) ) < F(x (i) ) . 

Genauer fordert man für eine Suchrichtung d (i) einen Abstieg der Art 

F(x (i+1) ) < F(x (i) ) − 1 

2 t(i) ∇F(x (i) ) T d (i) . 

Dies kann man für F ∈ C 2 dadurch erreichen, dass man mit einem ˜t (i) startet und 

solange halbiert, bis die obige Bedingung erfüllt ist. Diese Überlegung gilt für allgemeine 

Suchrichtungen d (i) , solange sie mit −∇F(x (i) ) T einen spitzen Winkel bilden: 

−∇F(x (i) ) T d (i) > 0 . 

Für ein allgemeines Funktional F hat das CG-Verfahren die Gestalt 

Algorithmus 1.17 (CG-Verfahren nach Fletcher/Reeves; allgemeines Funktional) 


d = - g; 

noq_g_alt := g*g; 

while g ~= 0 

"Minimiere approximativ F(x + t d) in t"; 

x = x + t*d; 


noq_g_neu = g*g; 

beta = noq_g_neu/noq_g_alt; 

46

end 

noq_g_alt = noq_g_neu; 

d = g + beta * d; 

Wähle x 0 ∈ R n beliebig und berechne 

g (0) = ∇F(x (0) ) 

d (0) = −g (0) 

Für k = 0, . . . 

Minimiere approximativ F � x (k) + αd (k)� und setze 

x (k+1) = x (k) + αd (k) 

g (k+1) = ∇F(x (k+1) ) 

βk = g(k+1)T g (k+1) 

gkT gk r (k+1) = g (k+1) + βkd (k) 

bis das Abbruchkriterium ” �g (k) �2 = 0“ erfüllt ist. 

Eine weitere Variante (nach Polak/Ribière) ergibt sich, wenn die Gleichung für βk durch 

die folgende im quadratischen Fall äquivalente Form benutzt: 

βk = 

� g (k+1) − g (k) � T g (k+1) 

g (k)T g (k) 

47 

. (1.83)

2 Beispiele Gewöhnlicher Differentialgleichungen 

(GDG) 

2.1 Beispiele von Anfangswertaufgaben (AWA) für GDG 

Beispiel I: Populationsmodelle 

p = p(t) sei die Population einer Spezies zur “Zeit” t , 

wobei t ∈ [t0, T] 

oder t ∈ [t0, ∞) 

oder t ∈ R. 

Bezeichnet man mit ˙p(t) := dp/dt die Ableitung von p, so beschreibt der Quotient 

˙p(t)/p(t) die Gesamt-(=Netto-) Wachstumsrate bzgl. der (Gesamt-)Population zur Zeit 

t. 

Annahme: 

˙p(t)/p(t) = r(t, p(t)) . (2.1) 

Weitere Annahme: Geschlossenes System, d.h. keine Wanderung 

(sonst zusätzlich Ortsabhängigkeit ⇒ partielle DG). 

wo g(t, p): Geburtsrate 

s(t, p): Sterberate. 

Aus (2.1) folgt 

r(t, p) = g(t, p) − s(t, p) , 

˙p = r(t, p)p . (2.2) 

Anfangswertaufgabe (AWA): 

Gesucht p : I → R, I = (t0, T), T ≤ ∞, so dass (2.2) auf (t0, T) gilt, also 

und p(t0) = p0 

˙p(t) = r(t, p(t))p(t) für alle t ∈ (t0, T) 

(2.3) 

(d.h. p ist auf I stetig, und wenn die rechte Seite (hier r(t, p)p) in t und p stetig ist, 

also t ↦→ r(t, p(t))p(t) stetig ist auf I, ist p stetig differenzierbar auf I und (2.2) gilt 

auch auf I). 

Unterscheidung: r(t, p) : Variablen t ∈ I, p ∈ R, 

r(t, p(t)) : Variable t ∈ I. 

48

Beispiele für r: 

a) Konstante Wachstumsrate: 

r(t, p) = α für alle (t, p) ∈ R × R . (2.4) 

Mit Trennung der Variablen erhält man die Lösung 

p(t) = p0e α(t−t0) 

(d.h. eine eindeutige, auf R existente Lösung der AWA). 

Qualitatives Verhalten: 

für alle t ∈ R (2.5) 

α > 0 : p(t) → ∞ für t → ∞ (unbegrenztes Wachstum) 

α < 0 : p(t) → 0 für t → ∞ (Auslöschung) 

b) Die logistische Gleichung 

Annahme: Es existiert “Grenzpopulation” ξ, so dass 

r(t, p) ≤ 0 für p ≥ ξ . 

Einfachstes Beispiel: r(t, p) = β(ξ − p), wobei β, ξ > 0. 

Es folgt 

˙p = αp − βp 2 = (α − βp)p := f(p) , α := βξ . (2.6) 

Trennung der Variablen: 

Falls p0 �= 0 und p0 �= ξ = α/β (d.h. p0 erfüllt nicht f(p0) = 0), dann ist 

p(t) = 

die eindeutige Lösung der AWA (2.3). 

αp0 

βp0 + (α − βp0)e −α(t−t0) für alle t ∈ R (2.7) 

Für p0 = 0 : 

für p0 = ξ : 

p(t) := 0 

p(t) := ξ 

für alle t ∈ R, 

für alle t ∈ R 

sind Lösungen der AWA (2.3) 

(Eindeutigkeit folgt mit Picard–Lindelöf): 0 und ξ sind stationäre Punkte. 

Qualitatives Verhalten: 

p(t) ր ξ für t → ∞, falls 0 < p0 < ξ , 

p(t) ց ξ für t → ∞, falls p0 > ξ . 

Wegen ¨p = ( ˙p) · = (α − 2βp)(α − βp)p gilt: 

¨p > 0 , falls p ∈ (0, ξ/2) ∪ (ξ, ∞) (beide Faktoren > 0 oder < 0) , 

¨p < 0 , falls ξ/2 

49

Graphen der Lösung von (2.6) für verschiedene Anfangswerte 

Der Term −βp 2 ist (sozialer) Reibungsterm. 

p = p(t) im “Phasenraum” p : 

p ∈ R ↦→ f(p): Richtungsfeld von p ′ = f(p). 

Insbesondere AWA ist autonom (d.h. f von t unabhängig). 

0 ist abstoßender, ξ anziehender stationärer Punkt. 

Beispiel II: Räuber–Beute–Modelle 

x = x(t): Population einer “Beute” zur Zeit t 

y = y(t): Population eines “Räubers” zur Zeit t 

Annahme: Die Wachstumsraten ˙x/x, ˙y/y sind Funktionen von t, x, y, d.h. 

˙x = r1(t, x, y)x , 

˙y = r2(t, x, y)y . 

AWA: (2.8) auf (t0, a) und x(t0) = x0, y(t0) = y0. 

a) konstantes Wachstum (Volterra–Lotka–Gleichungen) 

(2.8) 

r1(t, x, y) = α − βy , α, β > 0 . (2.9) 

Konstante Wachstumsrate α (für y = 0 wie (2.4) mit α > 0), 

Reduktionsrate proportional zu Räuberpopulation: −βy. 

r2(t, x, y) = −γ + δx , γ, δ > 0 . (2.10) 

Konstante Reduktionsrate γ (für x = 0 wie (2.4) mit α < 0), 

Wachstumsrate proportional zu Beutepopulation: δx. 

50

Mit 

erhalten wir 

p = p(t) := 

� x(t) 

y(t) 

˙p = f(p) , wo f(x, y) = 

� 

∈ R 2 

� (α − βy)x 

(δx − γ)y 

Dieses System (1.Ordnung) besitzt keine geschlossene Lösung. 

Stationäre Punkte (d.h. f(p) = 0) sind: 

p0 = (0, 0) und p1 = (γ/δ, α/β) . 

� 

. (2.11) 

Man erhält das folgende Richtungsfeld (nur x0 ≥ 0, y0 ≥ 0 von Interesse) 

Richtungsfeld für (2.8) 

Phasenportrait für (2.8): periodische Lösungen 

51

◦ bezeichnet stationäre Punkte. 

b) logistisches Wachstum 

(2.9) & (2.10) + sozialer Reibungsterm: 

−λx 2 in (2.9), −µy 2 in (2.10), λ, µ > 0, liefert 

⇒ 

f(p) = 

� (α − βy − λx)x 

(δx − γ − µy)y 

˙x = 0 auf Gerade L : α − βy − λx = 0 oder bei x = 0, 

˙y = 0 auf Gerade M : δx − γ − µy = 0 oder bei y = 0. 

(nur x0 ≥ 0, y0 ≥ 0 von Interesse). 

stationäre Punkte: 

(0, 0), (0, y), y = −γ/µ, (x, 0), x = α/λ 

(x, y), (x, y) Schnittpunkt von L und M 

1. Fall: L und M schneiden sich nicht in R 2 + 

� 

. (2.12) 

Richtungsfeld für (2.12), wenn sich L und M nicht in R 2 + schneiden 

Räuber stirbt immer aus. 

52

2. Fall: L und M schneiden sich in R 2 + 

Möglichkeiten: 

Richtungsfeld für (2.12), wenn sich L und M in R 2 + schneiden 

(i) z global attraktiver stationärer Punkt 

(ii) Existenz Grenzzyklus 

Global attraktiver stationärer Punkt 

Grenzzyklus 

53

2.2 Elemente der Analysis von AWA für GDG 

Allgemein: 

Definition: (AWA für System 1. Ordnung) 

Sei f : [t0, T) × R m → R m (stetig) gegeben, y0 ∈ R m . 

Gesucht ist y : [t0, T) → R m , (stetig) differenzierbar mit 

˙y(t) = f(t, y(t)) für alle t ∈ (t0, T) , 

y(t0) = y0 . 

(2.13) 

Ist f nur auf [t0, T) × M mit M ⊂ R m definiert, ist für eine Lösung auch y(t) ∈ M für 

alle t ∈ [t0, T) sicherzustellen. 

(2.13) heißt autonom, wenn f(t, y) = f(y) (dies gilt für alle Beispiele oben). 

Ein nichtautonomes System mit y = (y1, . . .,ym): 

˙y = f(t, y) , 

y(t0) = y0 

wird zu einem autonomen System mit y = (y1, . . .,ym, ym+1) der Gestalt 

˙yi = f(ym+1, y) , i = 1, . . .,m , 

˙ym+1 = 1 , 

yi(t0) = y0i , i = 1, . . .,m , 

ym+1(t0) = t0 . 

Eine AWA für eine skalare GDG n-ter Ordnung 

wobei hier 

y (n) = f(t, y (0) , y (1) , y (2) , . . .,y (n−1) ) , 

y (0) := y , y (1) := dy 

dt , 

y (2) := d2y dt2 , y(k) := dky , 

dtk läßt sich auf ein System von n GDG 1. Ordnung reduzieren durch: 

⇒ 

pi(t) := y (i−1) (t) , i = 1, . . .,n . 

p ′ 1 (t) = y′ (t) = p2(t) 

p ′ i = pi+1 , i = 1, . . .,n − 1 

p ′ n = y(n) = f(t, p1, p2, . . .,pn) , 

54 

(2.14)

also 

⎛ 

p2 

⎞ 

p ′ = ˜ ⎜ 

⎟ 

⎜ 

f(t, p) := 

. ⎟ 

⎜ 

⎟ 

⎝ pn ⎠ 

f(t, p1, . . .,pn) 

. 

Dazu sind die folgenden Anfangswerte nötig: 

⎛ 

⎜ 

p0 = p(t0) = ⎜ 

⎝ 

y(t0) 

y ′ (t0) 

. 

y (n−1) (t0) 

⎞ 

⎟ 

⎠ . 

Analog kann man bei Systemen n-ter Ordnung verfahren. 

Also sind die (autonomen) Systeme 1. Ordnung allgemein genug. 

Für die Eindeutigkeit der Lösung von (2.13) reicht die Stetigkeit von f nicht aus. Für 

f(y) = y1/2 und y0 = 0 liefert die Trennung der Variablen 

� �2 1 

y(t) = (t − t0) , 

2 

aber auch jedes 

ist eine Lösung für T = ∞. 

⎧ 

⎪⎨ 

y(t) := 

⎪⎩ 

0 , t0 ≤ t ≤ t1 , 

� �2 1 

(t − t1) 

2 

, t ≥ t1 , 

(2.15) 

Die Stetigkeitsforderung muss verstärkt werden, etwa zur lokalen Lipschitz-Stetigkeit 

in y. Das sichert die Eindeutigkeit und die lokale Existenz einer Lösung. 

Satz 2.1 (von Picard-Lindelöf) 

Sei f stetig in R := {(t, y) | t0 ≤ t ≤ TM, �y − y0� ≤ yM} mit TM > t0, yM > 0. 

Es gebe ein L > 0, so dass 

Setze 

und es gelte 

�f(t, y) − f(t, z)� ≤ L�y − z� für alle (t, y), (t, z) ∈ R . (2.16) 

M := max{�f(t, y)� | (t, y) ∈ R} 

M(TM − t0) ≤ yM . (2.17) 

Dann gibt es auf [t0, TM] eine Lösung von (2.13) und diese ist eindeutig. Dabei ist � · � 

die Euklidische Norm auf R m . 

55

Beweis: Lehrbücher über Analysis oder GDG. 

Die Lösung existiert also nur lokal, da (2.17) eventuell eine Verkleinerung des gewünschten 

TM erzwingt. 

Ist f in einer Umgebung von (t0, y0) stetig differenzierbar, so lassen sich TM, yM so klein 

wählen, dass f auf R stetig differenzierbar ist und somit nach dem Mittelwertsatz (auf 

jede Komponente angewendet) (2.16) gilt mit 

�� 

�� ∂f � � 

L := max (t, y) � � 

∂y � � 

� 

(t, y) ∈ R 

wobei � · � eine mit � · � verträgliche Matrixnorm darstellt. Also ist in dieser Situation 

die lokale, eindeutige Existenz einer Lösung von (2.13) gesichert. 

Der Beweis von Satz 2.1 beruht auf der Äquivalenz von 2.13 zu der Integralgleichung 

(für T < ∞) 

y(t) = y0 + 

�t 

t0 

, 

f(s, y(s))ds , t ∈ [t0, T] . (2.18) 

Ist y eine Lösung von (2.13), so folgt durch Aufintegrieren auch (2.18). Ist andererseits 

y ∈ C[t0, T] eine Lösung von (2.18), so ist y(t0) = y0 und sogar differenzierbar, da 

Stammfunktion einer stetigen Funktion. Differenzieren liefert (2.13). 

(2.18) stellt in C[t0, T] eine Fixpunktgleichung dar auf die der Banach’sche Fixpunktsatz 

(z.B. Numerik I: Satz 4.2) angewendet werden kann. Also liefert die Fixpunktiteration 

y0(t) := y0 

yn+1(t) = y0 + 

�t 

t0 

f(s, yn(s))ds , n ≥ 0 , 

✷ 

(2.19) 

eine Funktionenfolge yn, die gegen eine Lösung von (2.13) in einer gewichteten Maximumsnorm 

linear konvergiert. (Im Allgemeinen ist das aber nicht als Approximationsverfahren 

zu empfehlen.) 

Zur Korrektgestelltheit von (2.13) gehört auch die Stabilität, d.h. die stetige Abhängigkeit 

der Lösung von Datenstörungen. 

Definition 2.2 Die AWA (2.13) heißt stabil auf [t0, TM], wenn zu jedem ε > 0 ein 

δ > 0 existiert, so dass für δ0 ∈ R m , δ1 ∈ C[t0, TM] mit �δ0� + �δ1�∞ ≤ δ gilt: 

Das gestörte Problem 

˙z(t) = f(t, ˙z(t)) + δ1(t) , t ∈ [t0, TM] 

z(t0) = y0 + δ0 

56 

(2.20)

hat eine eindeutige Lösung z auf [t0, T] und 

Hierbei ist 

�y − z�∞ ≤ ε . 

�y�∞ := max{�y(t)� | t ∈ [t0, TM]} . (2.21) 

Satz 2.3 Unter der Voraussetzungen von Satz 2.1 ist (2.13) stabil auf [t0, TM]. 

Beweis: Mit den obigen Bezeichnungen gilt wegen (2.18) 

d.h. mit 

gilt 

�y(t) − z(t)� ≤ �δ0� + 

�t 

t0 

t 

� 

≤ �δ0� + 

t0 

g(t) := �δ0� + 

�f(s, y(s)) − f(s, z(s))� + �δ1(s)�ds 

� 

�δ1(s)�ds + L 

�t 

t0 

ϕ(t) := �y(t) − z(s)� 

ϕ(t) ≤ g(t) + 

Das Lemma von Gronwall (s.u.) impliziert 

�t 

t0 

t0 

t 

�δ1(s)�ds 

Lϕ(s)ds . 

�y(s) − z(s)�ds 

ϕ(t) ≤ g(t) exp(L(t − t0)) für t ∈ [t0, TM] 

und damit 

⎛ 

� 

�y − z�∞ ≤ exp(L(TM − t0)) ⎝�δ0� + 

Zu ε > 0 kann also 

TM 

t0 

⎞ 

�δ1(s)�ds⎠ 

≤ exp(L(TM − t0)) max(1, TM − t0)(�δ0� + �δ1�∞) . 

δ = (exp(L(TM − t0)) max(1, TM − t0)) −1 ε (2.22) 

57

gewählt werden, d.h. es gibt sogar eine Lipschitzstetige Abhängigkeit zwischen Störung 

und Lösung und auch die Norm für δ1 könnte zu einer L 1 -Norm in t abgeschwächt 

werden. 

Beachte, dass in Satz 2.3 δ i. Allg. von TM − t0 und zwar sogar exponentiell abhängt. 

Das kann die Abschätzung für große L und TM − t0 aussagelos machen: 

Beispiel: Chaotische Systeme 

E. N. Lorenz hat 1963 das folgende System als stark vereinfachtes Konzeptmodell zur 

Wetterdynamik angegeben 

mit Parametern δ, b, r > 0. 

˙x(t) = −δx(t) + δy(t) 

˙y(t) = rx(t) − y(t) − x(t)z(t) 

˙z(t) = x(t)y(t) − bz(t) 

x(t0) = 1, y(t0) = 0, z(t0) = 0 

Satz 2.1 und Satz 2.3 sind hier anwendbar, doch ist die Sensitivität z.B. für 

δ = 10, b = 8/3, r = 28 

✷ 

(2.23) 

der Lösung so stark, dass schon für TM −t0 = 25 für den Verstärkungsfaktor C (ε = Cδ) 

gilt: 

C ≈ 10 8 . 

Das Langzeitverhalten von (2.23) numerisch richtig zu erfassen, ist also sehr anspruchsvoll. 

Satz 2.4 (Lemma von Gronwall) 

Sei p auf (t0, T) integrierbar und nicht negativ, seien g und ϕ auf [t0, T] stetig, g 

monoton nichtfallend. Wenn gilt 

dann folgt: 

ϕ(t) ≤ g(t) + 

�t 

t0 

⎛ 

� 

ϕ(t) ≤ g(t) exp⎝ 

t0 

t 

p(s)ϕ(s)ds, t ∈ [t0, T] , 

⎞ 

p(s)ds⎠ 

für t ∈ [t0, T] . 

58

Beweis: siehe z. B. W. Walter, Differential- und Integralungleichungen. 

2.3 Beispiele von Randwertaufgaben (RWA) für GDG 

2–Punkt–RWA: Beispiel. 

Gegeben seien k ∈ C 1 (a, b) mit k(x) ≥ k0 > 0 für alle x ∈ [a, b] und f ∈ C(a, b). 

Gesucht ist u, so dass: 

(D) 

(−k(x)u ′ (x)) ′ = f(x) für x ∈ (a, b) =: I , 

u(a) = u(b) = 0 . 

Klassische Lösung: u ∈ C 1 [a, b] ∩ C 2 (a, b) das (D) erfüllt. 

Funktionenräume: 

C(a, b) := � f � � f : (a, b) → R, f stetig � 

C[a, b] analog 

C k (a, b) := � f � � f, f ′ , . . .,f (k) ∈ C(a, b) � 

C k [a, b] analog (Ableitungen stetig fortsetzbar in x = a, b) 

Eine klassische Lösung von (D) existiert eindeutig (Aufintegrieren & Randbedingungen). 

D.h. (D) ist korrekt gestellt (wenn noch u stetig von f abhängt). 

Ohne Randbedingungen gilt: u Lösung ⇒ u + g Lösung, wobei 

−(kg ′ ) ′ � x 

= 0 ⇔ g(x) = 

0 

α/k(s) ds + β , α, β ∈ R . 

f �∈ C(a, b) oder k �∈ C 1 (a, b) ⇒ ? – keine klassische Lösung. 

(D) ist ein Modell für Wärmeleitung 

ր geometrisch 1–dimensional 

eindimensional ց homogen in weiteren Dimensionen 

Hierbei ist: u Temperatur [K] 

q Wärmestromdichte [W/m 2 ] 

Dabei q > 0 : Strom in Richtung von x, 

q < 0 : Strom gegen Richtung von x 

f Wärmequelldichte [W/m 3 ] (Heizung) 

59 

✷

Beachte: W = J/s : Leistung W, Wärmemenge J = Nm. 

Wegen der Energieerhaltung gilt 

q ′ = f . (2.24) 

Dazu betrachte ein beliebiges eindimensionales Kontrollvolumen J = [x1, x2], 

x1 < x2, xi ∈ I und so das dreidimensionale Kontrollvolumen J × A, mit der Fläche 

A = [y1, y2] × [z1, z2] und (Lebesgue-)Maß µ(A). 

Dort gilt 

µ(A) � 

J 

f(s) ds = 

� 

f(s)ds dy dz 

J×A 

� 

= (q(x2) − q(x1))µ(A) = 

J 

q ′ (s) ds µ(A) , 

herausfließende – hineinfließende Wärme durch 

orthogonale Fläche A (in (y, z)–Ebene) mit Maß µ(A) 

Da J beliebig war, folgt q ′ (x) = f(x) für x ∈ I (Übung). 

Konstitutionelles Gesetz: (experimentell) 

q = −ku ′ 

Dabei ist k > 0 die Wärmeleitfähigkeit [W/(Km)]. 

Verallgemeinerung von (2.25): 

Fourier’sches Gesetz (2.25) 

q = −ku ′ + cu =: q1 + q2 

Der Term cu beschreibt die zugrundeliegende Strömung. 

c erzwungene konvektive Stromdichte [W/Km 2 ] 

Es folgt 

−(ku ′ ) ′ = f in I 

bzw. −(ku ′ − cu) ′ = f in I . 

Ist k konstant, kann durch Skalierung k = 1 erreicht werden und wir erhalten 

−u ′′ = f in I . 

Andere Fälle: k = k(x) analog c = c(x) → lineare RWA, 

oder k = k(u) , analog c = c(u) → nichtlinare RWA, 

oder k = k(x, u) , analog c = c(x, u) → nichtlineare RWA. 

60 

(2.26)

Zur Quelldichte f: 

insbesondere 

f = f(x) oder f = f(x, u) , 

f(x, u) = − ˜ d(x)u + ˜ f(x) . 

Für ˜ d(x) ≥ 0: linearer Abbau (d.h. Kühlung), proportional zu u: Senke, 

für ˜ d(x) < 0: lineares Wachstum (d.h. Heizung), proportional zu u: Quelle. 

Gleiches Modell beschreibt Transport von (im Fluid) gelöstem Stoff. 

Dann ist: u Konzentration [kg/m 3 ] 

q Massenstromdichte [kg/m 2 s] 

q1 = −ku ′ Fick’sches Gesetz 

k > 0 Diffusionskoeffizient [m 2 /s] 

q2 = cu Massenstromdichte durch Konvektion 

c volumetrische Fluidstromdichte [m/s] (= [m 3 /m 2 s]) 

Wir erhalten also jeweils die Differentialgleichung 

−(ku ′ − cu) ′ + ˜ du = f , x ∈ [a, b] . (2.27) 

Diese heißt linear, falls k = k(x)(> 0), c = c(x) und ˜ d = ˜ d(x), 

und nichtlinear, falls k = k(x, u) oder c = c(x, u) oder ˜ d = ˜ d(x, u) oder f = f(x, u). 

Im Folgenden betrachten wir nur den linearen Fall: 

Zu (2.27) äquivalente Formen: 

(falls c ′ existiert (Lösungsbegriff ohne Existenz von c ′ ?), in (2.27) nur Existenz von 

(cu) ′ !) 

−(ku ′ ) ′ + cu ′ + du = f (mit d := ˜ d + c ′ ) (2.28) 

bzw. (falls k ′ existiert) 

−ku ′′ + eu ′ + du = f (mit e := c − k ′ ) (2.29) 

(2.27): lineare Differentialgleichung in Divergenzform, 

(2.28): lineare Differentialgleichung mit Hauptteil in Divergenzform, 

(2.29): allgemeine lineare Differentialgleichung. 

Im Folgenden betrachten wir die Form (2.28): 

Bedingungen an Koeffizienten: (Regularität s.u.) 

k(x) ≥ k0 > 0 , x ∈ [a, b] (2.30) 

61

(s.u., falls k stetig auf [a, b] reicht dafür k(x) > 0 für alle x ∈ [a, b]). 

d.h. Strom von links nach rechts: 

x = a: Einstromrandpunkt 

x = b: Ausstromrandpunkt 

(oBdA. bei Ausschluss von Vorzeichenwechsel). 

d.h. linearer Abbau von u. 

c(x) ≥ 0 , x ∈ [a, b] , (2.31) 

d(x) : s.u. , i.a. d(x) ≥ 0 , (2.32) 

Randbedingungen: 

Vorgabe der Temperatur (bzw. Konzentration) (technisch: wie?): 

u(a) = ua 

u(b) = ub 

Vorgabe der (nach außen gerichteten) Stromdichte q: 

“äußere Normale” bei x = a: η = −1, 

bei x = b: η = 1. 

Dirichlet–Randbedingung . (2.33) 

−q(a) = qa 

⇐⇒ k(a)u ′ (a) = qa 

⇐⇒ u ′ (a) = qa/k(a) 

q(b) = qb 

⇐⇒ u ′ (b) = −qb/k(b) 

(Vorzeichen für Vorzeichen von qr, r = a, b wichtig). 

Neumann–Randbedingung 

Auch nichtlineare Randbedingung ist möglich: 

Spezialfall: 

−q(a) = qa(u(a)) , 

q(b) = qb(u(b)) . 

−q(a) = αa (u(a) − ua), αa > 0 

⇐⇒ q(a) + αau(a) = αaua =: ga 

⇐⇒ −u ′ (a) + ˜αau(a) = ˜αaua =: ˜ga , 

62 

(2.34) 

(2.35) 

(2.36)

wobei ˜αa := αa/k(a) > 0. 

Newton’sche Wärmeleitung: Analogie zu Fourier’sches Gesetz 

Strömung proportional zu −g ′ , wo g(x) = u(a) + (u(a) − ua)(x − a), x ≤ a. 

ua: Temperatur in äußerer Umgebung von x = a (ambiente Temperatur) 

αa: Wärmeaustauschkoeffizient 

gemischte Randbedingung 

(Linearkombination aus u ′ (a), u(a) wird vorgegeben) 

Formal erhält man Dirichlet–Bedingung aus (2.36) durch αa → ∞, 

d.h. Grenzfall starker Wärmeaustausch. 

Analog bei x = b : 

wobei ˜αb := αb/k(b) > 0. 

q(b) = αb (u(b) − ub), αb > 0 

⇐⇒ −q(b) + αbu(b) = αbub =: gb 

⇐⇒ u ′ (b) + ˜αbu(b) = ˜αbub =: ˜gb , 

Oder eine der möglichen Kombinationen Dirichlet/Neumann, etc. 

63 

(2.37)

3 Einschrittverfahren 

3.1 Beispiele für Einschrittverfahren, Konsistenz 

Untersucht werden sollen Verfahren zur Bestimmung von Näherungslösungen für das 

folgende Anfangswertproblem für ein System gewöhnlicher Differentialgleichungen 

(GDG) 1.Ordnung: 

(A) y ′ = f(t, y), t ∈ (t0, T] 

y(t0) = y0, 

wobei für I := [t0, T] gelte 

f : I × R n → R n , t0, T ∈ R, t0 < T, y0 ∈ R n 

und die Generalvoraussetzung erfüllen: 

(G1) f stetig auf [t0, T] × R n 

(G2) f ist lokal Lipschitzstetig in y, d.h. zu allen kompakten K ⊂ R n existiert 

L = LK ≥ 0, so dass �f(t, y1) − f(t, y2)� ≤ L�y1 − y2� für alle t ∈ I, y1,2 ∈ K. 

Ist L unabhängig von K, so heißt f global Lipschitzstetig in y – � · � ist beliebige 

Norm auf R n – 

Definition 3.1 y ∈ C 1 (I) heißt (globale) Lösung von (A), wenn 

i) y ′ (t) = f(t, y(t)) ⇐⇒ y ′ i (t) = fi(t, y1(t), . . .,yn(t)) für alle t ∈ I. 

· ′ := ∂ 

∂t . 

ii) y(t0) = y0. 

Bemerkung 3.2 1. Der Satz von Picard-Lindelöf (Satz 2.1) sichert die Eindeutigkeit 

von y und die lokale Existenz, d.h. es gibt ε > 0, so dass eine (eindeutige) 

Lösung y in [t0, t0 + ε] existiert. 

2. Die Richtung der “Zeit” t spielt keine Rolle, sofern nur Eigenschaften wie Differenzierbarkeit 

und Lipschitzstetigkeit von f eingehen: Statt t ∈ [t0, T] kann 

auch t ∈ [T, t0] für T < t0 betrachtet werden (Reduktion auf alten Fall durch 

˜t := 2t0 − t, ˜ T := 2t0 − T). Später wird der Begriff der einseitigen Lipschitzstetigkeit 

betrachtet der nicht invariant zur Umkehrung der “Zeit” ist. 

64

3. Glattheit von f überträgt sich auf die Lösung y: Sei U ⊂ R n+1 offen, so dass f 

auf U definiert ist und 

(t, y(t)) ∈ U für alle t ∈ [t0, T] . (3.1) 

Dann f ∈ C m (U) ⇒ y ∈ C m+1 (I) und y (k) , k = 1, . . ., m + 1, lässt sich durch 

Ableitungen von f bis zur k − 1-ten Ordnung ausgewertet bei (t, y(t)) darstellen. 

m = 1 : y ′ (t) = f(t, y(t)) ⇒ 

Kettenregel i = 1, . . .,n : 

∂fi 

(t) = (t, y(t)) + 

∂t 

� 

∂fi ∂fi 

= + · f 

∂t ∂y 

y ′′ 

i 

=: Dfi(t, y(t)) 

n� ∂fi 

(t, y(t)) y 

∂yj 

′ j (t) 

�� 

=fj(t,y(t)) 

� 

(t, y(t)) 

j=1 

Hier bezeichnet · das Euklidische Skalarprodukt in R n . 

(3.2) 

m = 2 : (t, y(t)) werde weggelassen zur Notationsvereinfachung, i = 1, . . .,n : 

y ′′′ 

� 

∂ 

i (t) = 

∂t (Df)i 

� 

= ∂2fi ∂t2 + ∂2 � 

n� 

� 

fi ∂ ∂fi 

f + fj 

∂t∂y ∂t ∂yj 

⇒ 

y ′ k 

= fk 

� 

n� 

∂ 

∂t 

i=1 

∂fi 

∂yj 

fj 

� 

= 

n� 

j=1 

+ 

∂ 2 fi 

∂yj∂t fj + 

n� 

j=1 

∂fi 

∂yj 

y ′′′ 

i (t) = ∂2 fi 

∂t 2 + 2 ∂2 fi 

+ ∂fi 

∂y 

n� 

j,k=1 

∂fj 

∂t + 

n� 

j,k=1 

j=1 

∂ 2 fi 

∂yj∂yk 

∂fi 

∂yj 

∂t∂y f + fT ∂2fi f 

∂y2 · ∂f 

∂t + 

∂ 2 fi 

∂y 2 =: D2 fi = Hessematrix 

� �T ∂fi ∂f 

∂y ∂y f 

Man beachte, dass dabei ∂2fi ∂f 

die Hesse-Matrix von fi, 

∂y2 ∂y 

von f bezeichnet und ∂fi 

∂y und damit ∂2fi ∂t∂y 

als Gradient. 

65 

y ′ kfj 

∂fj 

∂yk 

y ′ k 

(3.3) 

aber die Jacobi-Matrix 

als Spalte zu interpretieren ist, d.h.

Weitere Generalvoraussetzung: 

(G3) Es gibt eine globale Lösung auf I. 

In I wird ein Punktegitter definiert 

I ′ h := {t ∈ I | t = tj, j = 0, . . ., N + 1, tj+1 := tj + hj, j = 0, . . .,N} 

Ih := I ′ h \{tN+1} . 

Dabei sind N ∈ N und der Schrittweitenvektor 

vorgegeben. 

h = (h0, . . .,hN) T ∈ R N+1 , hj > 0 , 

N� 

j=0 

hj = T − t0 , d.h. tN+1 = T , 

(3.4) 

(3.5) 

Beispiel: konstante Schrittweite h := (T −t0)/(N +1) sonst spricht man von variabler 

Schrittweite (s.u.) 

Ziel ist die Bestimmung eines yh : I ′ h → Rn , das (für große N bzw. kleine h) eine 

Approximation von y ist. 

Dazu wird folgender Ansatz gemacht: 

Ersetze y ′ (tj) durch den vorwärtsgenommenen Differenzenquotienten 

Dhy(tj) := 1 

(y(tj+1) − y(tj)), tj ∈ Ih (3.6) 

hj 

(wohldefiniert für y : Ih → R n ), so dass eine “Näherung” yj := yh(tj), tj ∈ I ′ h 

bestimmt wird durch: 

yj+1 = yj + hjf(tj, yj) , j = 0, . . ., N 

y0 vorgegeben . 

(3.7) 

Die yj können sukzessive eindeutig bestimmt werden, das entstandene Verfahren heißt 

(explizites) Eulerverfahren (oder Polygonzug-Verfahren): 

66

y 

y 0 

y 1 

y zu Anfangswert (t ,y ) 

0 0 


1 1 

t 0 t 1 t 2 t 3 t N T 

Folgende im Konflikt stehende Effekte sind zu beachten: 

kleine hj : 

(1) kleiner Fehler in einem Schritt tj ❀ tj+1 

(2) viele Schritte zur Erreichung von t = T nötig: Akkumulation und Verstärkung (?) 

der lokalen Fehler pro Schritt. 

Also sind als notwendige Eigenschaften eines Verfahrens sicherzustellen: 

(1) kleine lokale Fehler für kleine hj (Konsistenz) 

(2) kein Aufschaukeln der lokalen Fehler (Stabilität). 

Schreibweisen: 

h : Ih → R mit tj ↦→ hj , 

h → 0 ⇐⇒ hmax := N 

max 

j=0 hj → 0 . 

Tritt h in “reellen” Ausdrücken auf, ist hmax gemeint: h < H , h p z.B. 

Eine direkte Konvergenzaussage für das Eulerverfahren liefert: 

Satz 3.3 Sei f ∈ C1 (U) (siehe (3.1)), L die Lipschitzkonstante von f auf Ū. Dann: 

�y(tj) − yh(tj)� ≤ (tj − t0)e L(tj−t0) h 

max �Df(t, y(t))� 

t∈I 2 

67 

, j = 0, . . ., N. 

t 

(3.8)

Beweis: Wird nur für auf I × R n gleichmäßig bzgl. y Lipschitz-stetiges f geführt 

(genauer später !) 

ej := �y(tj) − yh(tj)� ⇒ 

e0 = 0 und 

⇒ 

y(tj+1) − yh(tj+1) = y(tj+1) − y(tj) + y(tj) − yh(tj) + yh(tj) − yh(tj+1) 

ej+1 ≤ hj 

= hjy ′ (tj) + h2 j 

2 y′′ (s) + y(tj) − yh(tj) − hjf(tj, yh(tj)) 

für ein s ∈ [tj, tj+1] . 

≤L�y(tj)−yh(tj)� 

� �� 

�f(tj, y(tj)) − f(tj, yh(tj))�+ ej 

+ h2j 2 max 

t∈I 

�Df(t, y(t))� (⇐ (3.2)) 

≤ (hjL + 1)ej + h2 j 

2 max �Df(t, y(t))� 

t∈I 

� �� 

=:C 

j = 0, . . .,N . 

⇒ nach Lemma 3.4 2) für j = 0, . . .,N + 1 : 

ej ≤ (tj − t0) exp(L(tj − t0))C h 

2 . 

Lemma 3.4 (Gronwall diskret) an, bn, en ≥ 0 , n = 0, . . .,N + 1. 

1) Aus 

folgt 

en+1 ≤ (1 + an+1)en + bn+1, n = 0, . . .,N 

en ≤ 

≤ 

� 

� 

bi 

i=1 

e0 + n� 

e0 + n� 

bi 

i=1 

� n� 

(1 + ai), 

i=1 

n = 0, . . ., N + 1 

� 

n� 

� 

� 

exp 

68 

ai 

i=1 

. 

(3.9) 

✷ 

(∗)

2) Seien h0, . . .,hN ≥ 0, b, L ≥ 0, t0 ∈ R, tn := t0 + n−1 � 

hk, n = 0, . . .,N + 1. 

Aus 

folgt 

k=0 

en+1 ≤ (1 + hnL)en + hnb 

en ≤ (e0 + b(tn − t0)) exp (L(tn − t0)) für n = 0, . . .,N + 1 . 

Beweis: Zu 1): durch vollständige Induktion 

(∗) gilt für n = 0 und n = 1. 

n → n + 1 : 

en+1 ≤ (1 + an+1) 

≤ 

� 

e0 + n� 

� 

bi 

i=1 

e0 + n� 

� n+1 

i=1 

bi 

i=1 

� 

n� 

(1 + ai) + bn+1 

i=1 

� 

n+1 � 

(1 + ai) + bn+1 (1 + ai). 

Die 2. Ungleichung gilt wegen 1 + a ≤ exp(a) für a ∈ R. 

Zu 2): Nach 1) folgt 

en ≤ 

� 

e0 + 

� n� 

i=1 

hi−1 

� 

b 

� 

exp 

� n� 

i=1 

i=1 

= (e0 + (tn − t0)b) exp((tn − t0)L) . 

hi−1L 

Der Konvergenzbeweis lässt sich unter Benutzung des lokalen Abbruchfehlers (Konsistenzfehlers) 

besser verstehen (allgemein siehe Definition 3.8). Sei 

τj := 1 

(y(tj+1)) − y(tj) − hjf(tj, y(tj)) . 

hj 

hjτj ist also der Fehler im (j + 1)ten Schritt (von tj nach tj+1), wenn an der exakten 

Lösung y(tj) gestartet wird, also der minimale Fehler in einem Schritt. Der Beweis von 

Satz 3.3 beruht also auf der folgenden Rekursion für den Fehler ej im Schritt j: 

⇒ 

ej+1 = hjτj + ej + hj(f(tj, y(tj)) − f(tj, yj)) 

�ej+1� ≤ (1 + hjL)�ej� + hj�τj� 

69 

� 

✷

⇒ 

L(tj−t0) N 

�ej� ≤ (tj − t0)e max 

k=0 �τk� . 

Der Fehler ist also - bis auf einen exponentiellen Verstärkungsfaktor - in der Größenordnung 

des Konsistenzfehlers und für diesen gilt 

τj = 1 

� 

hjy ′ (tj) + h2j 2 y′′ (sj) − hjy ′ � 

(tj) 

und damit 

hj 

für ein sj ∈ [tj, tj+1] 

�τj� ≤ h 

2 max �Df(t, y(t))� . 

t∈I 

Das Eulerverfahren ist unbrauchbar, da es nur mit Ordnung h konvergiert (und nicht 

h k , k ≥ 2). 

Ist f glatt, können entsprechend hoch konvergente Verfahren konstruiert werden durch 

Taylorentwicklung: 

Sei f ∈ C p (U), p ∈ N, U nach (3.1), dann ist y ∈ C p+1 (I) und 

y (k) (t) = ∂k−1 

∂tk−1(f(t, y(t)) =: (Dk−1f)(t, y(t)) , k = 1, . . ., p , 

� 

p� 

� 

y(tj + hj) = y(tj) + hj 

⇒ 

k=1 

y(tj + hj) = y(tj) + hj 

h k−1 

j 

k! y(k) (tj) 

� p� 

k=1 

h k−1 

j 

k! 

+ O(h p+1 

j ) 

(D k−1 f)(tj, y(tj)) 

+ O(h p+1 

j ) , j = 0, . . ., N . 

Die Methode der Taylorentwicklung besteht nun darin, den Fehlerterm in (3.10) 

zu vernachlässigen, d.h. die Näherung y0, . . .,yN wird definiert durch 

yj+1 = yj + hj 

p� 

k=1 

y0 vorgegeben. 

h k−1 

j 

k! 

� 

(D k−1 f)(tj, yj), j = 0, . . .,N , 

70 

(3.10)

Beispiele: 

p = 1 : yj+1 = yj + hjf(tj, yj), d.h. das explizite Eulerverfahren, 

p = 2 : yj+1 = yj + hj 

� 

f(tj, yj) + hj 

2 

� ∂f 

∂t (tj, yj) + 

� ∂f 

∂y f 

� 

(tj, yj) 

Der Nachteil ist also, dass viele Ableitungen von f explizit bestimmt werden müssen, 

für große p und n kann dies nur über symbolische Differentiation erfolgen. Wir werden 

uns stattdessen auf Verfahren konzentrieren, die ihre hohe Konvergenzordnung nur 

durch die mehrfache Auswertung von f allein für einen Näherungsschritt erhalten. 

Einfache Beispiele dafür ergeben sich aus den bekannten 

Konvergenzordnung von Differenzenquotienten (zur Approximation von 

Ableitungen) 

1) Vorwärtsgenommen Differenzenquotient 

y ∈ C 2 (Ω), Ω = (t, t + h) oder (t − h, t) 

y ′ (t) = 1 

1 

(y(t + h) − y(t)) + hR, |R| ≤ 

h 2 �y′′ �∞. 

2) Rückwärtsgenommen Differenzenquotient 

3) Zentralen Differenzenquotient 

Beweis: Zu 3): 

Anwendungen 

y ′ (t) = 1 

1 

(y(t) − y(t − h)) + hR, |R| ≤ 

h 2 �y′′ �∞ 

y ′ (t) = 1 

2h (y(t + h) − y(t − h)) + h2 R, |R| ≤ 1 

6 �y′′′ �∞ 

y(t + h) = y(t) ± y ′ (t)h ± y ′ (t) h2 

2 ± y′′′ (ξ±) h3 

6 

⇒ y(t + h) − y(t − h) = 2hy ′ (t) + 0 + (y ′′′ (ξ+) − y ′′′ (ξ−)) h2 

12 2h. 

71 

�� 

. 

✷

Approximation von Abbildung y ↦→ y ′ h k R = (Konsistenz-)Fehler: k = Konsistenzordnung. 

Stabilität von y ↦→ y ′ : schlechtgestellt! (siehe Abschnitt 2.7 in Numerik 

I). 

⇒ reduzierte Konvergenzordnung 

Approximation von y ′ = f(t, y) (y(t0) = y0) 

bei 1) explizites Euler 

Stabilität gilt 

⇒ Konvergenzordnung = Konsistenzordnung. 

Nach 3) Verfahren mit höheren Ordnung 

� 

yj+1 = yj + hjf 

tj + hj 

2 , Näherung bei tj+ 1 

2 

• Zentralen Differenzenquotient um tj + hj 

2 =: tj+ 1. 

a) Nähereung bei t j+ 1 

2 

⇒ yj+1 = yj + hjf 

�� 

տ 

⇒ Crank-Nicolson-Verfahren. 

b) Näherung bei t j+ 1 

2 

2 

1 

2 (yj+1 + yj) 

⎛ 

⎜ 

⎝t j+ 1 

2 

implizit 

, 1 

2 (yj+1 

�� 

ր 

Gleichung zu lösen für yj+1 

yj + hj 

2 f(tj, yj) 

Expliziten-Euler-Schritt mit Schritt mit Schrittweite hj 

2 

⇒ V erbessertes Polygonzugverfahren. 

� 

⎞ 

⎟ 

+yj) ⎠ 

• Zentraler Differenzenquotient = 1 (Vorwärts+Rückwärtsgenommener Differenzenquotient). 

2 

72

a) 

⇒ yj+1 = yj + 

�� 

տ 

hj 

2 

b) Näherung für yj+1: in Euler-Schritt 

⇒ Verfahren von Heun 

⎛ 

⎞ 

⎜ 

⎟ 

⎝f(tj, yj) + f(tj+1, yj+1) 

⎠ 

� �� 

ր 

implizit 

yj+1 = yj + hjf(tj, yj) 

Beschränken wir uns auf explizite Verfahren, bei denen keine Gleichung für yj+1 zu 

lösen ist ergeben sich also die Beispiele 

• ”Zentralen” Differenzenquotient bei t = tj und Schrittweite hj (bzw. hj−1) (bei 

äquidistanten Gitter = zentralen Differenzenquotient) 

yj+1 − yj−1 = (hj + hj−1)f(tj, yj). 

Expliziten Zweischrittverfahren: yj+1 braucht yj und yj−1 (für Start nicht nur y0, 

sondern auch y1 nötig, z.B. y1 = y0 + h0f(t0, y0)). 

Einschränkung hier: Einschrittverfahren, vorerst: explizit. 

• Das verbesserte Polygonzug-Verfahren (Mittelpunktsformel) 

� 

yj+1 = yj + hjf tj + 1 

2 hj, yj + 1 

2 hjf(tj, 

� 

yj) , j = 0, . . ., N, 

y0 vorgegeben, 

d.h. Dhy(tj) wird aufgefasst als Approximation für 

y ′ 

� 

tj + 1 

2 hj 

� � 

= f tj + 1 

2 hj, 

� 

y tj + 1 

2 hj 

�� 

und 

� 

y tj + 1 

2 hj 

� 

durch einen Eulerschritt über hj 

2 

approximiert 

73 

(3.11)

� 

y 

y 0 

t 0 

t +h / 2 

0 0 t 1 


0 0 

• Das Verfahren von Heun (Explizite Trapezregel) 

y 1 

y zu Anfangswert (t 0+h 0/2 , y 0+h 0/2 f(t 0, )) � 


2 (f(tj, yj) + f(tj + hj, yj + hjf(tj, yj)), j = 0, . . .,N , 


t 

(3.12) 

d.h. Dhy(tj) wird aufgefasst als Approximation für 1 

2 (y′ (tj) + y ′ (tj+1)) und dabei 

y(tj+1) durch einen Eulerschritt approximiert. 

Für eine Näherung yj+1 sind jeweils 2 Auswertungen von f nötig. 

Anwendung auf f = f(t), d.h. numerische Integration liefert für 

(3.7) : zusammengesetzte Rechtecksregel: Ordnung h 

(3.11) : zusammengesetzte Mittelpunktsregel: Ordnung h2 (3.12) : zusammengesetzte Trapezregel: Ordnung h2 f 

f 

f 

x 0 x 1 x 2 x 3 

t 

x 0 x 1 x 2 x 3 

74 

t 

x 0 x 1 x 2 x 3 

t

(3.7) (3.11) (3.12) 

Allgemein: 

Definition 3.5 Ein explizites Einschrittverfahren wird gegeben durch eine Familie 

von Abbildungen 

(Ah) fh : Ih × R n → R n , 0 < h < H , für ein H > 0 . 

Die Lösung von (Ah) ist gegeben durch 

yh : I ′ h → Rn , so dass 

(1) Dhyh(tj) = fh(tj, yh(tj)) ⇐⇒ 

yh(tj+1) = yh(tj) + hjfh(tj, yh(tj)), j = 0, . . .,N , 

(2) yh(t0) = y0 . 

Kurzschreibweise: yj := yh(tj) (nicht y(tj)). 

(3.13) 

Bemerkung 3.6 1) Bei nichtkonstanter Schrittweite wird hj vor Ausführung des 

j-ten Schritt bestimmt durch Bewertung der Güte des alten Schritts: Schrittweitensteuerung 

( → Abschnitt 3.10). 

2) Explizite Verfahren brauchen also nur Funktionsauswertungen zur Berechnung 

einer neuen Näherung yj+1, während implizite Verfahren das Lösen von Gleichungssystemen 

nötig macht. 

Verfahren sollen konvergent mit hoher Ordnung sein: 

Definition 3.7 Sei y die exakte Lösung von (A), yh die Näherungslösung nach (Ah). 

Dann heißt 

eh : I ′ h → R n , eh(tj) = y(tj) − yh(tj) 

der globale Fehler von (Ah). 

(Ah) heißt konvergent, wenn 

�eh�h := max 

t∈I ′ h 

�y(t) − yh(t)� → 0 für h → 0 . (3.14) 

(Ah) hat (mindestens) die Konvergenzordnung p > 0, wenn es H > 0, C > 0 

gibt, so dass 

�eh�h ≤ Ch p 

für h < H , (3.15) 

75

d.h. kurz �eh�h = O(h p ). 

h in (3.15) steht für hmax = max h(t). 

t∈Ih 

Für die Konvergenz von (Ah) ist notwendig, dass der in einem Schritt gemachte lokale 

Fehler gegen 0 konvergiert. Deshalb: 

Definition 3.8 Sei y die exakte Lösung von (A). 

τh : Ih → R n , definiert durch 

τh(tj) := 1 

(y(tj+1) − y(tj)) − fh(tj, y(tj)), j = 0, . . .,N 

hj 

heißt der lokale Abbruchfehler. 

(Ah) heißt konsistent mit (A), wenn 

�τh�h = max �τh(t)� → 0 für h → 0. (3.16) 

t∈Ih 

(Ah) hat (mindestens) die Konsistenzordnung p > 0, wenn es H > 0, C > 0 gibt, 

so dass 

�τh�h ≤ Ch p 

für h < H (3.17) 

d.h. kurz �τh�h = O(h p ). 

hjτh(tj) ist der Fehler im Schritt tj → tj+1, wenn im exakten Wert y(tj) bei tj gestartet 

wird, also der minimale Fehler in diesem Schritt. Allgemein ist also die beste Situation, 

dass sich diese Fehler aufaddieren, so dass ein Gesamtfehler in der Größenordnung 

N� 

hi�τh(ti)� =: �τh� ′ h ≤ (T − t0)�τh�h 

(3.18) 

i=0 

entsteht. Der beste Fall ist also, dass gilt: 

Konvergenz(ordnung) = Konsistenz(ordnung) . 

Bei Stabilität ist dies der Fall (→ Abschnitt 1.3). Wir werden also vorerst die Konsistenz(ordnung) 

von Verfahren untersuchen. 

Bemerkung 3.9 a) Wird in (Ah) nur yh(t0) = y0h (eine Approximation von y0) 

gefordert, ist bei Konsistenz(ordnung p) �y0h − y0� → 0 bzw. �y0h − y0� = O(h p ) 

zu ergänzen. τh könnte statt in � · �h auch in der echt schwächeren Norm � · � ′ h 

gemessen werden (Beziehung wie zwischen L ∞ [a, b] und L 1 [a, b]). 

76

) Zum Wahl den Normen: Für ein festes Problem (A) ist die Anzahl den Konponenten 

fest, daher ist die Wahl an Norm �.� auf dem R n (wegen ihrer Äquivalenz) 

nicht essentiel. 

Für die Gitterfunktionen f : I ′ h → Rn ist das anders, da 

|I ′ h| = N + 2 

nicht fest ist, sondern N → ∞ (⇔ hmax → 0) betrachtet wird, und mit Gitterfunktionen 

überhaupt f ∈ C(I) belieblig gut approximationen zu bekommen. 

Mögliche Normen auf den Gitterfunktionen auf I ′ h sind: 

• �f� = �f�h := max t∈I ′ h �f(t)� die (diskrete) Maximumnorm; 

• �f� = �f� ′ h := � N 

• �f� = �f� ′ h := 

i=0 hi�f(ti)� die (diskrete) L1-Norm; � �1 

�N 

2 2 

i=0 hi�f(ti)� 

Von den analogen Situation auf C(I) erwartet man: 

�.�h ist echt stärker als �.� ′′ h 

�.� ′′ h ist echt stärker als �.�′ h . 

die (diskrete) L 2 -Norm. 

Man zeige dies, indem man scharfe Äquivalenzkonstanten findet (für N fest) und 

diesen Verhalten für N → ∞ untersucht. 

Lemma 3.10 Es sind äquivalent: 

(1) (Ah) ist konsistent, 

(2) max �fh(t, y(t)) − f(t, y(t))� → 0 für h → 0 . 

t∈Ih 

Beweis: 

y ∈ C 1 (I) ⇒ y ′ ist gleichmäßig stetig auf I und (∗) 

⇒ 

N 

max 

j=0 

und 

1 

(y(tj+1) − y(tj)) − y ′ (tj) = 1 

hj 

� 

� 

� 

1 

� (y(tj+1) − y(tj)) − y ′ � 

� 

(tj) � 

� 

hj 

hj 

hj � 

0 

(y ′ (tj + t) − y ′ (tj)) dt 

≤ N 

max 

j=0 max �y 

0≤t≤hj 

′ (tj + t) − y ′ (tj)� → 0 für h → 0 wegen (∗) 

77

⇒ Behauptung. 

� 

1 

τh(tj) = (y(tj+1) − y(tj)) − y 

hj 

′ � 

(tj) + (f(tj, y(tj)) − fh(tj, y(tj))) 

Im Allgemeinen ist fh(tj, y) = ϕ(hj, tj, y) für y ∈ R n . Ist ϕ stetig in h, so ist also 

hinreichend für Konsistenz 

ϕ(0, t, y) = f(t, y) für alle t ∈ Ih, y ∈ R n . (3.19) 

Konsistenzordnungen können durch Taylorentwicklung bestimmt werden. 

Korollar 3.11 1) Das explizite Eulerverfahren ist konsistent mit (A). 

2) Ist f ∈ C 1 (U), gilt für das explizite Eulerverfahren 

�τh�h ≤ max �Df(t, y(t))�h 

t∈I 2 . 

3) Ist f ∈ C p (U), so gilt für die Methode der Taylorentwicklung 

Beweis: 

�τh�h ≤ max 

t∈I �(Dp h 

f)(t, y(t))� 

p 

(p + 1)! 

1) Lemma 3.10 : f = fh 

2) τh(tj) = 1 

� 

y(tj) + hjy ′ (tj) + h2j 2 y′′ � 

(s) − y(tj) 

hj 

− f(tj, y(tj)) für ein s ∈ [tj, tj+1] 

= Df(s, y)(s)) hj 

2 

3) τh(tj) = 1 

� 

y(tj) + 

hj 

p� 

k=1 

h k j 

k! 

� D k−1 f � (tj, y(tj)) 

+ hp+1 j 

(p + 1)! (Dpf)(s, y(s)) − y(tj) 

− p� 

k=1 

h k−1 

j 

k! 

� 

(D k−1 f)(tj, y(tj)) für ein s ∈ [tj, tj+1] . 

78 

✷ 

✷

3.2 Runge–Kutta-Verfahren 

3.2.1 Explizite Runge–Kutta-Verfahren 

Das Verfahren von Heun (3.12) läßt sich auch schreiben mittels 

als 

k1(t, h, y) := f(t, y) 

k2(t, h, y) := f(t + α2h, y + hβ21k1(t, h, y)) 

mit α2 = 1, β21 = 1 

yj+1 = yj + hj(γ1k1(tj, hj, yj) + γ2k2(tj, hj, yj)) 

mit γ1 = γ2 = 1 

2 . 

Ein allgemeines Verfahren dieser Art (explizites Runge–Kutta (RK) Verfahren 

2. Stufe) ergibt sich durch Wahl von α2, β21, γ1, γ2, dargestellt als 

α2 β21 

1 1 

1 

2 

γ1 

1 

2 

γ2 

, also 

, 

1 

2 

1 

2 

0 1 

(3.12) : Heun (3.11) : Verbessertes Polygonzug-Verfahren 

Allgemein definiert man die Klasse der 

l-stufigen expliziten Runge–Kutta Verfahren 

79

für l ∈ N durch Vorgabe von 

α2, . . .,αl, βiν, i = 2, . . .,l, ν = 1, . . ., i − 1, 

γ1, . . .,γl, kurz dargestellt als 

werden rekursiv definiert durch 

α2 β21 

α3 β31 β32 

. 

. .. 

αl βl1 βl2 . . . βl,l−1 

γ1 γ2 . . . γl−1 γl 

ki : Ih × [0, H] × R n → R n 

k1(t, h, y) := f(t, y) 

und das RK Verfahren durch 

d.h. hier ist 

für i = 1, . . ., l 

� 

� 

�i−1 

ki(t, h, y) := f t + αih, y + h βiνkν(t, h, y) 

fh(tj, y) = 

i = 2, . . .,l 



l� 

i=1 

Beispiele für RK Verfahren 4. Stufe sind 

l� 

ν=1 

ν=1 

γνkν(tj, hj, yj), 

(3.20) 

(3.21) 

γiki(tj, hj, y) für tj ∈ Ih, y ∈ R n . (3.22) 

80

Das “klassische” Runge–Kutta Verfahren 

1 1 

2 2 

1 

2 

0 

1 

2 

1 0 0 1 

1 

6 

1 

3 

1 

3 

1 

6 

Die 3/8 Formel 

1 1 

3 3 

2 

3 

− 1 

3 

1 

1 1 −1 1 

1 

8 

3 

8 

Das RK Verfahren von R. England 

3 

8 

1 1 

2 2 

1 1 1 

2 4 4 

1 0 −1 2 

1 

6 

0 

Die “optimale” Formel von Kuntzmann 

2 

5 

3 

5 

1 

2 

5 

− 3 

20 

3 

4 

19 

44 −15 

44 

11 

72 

25 

72 

81 

2 

3 

40 

44 

25 

72 

1 

8 

1 

6 

11 

72 

(3.23) 

(3.24) 

(3.25) 

(3.26)

Bei Stufenzahl l hat man für einen Schritt l Auswertungen von f. Ein Gesichtspunkt 

bei der Wahl der Parameter αi, βiν, γi ist also, eine möglichst hohe Konsistenzordnung 

für genügend glatte f zu erreichen. Es gilt: 

Lemma 3.12 Das explizite RK Verfahren ist konsistent mit (A) für alle zulässigen 

f ⇐⇒ l� 

γi = 1. 

i=1 

Beweis: 

“ ⇒ ” f ≡ 1 ⇒ ki ≡ 1 ⇒ fh ≡ l� 

γi 

i=1 

Lemma 3.10: Konsistenz ⇐⇒ 

� � 

� l� � 

� � 

max � γi − 1� 

→ 0 

t∈Ih � � 

⇐⇒ 

i=1 

“⇐” Es gilt: 

Es existiert H > 0, C > 0 so dass 

l� 

γi = 1 

�ki(t, h, y(t))� ≤ C für t ∈ Ih, h ≤ H, i = 1, . . .,l, (∗) 

(Beweis durch Induktion über i). 

Also 

max �fh(t, y(t)) − f(t, y(t))� 

t∈Ih 

� 

= max 

tj∈Ih 

� 

� l� 

� 

� 

� γi(ki(tj, hj, y(tj)) − f(tj, y(tj)) � 

� 

i=1 

� 

� 

� 

�f(tj � 

i−1 � 

� 

+ αihj, y(tj) + hj βiνkν(tj, hj, y(tj)) − f(tj, y(tj)) � 

� → 0 für h → 0, 

≤ max 

t j ∈I h 

i=1,...,l 

ν=1 

da (∗) gilt und f etwa auf {(t, y) | t ∈ I, �y − y(t)� ≤ 1} gleichmäßig stetig ist. 

Eine notwendige Forderung ist also 

Bezüglich der αi gilt: 

l� 

i=1 

i=1 

γi = 1 . (3.27) 

82 

✷

(1) Durch Wahl der αi läßt sich i. Allg. die Konsistenzordnung nicht verbessern (da 

sie für autonome rechte Seiten, d.h. f = f(y), keine Rolle spielen). 

(2) Ein nichtautonomes System y ′ = f(t, y), y(t0) = y0 kann äquivalent in ein autonomes 

umgeschrieben werden durch Aufnahme von t als (n+1)-ter Komponente 

mittels y ′ n+1 (t) = 1, yn+1(t0) = t0, d.h. 

� y ′ 

y ′ n+1 

⎛ 

� ⎜ 

= ⎜ 

⎝ 

y ′ 1 

. 

y ′ n 

y ′ n+1 

⎞ 

⎟ 

⎠ = 

⎛ 

⎞ 

f1(yn+1, y1, . . .,yn) 

⎜ 

⎟ 

⎜ 

. 

⎟ 

⎜ 

⎝ fn(yn+1, y1, . . .,yn) ⎟ 

⎠ 

1 

, 

� y 

yn+1 

(yi(t) hier Komponenten von y(t) , keine Näherungslösung !). 

� 

(t0) = 

� y0 

t0 

� 

(3.28) 

Wird ein konsistentes RK Verfahren auf (3.28) angewendet, wird bei (3.27) yn+1 exakt 

integriert, d.h. 

yj,n+1 = tj , (yj Näherung im j-ten Schritt). 

In der nichtautonomen Formulierung gilt 

� 

� 

�i−1 

ki(t, h, y) = f t + αih, y + h βiνkν(t, h, y) , 

in der autonomen Formulierung in den ersten n Komponenten 

� 

�i−1 

�i−1 

ˆki(t, h, y) = f t + βiν h, y + h βiν ˆ � 

kν(t, h, y) , 

ν=1 

wobei ki, ˆ ki ∈ R n und benutzt wurde, dass ˆ ki,n+1 ≡ 1 (= fn+1). Es gilt also ki = ˆ ki 

i. Allg., das heißt für beide Formulierungen liefert das RK Verfahren das gleiche, genau 

dann wenn 

αi = 

�i−1 

ν=1 

ν=1 

ν=1 

βiν i = 2, . . ., l . (3.29) 

(3.27), (3.29) soll im Folgenden immer erfüllt sein, das trifft auf die obigen Beispiele zu. 

Für die Stufe l = 2 sind also 4 Parameter α2, β21, γ1, γ2 zu bestimmen, die γ1+γ2 = 1 

und β21 = α2 erfüllen sollen. Es gilt: 

83 

,

Satz 3.13 Sei f ∈ C 2 (U), U nach (3.1), dann hat ein RK Verfahren der Stufe 2 die 

Konsistenzordnung 2 bei (3.29) genau dann, wenn γ1 + γ2 = 1 und 

γ2β21 = 1 

2 

Ist f ∈ C 3 (U), gilt zusätzlich bei (3.30) 

τh(tj) = 1 

� 

6 

(1 − 3γ2β 2 21 )fT ∂2f f + 

∂y2 gilt . (3.30) 

� �T ∂f ∂f 

∂y ∂y f 

� 

(tj, y(tj))h 2 j + O(h3j ) . (3.31) 

für autonome f, d.h. die Ordnung ist im Allgemeinen nicht zu verbessern. 

– zur Interpretation der Terme in (3.31) siehe (3.32) – 

Beweis: (durch Taylorentwicklung) 

nur von (3.31): der Index j wird weggelassen 

nach (3.2), (3.3). 

Dabei ist 

y(t + h) = y(t) + hy ′ (t) + h2 

2 y′′ (t) + h3 

6 y′′′ (t) + O(h 4 ) 

= y(t) + hf(y(t)) + h2 ∂f 

2 ∂y (y(t))f(y(t)) 

+ h3 

� 

f 

6 

T ∂2 � �T f ∂f ∂f 

f + 

∂y2 ∂y ∂y f 

� 

(y(t)) + O(h 4 ) 

f T ∂2 � 

f 

f = f 

∂y2 T ∂2 � 

fi 

f , 

∂y2 i 

∂2fi ∂y2 die Hessematrix von fi , (3.32) 

��∂f �T ∂f 

∂y ∂y f 

� 

= ∂fT i ∂f 

f . 

∂y ∂y 

fh(t, y(t)) = γ1k1(t, h, y(t)) + γ2k2(t, h, y(t)) 

= γ1f(y(t)) + γ2f(y(t) + β21hf(y(t)) 

= γ1f(y(t)) + γ2 

+ β2 21h 2 

2 

� 

� 

i 

f T ∂2f f 

∂y2 f(y(t)) + β21h ∂f 

(y(t)) · f(y(t)) 

∂y 

� 

(y(t)) + O(h 3 � 

) 

84 

(∗)

(∗) 

⇒ – Argument “y(t)” wird weggelassen – 

τh(t) = 1 

h (y(t + h) − y(t)) − fh(t, y(t)) 

� � 

1 ∂f 

= (1 − γ1 − γ2) f + − γ2β21 · f h 

� �� 2 ∂y 

= 0 � �� 

= 0 

+ (1 − 3γ2β2 21 )fT ∂2f h2 

f 

∂y2 6 + 

� �T ∂f ∂f 

∂y ∂y 

⇒ Behauptung (3.31). 

f h2 

6 + O(h3 ) 

Bei f ∈ C 2 (U) entwickelt man einen Term weniger, die Annahme, dass f autonom sei, 

ist keine Einschränkung wegen (3.29). 

Die Gleichungen 

β21 = α2 , γ1 + γ2 = 1 , γ2β21 = 1 

2 

haben die einparametrige Lösungsschar: 

β21 gegeben: γ2 = 1 

2 /β21, γ1 = 1 − γ2, zum Beispiel 

β21 = 1 

2 ⇒ γ2 = 1, γ1 = 0 : verbesserter Polygonzug (3.11) 

β21 = 1 ⇒ γ2 = γ1 = 1 

: 

2 

Heun (3.12) 

Mit wachsender Stufe l werden die Rechnungen komplizierter: 

Satz 3.14 Sei f ∈ C 4 (U), dann ist für ein RK Verfahren der Stufe l = 3 die maximale 

Konsistenzordnung p = 3, die bei (3.29) genau dann gilt, wenn γ1 + γ2 + γ3 = 1 und 

α2γ2 + α3γ3 = 1 

2 

α 2 2 γ2 + α 2 3 γ3 = 1 

3 

α2γ3β32 = 1 

6 , 

✷ 

(3.33) 

d.h. 4 Gleichungen für 6 Unbekannte gelten. αi, i = 2, . . .,l wobei die Gleichungen 

(3.29) nicht mitgezählt werden. 

85

Beweis: Übungsaufgabe (für n = 1) 

Beispiel: Verfahren von Runge 

1 1 

1 

2 

1 

4 

1 

6 

1 

4 

1 

6 

2 

3 

✷ 

(3.34) 

Für l = 4 entstehen 8 Gleichungen für die 10 freien Parameter zur Erreichung der 

Konsistenzordnung p = 4. (→ Grigorieff I, S. 19). (3.23)–(3.26) erfüllen alle 

diese Gleichungen. Das war der Stand der Kenntnis um ca. 1900 durch Runge, 

Kutta, Heun. Bei wachsendem l und p ergeben sich schließlich mehr Gleichungen 

als Unbekannte. Zum Beispiel um zu klären, ob p = 8 bei l = 10 möglich ist, muss 

ein nichtlineares Gleichungssystem mit 200 Gleichungen in 55 Unbekannten gelöst 

werden. Es gilt 

Ordnung p 1 2 3 4 5 6 7 8 9 10 

Anzahl der 1 2 4 8 17 37 85 200 486 1205 

Bedingungen 

Von J.C. Butcher wurde 1960–85 gezeigt 

Stufenzahl l 1 2 3 4 5 6 7 8 9 

Maximale 1 2 3 4 4 5 6 6 7 

Ordnung p 

Differenz l − p 0 0 0 0 1 1 1 2 2 

Butcher 85: p ≥ 8 ist nicht mit l = p+2 möglich. Maximal explizit erreichte Ordnung 

p = 10 mit l = 18 (Curtis (75)) und l = 17 (Hairer (78)). 

Explizite (RK) Verfahren haben das Problem, dass für sogenannte “steife” DGL (→ 

Abschnitt 3.11) die Schrittweite sehr klein gemacht werden muss, damit die Näherung 

wenigstens qualitativ stimmt. 

86

Beispiel: n = 1 

y ′ = qy (das lineare Testproblem) 

y(0) = 1, q = −1000 

Gesucht ist y(1) = e −1000 (= 0 in jeder gebräuchlichen Arithmetik). 

Das explizite Eulerverfahren mit konstanter Schrittweite h liefert 

d.h. 

yj+1 = (1 + qh)yj ⇒ 

yj = (1 + qh) j y0 ⇒ |yN+1| = |1 + qh| N+1 

h 1 10 −1 10 −2 10 −3 10 −4 

|yN+1| 999 99 10 9 100 0 0.9 10000 (= 0 auf Rechner) 

Dabei ist N + 1 = 1/h . 

(3.35) 

D.h. bei zu großen Schrittweiten explodiert hier die Näherung. Nur implizite Verfahren 

haben nicht notwendig diese Eigenschaft. Wünschenswert sind absolut stabile 

Verfahren, d.h. solche die hier unabhängig von der Größe von h eine qualitativ richtige 

Lösung liefern (→ Abschnitt 3.11). 

3.2.2 Implizite Runge–Kutta-Verfahren 

Beispiele für implizite Verfahren sind die 

l-stufigen impliziten Runge–Kutta Verfahren 

definiert durch α1, α2, . . .,αl, βiν, i, ν = 1, . . ., l, γ1, . . ., γl, kurz 

α1 β11 . . . . . . β1l 

α2 

. 

. 

. 

αl βl1 . . . . . . βll 

γ1 . . . . . . γl 

87 

. 

.

ki : Ih × [0, H] × R n ∩ {(t, h, y) | (t, y) ∈ Û} → Rn , i = 1, . . .,l , sind gegeben 

durch 

ki(t, h, y) = f 

� 

t + αih, y + h 

l� 

� 

βiνkν(t, h, y) , i = 1, . . .,l . (3.36) 

ν=1 

Û ist eine geeignete Umgebung von (t, y(t)), so dass (3.36) wohldefiniert ist (s.u.). Das 

Verfahren lautet 


l� 

γiki(tj, hj, yj), j = 0, . . .,N . 


i=1 

(3.37) 

Die expliziten RK Verfahren sind also der Spezialfall α1 = 0, βiν = 0 für i = 

1, . . .,l, ν = i, . . .,l (oberes Dreieck von β einschließlich Diagonale). 

Vorteil der impliziten RK Verfahren: 

Maximale Konsistenzordnung 2l und absolute Stabilität sind möglich. 

Nachteil: Pro Integrationschritt ist das Auflösen von 

xi = f 

� 

t + αih, y + h 

l� 

ν=1 

βiνxν 

mit den Unbekannten x = (x1, . . ., xl) ∈ R nl nötig. 

Analog zu oben ergeben sich die Forderungen 

Beispiele sind: 

(i) l = 1 

αi = 

l� 

ν=1 

µ µ 

1 

� 

, i = 1, . . .,l , (3.38) 

βiν , i = 1, . . .,l , (3.39) 

l� 

i=1 

γi = 1 . (3.40) 

88 

mit µ ∈ [0, 1]

⇒ 

⇒ 

yj+1 = yj + hjk1 , k1 = f(tj + µhj, yj + µhjk1) 

k1 = f(tj + µhj, (1 − µ)yj + µ 

yj+1 

� �� 

(yj + hjk1) ) ⇒ 

yj+1 = yj + hjf(tj + µhj, (1 − µ)yj + µyj+1) (3.41) 

µ = 0 : (explizites) Euler-Verfahren 

µ = 1 : implizites Euler-Verfahren 

µ = 1 

: 

2 

Crank–Nicolson-Verfahren 

(ii) l = 2 

0 0 0 

1 1 − µ µ 

1 − µ µ 

mit µ ∈ [0, 1] . 

d.h. k1 ist explizit gegeben durch k1 = f, so dass nur eine Unbekannte vorliegt. 

yj+1 = yj + hj((1 − µ)k1 + µk2) 

k1 = f(tj, yj) 

k2 = f(tj + hj, yj + hj((1 − µ)k1 + µk2)) 

⇒ k2 = f(tj+1, yj+1) 

yj+1 = yj + hj((1 − µ)f(tj, yj) + µf(tj+1, yj+1)) (3.42) 

µ = 1 : implizites Euler-Verfahren, 

µ = 1 

2 

: implizite Trapezregel, 

µ = 0 : (explizites) Euler-Verfahren. 

Die implizite Trapezregel geht in das Verfahren von Heun über, wenn in der rechten 

Seite von (3.42) yj+1 durch einen expliziten Eulerschritt approximiert wird. 

89

Ein Vorteil der impliziten RK Verfahren ist die höhere erreichbare Konsistenzordnung, 

da mehr Parameter als bei den expliziten Verfahren angepasst werden können. 

Die maximalen Konsistenzordnungen bei Stufe l sind 

(1): Allgemeiner Fall (Gauß-Form): maximale Konsistenzordnung = 2l 

(2): Radau-Form: maximale Konsistenzordnung = 2l − 1 

0 0 . . . 0 

α2 β21 . . . β2l 

. 

. 

αl βl1 . . . βll 

. 

γ1 . . . γl 

α1 β11 . . . β1l−1 0 

α2 

. 

. . . . 

1 βl1 . . . βll−1 0 

γ1 . . . γl−1 γl 

Hier ist nur ein Gleichungssystem in (x2, . . .,xl) (da k1 = f) bzw. (x1, . . .,xl−1) (da 

k1, . . .,kl unabhängig von kl) (vgl. (3.38)) zu lösen. 

(3): Labatto-Form: maximale Konsistenzordnung = 2l − 2 

0 0 . . . 0 0 

α2 β21 . . . β2l−1 0 

. 

. 

αl−1 βl−1,1 . . . βl−1,l−1 . 

1 βl,1 . . . βl,l−1 0 

γ1 . . . γl−1 γl 

Die angegebenen Konsistenzordnungen sind die maximal erreichbaren (ohne Beweis, 

siehe [Deuflhard/Bornemann] oder [Strehmel/Weiner]). 

In Abschnitt 1.4 werden Beispiele dafür entwickelt werden. 

Die eindeutige Auflösbarkeit des Gleichungssystems (3.38) für kleine h wird gesichert 

durch: 

Satz 3.15 1) Zu jeder Umgebung V von {(t, f(t, y(t))) | t ∈ I} existieren eine 

Umgebung U von {(t, y(t)) | t ∈ I}, wobei y die Lösung von (A) ist, und ein 

90 

. 

. 

. 

.

H > 0, so dass für h ≤ H und (t, y) ∈ Ih ×R n ∩U (3.38) eine eindeutige Lösung 

(x1, . . ., xl) ∈ R nl besitzt, d.h. ki(t, h, y) = xi, i = 1, . . ., l, und 

(t, ki(t, h, y)) ∈ V für (t, y) ∈ Ih × R n ∩ U, h ≤ H. (3.43) 

2) Ist f global Lipschitzstetig in y mit Lipschitzkonstante L, so reicht für H 

q := HL l 

max 

µ=1 

l� 

ν=1 

und (x,i)i ist Grenzwert der Fixpunktiteration 

x (r) 

,i 

– Zur Notation – 

= f 

� 

t + αih, y + h l� 

ν=1 

|βµν| = HL�β�∞ < 1 (3.44) 

βiνx (r−1) 

� 

,ν 

r = 1, . . ., x (0) 

,i := f(t, y) (zum Beispiel) 

x = xj,i, dabei sind, 

j = 1, . . .,N + 1 für die j-ten Schritt, 

i = 1, . . .,l für die Stufen. 

Wird ein Index unterdrückt, wird x = x,i b ... x = xj, benutzt. 

, i = 1, . . ., l , 

(3.45) 

Beweis: 

Wie beweisen nur 2), 1) kann darauf zurückgeführt werden. (3.38) hat die Fixpunktgestalt 

� 

l� 

� 

x = F(x) mit Fi(x) = f t + αih, y + h , i = 1, . . .,l 

ν=1 

βiνx,ν 

für feste t, h, y. Es reicht also zu zeigen, dass F eine Kontraktion in R nl ist: 

Es gilt für x = (x,ν)ν, z = (z,ν)ν mit xν, zν ∈ R n : 

�Fi(x) − Fi(z)� ≤ Lh l� 

|βiν| �x,ν − z,ν� 

ν=1 

≤ q�x − z� für h ≤ H, 

wenn etwa � · � = � · �∞ auf R n und dann auch auf R nl gewählt wird. Also: 

�F(x) − F(z)� ≤ q�x − z� für x, z ∈ R nl 

91 

✷

Es gibt also eine Umgebung Û von {(t, y(t)) | t ∈ I} und H > 0, so dass ki und damit 

fh = l� 

γiki dort wohldefiniert sind. 

i=1 

Bestimmt man die ki nach (3.45), so gilt (→ Numerik I): 

� � 

� (r) 

x − x� q 

≤ r � 

� (1) (0) 

x − x 

1 − q 

� � (3.46) 

Man beachte, dass die Näherung yj+1 und damit (ki(tj, hj, yj)) i =: (xj+1,i)i nur in 

der Genauigkeitsordnung berechnet werden muss, wie yj+1 den exakten Werte y(tj+1) 

approximiert. Da bestenfalls asymptotische Fehlerabschätzungen 

�y(tj+1) − yj+1� ≤ C1h p 

mit einer schwer scharf abzuschätzenden Konstante C1 bekannt sind (siehe die obigen 

Konsistenzordnungsaussagen und dann Satz 3.22) ist eine solche Überlegung asymptotisch 

in h zu verstehen. Berechnet man also anstelle der korrekten Näherung 

nur 


y (r) 

j+1 = y(r) j + hj 

dann gilt für den Fehler der Iteration wegen 

l� 

i=1 

l� 

i=1 

�yj+1 − y (r) 

j+1� ≤ �yj − y (r) 

j � + hj 

γixj+1,i 

γix (r) 

j+1,i , 

l� 

i=1 

γi�xj+1,i − x (r) 

j+1,i � 

≤ �yj − y (r) 

j � + hj�xj+1, − x (r) 

j+1, �∞ 

nach dem diskreten Lemma von Gronwall (Lemma 1.4) 

�yj − y (r) 

j 

j−1 � 

� ≤ 

Also sollten die Iterationen x (r) 

j, erfüllen: 

k=0 

hk�xk, − x (r) 

k, �∞ 

≤ (T − t0)�xj, − x (r) 

j, �∞. 

�xj, − x (r) 

j, �∞ ≤ C2h p . 

Dies ist wegen (3.46) im Fall q

und wegen q ∼ h durch 

r = p 

oder zur Sicherheit r = p+1 also eine kleine Iterationsanzahl. Für q nahe bei 1 gilt diese 

Überlegung nicht und eine Lösung der Fixpunktgleichung (als Nullstellenproblem) mit 

dem Newton-Verfahren ist vorzuziehen. Dies benötigt aber zusätzlich zu Auswertungen 

von f auch solche von ∂f 

∂y . 

Implizite Einschrittverfahren (wie die impliziten RK Verfahren) ordnen sich in die 

Definition (Ah) von Definition 3.5 ein, die dann zur Definition eines allgemeineren 

Einschrittverfahrens wird: Man muss dazu nur zulassen, dass fh eventuell nicht explizit 

gegeben ist, sondern sich fh(t, y) durch Lösen eines Gleichungssystems ergibt. Dazu ist 

eventuell der Definitionsbereich einzuschränken auf Ih ×R n ∩U, wobei U eine geeignete 

Umgebung von {(t, y(t) | t ∈ I} darstellt (siehe Satz 3.15). In diesem Sinn ist auch die 

Definition des lokalen Abbruchfehlers Definition 3.8 zu interpretieren. 

Lemma 3.16 Es gibt H > 0, so dass für h ≤ H gilt: Das implizite RK Verfahren ist 

konsistent mit (A) für alle zulässigen f ⇐⇒ l� 

γi = 1. 

Beweis: 

Identisch mit Lemma 3.12. 

“ ⇒” “ ⇐” braucht Beschränktheit der ki(t, h, y(t)) für h < H. 

Für die Beispiele gilt: 

Satz 3.17 Sei f ∈ C 2 (U), dann haben (3.41) und (3.42) die Konsistenzordnung 1 

und: 

Konsistenzordnung = 2 ⇐⇒ µ = 1 

2 . 

Ordnung 3 ist i. Allg. nicht möglich. 

Beweis: 

Zu (3.42) ((3.41) analog). 

Sei t ∈ Ih, h ≤ H, so dass fh wohldefiniert für (y, t) ∈ Û, wobei Û nach Satz 3.15. 

τh(t) = 1 

(y(t + h) − y(t)) − (1 − µ)f(y(t)) − µf(y(t + h)) , 

h 

93 

i=1 

✷

wobei oBdA. f autonom wegen (3.39), (3.40) angenommen wurde und eine skalare 

Gleichung (n = 1) betrachtet wird. Also: (ohne Argument “y(t)”) 

Taylorentwicklung liefert wegen (3.2) 

τh(t) = f + f ′ f h 

2 + O(h2 ) − (1 − µ)f − µy ′ (t + h) 

= µf + f ′ f h 

= 

� � 

1 

− µ 

2 

2 + O(h2 ) − µf − µy ′′ (t)h + O(h 2 ) 

f ′ f h + O(h 2 ). 

Die obige Definition von τh(t) ist nicht ganz korrekt: Eigentlich ist der letzte Summand 

−µf(y(t + h)) zu ersetzen durch −µk2(y(t)). Aber wegen 

bedeutet dies 

also mit Taylorentwicklung 

−µk2(y(t)) = −µf(y(t) + h(1 − µ)f(y(t)) + hµk2(y(t))) 

−µk2(y(t)) = −µf(−hτh(t) + y(t + h)) 

−µk2(y(t)) = −µf(y(t + h)) 

+ µhτh(t)f ′ (y(t + h)) + 0(h2τ 2 h (t)) . 

Der erste Summand ist der oben benutzte, die Weiteren können in die � linke � Seite von 

1 

(∗) inkorporiert werden, was für h < H einen Vorfaktor C etwa aus , 2 ergibt, was 

2 

nichts an der Aussage ändert. 

3.3 Stabilität und Konvergenz 

Bis jetzt wurde nur der lokale Abbruchfehler τh(t) bei Annahme einer exakten Arithmetik 

mit exakter Auswertung von f betrachtet. Wir wollen nun den globalen Fehler 

y(tj) − yh(tj) bei exakter Rechnung bzw. y(tj) − ˜yh(tj) bei Rechnung in endlicher 

Arithmetik abschätzen. Dazu müssen wir wissen, wie das Einschrittverfahren (Ah) auf 

Störungen von fh und y0 reagiert, da 

y(tj) − ˜yh(tj) = y(tj) − yh(tj) + yh(tj) − ˜yh(tj) (3.47) 

94 

(∗) 

✷

und 

Dhyh(t) = fh(t, yh(t)), t ∈ Ih, yh(t0) = y0, (3.48) 

Dhy(t) = fh(t, y(t)) + τh(t), t ∈ Ih, y(t0) = y0, (3.49) 

Dh˜yh(t) = fh(t, ˜yh(t)) + ρh(t) 

h(t) , t ∈ Ih, y(t0) = ˜y0. (3.50) 

Dabei ist ˜y0 der gerundete Startwert und ρh(tj) der im Schritt tj ❀ tj+1 entstehende 

Rundungs- und Auswertungsfehler, d.h. 

�ρh(t)� ist beschränkt gleichmäßig in h ≤ H , 

i. Allg. in der Ordnung der Maschinengenauigkeit, aber 

nicht �ρh(t)� → 0 für h → 0. 

Die minimale Stabilitätsanforderung lautet also: 

(3.51) 

Definition 3.18 Das Einschrittverfahren (Ah) heißt asymptotisch stabil, wenn ein 

H > 0 existiert, so dass es zu ε > 0 ein δ > 0 gibt mit: 

Ist zh : I ′ h → Rn eine Lösung von 

dann gilt 

Dhzh(t) = fh(t, zh(t)) + σh(t), t ∈ Ih 

zh(t0) = y0 + β0 , 

�β0� + �σh�h ≤ δ ⇒ �yh − zh�h ≤ ε gleichmäßig in h ≤ H (!) 

Der Begriff ist gegenüber Grigorieff I etwas abgeschwächt. 

Es folgt sofort: 

(3.52) 

Satz 3.19 Ist (Ah) konsistent mit (A) und asymptotisch stabil, so ist (Ah) konvergent. 

95

Beweis: 

Sei H > 0 nach Definition 3.18, ε > 0 beliebig und δ > 0 dazu nach Definition 3.18. 

Wegen der Konsistenz gibt es Hδ > 0 mit 

also wegen (3.52), (3.49) 

�τh�h ≤ δ für h ≤ Hδ 

�yh − y�h ≤ ε für h ≤ min(H, Hδ). 

Um auch eine Konvergenzordnung zu erhalten, muss die Stetigkeitsbeziehung in Definition 

3.18 quantifiziert werden. Dies geschieht durch die hinreichende Bedingung 

Definition 3.20 Das Einschrittverfahren (Ah) heißt Lipschitzstetig (L-stetig) in 

einer Umgebung U der Lösung y von (A), wenn es H > 0, L ≥ 0 gibt mit 

�fh(t, x) − fh(t, y)� ≤ L�x − y� 

für alle (t, x), (t, y) ∈ U ∩ Ih × R n , h ≤ H. 

Ist U = I × R n , heißt (Ah) global Lipschitzstetig. 

Satz 3.21 (Ah) sei konsistent mit (A) und L-stetig in einer Umgebung U von y. Dann 

ist (Ah) asymptotisch stabil. Genauer: 

Es gibt H0 > 0, δ0 > 0, so dass für h ≤ H0, �σh�h ≤ δ0 für die Lösung zh von (3.52) 

gilt 

�yh − zh�h ≤ (�β0� + (T − t0)�σh�h) exp(L(T − t0)). (3.53) 

Dabei ist L die Lipschitzkonstante von fh. 

Beweis: 

(1) fh sei global Lipschitzstetig: 

Sei h ≤ H0 := H aus Definition 3.20, δ0 beliebig. Setze 

e0 := �yh(t0) − zh(t0)� = �β0� , 

ej := �yh(tj) − zh(tj)� = �yj − zj� . 

Dann folgt aus (3.52), (3.48) 

yj+1 − zj+1 = yj − zj + hj(fh(tj, yj) − fh(tj, zj)) − hjσh(tj) 

96 

✷

⇒ 

ej+1 ≤ ej + hjLej + hj�σh(tj)�, j = 0, . . .,N 

⇒ 

Lemma 3.4, 1) 

ej ≤ 

� 

e0 + 

j−1 � 

k=0 

⎛ 

⎞ 

� ⎜j−1 

⎟ 

⎜� 

⎟ 

hk�σh(tk)� exp ⎜ hk ⎜ L ⎟ , 

⎝k=0 

⎠ 

� �� 

tj−t0 

für j = 0, . . ., N + 1 (3.54) 

⇒ bzw. direkt aus Lemma 3.4, 2) 

�yh − zh�h = �e�h ≤ 

� 

e0 + N� 

k=0 

� 

hk�σh�h exp((T − t0)L) 

≤ (�β0� + (T − t0)�σh�h) exp((T − t0)L) 

Man beachte: Bis auf den Austausch von f durch fh ist also den Beweis identisch 

mit den von Satz 3.13 (siehe auch Überlegung nach Beweis von Lemma 3.4). Bis 

jetzt ist die Konsistenz nicht benutzt worden und die Abschätzung gilt auch ohne 

eine Kleinheitsannahme an �σh� h . 

(2) fh lokal L-stetig in y: wird auf (1) zurückgeführt. 

Skizze: fh wird außerhalb U konstant in y zu einem global L-stetigen ˆ fh fortgesetzt. 

Die dazugehörigen ˆyh, ˆzh erfüllen nach (1) die Abschätzung (3.53). Es 

reicht zu zeigen, dass für h ≤ H0, �σh�h ≤ σ0 gilt 

Also: 

ˆyh = yh, ˆzh = zh 

und dafür reicht (t, ˆyh(t)), (t, ˆzh(t)) ∈ U, da dort fh = ˆ fh. Dies wird mittels der 

Konsistenz gezeigt. 

Satz 3.22 (Ah) sei konsistent mit (A) und L-stetig in einer Umgebung U von y. Dann 

gibt es ein H > 0 so dass für h ≤ H : 

�yh − y�h ≤ (T − t0) exp(L(T − t0))�τh�h . (3.55) 

Insbesonderes impliziert die Konsistenzordnung p die Konvergenzordnung p. 

97 

✷

Beweis: 

Es ist β0 = 0 und σh = τh und �σh�h ≤ δ0 (δ0 nach Satz 3.21) gilt für h ≤ H wegen 

der Konsistenz, also (3.53) ⇒ (3.55). 

✷ 

Für die rundungsfehlerbehaftete Rechnung impliziert Satz 3.21 

Korollar 3.23 (Ah) sei konsistent mit (A) und fh sei global Lipschitzstetig. Dann gilt: 

� 

� 

1 

�yh − ˜yh�h ≤ �y0 − ˜y0� + (T − t0) �ρh�h exp(L(T − t0)) 

hmin 

(3.56) 

wobei hmin = N 

min 

j=0 hj . 

Beweis: Nach dem Teil (1) des Beweis von Satz 3.50 darf in (3.53) δ0 > 0 beliebig 

gewählt werden, so dass die Abschätzung für β0 = y0 − ˜y0 und σh = ρh 

anwendbar ist. 

h 

✷ 

Bei Konvergenz für h → 0 geht also der erste Fehleranteil in (3.47) gegen 0, der zweite 

aber gegen +∞, also 

Gesamtfehler 

h opt 

Diskretisierungsfehler5y h-y5h 

Rundungsfehler5y h-yh5h ~ 

Es hat also keinen Sinn, die Schrittweite h beliebig klein zu machen, vielmehr gibt es 

ein optimales hopt. 

Die Konvergenz der RK Verfahren wird gesichert durch 

98 

h

Satz 3.24 Ein (implizites) RK Verfahren fh ist Lipschitzstetig in einer Umgebung U 

von y. Gilt also l� 

γi = 1, d.h. ist fh konsistent, so ist fh asymptotisch stabil und 

i=1 

konvergent, es gilt (3.55) und Konsistenzordnung p impliziert Konvergenzordnung p. 

Beweis: 

Wegen Satz 3.21, ist nur die L-Stetigkeit von fh in U zu zeigen für h ≤ H; U, H 

geeignet. Nach (G2) existiert zu δ > 0, L = Lδ ≥ 0 mit 

�f(t, y1) − f(t, y2)� ≤ L�y1 − y2� für t ∈ I, 

yi ∈ Uδ(y(t)) := {y | �y − y(ti)� ≤ δ}. 

Nach (3.42) existiert δ1 ≤ δ, H, C ≥ 0 so dass für h ≤ H 

�ki(t, h, z)� ≤ C für t ∈ Ih, z ∈ Uδ1(y(t)) . (#) 

Es gibt also H1 ≤ H, mit h ≤ H1 ⇒ 

� 

zi + h � 

� 

βiνkν(t, h, zi) 

für z ∈ Uδ1(y(t)), t ∈ Ih. 

ν 

i 

∈ Uδ(y(t)) 

Sei �k� := l 

max 

i=1 �ki� und das Argument (t, h) werde weggelassen. 

Also gilt für x, z ∈ Uδ1(y(t)), t ∈ Ih, h ≤ H1 : 

�ki(x) − ki(z)� ≤ 

� 

�f t + αih, x + h � 

� � 

βiνkν(x) − f t + αih, z + h � 

⇒ 

ν 

≤ L�x − z� + hL�β�∞�k(x) − k(z)� für alle i = 1, . . .,l 

(G2) 

ν 

βiν kν(z) 

�k(x) − k(y)� ≤ (1 − hL�β�∞) −1 L�x − z� für h < 1/(L�β�∞) 

⇒ 

=: C1�x − z� 

�fh(t, h, x) − fh(t, h, z)� ≤ 

l� 

γiC1�x − z� 

i=1 

für h < H2 := min(H1, 1/(L�β�∞)) 

99 

� 

�

Die Abschätzung (3.55) ist für große L wegen des exponentiellen Faktors schlecht qualitativ 

zu verwenden, oft wird die Fehlerverstärkung sehr überschätzt. Die Herleitung 

von (3.55) über (3.53) läßt sich so veranschaulichen: 

y 

y 0 

y 1 

} 

exakte Lösung 

y 2 

} 

h 0 �(t ) 

0 

h 1 �(t ) 

1 

t0 t1 t2 t3 tN t 

t N+1=T 

�y(tN+1) − yN+1� ≤ 

y N 

y(t ) 

N+1 

y N+1 

}E N 

y zu (t ,y ) 

N N 

} 

} 

globaler Fehler 

e N+1= 5 y(t )-y 5 

E 2 

E 1 

N� 

�Ei� ≤ . . . 

i=1 

N+1 N+1 

=Verfahrensschritt 

Alternativ kann der globale Fehler auf Fortpflanzung des lokalen Fehlers zurückgeführt 

werden. Die Lösung von (A) für t ≥ t zum Startwert y werde bezeichnet mit 

t ↦→ y(t; t, y) . (3.57) 

Die auftretenden Lösungen von (A) mögen in den verwendeten Intervallen eindeutig 

existieren, dann 

Definition 3.25 Sei y die exakte Lösung von (A), d. h. y = y(., t0, y0), yh die Näherungslösung 

nach (Ah). Dann heißt 

der lokale Fehler von (Ah). 

lh : I ′ h \{t0} → R n , 

lh(tj) := y(tj; tj−1, yj−1) − yj, j = 1, . . .,N, 

100 

✷

Der lokale Fehler von (Ah) ist eng mit dem lokalen Abbruchfehler verwandt: In 

beiden Fällen wird ein lokaler Schritt tj ❀ tj+1 betrachtet und die Evolution der 

Näherungslösung zu yj = y (die diskrete Evolution) mit der der exakten Lösung 

zu y(tj) = y (der kontinuierlichen Evolution) verglichen. In Definition 3.8 ist 

y = y(tj; t0, y0), in Definition 3.25 ist y = yj zum Startwert y0 bei t0. Nach Definition 

entspricht so also lh(tj+1) den Ausdruck hjτh(tj). Da für j = 0 die jeweiligen 

Startwerte zusammenfallen, gilt also insbesondere 

lh(t1) = h0τh(t0) . 

Wenn bei den bisherigen Überlegungen zur Konsistenzordnung der Startwert der jeweiligen 

Evolutionen bei t = tj keine Rolle spielt, überträgt sich also unter Berücksichtigung 

des h-Faktors das Ordnungsverhalten des Konsistenzfehlers auf den des lokalen 

Fehlers: 

Es ist lh(t1) = h0τh(t0). Bei der Bestimmung der Konsistenz(ordnung) wird aber ohne 

Beschränkung der Allgemeinheit dieser Schritt des Verfahrens untersucht. Für lh gelten 

also analoge Abschätzungen wie für hτh, d. h.: 

Hat (Ah) die Konsistenzordnung p, so gibt es C, H > 0, so daß für h ≤ H : 

�lh(tj)� ≤ Ch p hj−1 . (3.58) 

Die alternative Abschätzung des globalen Fehlers benutzt nun die stetige Abhängigkeit 

von Lösungen von (A) unter schwächeren Voraussetzungen als Lipschitzstetigkeit: (Die 

Begriffe gelten der Einfachheit halber global). 

Definition 3.26 Sei (., .) ein Skalarprodukt auf R n , �x� := (x, x) 1/2 . 

Sei f : I × R n → R n . f heißt einseitig Lipschitzstetig in y, wenn es ein l ε C(I) 

gibt, die einseitige Lipschitzkonstante, so dass 

(f(t, y) − f(t, z), y − z) ≤ l(t)�y − z� 2 

Beachte: l ≥ 0 ist nicht gefordert! 

Bemerkung 3.27 

für alle t ∈ I, y, z ∈ R n . 

1. Ist f Lipschitzstetig, dann auch einseitig Lipschitzstetig mit gleicher Konstante, 

da 

|(f(t, y) − f(t, z), (y − z))| ≤ �f(t, y) − f(t, z)� �y − z� 

CSU 

≤ L�y − z� 2 . 

101

2. Ist l ≡ 0 möglich, d. h. 

(f(t, y) − f(t, z), y − z) ≤ 0 für alle t ∈ I, y, z ∈ R (3.59) 

dann heißt f dissipativ. 

Für n = 1 gilt: 

f dissipativ ⇐⇒ 

f(t, .) monoton fallend in y für alle t ∈ I 

Beachte, dass die Begriffe von der Wahl von (., .) abhängen. 

Satz 3.28 Seien y, z die Lösungen von (A) zu Anfangswerten y0, z0, f habe die einseitige 

Lipschitzkonstante l, dann gilt: 

⎛ 

�t 

⎞ 

�y(t) − z(t)� ≤ exp ⎝ l(s) ds⎠ 

�y0 − z0� für alle t ∈ I. (3.60) 

Beweis: 

ϕ(t) : = �y(t) − z(t)� 2 für t ∈ I, dann: 

ϕ ′ (t) = d 

(y(t) − z(t), y(t) − z(t)) 

dt 

Sei 

= 2(y ′ (t) − z ′ (t), y(t) − z(t)) 

= 2(f(t, y(t)) − f(t, z(t)), y(t) − z(t)) 

t0 

≤ 2l(t) �y(t) − z(t)� 2 = 2l(t) ϕ(t) (∗) 

⎛ 

� 

η(t) : = exp ⎝−2 

t0 

(ϕη) ′ = ϕ ′ η + ϕη ′ = ϕ ′ η + ϕη(−2l) 

→ Behauptung 

t 

⎞ 

l(s)ds⎠, 

dann: 

= η(ϕ ′ − 2lϕ) ≤ 0 nach (∗), also 

ϕ(t)η(t) ≤ ϕ(t0)η(t0) für t ∈ I, also 

⎛ ⎞ 

�t 

ϕ(t) ≤ exp ⎝2 l(s)ds⎠ 

ϕ(t0) 

102 

t0 

✷

Satz 3.29 Sei y die Lösung von (A), yh die Lösung von (Ah). f sei einseitig Lipschitzstetig 

mit Konstante l, dann: 

Dabei ist 

�y(tN+1) − yN+1� ≤ 

N+1 � 

i=1 

� 

exp( 

tN+1 

ti 

�y� := (y, y) 1/2 . 

Ist also l konstant und gilt (3.58), so folgt für h ≤ H : 

wobei 

�y(tN+1) − yN+1� ≤ C(T − t0)h p , 

l(s) ds) �lh(ti)� (3.61) 

�y(tN+1) − yN+1� ≤ C′ 

l exp(l(T − t0) − 1)h p , (3.62) 

C ′ := 

� C für l ≥ 0 

und C die Konstante aus (3.58) darstellt. 

Beweis: Es ist 

wobei 

C exp(−lh) für l < 0, h := hmax 

y(tN+1) − yN+1 = y(tN+1; t0, y0) − y(tN+1; tN+1,yN+1) 

= y(tN+1; t0, y0) − y(tN+1; t1, y1) + y(tN+1; t1, y1) 

−... − y(tN+1; tN+1,yN+1) ⇒ 

E := �y(tN+1) − yN+1� ≤ 

N+1 � 

i=1 

Ei, (∗) 

Ei := �y(tN+1; ti, yi) − y(tN+1; ti−1, yi−1)� . 

Wegen Eindeutigkeit der Lösungen von (A) gilt: 

y(tN+1; ti−1, yi−1) = y(tN+1; ti, y(ti; ti−1, yi−1)) 

und somit nach Satz 3.28 mit ti als Anfangspunkt in (3.60): 

⎛ 

� 

Ei ≤ exp ⎝ 

tN+1 

ti 

⎞ 

l(s)ds⎠ 

� yi − y(ti; ti−1, yi−1) � . 

� �� 

=lh(ti) 

103

Mit (∗) gilt also (3.61). 

Zu (3.62). Für h ≤ H ist 

E ≤ 

N+1 � 

i=1 

exp((tN+1 − ti)l) hi−1 

� �� 

Die Summe � darin läßt sich abschätzen durch 

�T 

t0 

T 

� 

t0 

P 

Ch p max 

exp(l · (T − s))ds für l ≥ 0 , 

exp(l · (T − h − s))ds für l < 0 , 

denn für l ≥ 0 ist nämlich ϕ(t) = exp(l(T − t)), t ∈ I, monoton fallend und � die 

Riemannsumme von ϕ mit Funktionswert vom rechten Teilintervallende. 

Für l < 0 ist ϕ(t) := exp(l(T − h − t)) monoton wachsend, d. h. 

da ti−1 + h ≥ ti, also 

�T 

t0 

ϕ(ti−1) ≥ exp(l(tN+1 − ti)) , 

ϕ(s)ds ≥ 

N+1 � 

l=1 

ϕ(ti−1)hi−1 ≥ � . 

Für l = 0 ist also (3.62) klar, so ergibt sich die Behauptung aus 

�T 

für l > 0 und entsprechend für l ≤ 0 aus 

�T 

t0 

t0 

exp(l(T − s))ds = 1 

l (exp(l(T − t0)) − 1) 

exp(l(T − s − h))ds = exp(−lh) 1 

l (exp(l(T − t0)) − 1) . 

104 

✷

Für Lipschitzstetiges f und l = Lipschitzkonstante entspricht (3.62) also (3.55), für 

l ≤ 0 ist es aber eine deutliche Verbesserung, etwa gilt für f dissipativ: 

�y(tN+1) − yN+1� ≤ C(T − t0)h p für h ≤ H. 

Die entsprechende Skizze zu Satz 3.29 ist: 

y 0 

y 1 

exakte Lösung 

l (t ) 

h 1 

y 2 

l (t ) 

h 2 

t0 t1 t2 t3 tN t 

t N+1=T 

y N 

y(t ) 

N+1 

y N+1 

} E1 y=y(.,t 1,y 1) 

E2 } 

} 

E N+1 

=Verfahrensschritt 

3.4 Implizite Runge–Kutta-Verfahren und Kollokation 

Ein weiterer einsichtiger Ansatz zur Konstruktion von Einschrittverfahren (Ah) für (A) 

ist der folgende: 

Es seien α1 < α2 < · · · < αl gegeben, im Allgemeinen, aber nicht zwingend mit 

αi ∈ [0, 1]. 

Die Näherungslösung yj zu t = tj sei bekannt, dann wird yj+1 zu tj+1 dadurch bestimmt, 

dass ein (vektorwertiges) u ∈ Πl(R) durch die folgenden l + 1 Bedingungen bestimmt 

wird: 

u(tj) = yj 

und dann 

u ′ (tj + αihj) = f(tj + αihj, u(tj + αihj)) für alle i = 1, . . ., l (3.63) 

yj+1 = u(tj+1) . 

105

Auf [tj, tj+1] wird also eine polynomiale Näherungslösung durch die Forderung festgelegt, 

in tj +αihj, i = 1, . . .,l, die Differentialgleichung exakt zu erfüllen. Einen solchen 

Ansatz nennt man Kollokation und die tj + αihj Kollokationspunkte. Ein solches 

Kollokationsverfahren ist gerade ein (implizites) RK Verfahren 

Satz 3.30 Seien li(τ) := l� 

� 

l� 

(τ − αk) (αi − αk) ∈ � 

für i = 1, . . .,l, 

und setze 

k=1 

k�=i 

βiν := 

γi := 

�αi 

0 

1 

� 

0 

k=1 

k�=i 

l−1 

lν(s)ds , i, ν = 1, . . .,l 

li(s)ds , i = 1, . . .,l . 

(3.64) 

Dann ist die Kollokationsmethode (3.63) identisch mit dem (impliziten) RK Verfahren 

definiert durch α, β und γ durch das Schema 

α β 

Beweis: Nach Numerik I, Abschnitt 5.1 kann das vektorwertige u ′ ∈ � 

l−1 geschrieben 

werden als 

� 

(t − tj) 

tj + 

� 

u ′ (t) = u ′ 

= 

γ 

hj 

hj 

l� 

li((t − tj)/hj)u ′ (tj + αihj) , 

i=1 

da auch die rechte Seite in � 

l−1 liegt und die gleiche Interpolationsaufgabe in tj +αihj, 

i = 1, . . .,l, löst. Also nach Ansatz 

u ′ l� 

(t) = li((t − tj)/hj)f(tj + αihj, u(tj + αihj)) . 

i=1 

Wegen u(tj) = yj folgt durch Aufintegration 

u(t) = yj + 

l� 

� 

ν=1 

tj 

t 

lν((s − tj)/hj)dsf(tj + ανhj, u(tj + ανhj)) 

und daraus durch Variablentransformation im Integral 

u(t) = yj + hj 

l� 

ν=1 

(t−tj)/hj � 

0 

lν(s)dsf(tj + ανhj, u(tj + ανhj)) . (3.65) 

106

Für die Vektoren 

ξi := u(tj + αihj) 

impliziert (3.65) also das Gleichungssystem 

ξi = yj + hj 

l� 

βiνf(tj + ανhj, ξν) (3.66) 

ν=1 

und für t = tj+1 die Bestimmungsgleichung für yj+1 : 

yj+1 = u(tj+1) = yj + hj 

l� 

γif(tj + αihj, ξi) . (3.67) 

Es liegt also genau ein implizites RK Verfahren in der in (3.79)–(3.81) zu entwickelnden 

äquivalenten Form mit zi = ξi (s.u.) vor. Die Form (3.37) erhalten wir für 

i=1 

ki(tj, hj, yj) := f(tj + αihj, ξi) , i = 1, . . .,l . 

Dann ist natürlich, für ki = ki(tj, hj, yj): 

und damit 

Ausserdem beachte man 

ξi = yj + hj 

� ν = 1 l βiνkν 

ki = f(tj + αihj, yj + hj 

l� 

βiν = 

ν=1 

l� 

ν=1 

� Pl αν 

ν=1 lν(s)ds=R αi 0 1ds 

0 

βiνkν) 

= αi. 

Nicht jedes implizite RK Verfahren wird durch Kollokation erzeugt. 

Für l = 2 und α1 = 0, α2 = 2 

erhält man nach (3.64) das RK Verfahren 

3 

0 0 0 

2 

3 

mit Konsistenzordnung 3 (siehe oben: Radau-Form). 

Ein weiteres implizites RK Verfahren der Stufe 2 mit Ordnung 3 ist gegeben durch 

1 

3 

1 

4 

107 

1 

3 

3 

4 

✷ 

(3.68)

0 

2 

3 

1 

4 −1 

4 

1 

4 

1 

4 

5 

12 

3 

4 

(3.69) 

das wegen β1ν �= 0 mit α1 = 0 nicht durch Kollokation erzeugt worden sein kann. Bei 

der vorliegenden Gauß-Form kann man aber prinzipiell auch p = 4 erreichen. Für die 

Konsistenz-/Konvergenzordnungsanalyse von Kollokationsverfahren benutzen wir 

Lemma 3.31 (von Alekseev-Gröbner). 

Die Lösung y von (A) werde mit einer glatten Funktion v mit v(t0) = y0 verglichen. 

Dann gilt: Es gibt eine Abbildung Φ = Φ(t, τ, v), so dass 

Dabei ist 

v(t) − y(t) = 

�t 

t0 

Φ(t, τ, v(τ))d(τ, v)dτ 

für alle t ∈ [t0, T] . 

(3.70) 

d(t, v) := v ′ (t) − f(t, v(t)) . (3.71) 

Φ = Φ(t, τ, v) erhält man als Jacobi-Matrix der Abbildung v ↦→ w(t), wobei w die 

Lösung von 

w ′ = f(t, w), w(τ) = v (3.72) 

bezeichnet. 

Beweis: Siehe [Deuflhard/Bornemann]. 

Lemma 3.31 ist also eine Störungsaussage wie Satz 2.3. Besonders einfach (zu beweisen) 

wird (3.70) für den linearen Fall 

y ′ = Ay , y(t0) = y0 , 

für A ∈ R n,n , (wenn eine Basis aus Eigenvektoren von A existiert). Da auch für e(t) := 

v(t) − y(t) 

e ′ (t) = Ae(t) + d(t, v), e(t0) = 0 

gilt, kann zur Darstellung von e die Variation-der-Konstanten-Formel benutzt werden: 

e(t) = 

�t 

t0 

e A(t−τ) d(τ, v)dτ , 

108 

✷

was gerade die Behauptung in dem Spezialfall darstellt, denn (3.72) hat die Lösung 

und so 

w(t) = e A(t−τ) v 

∂w(t) 

∂v = eA(t−τ) . 

Ein Kollokationsverfahren ist nach Lemma 3.16 immer konsistent, denn 

l� 

γi = 

i=1 

�1 

0 

l� 

1li(s)ds = 

i=1 

�1 

0 

1ds = 1 . 

Satz 3.32 Seien α1 < · · · < αl gegeben, αi ∈ [0, 1]. Sei w(τ) := l� 

(τ − αi). Gilt für 

ein 0 ≤ m ≤ l 

�1 

0 

w(τ)τ j = 0 für alle j = 0, . . ., m − 1, (3.73) 

dann hat das Kollokationsverfahren zu αi die Konsistenzordnung l + m, sofern f hinreichend 

glatt ist. Insbesondere ist die Konsistenzordnung also mindestens l. 

Beweis: Man betrachte die Quadraturformel 

�1 

0 

g(x)dx ∼ Il(g) := 

Dass Ih(g) exakt ist auf � 

l−1 , ist äquivalent zu 

also zu 

B(l) : 

Dies gilt hier, da 

l� 

i=1 

Il(x k−1 ) = 

l� 

i=1 

�1 

0 

α k−1 

�1 

i γi = 

0 

t k−1 dt = 1 

k 

γiα k−1 

i 

l� 

i=1 

1 

= 

k 

i=1 

l� 

γig(αi) . (3.74) 

i=1 

für k = 1, . . ., l 

, k = 1, . . .,l . (3.75) 

α k−1 

�1 

i li(s)ds = 

109 

0 

s k−1 ds = 1 

k .

Dabei ist die folgende Identität eingegangen: 

l� 

i=1 

α k−1 

i li(t) = t k−1 , 

was sofort aus der Übereinstimmung für t = αi folgt. Wie bei der Gauß-Quadratur mit 

Gewichtsfunktion 1 (d.h. m = l) sichert die Orthogonalitätsbedingung, dass Il sogar 

auf � 

l+m−1 exakt ist (siehe Numerik I, Satz 6.8): 

Sei p ∈ � 

l+m−1 , dann kann man p schreiben als 

und so 

p(x) = w(x)q(x) + r(x) mit q ∈ Πm−1, r ∈ Πl−1 

�1 

0 

p(x)dx = 

�1 

0 

w(x)q(x)dx + 

= 0 + Il(r) = Il(p) , 

da auch w(αi)q(αi) = 0 für alle i = 1, . . ., l. 

Damit folgt die Behauptung aus dem folgenden Lemma. 

�1 

0 

r(x)dx 

Die Bedingung (3.75) gehört zu den vereinfachenden Bedingungen von Butcher, 

nur unter denen im Allgemeinen implizite RK Verfahren untersucht werden. Weitere 

lauten 

l� 

C(l) : 

βiνα µ−1 

/µ für alle i, µ = 1, . . .,l (3.76) 

ν=1 

und sind hier auch erfüllt: 

l� 

ν=1 

ν = α µ 

i 

βiνα µ−1 

ν 

= 

= 

�αi 

l� 

α 

0 

ν=1 

µ−1 

ν lν(s)ds 

�αi 

s 

0 

µ−1 ds = 1 

µ αµ i . 

Insbesondere impliziert also µ = 1 die Bedingung (1.40), die sichert, dass das Verfahren 

angewendet auf ein nichtautonomes und sein äquivalentes autonomes Problem 

das Gleiche ergibt. Weiter ist (3.76) für µ = l unter den l-stufigen RK Verfahren mit 

Ordnung ≥ l charakterisierend für ein Kollokationsverfahren (siehe [Strehmel/Weiner], 

Satz 6.1.11) 

Lemma 3.33 Ein Kollokationsverfahren hat die Konsistenzordnung p ∈ N für hinreichend 

glatte f, genau dann wenn die durch (3.74) definierte Quadraturformel exakt ist 

für � 

p−1 . 

110 

✷

Beweis: Wir untersuchen den lokalen Fehler lh(tj+1). Dazu wird yj+1 = u(tj+1) als 

Lösung der Anfangswertaufgabe mit Störung d(·, u) nach (3.71) interpretiert und Lemma 

3.31 angewendet: 

lh(tj+1) = yj+1 − y(tj+1, tj, uj) 

= 

� 

tj+1 

tj 

= hj 

�1 

0 

Φ(tj+1, τ, u(τ))d(τ, u)dτ 

Φ(tj+1, tj + shj, u(tj + shj))d(tj + shj, u)ds . 

Hier wird das Integral mit I( ˜ Φ ˜ d) abgekürzt, wobei˜· andeutet, dass das Argument nicht 

s, sondern tj + shj ist. Also gilt 

� 

lh(tj+1) = hj Il( ˜ Φ ˜ d) + I( ˜ Φ ˜ d) − Il( ˜ Φ ˜ � 

d) 

� 

= hj I( ˜ Φ ˜ d) − Il( ˜ Φ ˜ � 

d) , 

da nach Definition des Kollokationsverfahrens für die Quadraturpunkte s = αi gilt: 

d(tj + αihj, u) = 0 für alle i = 1, . . .,l, 

denn dort wird die Differentialgleichung exakt erfüllt. 

Allgemein gilt für Quadraturformeln Il, die exakt sind für � 

p−1 : 

|I(f) − Il(f)| ≤ C�f (p) �∞ 

(vgl. Numerik I, S. 170 und ... ) für entsprechend glatte Integranden und eine Konstante 

C > 0. 

Daraus folgt 

|I( ˜ Φ ˜ d) − Il( ˜ Φ ˜ d)| ≤ Ch p 

j 

(3.77) 

da wegen des Arguments tj + shj entsprechende hj-Potenzen durch das Nachdifferenzieren 

entstehen. Man beachte aber, dass die Ableitungen von Φ, die alle mittels C in 

(3.77) abgeschätzt werden und Ableitungen von u beinhalten, von hj abhängen. Für 

einen exakten Beweis ist also noch zu verifizieren, dass sich diese Ableitungen (für kleine 

hj) unabhängig von hj beschränken lassen (siehe [Deuflhard/Bornemann], Lemma 

6.41). Also folgt 

�lh(tj+1)� ≤ Chjh p 

und damit die Behauptung, da die Rückrichtung klar ist, denn Quadratur ist der Spezialfall 

f(t, y) = f(t). 

111

Insbesondere liefert (3.73) bei m = l Verfahren mit der optimalen Konsistenzordnung 

2m. Dies bedeutet gerade, die Nullstellen der Legendre-Polynome (transformiert auf 

[0, 1]) als Kollokationspunkte αi zu wählen (siehe Numerik I, S. 185-187). Daher spricht 

man auch von Gauß-Legendre Verfahren. 

Als Beispiele erhält man 

l = 1 : α1 = 1 

2 

und so das Verfahren 

Das ist gerade das Crank-Nicolson-Verfahren. 

l = 2 : α1 = 1 

2 − 

√ 

3 

6 , α2 = 1 

2 + 

√ 

3 

6 

und so: 

1 

2 − 

√ 

3 

6 

1 

4 

1 

4 − 

1 

2 

√ 

3 

6 

+ 

√ 

3 

6 

1 

4 + 

√ 

3 

6 

1 

1 

4 

1 

2 2 

1 

2 

1 

2 

1 

✷ 

(3.78) 

Dies und eventuell auch das Gauß-Legendre Verfahren für l = 3 (und damit p = 6) 

sind noch zur Anwendung zu empfehlen: 

1 

2 − 

√ 

15 

10 

1 

2 

1 

2 + 

√ 

15 

10 

5 

36 

5 

36 + 

√ 

15 

24 

5 

36 + 

√ 

15 

30 

5 

18 

2 

9 − 

√ 

15 

15 

2 

9 

2 

9 + 

√ 

15 

15 

4 

9 

5 

36 − 

√ 

15 

36 

5 

36 − 

Das Beispiel (3.68) erfüllt (3.73) für m = 1, aber nicht für m = 2, was die erwähnte 

Konsistenzordnung 3 beweist. 

Radau-Formeln erhält man, in dem man α1 = 0 und damit nach (3.64) auch β1ν = 0 

für alle ν = 1, . . .,l wählt. Setzt man alternativ αl = 1, dann gilt nach (3.64) 

112 

5 

36 

5 

18 

√ 15 

24

γi = βli für alle i = 1, . . ., l . 

3.5 Spezielle Runge-Kutta-Verfahren und linear-implizite 

Verfahren 

Ein implizites RK Verfahren vom Gauß-Legendre Typ hat optimale Konsistenzordnung 

und auch gute Stabilitätseigenschaften für steife Systeme (siehe Abschnitt 3.11). Demgegenüber 

steht der Aufwand, das nichtlineare System (1.39) in R nl lösen zu müssen. 

Alternative Formulierungen ergeben sich für die Unbekannten zi ∈ R n mit 

zi := yj + hj 

für die das Gleichungssystem lautet 

zi = yj + hj 

l� 

βiνxν i = 1, . . ., l (3.79) 

ν=1 

l� 

βiνf(tj + ανhj, zν), i = 1, . . ., l, (3.80) 

ν=1 

und dann statt (1.38) yj+1 bestimmt aus 


l� 

γif(tj + αihj, zi) . (3.81) 

i=1 

Beachte, dass j immer als Index für den j-ten Zeitschritt vorbehalten ist, i bei zi aber 

wegen der l-Stufigkeit des Verfahrens (von yj nach yj+1) zustande kommt. 

Die zi sind also zu interpretieren als Näherungswerte für u an t + αih, die xi als Näherungswerte 

für u ′ (vgl. (3.66) ff.), also ist |zi−yj| höchstens in der Größenordnung O(h) 

zu erwarten. Um Auslöschung zu vermeiden, kann man statt dessen ein Gleichungssystem 

für 

betrachten, d.h. 

˜zi = h 

˜zi = zi − yj 

l� 

f(tj + ανhj, ˜zν + yj) , 

ν=1 


l� 

γif(tj + αihj, ˜zi + yj) . 

i=1 

In beiden Versionen (1.39) und (3.80) braucht eine Auswertung der rechten Seite bei 

gegebenen x bzw. z l Auswertungen von f, in (3.81) kommen nach Abschluss des 

113

(Iterations-) Verfahrens im Gegensatz zu (1.38) l weitere hinzu. Dies kann bei invertierbarer 

Matrix β vermieden werden: 

Allgemein betrachten wir zu einer Matrix A ∈ Rm,n die durch 

� 

n� 

� 

(F(x))i = , i = 1, . . .,m 

j=1 

aijxj 

für x = (xi)i, xi ∈ R l erzeugte lineare Abbildung von R nl nach R ml . Die darstellende 

Matrix hat die Gestalt 

A ⊗ I = 

⎛ 

⎜ 

⎝ 

a11I a12I · · · a1nI 

. 

am1I · · · · · · amnI 

. 

⎞ 

⎟ 

⎠ 

(3.82) 

für die Einheitsmatrix I ∈ R l,l , was mit dem Tensorprodukt A⊗I ∈ R ml,nl abgekürzt 

wird. Allgemein definiert (3.82) für B ∈ R kl anstelle von I das Tensorprodukt A ⊗B ∈ 

R mk,nl , das assoziativ ist und erfüllt: 

Sind A, B nichtsingulär, so auch A ⊗ B und 

Das folgt aus 

für A, C ∈ R m,m und B, D ∈ R n,n . 

Damit lässt sich (3.80) schreiben als 

(A ⊗ B) −1 = A −1 ⊗ B −1 . (3.83) 

(A ⊗ B)(C ⊗ D) = AC ⊗ BD (3.84) 

z = 1 ⊗ yj + hj(β ⊗ I)f , 

wobei (fi)i := (f(tj + αihj, zi))i , und (3.81) als 

yj+1 = yj + hj( γ T 

�� 

Zeile 

⊗I)f . 

Dabei ist 1 = (1, . . .,1) T ∈ R l , so dass 1 ⊗ yj aus l Kopien von yj hintereinander 

besteht, und I ∈ R n,n die Einheitsmatrix. 

Also folgt bei nichtsingulärem β 

f = 1 

(β ⊗ I) −1 (z − 1 ⊗ yj) 

hj 

= 1 

(β −1 ⊗ I)(z − 1 ⊗ yj) 

hj 

114

und also statt (3.81) 

yj+1 = yj + hj(γ T ⊗ I)f 

was erneute f-Auswertungen vermeidet. 

= yj + � γ T β −1 ⊗ I � (z − 1 ⊗ yj) , 

Ist so γ T speziell die s-te Zeile von β für ein s ∈ {1, . . ., l}, also γ T β −1 = e T s ∈ R1,l und 

damit 

γ T β −1 ⊗ I = (0, . . .,I, 0, . . ., 0), 

mit der Einheitsmatrix als s-ter Block, so dass insgesamt gilt: 

yj+1 = zs . 

Wenn sich die Auflösung von (3.80) durch Fixpunktiteration verbietet (vgl. Abschnitt 

3.11), empfiehlt sich das Newton-Verfahren, so dass für das Aufstellen des linearen 

Gleichungssystems für den (µ + 1)-ten Iterationsschritt die folgende Jacobi-Matrix als 

Koeffizientenmatrix auszuwerten ist: 

⎛ 

⎜ 

⎝ 

∂f 

� 

I − hjβ11 tj + α1hj, z 

∂y 

(µ) 

� 

∂f 

� 

1 , . . .... , −hjβ1l tj + αlhj, z 

∂y 

(µ) 

� 

l 

. 

. 

∂f 

� 

−hjβl1 tj + α1hj, z 

∂y 

(µ) 

� 

∂f 

1 , . . .... , I − hjβll 

∂y 

. 

. 

� 

tj + αlhj, z (µ) 

l 

Dabei ist z (µ) = (z (µ) 

1 , . . .,z (µ) 

l ) ∈ R nl die bekannte µ-te Iteration. Also sind l Jacobi 

Matrizen von f (in R n,n ) auszuwerten. Um den Aufwand zu reduzieren, ändert man 

das Verfahren oft zu einem vereinfachten Newton-Verfahren ab (vgl. Numerik I, 

Abschnitt 4.5), indem diese durch eine Auswertung von ∂f 

, und zwar an der Stelle 

∂y 

(tj, yj) approximiert wird. Man beachte dabei, dass |zi − yj| in der Größssenordnung 

O(h) zu erwarten ist. Steht ∂f 

nicht zur Auswertung zur Verfügung, kann dies wieder 

∂y 

durch Differenzenquotienten approximiert werden, wobei die Schlechtgestelltheit des 

numerischen Differenzieren zu beachten ist (siehe Numerik I, Abschnitt 2.7). Durch 

diese Modifikationen wird zwar der Aufwand reduziert, das quadratische Konvergenzverhalten 

geht aber verloren. Das Gleichungssystem für die Korrektur ∆˜z (µ) , wobei 

˜z (µ+1) = ˜z (µ) + ∆˜z (µ) , 

115 

� 

⎞ 

⎟ 

⎠

für die transformierten Größen ˜z = z − 1 ⊗ yj lautet also 

� 

Iln − hjβ ⊗ ∂f 

∂y (tj, 

� 

yj) 

wobei (fi)i = (f(tj + αihj, z (µ) 

i 

+ yj). 

∆˜z (µ) = −˜z (µ) + hj(β ⊗ In)f , 

Weitere Vereinfachungen ergeben sich für spezielle Formen von β, z.B. wenn β eine untere 

Dreiecksmatrix ist, so dass die nichtlinearen Gleichungssysteme gestaffelt sind, also 

nur l nichtlineare Gleichungssysteme der Dimension n zu lösen sind. Solche RK Verfahren 

heißen DIRK-Verfahren (diagonally implicit Runge-Kutta). Der Spezialfall eines 

gleichen Diagonalelements βii = βd für alle i = 1, . . ., l heißt SDIRK-Verfahren (singly 

diagonally implicit Runge-Kutta Verfahren). 

Ein Beispiel ist 

1 + µ 

2 

1 

2 

1 − µ 

2 

1 + µ 

2 

− µ 

2 

1 + µ 

2 

1 + µ −1 − 2µ 

1 

6µ 2 

1 − 1 

3µ 2 

0 0 

0 

1 + µ 

2 

1 

6µ 2 

wobei µ eine Nullstelle von 3µ 3 − 3µ − 1 = 0 sei, um Konsistenzordnung 4 zu erhalten. 

Bei linear-impliziten RK Verfahren kurz, LIRK-Verfahren, (oBdA. für autonome 

Systeme dargestellt) wird Verfahrensdefinition und Newton-Verfahren so ineinander 

verwoben, dass mit einer geeigneten Abbildung W : U → R n,n für eine Umgebung U 

der Lösung auf der Basis der Umschreibung 

y ′ (t) = W(y(t))y(t) + (f(y(t)) − W(y(t))y(t)) 

der erste, lineare Summand mit einem SDIRK-Verfahren approximiert wird, der zweite, 

nichtlineare Summand aber mit einem (anderen) expliziten RK Verfahren, also 


116 

l� 

i=1 

γiki

und 

ki = W(yj) 

+ 

� 

� 

yj + hj 

f(yj + hj 

i = 1, . . .,l . 

i� 

ν=1 

�i−1 

ν=1 

βiνkν 

˜βiνkν) 

� 

� 

− W(yj) 

� 

yj + hj 

�i−1 

ν=1 

˜βiνkν 

Es sind also nur sukzessive l lineare n × n Gleichungssysteme zu lösen. 

Nach H.H. Rosenbrock und G. Wanner heißen solche Verfahren auch Rosenbrock- 

Wanner (ROW)-Verfahren. Eine naheliegende Wahl ist W(yj) = ∂f 

∂y (yj) oder eine 

Approximation daran. Dann kann für 

˜βiν = βiν für i = 1, . . .,l, ν = 1, . . .,i − 1 

das Verfahren als ein nach einem Schritt abgebrochenes vereinfachtes Newton- 

Verfahren für die Form (1.39) eines SDIRK-Verfahrens interpretiert werden. Das 

einfachste Beispiel basiert auf dem impliziten Euler-Verfahren (siehe (1.42), µ = 1), 

also 

l = 1, β11 = 1, α1 = γ1 = 1 : 

yj+1 = yj + hjk1 , 

k1 = ∂f 

∂y (yj)(yj + hjk1) + f(yj) − ∂f 

∂y (yj)yj , 

d.h. � 

I − ∂f 

∂y (yj)hj 

� 

k1 = f(yj) 

und so 


� 

I − ∂f 

∂y (yj)hj 

�−1 f(yj) , 

wobei natürlich immer das lineare Gleichungssystem zu lösen und nicht die Inverse zu 

berechnen ist. 

3.6 Extrapolationsverfahren 

In Numerik I führten bei der numerischen Quadratur, d.h. beim Spezialfall f(t, y) = 

f(t) zwei Wege zu Verfahren hoher Konvergenzordnung: Die Gauß-Quadratur, die sich 

117 

� 

,

nach Abschnitt 1.4 bei den impliziten RK-Verfahren wiederfindet, und die Romberg- 

Integration, d.h. die Extrapolation auf der Basis der zusammengesetzten Trapezregel. 

Voraussetzung ist die Gültigkeit einer Fehlerentwicklung, dort die Euler-MacLaurinsche 

Summenformel. 

Ist also allgemein eine reelle Größe a, hier etwa y(t) für ein festes t ∈ [t0, T] und y sei 

die Lösung von (A), zu berechnen und a(h) sei ein Näherungswert, hier etwa durch ein 

Einschrittverfahren gegeben, dann reicht nicht nur eine Konvergenzordnungsaussage 

vom Typ 

|a(h) − a| ≤ Ch p 

sondern es sollte bekannt sein, dass eine Fehlerentwicklung vorliegt vom Typ 

a(h) = a + aph p + ap+1h p+1 + · · · + ap+k−1h p+k−1 + O(h p+k ) 

für möglichst großes k ∈ N. 

Besonders vorteilhaft ist die Situation, wenn die Entwicklung nicht in h, sondern in 

z = h γ für ein γ ∈ N, γ ≥ 2, vorliegt, d.h. 

a(h) = a + apz p + · · · + ap+k−1z p+k−1 + O(z p+k ) . 

a(h) kann dann für eine Folge von absteigenden Schrittweiten hi, hi+1, . . ., hi+k bestimmt 

werden und das Interpolationspolynom ˜ Tik ∈ Πk, das an den Stellen zr, r = 

i, . . .,i + k, die Werte a(zr) annimmt. Wertet man ˜ Tik an z = 0 aus, d.h. führt Extrapolation 

aus, kann man erwarten, dass Tik := ˜ Tik(0) eine Approximation an a der 

Ordnung p + k darstellt (siehe Numerik I, Satz 6.3). Die Werte Tik werden gemäß Numerik 

I mit dem Neville-Algorithmus aufgebaut: Die k-te Spalte des Neville-Schemas 

liefert also Näherungswerte die mit Ordnung p + k konvergieren. 

Damit für ein Einschrittverfahren (Ah) der Fehler eh eine Fehlerentwicklung besitzt, 

muss dies mindestens für den Konsistenzfehler τh gelten. Im Folgenden werde eine 

konstante Schrittweite h verwendet und es sei vorausgesetzt, dass f und fh auf 

S := [t0, T] × R n global Lipschitzstetig und (p + k + 1)-mal stetig differenzierbar 

sind. Die Taylorentwicklungstechnik zeigt, dass bei genügender Glattheit von f für 

den Konsistenzfehler nicht nur eine Ordnungsabschätzung, sondern auch eine Fehlerentwicklung 

möglich ist (vgl. z.B. (1.32)). Zu klären ist, ob diese sich auf den globalen 

Fehler überträgt. 

Satz 3.34 Das Einschrittverfahren (Ah) habe die Konsistenzordnung p, in dem für 

tj ∈ I ′ h gilt: 

y(tj+1) − y(tj) − hfh(tj, y(tj)) = dp+1(tj)h p+1 + O(h p+2 ) . (3.85) 

118

Sei ep die Lösung der linearen, inhomogenen AWA 

Dann ist 

e ′ ∂f 

p (t) = 

∂y (t, y(t))ep(t) + dp+1(t) , 

ep(t0) = 0 . 

y ∗ h(tj) := yh(tj) + ep(tj)h p 

Lösung eines Einschrittverfahrens mit der Verfahrensfunktion 

mit Konsistenzordnung p + 1. 

f ∗ h (t, y∗ ) := fh(t, y ∗ − ep(t)h p ) + (ep(t + h) − ep(t))h p−1 

Beweis: Dass y∗ h Lösung von (Ah) zu f ∗ h 

folgenden Konsistenzfehler τ ∗ h : 

hτ ∗ h (tj) = y(tj+1) − y(tj) − hf ∗ h (tj, y(tj)) 

(3.86) 

(3.87) 

ist, ist offensichtlich. Dieses Verfahren hat 

= y(tj+1) − y(tj) − hfh(tj, y(tj) − ep(tj)h p ) 

− [ep(tj+1) − ep(tj)]h p 

= y(tj+1) − y(tj) − hfh(tj, y(tj)) 

− [ep(tj+1) − ep(tj)]h p 

+ h[fh(tj, y(tj)) − fh(tj, y(tj) − ep(tj)h p )] . 

Linearisierung in den eckigen Klammern liefert also mit (3.85) 

hτ ∗ h (tj) 

� 

= dp+1(tj) + ∂ 

∂y fh(tj, y(tj))ep(tj) 

− e ′ p (tj) 

� 

Da Konsistenzordnung p für fh vorliegt, gilt 

h p+1 + O(h p+2 ) . 

∂ 

∂y fh(tj, y(tj)) − ∂ 

∂y f(tj, y(tj)) = O(h) 

(ohne Beweis, Weiterentwicklung von Beweis von Lemma 1.10) 

und somit 

hτ ∗ h (tj) = 

� 

dp+1(tj) + ∂f 

∂y (tj, y(tj))ep(tj) − e ′ p (tj) 

� 

119 

h p+1 + O(h p+2 ) .

Da nach (3.86) der erste Summand verschwindet, folgt die Behauptung. 

Wendet man diese Aussage rekursiv an, sieht man: 

Durch sukzessive Modifikation der Verfahrensfunktion und der Näherungslösung erhält 

man Verfahren immer höherer Ordnung. Dies überträgt sich auf eine Entwicklung des 

globalen Fehlers. 

Satz 3.35 (von Gragg) 

Der Konsistenzfehler des Einschrittverfahrens (Ah) habe folgende Entwicklung 

y(tj+1) − y(tj) − hfh(tj, y(tj)) 

= dp+1(tj)h p+1 + · · · + dp+k(tj)h p+k + O(h p+k+1 ) 

für h → 0 . 

Dann besitzt der globale Fehler eh die analoge Entwicklung 

eh(tj) = ep(tj)h p + ep+1(tj)h p+1 + · · ·+ 

+ ep+k−1(tj)h p+k−1 + Ep+k(tj, hj)h p+k , 

✷ 

(3.88) 

(3.89) 

wobei Ep+k für kleine h beschränkt ist. Dabei sind die Koeffizientenfunktionen ej Lösungen 

von linearen, inhomogenen AWAs 

wobei speziell ˜ dp+1 = dp+1. 

e ′ j(t) = ∂f 

∂y (t, y(t))ej(t) + ˜ dj+1(t) 

ej(t0) = 0 , j = p, . . .,p + k − 1 , 

Beweis: Betrachte y∗ h und f ∗ h nach Satz 3.34. Da der Konsistenzfehler der Ordnung 

p+1 ist folgt mit der Generalvoraussetzung der Lipschitzstetigkeit an fh aus Satz 3.22 

für den Fehler 

e ∗ h (t) := y(t) − y∗ h (t) 

�e ∗ h(tj)� ≤ (tj − t0)exp(L(tj − t0))C ∗ h p+1 =: Mp+1h p+1 , 

wobei C ∗ die Konstante aus der Konsistenzfehlerabschätzung ist: 

�τ ∗ h (tj)� ≤ C ∗ h p+1 . 

120

Nach Definition von y∗ h gilt für t = tj 

und so definiert also die Beziehung 

eine Funktion Ep+1 mit der Eigenschaft 

e ∗ h(t) = eh(t) − ep(t)h p 

eh(tj) = ep(tj)h p + Ep+1(tj, h)h p+1 

�Ep+1(tj, h)� ≤ Mp+1 . 

Daraus folgt die Behauptung für k = 1. Für k > 1 erhält man die Aussage, indem man 

sukzessive von der Aussage für k = 1, k = 2, . . . ausgehend Satz 3.34 anwendet und 

Verfahrenssfunktionen f ∗∗ ∗∗∗ 

h , fh etc. konstruiert. Satz 3.34 macht dann eine Aussage 

über den Konsistenzfehler, der etwa für 

y ∗∗ 

h (tj) = y ∗ h (tj) + ep+1(tj)h p+1 

= yh(tj) + ep(tj)h p + ep+1(tj+1)h p+1 

von der Ordnung p + 2 ist. Die Anwendung von Satz 3.22 wie oben überträgt diese 

Aussage auf den globalen Fehler. 

Spezielle Einschrittverfahren, die symmetrisch sind, haben sogar eine Konsistenzund 

damit Konvergenzfehlerentwicklung in h 2 . (vgl. [Strehmel/Weiner], S. 82 ff). Dazu 

gehören die implizite Trapezregel 

yj+1 = yj + h 

2 (f(tj, yj) + f(tj+1, yj+1)) 

und das Crank–Nicolson-Verfahren 

� 

yj+1 = yj + hf tj + h 1 

, 

2 2 (yj 

� 

+ yj+1) . 

Für den Fall der Quadratur, d.h. f(t, y) = f(t) ist im ersten Fall die Aussage gerade 

die Euler-MacLaurin’sche Summenformel. Solche einfachen Verfahren sind also Kandidaten 

für die Basis eines Extrapolationsverfahrens. Bei Mehrschrittverfahren (Kapitel 

2) wird das Thema wieder aufgegriffen. Die obigen Basisverfahren sind leider implizit. 

Tatsächlich gibt es kein explizites RK Verfahren mit Fehlerentwicklung in h 2 . Eine 

explizite Variante des Crank–Nicolson-Verfahrens, die explizite Mittelpunktsregel, die 

beide Eigenschaften erfüllt, ist ein Mehrschrittverfahren. 

121 

✷

Wir gehen nochmal auf die praktische Durchführung des Extrapolationsverfahrens ein: 

Ausgangspunkt ist eine Fehlerentwicklung wie in (3.89) in h oder in z = h 2 . Wir konzentrieren 

uns auf einen Schritt der zu entwickelnden Verfahren, der aus Notationsgründen 

der Erste sei. Sei H > 0 eine Grundschrittweite, aus der mittels vorgegebener 

gebildet wird. Es werden die Näherungen 

n1, n2, . . . ∈ N , hi := H 

yh1(H), . . ., yhN (H) (mit N ≤ k + 1) 

ni 

(3.90) 

berechnet. Wie bei der Romberg-Integration (vgl. Numerik I) werden daraus sukzessive 

Näherungen höherer Konsistenzordnung bestimmt. Für N = 2, n1 = 1, n2 = 2 

entspricht das gerade der Methode der Schrittweitenhalbierung, die in Abschnitt 1.7 

behandelt wird. Äquivalent wird für h ↦→ yh(H) das Interpolationspolynom durch 

h1, . . ., hN aufgestellt und bei h = 0 ausgewertet. Wie in Numerik I kann dies mit dem 

Neville-Algorithmus geschehen. 

Seien p = γ1 , p + 1 = γ2, . . . , p + k ≤ γN und 

dann wird also mit 

γj = γj mit γ = 1 oder γ = 2 , (3.91) 

Ti,1 := yhi (H) , i = 1, . . .,N , (3.92) 

Ti,l := Ti,l−1 + Ti,l−1 − Ti−1,l−1 

(ni/ni−l+1) γ , i = 2, . . ., N, l = 1, . . ., i . (3.93) 

− 1 

das folgende Tableau (zeilenweise) aufgebaut 

T11 

T21 T22 

T31 T32 T33 

. . . . . . . 

Für den lokalen Fehler der Til gilt: 

122

zw. bei dl(0) = 0 sogar 

lil(H) := Til − y(H) ∼ γildl(H)H γl 

mit γil := (ni−l+1 · · ·ni) −γ 

(3.94) 

lil(H) ∼ γild ′ l (0)Hγl+1 . (3.95) 

Das bedeutet eine Konsistenzordnung von γl − 1 bzw. γl, die also durch den Spaltenindex 

l ≤ i bestimmt wird. Da der Aufwand für (3.93) im Vergleich zu (3.92) 

(Ti,1 ˆ= ni Schritte von (Ah)) vernachlässigt werden kann, wird man bei berechneten 

T11, . . .,TN1 das Tableau immer bis TNN aufbauen. 

3.7 Die Euler–MacLaurin’sche Summenformel 

In diesem Abschnitt leiten wir eine asymptotische Entwicklung des Fehlers der zusammengesetzten 

Trapezregel 

Th(f) := h 

� 

� 

�n−1 

f(a) + 2 f(xi) + f(b) , 

2 

b − a 

wobei h := und xi = a + ih, her. Hiermit werden wir mittels Extrapolation zu 

n 

besseren Verfahren kommen. 

Satz 3.36 (Euler–MacLaurin’sche Summenformel) 

Seien f ∈ C2m b − a 

[a, b], n ∈ N gegeben und h := . Dann gilt 

n 

� b 

a 

f(x) dx = Th(f) − 

m� 

k=1 

Dabei sind B2k Bernoulli’sche Zahlen (s.u.). 

i=1 

h2k (2k)! B2k 

� � 

(2k−1) (2k−1) 2m 

f (b) − f (a) + O(h ) für h → 0+ . 

Bemerkung: Ist f periodisch mit Periodenintervall [a, b], so liefert die Trapezregel 

einen Fehler der Größe O(h 2m ), ist also besonders gut geeignet. 

Zum Beweis benötigen wir Vorbereitungen. 

123

Definition: Die auf R durch 

B0(t) = 1 , B ′ k (t) = Bk−1(t) , 

� 1 

definierten Polynome Bk, k ∈ N0, heißen Bernoulli–Polynome. 

0 

Bk(t) dt = 0 , k ≥ 1, (3.96) 

Wir bemerken, daß (3.96) Bk eindeutig festlegt, es gilt Bk(t) = � t 

0 Bk−1(s) ds + Bk(0), 

und die Konstante Bk(0) wird durch � 1 

0 Bk(s) ds ! = 0 festgelegt. Ferner gilt offenbar 

Bk ∈ Πk. 

Als Beispiel bestimmen wir B1(t). Es ist 

und: 0 ! = 

�1 

0 

B1(t) = 

Analog rechnet man weiter. 

�t 

0 

1 ds + B1(0) = t + B1(0) 

B1(t)dt = 1 

2 + B1(0) ⇒ B1(0) = − 1 

2 

Wir stellen einige Eigenschaften der Bk(t) zusammen: 

Lemma 3.37 Es gelten: 

(i) Bk(0) = Bk(1) , k ≥ 2, 

(ii) Bk(t) = (−1) k Bk(1 − t) , k ≥ 0, 

(iii) B2k+1(0) = B2k+1(1) = 0 , k ≥ 1. 

Beweis: (i) folgt direkt aus (3.96), denn für k ≥ 1 gilt 

� 

� 

Bk+1(t) 

� 1 

0 

= 

� 1 

0 

B ′ k+1(t) dt = 

� 1 

0 

⎫ 

⎪⎬ 

⎪⎭ 

Bk(t) dt = 0 . 

(ii) gilt offenbar für k = 0, 1. Sei (ii) für k ∈ N0 richtig. Dann gilt: 

Bk+1(t) − Bk+1(0) = 

� t 

0 

= (−1) k+1 

Bk(s) ds = (−1) k 

� 1−t 

1 

� t 

Fall 1: k = 2j + 1. Dann folgt aus Bk+1(0) = Bk+1(1): 

0 

Bk(1 − s) ds 

⇒ B1(t) = t − 1 

2 . 

Bk(s) ds = (−1) k+1 

� 

� 

Bk+1(1 − t) − Bk+1(1) . 

Bk+1(t) = (−1) k+1 Bk+1(1 − t) . 

124

Fall 2: k = 2j, j ≥ 1. Dann liefert Bk+1(0) = Bk+1(1): 

und Integration ergibt: 

2Bk+1(0) = 

� 1 

0 

Bk+1(t) + Bk+1(1 − t) = 2Bk+1(0) 

� 1 

(Bk+1(t) + Bk+1(1 − t)) dt = Bk+1(t) dt − Bk+1(t) dt = 0 . 

0 � �� 1 � �� 

(ii) gilt also auch in diesem Fall. Gleichzeitig ist damit auch (iii) bewiesen. ✷ 

Beweis von Satz 6.1: Für k = 0, . . ., 2m − 1 und jedes ϕ ∈ C2m [0, 1] gilt 

� 1 

Bk(t) ϕ (k) (t) dt = Bk+1(x) ϕ (k) � � 1 

� 

(x) − Bk+1(t) ϕ (k+1) (t) dt . 

Lemma 3.37 liefert: 

�1 

0 

0 

ϕ(t) dt = 

�1 

� 1 

0 

B0(t)ϕ(t) dt = 1 

(ϕ(0) + ϕ(1)) − 

2 

�1 

0 

0 

= 1 

2 (ϕ(0) + ϕ(1)) − B2(0) (ϕ ′ (1) − ϕ ′ �1 

(0)) + 

0 

= 1 

2 (ϕ(0) + ϕ(1)) − B2(0) (ϕ ′ (1) − ϕ ′ �1 

(0)) − 

. 

= 1 

(ϕ(0) + ϕ(1)) − 

2 

0 

0 

=0 

B1(t)ϕ ′ (t) dt 

B2(t)ϕ ′′ (t) dt 

m� 

B2k(0) � ϕ (2k−1) (1) − ϕ (2k−1) (0) � + 

k=1 

� 0 

=0 

B3(t)ϕ ′′′ (t) dt (3.97) 

�1 

0 

B2m(t)ϕ (2m) (t) dt . 

Wir setzen nun: ϕj(t) := hf(th + xj), 0 ≤ t ≤ 1, j = 0, . . .,n − 1. Dann gilt 

� xj+1 

xj 

f(x) dx = 

� 1 

0 

ϕj(t) dt 

und ϕ (2k−1) 

j (t) = h2kf (2k−1) (th + xj). (3.97) liefert daher: 

� b �n−1 

� 1 

m� 

f(x) dx = ϕj(t) dt = Th(f) − B2k(0) h 

a 

j=0 0 

k=1 

2k f (2k−1) � 

� 

(x) � b 

a 

n−1 � 1 

+ h 2m+1 

� 

j=0 

0 

B2m(t) f (2m) (th + xj) dt . 

125

Nun ist: 

�n−1 

h 

j=0 

� 1 

0 

B2m(t) f (2m) (th + xj) dt = 

n−1 � xj+1 

� 

j=0 

xj 

≤ �B2m�∞ 

B2m 

� b 

a 

� x − xj 

h 

� 

f (2m) (x) dx 

|f (2m) (x)| dx ≤ const . 

Mit den Bernoulli–Zahlen B2k := (2k)!B2k(0) folgt die Behauptung. ✷ 

Folgerung: Es gibt von h unabhängige (!) Konstanten α0, . . .,αm−1 und αm(h) mit 

|αm(h)| ≤ const. (von h unabhängige Konstante !), so daß 

(Dabei sei α0 := � b 

f(x) dx). 

a 

Th(f) = 

m−1 � 

3.8 Extrapolation. Das Romberg–Verfahren 

k=0 

αkh 2k + αm(h)h 2m . (3.98) 

Bei vielen numerischen Problemen ist lim F(h) für eine Funktion F gesucht. Der 

h→0+ 

Aufwand zur Berechnung von F(h) wächst meist mit h → 0+ stark an; außerdem 

setzen Rundungsfehlereinflüsse eine Grenze, wie klein man h wählen kann. Oft hat 

man aber Kenntnis, wie sich F(h) − lim F(h) für h → 0+ verhält; es sei etwa: 

h→0+ 

F(h) = α0 + α1h p + O(h r ) , r > p > 0 (3.99) 

wobei für α1 nur die Existenz, nicht der Wert bekannt sein muss. 

Wertet man F für zwei Werte, etwa h und qh (q > 1) aus, so folgt 

und aus (3.99) 

F(qh) = α0 + α1h p q p + O(h r ) , 

q p F(h) = q p α0 + α1h p q p + O(h r ) , 

also erhalten wir durch Subtraktion der beiden Gleichungen 

lim F(h) = α0 = 

h→0+ 

qpF(h) − F(qh) 

qp + O(h 

− 1 

r ) . (3.100) 

Aus der Näherung p–ter Ordnung (3.99) ist also eine Näherung r–ter Ordnung geworden. 

Dieses Vorgehen nennt man (Richardson–) Extrapolation. Ist eine weitergehende 

Entwicklung nach Potenzen von h als in (3.99) bekannt, so kann das Vorgehen wiederholt 

werden. 

126

Bemerkung: Zur Erklärung der Bezeichnung Extrapolation überlege man sich: 

Bestimmt man zu F und den Knoten h und qh das Interpolationspolynom ˆp(x) = 

ˆα0 + ˆα1x p , so ist der Wert von ˆp an der Stelle 0 /∈ [h, qh] d.h. ˆp(0) = α0 (“Extra”– 

polation !) gerade gleich der aus (3.100) ablesbaren Näherung für lim F(h). 

h→0+ 

Wir wenden nun die Extrapolation auf die Integration an: 

Vernachlässigt man bei der Entwicklung von Th(f) in (3.98) das Restglied, so läßt sich 

Th(f) als ein Polynom in h2 �b 

auffassen, das für h = 0 den Wert α0 = f(x) dx liefert. 

Dies legt zur Bestimmung von α0 die Richardson–Extrapolation nahe: 

Bestimme zu verschiedenen Schrittweiten h0, . . .,hm > 0 die zugehörigen Trapezsum- 

men Thi (f), i = 0, . . ., m. Dann gibt es ein eindeutiges Polynom p ∈ Πm (in h2 ) mit 

b 

p(hi) = Thi (f), i = 0, . . .,m. p(0) dient als verbesserte Näherung für 

a 

� 

f(x) dx. 

Da nicht p als Funktion von h2 gesucht ist, sondern nur der Wert p(0), bietet sich der 

Neville–Algorithmus für diese Aufgabe an. 

Sei h0 := b − a, hi := h0/ni, ni < ni+1, i = 1, . . ., m, und Ti0 := Thi (f). Ferner sei für 

1 ≤ k ≤ i ≤ m ˜ Tik(h) dasjenige Polynom vom Grade k in h2 , für das gilt 

˜Tik(hj) = Tj0 , j = i − k, i − k + 1, . . .,i . 

Dann gilt für die extrapolierten Werte Tik := ˜ Tik(0) nach dem Neville–Algorithmus 

� �2 hi−k 

Tik = Ti,k−1 + Ti,k−1 − Ti−1,k−1 

hi 

− 1 

, 1 ≤ k ≤ i ≤ m . 

Dieses Verfahren wurde erstmals von Romberg (1955) vorgeschlagen für die speziellen 

Schrittweiten hi = (b − a) 2 −i . Es vereinfacht sich dann zu (vgl. auch (3.100)) 

Tik = 4k Ti,k−1 − Ti−1,k−1 

4 k − 1 

(Rombergverfahren) . 

Man erhält das folgende Schema von Näherungswerten für 

T00 

T10 

✟ 

T20 

✟ 

✟ 

T30 ✟ 

✟ ✟ 

❍ 

❍ 

T11 

❍ 

❍ ✟ 

T21 

❍ ✟ 

❍ ✟ 

T31 ✟ 

❍ 

❍ 

T22 ❍ 

❍ 

❍ ✟ T33 

❍ ✟ 

T32 

127 

�b 

a 

f(x)dx: 

a

In der ersten Spalte stehen die Näherungen nach der zusammengesetzten Trapezregel. 

Man rechnet leicht nach, daß in der zweiten bzw. dritten Spalte die Näherungen 

nach der zusammengesetzten Simpson– bzw. Milne–Regel stehen. Die vierte Spalte 

entspricht keiner (zusammengesetzten) Newton–Cotes–Formel. 

Bei der praktischen Durchführung beachte man, daß beim Romberg–Verfahren bei der 

Berechnung von Ti+1,0 auf die schon bei Ti0 berechneten Funktionswerte zurückgegriffen 

werden kann; es gilt 

Ti+1,0 = Thi/2(f) = hi 

4 

� 

� 

ni−1 � 

f(a) + 2 

2ni−1 � 

j=1 

= hi 

f(a) + 2 f(a + jhi) + f(b) 

4 

j=1 

= 1 

� 

ni � 

� 

Ti0 + hi f a + 

2 

j=1 

f 

� 

2j − 1 

hi 

2 

� 

� 

a + j hi 

� 

2 

� 

. 

+ hi 

2 

+ f(b) 

ni � 

j=1 

f 

� 

� 

a + 

� 

2j − 1 

hi 

2 

Ein Nachteil der Romberg–Folge hi = h0 · 2 −i ist, daß die Zahl der Funktionsauswertungen 

zur Bestimmung von Ti0 exponentiell steigt. Von Bulirsch (1963, 1964) wurden 

daher vorgeschlagen: 

a) hi = h0 

2i 

(Bulirsch–Folge I), 

b) h2i−1 = 2 −i h0 , h2i = 1 

3 2−i+1 h0 , i ∈ N (Bulirsch–Folge II). 

Für die Konvergenz des Extrapolationsverfahrens zitieren wir ohne Beweis: 

Satz 3.38 Sei f ∈ C 2m+2 [a, b]. Dann existieren Ck > 0 mit 

� 

� 

� 

�Tik − 

� b 

a 

� 

� 

f(x) dx� 

� ≤ 

h1 

h2 

h3 

h4 

h5 

Ck 

(2k + 2)! 

k� 

j=0 

h 2 i−j 

Romberg Bulirsch I Bulirsch II 

1 

2 

1 

4 

1 

8 

1 

16 

1 

32 

1 

2 

1 

4 

1 

6 

1 

8 

1 

10 

128 

, k = 0, . . .,m . 

1 

2 

1 

3 

1 

4 

1 

6 

1 

8

3.9 Methoden von Neville und Aitken 

Mit dem Algorithmus von Neville kann man den Wert des Interpolationspolynoms an 

einer Stelle x berechnen, ohne das Polynom selbst zu berechnen. 

Bei gegebenen Stützpunkten (xi, yi), i = 0, . . ., n, bezeichnen wir mit pi0...ik ∈ Πk das 

eindeutige Polynom mit pi0...ik (xij ) = yij , j = 0, . . ., k. Dann gilt die Rekursionsformel 

a) pi(x) = yi 

(x − xi0)pi1...ik (x) − (x − xik 

)pi0...ik−1 (x) 

b) pi0...ik (x) = 

xik − xi0 

(3.101) 

a) ist trivial. Zum Beweis von b) bezeichnen wir mit q die rechte Seite von b) und 

zeigen, daß q die Eigenschaften von pi0...ik besitzt. Natürlich ist grad q ≤ k. Ferner 

haben wir nach Definition von pi1...ik und pi0...ik−1 : 

und für j = 1, . . ., k − 1: 

q(xi0) = pi0...ik−1 (xi0) = yi0 

q(xik ) = pi1...ik (xik ) = yik 

(xij − xi0)yij − (xij − xik )yij 

q(xij ) = = yij . 

xik − xi0 

Wegen der Eindeutigkeit der Polynominterpolation folgt daher 

q = pi0...ik . 

Der Algorithmus von Neville besteht darin, mit Hilfe von a) und b) das folgende symmetrische 

Tableau, das die Werte der interpolierenden Polynome pi,i+1,...,i+k an der 

festen Stelle x enthält, aufzustellen. 

Zur Abkürzung schreiben wir Pi,k = pi−k,i−k+1,...,i(x) für i ≥ k: 

x0 

x1 

x2 

x3 

x4 

y0 = P00 

y1 = P10 

y2 = P20 

y3 = P30 

y4 = P40 

✟ 

✟ 

✟ ✟ 

✟ ✟ 

✟ ✟ 

❍ 

❍ 

P11 

❍ 

❍ 

P21 

❍ 

❍ ✟ 

P31 

❍ ✟ 

❍ ✟ 

P41 ✟ 

✟ ✟ 

❍ 

❍ 

P22 

❍ 

❍ ✟ 

P32 

❍ ✟ 

❍ ✟ 

P42 ✟ 

❍ 

❍ 

P43 

❍ 

❍ ✟ 

P33 

✟ 

❍ 

❍ 

P44 

129

Aus a), b) ergeben sich die Rekursionsformeln 

a’) Pi0 := yi 

b’) Pi,k := (x − xi−k)Pi,k−1 − (x − xi)Pi−1,k−1 

xi − xi−k 

= Pi,k−1 + Pi,k−1 − Pi−1,k−1 

, 1 ≤ k ≤ i , i = 1, 2, . . . . 

x−xi−k − 1 x−xi 

(3.102) 

Speziell für x = 0 wird die Rekursion a’), b’) später in sogenannten Extrapolationsalgorithmen 

(z. B. Rombergverfahren zur numerischen Quadratur) angewendet. In diesem 

Spezialfall erhält man 

a”) Pi0 := yi 

b”) Pik := Pi,k−1 + Pi,k−1 − Pi−1,k−1 

xi−k , 1 ≤ k ≤ i , i = 1, 2, . . . . 

− 1 

xi 

(3.103) 

Die Methode von Aitken baut ebenfalls auf der Rekursion a), b) auf. Sie unterscheidet 

sich vom Neville Algorithmus nur in der Reihenfolge, in der die Pik berechnet werden. 

3.10 Schrittweitensteuerung 

Bis jetzt haben wir asymptotische Eigenschaften (h → 0) von (Ah) besprochen, die 

erlauben Verfahren untereinander zu vergleichen. Will man eine konkrete Rechnung 

durchführen und hat sich für ein Verfahren entschieden, möchte man die Schrittweiten 

so wählen, dass ein Fehlerniveau ˜ε für den globalen Fehler möglichst nicht überschritten 

und möglichst große Schritte zur Reduktion des Aufwands und der Rundungsfehlerfortpflanzung 

gemacht werden. Die Wahl einer Konstanten h direkt aufgrund von (3.55) 

oder (3.62) ist i. Allg. nicht sinnvoll, selbst wenn die Faktoren, die die Fortpflanzung der 

lokalen Fehler beschreiben, realistisch abgeschätzt werden können, da die Konstanten 

C in den Konsistenzordnungsaussagen 

� τh �h ≤ Ch p bzw. �lh(tj)� ≤ Ch p hj. 

nicht explizit vorliegen. Außerdem sind sie durch den lokalen Verlauf der exakten 

Lösung y bestimmt, so dass es besser ist, die Schrittweite im Verlauf der Rechnung 

anzupassen. 

Eine Schrittweitensteuerung, die dies leistet, hat folgende Struktur: 

130

1. Wahl einer Genauigkeit ˜ε für den globalen Fehler 

2. Bestimmung einer Genauigkeit ε daraus für den lokalen Fehler 

(lh(tj) oder hj−1τh(tj−1)) in einem Schritt 

tj−1 ❀ tj = tj−1 + hj−1 

Liegt yj−1 vor (etwa j = 1) und hj−1 (bei j = 1 durch Schätzung), dann: 

3. (Vorläufige) Bestimmung von yj und Schätzung des lokalen Fehlers 

4. Akzeptieren oder Verwerfen von yj aufgrund von (3) 

Bei Verwerfen: Neubestimmung von hj−1 

weiter bei (3) 

Bei Akzeptieren: Neubestimmung von hj, 

j := j + 1, weiter bei (3). 

zu (3): Schätzung des lokalen Fehlers: 

Wir betrachten lh(tj) (für hj−1τh(tj−1) analog) und setzen voraus 

mit einer glatten Funktion ϕp. 

lh(tj) = ϕp(tj−1, yj−1)h p+1 

j−1 

+ O(hp+2 j−1 ) (3.104) 

Das ist etwas mehr als Konsistenzordnung p zu fordern, bei den RK Verfahren für 

glatte f aber erfüllt (vgl. z.B. (3.31)). Ziel ist es also, den führenden Fehlerterm 

) zu schätzen. Dazu gibt es 

ϕp(tj−1, yj−1)h p+1 

j−1 

bis auf einen Fehler O(hp+2 

j−1 

(3a) : Die Methode der Schrittweitenverkleinerung 

Sei h := hj−1. Man führt den Schritt tj−1 ❀ tj mit kleiner Schrittweite, i. Allg. 

h/2, nocheinmal durch, hat also mindestens 2 weitere Einzelschritte und erreicht 

Lemma 3.39 Es gelte (3.104), fh sei Lipschitzstetig, sei 

yj = yj−1 + hfh(tj−1, yj−1) 

y j−1/2 = yj−1 + h 

2 fh/2(tj−1, yj−1) 

y j = y j−1/2 + h 

2 fh/2(tj−1/2, y j−1/2), 

wobei tj−1/2 = tj−1 + h 

2 , 

131

dann 

2p 2p − 1 (yj − yj) = ϕp(tj−1, yj−1)h p+1 + O(h p+2 ), (3.105) 

d.h. 

2p 2p − 1 (yj − yj) ist ein Schätzer für lh(tj). 

Beweis: 

yj + 2p 

2 p − 1 (y j − yj) hat einen lokalen Fehler der Ordnung p + 1 . (3.106) 

Setze ˆy(t) = y(t; tj−1, yj−1) zur Abkürzung, dann gilt: 

(1) ˆy(tj) − yj = ϕp(tj−1, yj−1)h p+1 + O(h p+2 ), 

(2) ˆy(tj−1/2) − y j−1/2 = ϕp(tj−1, yj−1)( h 

2 )p+1 + O(h p+2 ), 

und da ˆy(tj) = y(tj; tj−1/2, ˆy(tj−1/2)) 

ˆy(tj) = ˆy(tj−1/2)+ h 

also 

2 fh/2(tj−1/2, ˆy(tj−1/2))+ ϕp(tj−1/2, ˆy(tj−1/2)) ( h 

2 )p+1 +O(h p+2 ), 

(3) ˆy(tj) − y j = ˆy(tj−1/2) − y j−1/2+ 

h 

2 [fh/2(tj−1/2, ˆy(tj−1/2)) − fh/2(tj−1/2, y j−1/2)]+ 

ϕp(tj−1, ˆy(tj−1))( h 

2 )p+1 + O(h p+2 ) . 

Durch Entwicklung von ϕp um (tj−1, yj−1) (alle höheren Terme in O(h p+2 )) und 

wegen der L-Stetigkeit von fh/2 und (2) ist h 

2 [. . .] = O(hp+2 ), d.h. aus (2), (3) folgt 

und daraus folgt schließlich mit (1) 

ˆy(tj) − y j = 2ϕp(tj−1, yj−1)( h 

2 )p+1 + O(h p+2 ) 

y j − yj = y j − ˆy(tj) + ˆy(tj) − yj = (1 − 2 · 2 −(p+1) )ϕp(tj−1, uj−1)h p+1 + O(h p+2 ) 

Daraus folgt (3.105) und aus (1) auch (3.106). 

Extrapolation wie in Abschnitt 3.6 dargestellt ist eine Verallgemeinerung der Schrittweitenhalbierung. 

Insofern ist es nicht verwunderlich, dass auch dort Größen berechnet 

132 

✷

werden, die zur Schätzung dienen können: Da der Aufwand für das Neville-Tableau 

nach Berechnung der yk vernachlässigbar ist, wird man es vollständig bis TNN aufstellen 

(siehe Abschnitt 3.6) 

Der “zweitgenaueste” Wert ist dann TN,N−1. Dies legt nahe eine Ordnungs- (durch 

Wahl von N) und Schrittweitensteuerung dadurch vorzunehmen, dass man TNN−1 

als Näherung auffasst und wie bei den eingebetteten Verfahren TNN zur Schätzung des 

lokalen Fehlers nimmt, d.h. 

lokaler Fehler von TNN−1 ∼ TNN − TNN−1 

(3.107) 

und dann tatsächlich die Näherung TNN benutzt. Hier kann also nicht nur H, sondern 

auch N variiert werden, d.h. neben Schrittweitensteuerung auch Ordnungssteuerung 

betrieben werden. Beachte, dass dieses subdiagonale Fehlerkriterium für 

N = 2, n1 = 1, n2 = 2 auf den Schätzer 

y j − yj 

2 p − 1 

, nicht auf 

2 p 

2 p − 1 (y j − yj) 

(diagonales Kriterium) führt. Verfeinerungen der Ordnungs- und Schrittweitensteuerung 

stammen von Deuflhard (83). 

Mit wachsender Genauigkeitsforderung (ε klein) wächst die Ordnung N, sollte 

aber auf ein Nmax beschränkt werden. Bei Glattheitsabfall der Lösung sollte sie 

entsprechend abfallen. 

Eine Alternative zur Schrittweitensteuerung ist 

(3b) : Die Methode der eingebetteten Verfahren 

Man macht den gleichen Schritt tj−1 ❀ tj mit einem weiteren Verfahren höherer 

Konsistenzordnung q > p d.h. 

Gilt zusätzlich zu (3.104) für (3.108) 

dann 

yj = yj−1 + hj−1fh(tj−1, yj−1) 

y j = yj−1 + hj−1f h(tj−1, yj−1) . 

lh(tj) = ϕq(tj−1, yj−1)h q+1 

j−1 + O(hq+2 ) , 

y − yj = lh(tj) − lh(tj) 

= ϕp(tj−1, yj−1)h p+1 

j−1 + O(hp+2 ) , 

133 

(3.108) 

(3.109)

d.h. y−yj ist ein möglicher Fehlerschätzer. Im Prinzip ist für f h jedes (RK) Verfahren 

mit Ordnung q ≥ p + 1 möglich. Um den zusätzlichen Aufwand zu begrenzen, wählt 

man q = p + 1 und ”eingebettete Verfahren”, d.h. RK Verfahren, bei denen die 

Funktionsauswertungen von fh bei f h wiederverwendet werden. 

Beispiele: 

(i) Das Verfahren von Heun (3.12) (p = 2) hat die Erweiterung (p = 3) 

1 1 

1 

2 

1 

2 

❀ 

1 1 

1 

2 

1 

4 

1 

6 

1 

4 

1 

6 

2 

3 

(1.13) Erweiterung 

(3.110) 

d. h. bei Auswertung von fh ist nur 1 (nicht 2) weitere Auswertungen von 

f nötig. 

(ii) Erweiterung des Verfahrens von England (p = 4) 

1 1 

2 2 

1 1 1 

2 4 4 

1 0 −1 2 

2 

3 

1 

5 

γ 

γ 

7 

27 

10 

27 

0 

28 

625 −125 

625 

546 

625 

1 

6 

0 

2 

3 

14 

336 

0 0 

1 

27 

54 

625 −378 

625 

1 

6 

35 162 

336 336 

125 

336 

d.h. 2 zusätzliche Auswertungen sind hier nötig. 

Der Schätzer ist hier also gegeben durch: 

⎫ 

⎪⎬ 

⎪⎭ 

Verfahren 

von 

England 

1 

336 (−42k1 − 224k3 − 21k4 + 162k5 + 125k6)hj−1 

134 

⎫ 

⎪⎬ 

Erweiterung 

⎪⎭ 

(3.111)

(iii) Der Aufwand kann noch weiter reduziert werden, wenn die γ Zeile des niedrigen 

Verfahrens eine β Zeile der Erweiterung ist mit α = 1, wie bei den Verfahren von 

Dormand/Prince (1980) und den Verfahren von Fehlberg, etwa RKF 2(3) B: 

1 1 

4 4 

27 

40 −189 

800 

214 

1 

891 

γ 

γ 

214 

891 

533 

2106 

729 

800 

1 

33 

1 

33 

0 

650 

891 

650 

891 

800 

1053 

− 1 

78 

⎫ 

⎬ 

⎭ fh 

⎫ 

⎪⎬ 

fh Wird nämlich der Schritt tj−1 ❀ tj akzeptiert, dann muss bei tj ❀ tj+1 

⎪⎭ 

(3.112) 

k neu 

1 = f(tj, yj) nicht mehr ausgewertet werden, da im alten Schritt schon berechnet 

wurde: 

� 

k4 = f 

� 

= f 

tj−1 + hj−1, yj−1 + hj−1 

tj, yj−1 + hj−1 

= f(tj, yj) = k neu 

1 . 

Hier gilt also für die Funktionsauswertungen 

Ordnung p = 2 minimal 2 

p = 2 eingebettet (i) 3 

RKF 2(3) B 3 bei Akzeptanz 

Allgemein gilt: 

3� 

ν=1 

γνkν 

� 

3� 

ν=1 

p 1 2 3 4 5 6 7 

s 1 2 3 4 6 7 9 

s ∗ 2 3 5 6 8 10 13 

s ∗∗ 2 4 6 9 12 15 ≥ 18 

β4νkν 

Dabei ist s die Mindestanzahl an Stufen für die Ordnung p, s ∗ für p, p + 1 eingebettet, 

s ∗∗ für p, p + 1 unabhängig d.h. es gilt s ∗ ∼ 1, 5 ∗ s. 

Zu (4): Akzeptanz/Verwerfen des Schritts, neue Schrittweite 

135 

�

Es liege ein Schätzer E für �lh(tj)� vor, etwa durch (3.105) oder (3.108). Die Vorgehensweise 

ist dann z.T. heuristisch. 

Einfache Variante: 

Algorithmus A: Es seien Steuerparameter α < 1 < β, γ1,2 < 1, γ3 > 1 gegeben 

(etwa β = 2, α = 1 

2 , γ1 = 1 

2 , γ2 = 0.9, γ3 = 1.1) 

Ist E ≥ βε, verwerfe den Schritt und wiederhole mit hj−1 := γ1hj−1, sonst: 

Ist E > ε, mache neuen Schritt mit hj = γ2hj−1, sonst: 

Ist E < αε, mache neuen Schritt mit hj = γ3hj−1, 

sonst: mache neuen Schritt mit hj−1. 

Fundierter ist, das benutzte hj−1, mit dem “optimalen” h∗ zu vergleichen, für das 

gilt: 

ε = �ϕp (tj−1, yj−1)h ∗p+1 � = �ϕp(tj−1, yj−1)h p+1 

� � ∗ p+1 

h 

j−1� · 

hj−1 

d.h. 

also 

Algorithmus B: 

� ∗ h 

ε ∼ E 

Sei h ∗ � 

ε 

:= 

E 

hj−1 

� p+1 

�1/(p+1) hj−1 . 

Ist h ∗ < γ1 hj−1, dann wird der Schritt verworfen und mit hj−1 := h ∗ wiederholt. 

Ansonsten wird ein neuer Schritt ausgeführt mit 

� � � 

ǫ 

� �� 

1/(p+1) 

˜hj := hj−1 min γ4, max γ3, γ2 , 

E 

hj := max( ˜ hj, h) . 

Dabei sind γ1 ≤ 1, γ2 ≤ 1, γ3 < 1, γ4 > 1 Steuerparameter, die insbesondere wegen 

˜hj−1 ∈ [γ3hh−1, γ4hj−1] 

eine zu starke Änderung von h verhindern sollen (wenn E etwa ”zufällig” klein ist). 

Für γ2 gibt es die Vorschläge 0.8, 0.9, (0.25) 1/(p+1) oder (0.38) 1/(p+1) , γ3 = 0.5, 

γ4 = 2 ist üblich. 

hj ≥ h soll den Einfluss der Rundungsfehler begrenzen bei entsprechend vorgegebenen 

h (vgl. (3.56)) 

Shampine/Watts setzen nach Schrittzurückweisung temporär γ4 = 1. 

136 

,

Zu (2):Wahl des lokalen Fehlerniveaus: 

Dazu ist eine (problematische) Abschätzung der Verstärkungsfaktoren in (3.55) bzw. 

(3.62) nötig. Für kleine L nimmt man nur den Anteil (T − t0), d. h. 

Sollen relative Fehler begrenzt werden, dann 

ˆε = ˜ε/(T − t0) . (3.113) 

ε = ˆε · �˜yj� , (3.114) 

wobei ˜yj die Approximation höherer Ordnung für y(tj) ist, d.h. 

bei (3a) ˜yj = yj + 2p 

2p − 1 (yj − yj) = 2pyj − yj 

2p − 1 

bei (3b) ˜yj = y j (vom Verfahren der Ordnung q). 

Statt (3.113) kann man auch gemischte Skalierungsfaktoren verwenden, d. h. 

ε := ˆε · max(�˜yj�, 1) oder 

ε := ˆε · max(�˜yj�, 10 −6 ) 

(3.115) 

(3.116) 

Im Allgemeinen garantieren die Schrittweitensteuerungen die Größenordnung des lokalen 

Fehlers, doch (3.113) kann kritisch sein, so dass der globale Fehler um Größenordnungen 

größer ist. 

Schlußbemerkung: Obwohl nicht abgesichert, wird oft der Schritt mit den besseren 

Näherungen nach (3.115) gemacht. 

3.11 Stabilität bei fester Schrittweite, steife Differentialgleichungen 

Es gibt Differentialgleichungen, bei denen trotz Verfahren hoher Konvergenzordnung 

und Schrittweitensteuerung Probleme auftreten. 

Beispiel: 

n = 1, y ′ (t) = λ(y(t) − g(t)) + g ′ (t), y(0) = y0, 

wobei λ ∈ R, und g ∈ C 1 (R + ) eine schwachvariierende Funktion ist. Die Lösung ist 

y(t) = g(t) + exp(λt)(y0 − g(0)), für t ≥ 0. (3.117) 

137

Sei λ > 0. 

Für y0 = g(0) ist y(t) = g(t), für y0 = ˜g0 �= g(0) (etwa durch Rundung) ist 

y(t) = y(t) + exp(λt)(˜g0 − g(0)), d.h. für große λ, t weichen die (exakten) Lösungen 

stark ab. Diese schwache stetige Abhängigkeit von den Anfangsdaten führt zu einer 

inhärenten Instabilität des Problems, die die Genauigkeit der numerischen Lösung 

begrenzen (vgl. (3.55), (3.56)). 

Sei λ < 0. 

Hier ist y(t) − y(t) = exp(λt)(˜g0 − g(0)) für große λ stark abfallend und sollte nach 

kurzer Zeit vernachlässigbar sein. Die Schrittweitensteuerung sollte sich also nur 

an dem Lösungsanteil g orientieren können. Trotz der inhärenten Stabilität des 

Problems (vgl. (3.60), (3.62)) können Probleme bei der numerischen Lösung auftreten. 

y 

�>0 

g 

Als Beispiel betrachten wir konstante Schrittweite h. 

a) explizites Eulerverfahren: yj+1 = yj + hf(tj, yj) ⇒ 

t 

yj+1 = yj + h(λ(yj − gj) + g ′ j ), wobei gj := g(tj) etc. 

= (1 + hλ)(yj − gj) + gj + hg ′ j 

= (1 + hλ)(yj − gj) + gj+1 + O(h 2 ) . 

Die exakte Lösung erfüllt (mit t = tj als Startpunkt betrachtet): 

y 

g 

�

im Gegensatz zur “convergence stability” für die asymptotischen Aussagen: 

vgl. Definition 3.18). 

b) implizites Eulerverfahren: yj+1 = yj + hf(tt1, yj+1) ⇒ 

yj+1 = yj + h(λ(yj+1 − gj+1) + g ′ j+1) ⇒ 

yj+1 = 

1 

1 − hλ ((yj − gj) + gj + hg ′ j+1 

= 

= 

− hλgj+1) 

1 

1 − hλ (yj − gj) + 1 

1 − hλ (gj+1 + O(h 2 ) − hλgj+1) 

1 

1 − hλ (yj − gj) + gj+1 + O(h 2 ) . (3.121) 

Wegen 0 < 1 < 1 für λ < 0 und alle h > 0 ist hier also keine Einschränkung aus 

1−hλ 

Stabilitätsgründen nötig. 

Lange wurde die Stabilitätsfrage nur untersucht für die lineare Testaufgabe 

y ′ = Qy, y(t0) = y0 mit Q ∈ R (n,n) . (3.122) 

Obwohl die Theorie inzwischen auch für nichtlineare Probleme entwickelt ist und die 

Übertragung der Ergebnisse für (3.122) direkt auf den nichtlinearen Fall (durch Linearisierung 

entlang der Lösung) problematisch ist, beschränken wir uns auf (3.122) unter 

der Voraussetzung: Q ist diagonalähnlich, d.h. 

B −1 Q B = D = diag (q1, · · · , qn) (3.123) 

für ein B ∈ C (n,n) qi ∈ C . 

qi ist also Eigenwert von Q zum Eigenvektor ci = Bei, ei = (0, · · · , 1, · · ·0) T und 

yi(t) := ci exp(qi(t − t0)), i = 1, · · · , n (3.124) 

sind eine Basis des Lösungsraums von y ′ = Qy, d.h. die Lösung von (3.122) ist gegeben 

durch 

n� 

n� 

y(t) = αiyi(t), wobei αici = y0 . (3.125) 

i=1 

Bei Anwendung auf (3.122) nehmen die bisher betrachteten Verfahren eine spezielle 

Gestalt an, z.B. (bei konstanter Schrittweite h) 

explizites Euler-Verfahren: yj+1 = yj + hQyj ⇒ 

yj+1 = g(hQ)yj 

139 

i=1 

(3.126)

Diskret 

Exakt 

mit g(hQ) = I + hQ, d.h. g(λ) = 1 + λ . 

ˆy = (yj) j 

ˆy = � n� 

αi˜yi, 

i=1 

(˜yj) j = g(hqi) j ci 

y(t) = � αiyi(t), 

αici = y0 

n� 

i=1 

yi(t) = exp (qi(t − t0))ci 

αici = y0 

(yi) j = yi(tj) = exp(qijh)ci 

= exp(qih) j ci 

y0 = � αici 

ˆy = (˜y1, . . ., ˜yn)α 

y = (y1, . . ., yn)α 

Allgemeiner: Ist g eine rationale Funktion, d.h. 

dann setzt man: 

g(B) = 

g(λ) = 

n� 

αiB i 

� 

m� 

βiB i 

i=0 

i=0 

n� 

i=0 

� −1 

implizites Euler: yj+1 = yj + hQyj+1 ⇒ 

Allgemein: 

αiλ i 

� 

�m 

βiλ i 

i=0 

für B ∈ R n,n 

yj+1 = g(hQ)yj mit g(λ) = 1 

1 − λ 

140 

– falls existiert – 

für λ �= 1 (3.127)

Definition 3.40 (Ah) gehört zur Klasse (D), wenn gilt 

1. (Ah) ist konsistent mit (A). 

2. Es gibt eine Umgebung U von z = 0 in C und ein analytisches g : U → C, 

so dass (Ah) angewandt auf (3.122) ergibt 

yj+1 = g(hQ)yj, j = 0, . . ., N . (3.128) 

Analog zu (3.124), (3.125) lässt sich die allgemeine Lösung von (3.128) angeben durch 

die Basis des Lösungsraums von (3.128): 

also 

˜yi,j = cig(hqi) j , i = 1, . . .,n, j = 0, . . ., N + 1, (3.129) 

yj = 

n� 

αi˜yi,j mit 

i=1 

g(hqi) ist also die Approximation für exp(hqi). 

n� 

αici = y0 . (3.130) 

Beispiel: n = 2, 

A = 1 

⎛ 

⎝ 

2 

q1 

⎞ 

+ q2 q1 − q2 

⎠ . 

q1 − q2 q1 + q2 

Dann sind die qi die Eigenwerte mit den Eigenvektoren � � � � 1 1 

bzw. , d.h. die Basen 

1 

−1 

aus (3.124) bzw. (3.129) lauten für das explizite Euler-Verfahren: 

y1(t) = � � 1 

exp(q1(t − t0)), y2(t) = 1 

� � 1 

exp(q2(t − t0)) 

−1 

˜y1,j = � 1 

1 

i=1 

� 

(1 + q1h) j , ˜y2,j = � � 1 

(1 + q2h) j 

Sind Re q2 < Re q1 < 0, so sind yi, also auch y in einer Vektornorm monoton fallend. 

Damit auch yj diese Eigenschaft hat, muss analog zu (3.119) gelten: 

Für reelle qi bedeutet dies: 

−1 

|1 + hqi| < 1 . (3.131) 

h < − 2 

Re q2 

< − 2 

Re q1 

Die Schrittweitenschranke wird also durch den kleinsten Realteil eines Eigenwerts 

bestimmt, auch wenn seine Lösungskomponente schon abgeklungen ist. 

141 

.

Lineare Aufgaben mit diesem Problem, d.h. mit Eigenwerten qi, so dass Re qi < 0 und 

max | Re qi| >> min | Re qi| heißen steif. 

Allgemein tritt anstelle von (3.131) die Forderung 

|g(hq)| < 1 für Eigenwerte q mit Re q < 0 . (3.132) 

Wenn dies für alle h > 0 gilt, heißt (Ah) absolut stabil, ansonsten sind Schrittweitenschranken 

nötig, d.h. 

Definition 3.41 (Ah) gehöre zur Klasse (D). 

HA(0) := {z ∈ C||g(z)| < 1} 

heißt der Bereich der absoluten Stabilität. 

(Ah) heißt absolut stabil (A–stabil), wenn 

z ∈ C, Re z < 0 ⇒ z ∈ HA(0) . 

HA(0) ist symmetrisch zu Im z = 0, da: 

Wegen 

g(z) = g(z), also |g(z)| = |g(z)| 

gilt nämlich 

Also: 

z ∈ HA(0) ⇔ z ∈ HA(0). 

explizites Euler-Verfahren: HA(0) = {z ∈ C| |z + 1| < 1} 

nicht absolut stabil 

implizites Euler-Verfahren: HA(0) = {z ∈ C| |z − 1| > 1} 

absolut stabil 

H A(0) 

-1 

C 

explizites Euler-Verfahren 

142 

H (0) 

A 

C 

implizites Euler-Verfahren 

1

Bei Re q < 0 gilt für die exakte Lösung nicht nur | exp(q(t − t0))| → 0 für t → ∞, 

sondern auch 

| exp(q(ti+1 − t0))| = | exp(qh)|| exp(q(ti − t0))| mit 

| exp(qh)| → 0 für Re q → −∞ . 

Die entsprechende Eigenschaft für (Ah) ist 

Definition 3.42 (Ah) Sei absolut stabil. 

Gilt 

g(z) → 0 für Re z → −∞ und Im z beschränkt, 

so heißt (Ah) stark absolut stabil (L−stabil). 

Fehlt diese Eigenschaft, so können Komponenten zu q mit Re q

Für die zweite Äquivalenz beachte man nämlich: 

u 2 + 2µu − µ 2 u 2 

(1 + (1 − µ)u) 2 − (1 − µu) 2 = 2(1 − µ)u + (1 − µ) 2 

� �� 

1−2µ+µ 2 

= (2(1 − µ) + 2µ)u + (1 − 2µ)u2 = 2u + u 2 − 2µu 2 

= u 2 + 2(1 − µu)u 

Für die A−Stabilität muß dies gelten für alle u < 0, v ∈ R : 

Die Richtung: µ ≥ 1 

2 

⇒ (∗) ergibt sich sofort. Anderseits 

(∗) ⇒ für v = 0 : 2u + (1 − 2µ)u 2 < 0 für u < 0 

⇒ 2 + (1 − 2µ)u > 0 

Die Annahme µ < 1 

führt mit u → −∞ zu einem Widerspruch. 

2 

zu 2): Für µ = 1 ist |g(z)| = 

u → −∞. Allgemein: 

1 

|1 − z| = 

Ist 0 < µ ≤ 1, dann folgt durch Kürzen mit u 2 : 

|g(z)| 2 = 

(u −2 + 1 − µ) 2 + (1 − µ) 2 

(u −2 − µ) 2 + µ 2 

1 

((1 − u) 2 + v2 also |g(z)| → 0 für 

) 1/2 

� 

v 

� 

u 

v 

�2 u 

� 2 

� 

1 − µ 

→ 

µ 

für u → −∞ und v beschränkt, also g(z) → 0 für Re(z) → −∞ ⇒ µ = 1. 

Für µ = 0 ist |g(z)| 2 = (1 + u) 2 + v 2 → + ∞ für u → −∞ 

� 2 

(3.134) 

�Insbesondere 

gilt für die implizite Trapezregel bzw. das Crank-Nicolson Verfahren 

µ = 1 

� 

2 

2 + z 

g(z) = , also g(u) → −1 für u ∈ R, u → −∞ . (3.135) 

2 − z 

Hier werden also Lösungsanteile zu großen negativen Eigenwerten fast ungedämpft 

oszillierend fortgepflanzt, was das Verfahren unbrauchbar machen kann. Die Identität 

(∗) zeigt insbesondere aber auch, dass hier sogar gilt 

HA(0) = {z ∈ C | Rez < 0} . 

144 

✷

Im Gegensatz zum impliziten Euler-Verfahren, wo HA(0) größer ist als die linke komplexe 

Halbebene, findet also keine Dämpfung von Lösungskomponenten statt zu Eigenvektor 

λ mit Re λ ≥ 0, die in der exakten Lösung ungedämpft bleiben. 

Für die RK Verfahren gilt allgemein: 

Satz 3.44 Ein explizites RK Verfahren (Ah) gehört zur Klasse (D). Ist die Stufe l 

und die genaue Konsistenzordnung p, dann 

g(z) = 

p� 

k=0 

z k 

k! + cp+1z p+1 + . . . + csz l mit cp+1 �= 

1 

, (3.136) 

(p + 1) ! 

(Ah) ist also nicht A−stabil, HA(0) ist nicht leer und liegt lokal links von z = 0. 

Beweis: 

folgt sofort aus 

g(z) = 

l� 

ckz k für ck ∈ R, c0 = 1 

k=0 

ki(y) = Qy + i−1 � 

denn durch Induktion zeigt man: 

ν=1 

yj+1 = yj + h l� 

γiki(yj) , 

i=1 

βiνhQkν, i = 1, . . .l , 

ki ist ein Polynom (i−1)-ten Grades in hQ angewendet auf Qyj, woraus mit der zweiten 

Gleichung die Behauptung folgt. 

Wegen der Konsistenzordnung p, aber nicht p + 1 gilt für q ∈ C : 

|g(qh) − exp(qh)| = O(h p+1 ), �= O(h p+2 ) , 

für kleine h > 0 und die Eigenwerte q = qi, da dieser Faktor (·yj) gerade der lokale 

Fehler ist. 

Dies erzwingt cj = 1/i! für i = 0, . . .,p, da also 

|g(qh) − 

p� 

k=0 

1 

k! (qh)k | = O(h p+1 ) 

für besagte q ∈ C gilt. Würden also die ersten p+1 Koeffizienten der zu vergleichenden 

Polynome nicht übereinstimmen, gäbe es für h → 0 einen vorherschenden Term O(h l ) 

mit l 

145 

✷

Explizite RK Verfahren eignen sich also nicht für steife Differentialgleichungen. 

Bei impliziten RK Verfahren sind die g rational und können Padé–Approximationen 

von exp sein, wobei 

Definition 3.45 Sei ϕ in einer Umgebung von z = 0 analytisch. 

Rjk(z) = Pjk(z) 

, z ∈ C 

Qjk(z) 

heißt Padé–Approximation von ϕ zum Index (j, k) wenn Pjk, Qjk Polynome mit 

gradPjk ≤ k, gradQjk ≤ j sind und 

ϕ(z)Qjk(z) − Pjk(z) = O(|z| j+k+1 ) für z → 0 , 

d.h. wenn die Approximationsordnung j + k ist. 

Ist Qjk(0) �= 0, dann ist eine äquivalente Forderung 

ϕ(z) − Rjk(z) = 0(|z| j+k+1 ) für z → 0 . 

Satz 3.46 1. Die Padé–Approximationen existieren eindeutig. 

2. Für ϕ = exp ist die Padé–Approximation gegeben durch 

Pjk(z) := 

Qjk(z) = 

k� 

� � 

k (j + k − l)! 

z 

l (j + k)! 

l , 

j� 

� � 

j (j + k − l)! 

(−z) 

l (j + k)! 

l , 

l=0 

l=0 

also gilt Qjk(z) = Pkj(−z) und Qjk(0) = 1. 

Bis auf Skalierung durch einen gemeinsamen Faktor sind Pjk, Qjk eindeutig 

und kein Rjk = Pjk/Qjk mit ∇Pjk ≤ k ∇Qjk ≤ j hat eine höhere Approximationsordnung 

als j + k. Einige Padé–Approximationen lauten: 

j \ k 0 1 2 

0 1 1 + x 1 + x + 1 

2 x2 

1 

1 + 

1 

1 − x 

1 

2x 1 + 2 

3 

2 

3 

1 

1 − x + 1 

2x2 1 

1 − x + 1 

2x2 − 1 

6x3 1 − 2 

3 

1 − 1 

2 x 

1 + 1 

3 x 

x + 1 

6 x2 

1 + 1 

4 x 

1 − 3 1 x + 4 4x2 − 1 

24x3 146 

1 + 1 

2 

1 − 1 

2 

x + 1 

6 x2 

1 − 1 

3 x 

x + 1 

12 x2 

x + 1 

2 x2

3. Für ϕ = exp gilt 

Genau für j = k, j = k + 1, j = k + 2 gilt 

(diagonal) (subdiagonal) 

|Rjk(z)| < 1 für Rez < 0 

Für j = k : | Rkk(z)| → 1 für |z| → ∞, Re z < 0 

Für j = k + 1, j = k + 2 : 

|Rjk(z)| → 0 für |z| → ∞, Rez < 0 

(Ohne Beweis, siehe: [Grigorieff I] oder [Wanner/Hairer/Nørsett 78]) 

Daraus folgt für die impliziten RK Verfahren 

Satz 3.47 1. Die impliziten RK Verfahren gehören zur Klasse (D). g ist eine rationale 

Funktion g(z) = Pjk(z)/Qjk(z), wobei Zähler- und Nennergrad k bzw. j 

höchstens Stufenanzahl l sind. Es gilt g(0) = 1, also insbesondere Qjk(0) �= 0. 

Hat das Verfahren die Konsistenzordnung p und ist j + k ≤ p, dann ist g Padé– 

Approximation an exp . 

2. Ist g eine diagonale oder eine der beiden ersten subdiagonalen Padé- 

Approximationen von exp, ist (Ah) A−stabil, im subdiagonalen Fall auch L– 

stabil. 

3. Hat (Ah) bei l Stufen die Konsistenzordnung 2l, so ist g diagonale Padé– 

Approximation von exp, insbesondere ist (Ah) A−stabil. 

Beweis: 

zu 1): Zur Vereinfachung beschränken wir uns auf den skalaren Fall n = 1, d.h. 

Q = q ∈ R. Der allgemeine Fall kann in der in (3.82) ff. eingeführten Notation angegangen 

werden. In der Formulierung (3.80), (3.81) lautet ein allgemeines (implizites) 

RK Verfahren der Stufe l angewandt auf die lineare Testaufgabe 

d.h. 

zi = yj + hj 

l� 

βiνqzν 

ν=1 

z = yj1 + hjqβz 

147

Dahin ist 1 = (1, . . ., 1) t ∈ R l und 

wenn wir setzen 

Insbesondere gilt g(0) = 1. 


l� 

γiqzi 

i=1 

= yj + hjqγ T (I − hjqβ) −1 yj1 

= (1 + hjqγ T (I − hjqβ) −1 1)yj 

= g(hjq)yj , 

g(z) := 1 + zγ T (I − zβ) −1 1 , 

(I − zβ) −1 ist über die Cramer’sche Regel darstellbar als 

(I − zβ) −1 = adj(I − zβ)/det(I − zβ) , 

wobei (adj(I −zβ))ik bis auf den Faktor (−1) i+k die Determinante der durch Streichung 

von i-ter Zeile und k-ter Spalte entstehenden (l − 1) × (l − 1)-Matrix ist. Da die 

Matrixeinträge von I − zβ in z alle aus Π1 sind und nach Definition der Determinante 

ist also jeder Eintrag (i, k) von (I − zβ) −1 ein Quotient aus einem pi,k ∈ Πl−1 und 

einem (festen) q ∈ Πl. Nach Definition von g folgt, dass g eine rationale Funktion mit 

Zähler- und Nennergrad höchstens l ist. Wegen g(0) = 1 ist also g analytisch in der 

Umgebung von z = 0, also gehört das Verfahren zur Klasse (D). 

Für explizite RK Verfahren ergibt sich nochmal teilweise Satz 3.44: Ist β echte untere 

Dreiecksmatrix, so ist (I − zβ) −1 untere Dreiecksmatrix mit Diagonaleinträgen 1, also 

det (I − zβ) = 1, so dass g ∈ Πl folgt. 

Hat das RK Verfahren die Konsistenzordnung p, so folgt wegen Qjk(0) �= 0 über den 

lokalen Fehler die Approximationsordnungsaussage für g, also auch für j + k ≤ p für 

alle Strahlen hq, q ∈ C, h > 0 und wegen der Analytizität von g in einer Umgebung 

von 0 auch allgemein für z → 0. 

zu 2): direkt aus Satz, 3.46, 3) 

zu 3): g ist wegen 1) und Satz 3.46, 2) diagonale Padé-Approximation von exp, also 

nach Satz 3.46, 3) auch A−stabil. 

Beachte: 

j = 0, k ≤ 4: explizite RK-Verfahren der Stufe k 

j = 1, k = 0: implizites Euler-Verfahren 

j = k = 1: implizite Trapezregel 

148 

✷

Die Gauß-Legendre Verfahren finden sich also als diagonale Padé–Approximationen 

wieder, sie sind A−stabil, nach Satz 3.46, 3) aber nicht L−stabil. Die Beispiele (3.68) 

und (3.69) der Konsistenzordnung 3 haben beide 

g(z) = 

1 − 2 

3 

1 + 1 

3 z 

z + 1 

6 

z2 , 

also g = R2,1. Damit sind diese Verfahren sowohl A- als auch L-stabil. 

Bei SDIRK-Verfahren mit dem Diagonalelement βd ergibt sich bei g das Nennerpolynom 

zu 

det (I − zβ) = (1 − zβd) l . 

Die Frage von A− und L−Stabilität hängt vom Zusammenspiel von Konsistenzordnung 

und βd ab (siehe [Strehmel/Weiner], S. 247 ff.). Linear-implizite Verfahren verhalten 

sich hinsichtlich A− und L−Stabilität offensichtlich wie ihr Basisverfahren (gegeben 

auch α, β, γ). 

149

4 (Lineare) Mehrschrittverfahren 

4.1 Definition, Beispiele 

Bei einem Mehrschrittverfahren wird zur Berechnung einer Näherung yh(tj+m) nicht 

nur auf yh(tj+m−1) sondern auf yh(tj+m−1), . . .,yh(tj) zurückgegriffen, wobei m ∈ N 

(m = 1 sind also wieder Einschrittverfahren). Da durch den Anfangswert nur y0 

gegeben ist, ist eine Anlaufrechnung mit einem weiteren (Einschritt-)Verfahren zur 

Beschaffung von y1, . . .,ym−1 nötig. Zur Vereinfachung wird äquidistante Schrittweite 

h vorausgesetzt, d.h. h := (T − t0)/N für ein N ∈ N und 

I ′ h := {t ∈ I | t = tj := t0 + jh, j = 0, . . .,N} 

Ih := {t ∈ I ′ h | t = tj, j = m, m + 1, . . .,N} . 

(Diese Definitionen weichen also von (3.4), (3.5) ab !) 

(4.1) 

Definition 4.1 Ein Mehrschrittverfahren für (A) wird gegeben durch m ∈ N, eine 

Familie von Abbildungen 

(Ah) fh : Ih × R n(m+1) → R n , h > 0 , 

a0, . . ., am ∈ R, am �= 0 und eine Familie von Startwerten 

Die Lösung von (Ah) ist gegeben durch 

(1) 

1 

h 

y (0) 

h , . . .,y(m−1) 

h . (4.2) 

yh : I ′ h → Rn , so dass 

m� 

akyh(tj+k) = fh(tj+m, yh(tj), . . .,yh(tj+m)) für tj+m ∈ Ih, 

k=0 

(2) yh(tj) = y (j) 

h , j = 0, . . .,m − 1. 

Zur Abkürzung wird wieder yj := yh(tj) geschrieben, die Anlaufphase wird später behandelt. 

(1) ist i. Allg. eine implizite Gleichung für yj+m. Ist fh Lipschitzstetig in der entsprechenden 

Variable gleichmäßig in h (analog zu Definition 3.20), existiert yh(tj+m) 

eindeutig für h ≤ H und kann mit der Fixpunktiteration berechnet werden. 

150

Wir setzen im Folgenden also voraus: 

Sei h ≤ H, 

so dass Definition 4.1, (1) eine eindeutige Lösung 

yh(tj+m) besitzt. 

Wir betrachten im Weiteren nur lineare Mehrschrittverfahren: 

(4.3) 

Definition 4.2 Ein Mehrschrittverfahren heißt linear, wenn es b0, . . .,bm ∈ R 

gibt, so dass 

d.h. 

fh(t, y0 . . . , ym) = 

m� 

bkf(t − (m − k)h, yk) für t ∈ Ih, yk ∈ R n , 

k=0 

1 

h 

m� 

akyj+k = 

k=0 

m� 

bk fj+k , wobei 

k=0 

fj+k := f(tj+k, yj+k), k = 0, . . .,m, tj+m ∈ Ih . 

(4.4) 

Ist bm �= 0, ist das Verfahren also implizit, sonst explizit. Ist |a0| + |b0| �= 0, so liegt ein 

lineares m-Schrittverfahren vor. 

4.1.1 Mehrschrittverfahren via numerische Quadratur 

Sei q ∈ N, q ≤ m. Die exakte Lösung y erfüllt 

y(tj+m) = y(tj+m−q) + 

tj+m � 

tj+m−q 

f(t, y(t))dt , j = 0, . . ., N − m . (4.5) 

Das Integral wird jetzt durch Newton–Côtes Formeln approximiert, d.h. zu r ∈ 

N, r ≤ m wird der Integrand in (4.5) ersetzt durch das interpolierende Polynom 

P ∈ Πr (vom Höchstgrad r) durch die r + 1 Stützpunkte 

(tk, fk), k = j, . . .,j + r, fk := f(tk, yk) . (4.6) 

(Ist n > 1, ist alles komponentenweise zu interpretieren, d.h. oBdA. wird eine skalare 

Gleichung betrachtet) 

Beispiel: 

151

t j t j+1 t j+2 t j+3 t j+4 t j+5 

Interpolations 

bereich 

Integrations 

bereich 

m = 5, q = 2, r = 2 (n = 1) (Extrapolation). 

Je nachdem, ob der Interpolationsbereich [tj, tj+r] den Integrationsbereich umfasst oder 

nicht, spricht man von Interpolations- oder Extrapolationsverfahren. 

Die wesentlichen Klassen sind 

Typ Name r q 

Extrapolations- Adams-Bashforth m − 1 1 explizit 

verfahren Nyström m − 1 2 

Interpolations- Adams-Moulton m 1 implizit 

verfahren Milne-Simpson m 2 

Das Verfahren hat also die Gestalt 

Wir verwenden dabei die 

yj+m = yj+m−q + 

Newton’sche Darstellung von P: 

wobei 

P(t) = fj+r + 

t − tj+r 

h 

tj+m � 

tj+m−q 

t 

P(t)dt . (4.7) 

∇fj+r + (t − tj+r)(t − tj+r−1) 

2h 2 

+ · · · + (t − tj+r) . . .(t − tj+1) 

r! h r 

∇ r fj+r , 

∇ 2 fj+r 

∇ 0 fi := fi, ∇ k fi := ∇ k−1 fi − ∇ k−1 fi−1, k = 1, . . . . 

152 

(4.8)

Mit 

folgt 

und 

t − tj+r 

s := , 

h 

⎧ 

� � 

a 

⎨ 1 für n = 0 

:= 

n ⎩ a(a − 1) · · ·(a − n + 1) 

für n > 0 

n ! 

yj+m = yj+m−q + h 

P(t) = 

k=0 

r� 

k 1 

(−1) 

h 

k=0 

1 

h 

tj+m � 

tj+m−q 

d.h. ein von h unabhängiger Term. 

Beweis: 

1 

r! 

⎛ 

=s=−(−s) 

� �� 

⎜ 

t − tj+r 

⎝ h 

=s+1=−(−s−1) 

�� 

. . . . . . 

für a ∈ R, n ∈ N0 

r� 

(−1) k 

� � 

−s 

∇ 

k 

k fj+r , d.h. (4.9) 

tj+m � 

tj+m−q 

� −s 

k 

� −s 

k 

� 

dt = 

=s+r−1=−(−s−r+1) 

� �� 

t − tj+1 

h 

Lagrange’sche Darstellung von P: 

P(t) = 

� 

dt∇ k fj+r , j = 0, . . ., N − m (4.10) 

m−r � 

m−r−q 

⎞ 

⎟ 

⎠ 

r� 

fj+klk(t), lk(t) := 

k=0 

153 

� −s 

k 

� 

ds , 

= (−1)r(−s)(−s − 1) . . .(−s − r + 1) 

r! 

= (−1) r 

r� 

ρ=0 

ρ�=k 

� −s 

r 

t − tj+ρ 

tj+k − tj+ρ 

� 

. 

✷ 

(4.11)

⇒ 

und 

yj+m = yj+m−q + h 

1 

h 

tj+m � 

tj+m−q 

also ein von h unabhängiger Term. 

Vorteile von Lagrange: 

lk(t)dt = 

r� 

k=0 

m−r � 

m−r−q 

1 

h 

tj+m � 

tj+m−q 

r� 

ρ=0 

ρ�=k 

• weniger Operationen (keine Differenzenbildung) 

• Schrittweitenänderung leichter 

Vorteile von Newton: 

lk(t)dt fj+k 

s + r − ρ 

k − ρ 

ds, 

(4.12) 

• Ordnungsänderung (d.h. von m) leichter, da Koeffizienten nur von m−r, m−r−q 

abhängig, nicht von m, 

• in (4.12) Auslöschung möglich. 

I. Die Verfahren von Adams-Bashforth (A-B): 

r = m − 1, q = 1. 

tj tj+1 tj+2 ......... tj+m-1 tj+m Interpolations 

bereich 

k=0 

Integrations 

bereich 

t 

explizites 

m-Schrittverfahren 

m−1 � 

yj+m = yj+m−1 + h γk∇ k fj+m−1 mit j = 0, . . ., N − m (4.13) 

γk := (−1) k 

�1 

0 

� � 

−s 

ds, k = 0, . . .,m − 1 , d.h. unabhängig von m. (4.14) 

k 

154

Die γk ergeben sich aus der erzeugenden Funktion 

∞� 

G(z) := γkz k , z ∈ C, |z| < 1 (4.15) 

da 

Lemma 4.3 Für c, d ∈ R, c ≤ d ≤ 1 und z ∈ C, |z| < 1 gilt: 

∞� 

(−1) k 

�d 

� � 

−s 

dsz 

k 

k � 

(1 − 

� 

z)−s � 

= − � 

log(1 − z) � 

⇒ 

k=0 

G(z) = − 

− 

c 

k=0 

� 

(1 − 

� 

z)−s � 

� 

log(1 − z) � 

log(1 − z) 

z 

1 

0 

= − 

s=d 

s=c 

z 

(1 − z)log(1 − z) 

G(z) = 1 

1 − z 

. 

⇒ 

, |z| < 1 ⇒ 

� 

1 1 1 + z + 2 3z2 + . . . � (γ0 + γ1z + γ2z2 + · · ·) = 1 + z + z2 + · · · 

⇒ 

d.h. 

(4.13) ⇒ 

mit 

d.h. 

(4.16) 

1γk + 1 

2 γk−1 + · · · + 1 

k + 1 γ0 = 1 für k = 0, 1, . . . , (4.17) 

k 0 1 2 3 4 · · · 

γk 1 

yj+m = yj+m−1 + h 

αmk = (−1) m−k−1 

m−1 � 

i=m−k−1 

� 

1 

2 

m−1 � 

k=0 

5 

12 

3 

8 

251 

720 

· · · 

αmkfj+k , j = 0, . . ., N − m (4.18) 

i 

m − k − 1 

155 

� 

γi, k = 0, . . ., m − 1 , (4.19)

k 0 1 2 3 

1 · α1k 1 

2 · α2k −1 3 

12 · α3k 5 −16 23 

24 · α4k −9 37 −59 55 

m = 1 : yj+1 = yj + hfj : Explizites Euler-Verfahren 

m = 2 : yj+2 = yj+1 + 1 

2 h(−fj + 3fj+1) 

II. Die Verfahren von Nyström: 

r = m − 1, q = 2 (m ≥ 2). 

d.h. 

tj t ......... 

j+1 tj+m-2 tj+m-1 tj+m Interpolations 

bereich 

k=0 

Integrations 

bereich 

t 

explizites 


m−1 � 

yj+m = yj+m−2 + h γ ∗ k∇kfj+m−1 , j = 0, . . ., N − m . (4.20) 

G ∗ (z) := 

γ ∗ k 

= 

(Lemma 4.3) 

− 

= (−1)k 

∞� 

k=0 

�1 

−1 

γ ∗ z k 

� −s 

k 

� 

ds . (4.21) 

1 1 − 1 + 2z − z 

log(1 − z)(1 − z) 

2 

1 − (1 − z) 2 

= 

z 2 − z 

− 

log(1 − z) 1 − z 

für |z| < 1 , 

log(1 − z) 

G 

z 

∗ (z) = 1 + 1 

1 − z 

156 

gilt:

γ ∗ k + 1 

2 γ∗ k−1 + · · · + 1 

k + 1 γ∗ � 

2 , k = 0, 

0 = 

1 , k = 1, . . . . 

Die zu (4.18) analoge Form gilt wieder mit (4.19) (α ∗ mk , γ∗ k statt αmk, γk): ⇒ 

k 0 1 2 3 

α ∗ 2k 0 2 

3 · α ∗ 3k 1 −2 7 

3 · α ∗ 4k 

−1 4 −5 8 

m = 2 : yj+2 = yj + 2hfj+1 : Mittelpunktsregel 

III. Die Verfahren von Adams-Moulton (A-M): 

r = m, q = 1. 

tj t ......... 

j+1 tj+m-2 tj+m-1 tj+m Interpolations 

bereich 

Integrations 

bereich 

yj+m = yj+m−1 + h 

1 

G(z) = − 

log(1 − z) 

δk := (−1) k 

�0 

−1 

t 

implizites 


(4.22) 

m� 

δk∇ k fj+m mit (4.23) 

k=0 

− z) 

(1 − (1 − z)) ⇔ −log(1 G(z) = 1. 

z 

� −s 

k 

� 

ds , d.h. mit Lemma 4.3 (4.24) 

δk + 1 

2 δk−1 + · · · + 1 

k + 1 δ0 

� 

1 , k = 0 

= 

0 , k = 1, . . . . 

δ0 = 1 

157 

(4.25)

Lagrange’sche Form: 

d.h. 

δ3 + 1 

2 δ2 

δ2 + 1 

2 δ1 

�� 

�� 

− 1 

4 

δ1 + 1 

2 δ0 = 0 ⇒ δ1 = − 1 

2 

+ 1 

3 δ0 

�� 

1 

3 

� �� 

+ 1 

3 δ1 

�� 

1 

12 

+ 1 

4 δ0 

�� 

1 

= 0 ⇒ δ2 = − 1 

12 

= 0 

− 1 

24 − 1 

� 

6 

�� 

1 

24 

4 

� 

yj+m = yj+m−1 + h 

βmk = (−1) m−k 

⇒ δ3 = − 1 

24 

m� 

βmkfj+k mit (4.26) 

k=0 

m� 

i=m−k 

k 0 1 2 3 

2β1k 1 1 

12β2k −1 8 5 

24β3k 1 −5 19 9 

m = 1 : yj+1 = yj + 1 

2 h(fj + fj+1) : implizite Trapez-Regel 

m = 2 : yj+2 = yj+1 + 1 

12 h(−fj + 8fj+1 + 5fj+2) 

IV. Die Verfahren von Milne-Simpson: 

r = m, (≥ 2), q = 2. 

158 

� � 

i 

δk , (4.27) 

m − k

tj t ......... 

j+1 tj+m-2 tj+m-1 tj+m Mit Lemma 4.3 

Interpolations 

bereich 

(4.26), (4.27) gelten analog, d.h. 

d.h. für m = 2 und m = 3 : 

Integrations 

bereich 

yj+m = yj+m−2 + h 

δ ∗ k 

= (−1)k 

�0 

−2 

m� 

k=0 

� −s 

δ ∗ k + 1 

2 δ∗ k−1 + · · · + 1 

k + 1 δ∗ 0 = 

t 

δ ∗ k∇ k fj+m mit (4.28) 

k 

� 

ds . (4.29) 

⎧ 

⎪⎨ 

⎪⎩ 

k 0 1 2 3 4 

3β ∗ 2k 1 4 1 

3β ∗ 3k 0 1 4 1 

90β ∗ 4k 

−1 4 24 124 29 

2, k = 0 

−1, k = 1 

0, k ≥ 2 

yj+2 = yj + 1 

3 h(fj + 4fj+1 + fj+2) 

– entspricht der Simpsonsregel bei der Newton-Côtes Formel – 

4.1.2 Mehrschrittverfahren via numerische Differentiation 

Hier wird das Polynom P ∈ Πm betrachtet, das die Werte 

(4.30) 

(tk, yk), k = j, . . .,j + m (4.31) 

159

interpoliert und dann für ein r ∈ N mit 0 ≤ r ≤ m P ′ (tj+m−r) aufgefasst wird als 

Approximation für 

y ′ (tj+m−r) = f(tj+m−r, y(tj+m−r)) ∼ fj+m−r . 

P ′ (tj+m−r) = fj+m−r, j = 0, . . ., N − m , (4.32) 

ist also die Definition des Verfahrens (implizit für r = 0, sonst explizit). Aus 

folgt 

mit 

P(t) = 

m� 

(−1) k 

� � 

−s 

∇ 

k 

k t − tj+m 

yj+m, s = 

h 

k=0 

P ′ (tj+m−r) = 1 

h 

ρrk = (−1) k h d 

� � 

−s � 

dt k 

� 

� 

� 

m� 

k=0 

� t=tj+m−r 

ρrk∇ k yj+m 

Die ρrk bestimmen sich aus der erzeugenden Funktion 

� � 

k d −s 

= (−1) � 

ds k 

� 

� 

� 

∞� 

ρrkz k = −(1 − z) r log(1 − z), |z| < 1 

k=0 

� s=−r 

(4.33) 

(4.34) 

. (4.35) 

(Vertauschung von d 

ds und � ) 

also für r = 0 (rückwärts genommene Differenzen, Backward Differentiation Formula) 

d.h. 

und 

∞� 

ρ0kz k = −log(1 − z) = 

k=0 

ρ00 = 0, ρ0k = 1 

k 

∞� 

ρr+1,kzk = (1 − z) ∞� 

k=0 

= ρr0 + ∞� 

160 

∞� 

k=1 

z k 

k , 

für k ∈ N (4.36) 

ρrkz 

k=0 

k 

(ρrk − ρr,k−1)z 

k=1 

k ,

d.h. 

ρr+1,0 = ρr0(= 0), ρr+1,k = ρrk − ρr,k−1 für k ∈ N, r = 0, . . ., m − 1 . (4.37) 

Damit ist (4.32), (4.34) vollständig definiert. Durch Auflösen der ∇kyj+m lässt sich die 

m� 

akryj+k schreiben. 

linke Seite auch als 1 

h 

Beispiele: r = 0 : 

k=0 

m = 1 : yj+1 − yj = hfj+1 (implizites Euler-Verfahren) 

m = 2 : yj+2 − 4 

3 yj+1 + 1 

3 yj = h 2 

3 fj+2 

m = 3 : yj+3 − 18 

11 yj+2 + 9 

11 yj+1 − 2 

11 yj = h 6 

11 fj+3 

4.1.3 Prädiktor-Korrektor-Verfahren 

Um die Auflösung der nichtlinearen Gleichungen bei impliziten Vefahren etwa 

durch Fixpunktiteration zu vermeiden, legt man die Anzahl der Fixpunktiterationen 

l a priori fest (l klein: l = 1, 2, . . ., s.u.) und fasst dieses Ergebnis als Korrektor 

zu dem von einem geeigneten expliziten Verfahren gelieferten Startwert (Prädiktor) auf. 

Beispiel: Kombination von Adams-Bashforth (A − B) (Prädiktor) und Adams- 

Moulton (A − M) (Korrektor) zu gleichem m (A − B − Mm). Allgemein ergibt sich 

bei linearen Mehrschrittverfahren (und gleichem m) die folgende Gestalt. Das explizite 

m-Schrittverfahren sei gegeben durch a ∗ 0, . . .,a ∗ m−1, a ∗ m = 1 (oBdA.), b ∗ 0, . . .,b ∗ m−1, das 

implizite durch a0, . . .,am−1, am = 1 (oBdA.), b0, . . ., bm−1, bm, l ∈ N bezeichne die 

Anzahl der Iterationen, dann 

• j = 0, . . .,m − 1 : 

y (l) 

j := y (j) 

h 

f (l) 

• j = 0, . . .,N − m : 

j := f(tj, y (l) 

j 

(Startwerte durch Anlaufrechnung) 

) , j = 0, . . .,m − 1, 

161 

(4.38)

– P(Prediktor): 

y (0) 

j+m 

– Iteration: i = 1, . . ., l : 

E(valuation) 

– E(valuation): 

f (i−1) 

j+m 

C(orrection) 

y (i) 

j+m 

m−1 � 

:= − 

� 

:= f 

k=0 

m−1 � 

:= − 

a ∗ k y(l) 

j+k 

tj+m, y (i−1) 

j+m 

k=0 

ak y (l) 

j+k 

� 

m−1 � 

+ h 

k=0 

m−1 � 

+ h 

k=0 

b ∗ k f(l) 

j+k 

bkf (l) 

j+k 

� �� 

unabhängig von i ! 

f (l) 

j+m := f(tj+m, y (l) 

j+m ) . 

Kurz wird ein solches Verfahren als P(EC) l E-Verfahren bezeichnet. 

+ h bmf (i−1) 

j+m 

Der Hauptaufwand steckt i. Allg. in den Teilen E. Um diesen zu reduzieren, lassen die 

P(EC) l -Verfahren den letzten Auswertungsschritt weg, d.h. 

• j = 0, . . .,m − 1 : 

• j = 0, . . .,N − m : 

– P : y (0) 

j+m 

m−1 � 

:= − 

k=0 

y (l) 

j 

f (l−1) 

j 

a ∗ k y(l) 

j+k 

:= y (j) 

h 

:= f(tj, y (l) 

j ), 

m−1 � 

+ h 

k=0 

– Iteration i = 1, . . .,l : 

E : f (i−1) 

j+m := f(tj+m, y (i−1) 

j+m ) 

C : y (i) 

j+m 

m−1 � 

:= − 

k=0 

162 

aky (l) 

j+k 

b∗ kf(l−1) j+k , i = 1, . . .,l : 

m−1 � 

+ h 

k=0 

bkf (l−1) 

j+k 

+ h bmf (i−1) 

j+m . 

(4.39)

4.2 Konsistenz(-ordnung) 

Analog zu Definitionen 3.7, 3.8 setzen wir 

Definition 4.4 Sei y die exakte Lösung von (A), yh die Näherungslösung nach 

(Ah). Dann heißt 

eh : I ′ h → R n , eh(tj) := y(tj) − yh(tj) 

der globale Fehler von (Ah). 

(Ah) heißt konvergent, wenn 

�eh�h := max 

t∈I ′ h 

und hat die Konvergenzordnung p, wenn 

Definition 4.5 Sei für u : I ′ h → Rn 

(Ahu)(t) := 

⎧ 

⎪⎨ 

⎪⎩ 

�y(t) − yh(t)� → 0 für h → 0 , (4.40) 

�eh�h = O(h p ) . (4.41) 

u(tj) − y (j) 

h , 

1 

h 

m� 

k=0 

für t = tj, j = 0, . . ., m − 1 , 

aku(tj+k) − 

Die Gitterfunktion τh : I ′ h → Rn , definiert durch 

m� 

k=0 

bkf(tj+k, u(tj+k)) 

für t = tj+m, j = 0, . . .,N − m . 

(4.42) 

τh(t) := Ah(y)(t) , t ∈ I ′ h (4.43) 

(y exakte Lösung von (A)) heißt lokaler Abbruchfehler (Abschneidefehler). 

(Ah) heißt konsistent mit (A), wenn 

(Ah) hat die Konsistenzordnung p , wenn 

�τh�h := max 

t∈I ′ �τh(t)� → 0 für h → 0. (4.44) 

h 

�τh�h = O(h p ) . (4.45) 

163

Die Definition von τh ist für explizite Verfahren bis auf Indizierung identisch mit 

Definition 3.8, τh(tj+1) hier ˆ= τh(tj) dort, τh(t0) hier ˆ= y0 − y0 = 0 dort (exakte 

Anfangsdaten dort nur zur Vereinfachung). Für implizite Verfahren weichen die 

Definitionen ab, da fh aus Definition 3.8 immer die aufgelöste Form ist. 

Es gilt also nach Definition 

Ah(yh)(t) = 0, Ah(y)(t) = τh(t), t ∈ Ih . (4.46) 

Es geht also wieder darum, dass die “Störung” �τh�h klein ist (Konsistenz) und A −1 

h 

diese nur unabhängig von h verstärkt (Stabilität). 

Wir betrachten nur lineare Mehrschrittverfahren, gegeben durch 

a0, . . .,am, b0, . . .,bm mit oBdA. am = 1. 

Diese Parameter definieren die sogenannten 1. und 2. charakteristischen Polynome 

ρ(z) := 

m� 

k=0 

akz k , σ(z) := 

Satz 4.6 (Ah) ist konsistent mit (A), wenn gilt 

m� 

k=0 

(1) �y (j) 

h − y0� → 0 für h → 0, j = 0, . . .,m − 1 

(2) ρ(1) = 0 

(3) ρ ′ (1) = σ(1) 

� 

⇐⇒ m� 

k=0 

� 

ak = 0 

� 

⇐⇒ m� 

kak = m� 

k=1 

bk 

k=0 

Beweis: 

(1) ⇒ �y (j) 

h − y(jh)� → 0 für h → 0, j = 0, . . .,m − 1 

164 

� 

. 

bkz k . (4.47)

Für t = tj+m, j = 0, . . .,N − m, gilt: 

und 

τh(t) = 1 

h 

= 1 

h 

m� 

k=0 

m� 

k=0 

= 1 

h ρ(1) 

�� 

=0 

+ 1 

h 

|A1| ≤ 

≤ 

|A2| ≤ 

aky(tj+k) − 

ak 

m� 

k=0 

⎧ 

⎨ 

m� 

k=0 

⎩ y(tj) + khy ′ (tj) + 

y(tj) + ρ ′ (1) y ′ (tj) − 

m� 

k=0 

m� 

k=0 

ak 

�kh 

0 

�� 

=σ(1) 

bkf(tj+k, y(tj+k)) 

�kh 

0 

m� 

k=0 

y ′ (tj + s) − y ′ (tj)ds 

bky ′ (tj+k) 

y ′ (tj + s) − y ′ (tj)ds =: A1 + A2 

|bk| �y ′ (tj) − y ′ (tj+k)� 

|bk| max �y 

j=0,...,N−m 

k=0,...,m 

′ (tj) − y ′ (tj+k)� 

⎫ 

⎬ 

⎭ − 

m� 

k=0 

→ 0 für h → 0, da y ′ gleichmäßig stetig ist auf I . 

m� 

k=0 

|ak| 1 

h 

k h max �y 

j=0,...,N−m 

s∈[0,mh] 

′ (tj + s) − y ′ (tj)� 

→ 0 für h → 0. 

bky ′ (tj+k) 

Bei glattem f lässt sich die genaue Konsistenzordnung einfach algebraisch charakterisieren: 

Satz 4.7 Es sei τh(tj) = O(h p ) für j = 0, . . .,m − 1. 

1) Dann sind äquivalent: 

(1) (Ah) hat die Konsistenzordnung p für alle f ∈ C p (U), wobei U eine Umgebung 

von (t, y(t)) ist. 

(2) m� 

k=0 

ak = 0 

m� 

(kiak − iki−1bk) = 0, i = 1, . . .,p 

k=0 

(d.h. p = 1 : ρ(1) = 0, ρ ′ (1) = σ(1)) 

165 

✷

2) Ist f ∈ Cp+1 (U), dann ist 

� 

m� 

1 

τh(tj+m) = k 

(p + 1)! 

k=0 

p+1 ak − (p + 1)k p � 

bk h 

� �� 

=: cp 

p y (p+1) (tj+m) + O(h p+1 ) . 

(4.48) 

Ist cp �= 0, ist also die Ordnung p exakt und cp heißt die Fehlerkonstante. 

Beweis (durch Taylorentwicklung) 

nur 1): 

y(t + kh) = y(t) + khy ′ (t) + . . . + (kh)p 

p ! y(p) (t) + O(h p+1 ) 

hy ′ (t + kh) = hy ′ (t) + kh 2 y ′′ (t) + · · · + kp−1 

(p − 1)! hp y (p) (t) + O(h p+1 ) 

⇒ für t + mh ∈ Ih : 

hτh(t + mh) = m� 

{aky(t + kh) − hbky ′ (t + kh)} 

k=0 

= m� 

k=0 

� 

aky(t) + p� 

+ O(h p+1 ) 

i=1 

also: (1) ⇐ (2) : hτh(t + mh) = O(h p+1 ) 

(2) ⇐ (1) : Wähle f so, dass 

y (i) (t) �= 0, i = 0, . . ., p . 

� 

ak 

i ! ki − bk 

(i − 1)! ki−1 

� 

hiy (i) � 

(t) 

Für die speziellen Klassen von Mehrschrittverfahren ergibt sich die Konsistenzordnung 

direkt aus der Konstruktion. 

Satz 4.8 Sei (Ah) ein via numerische Quadratur nach (4.6), (4.7) definiertes Mehrschrittverfahren, 

sei f ∈ C r+1 (U), wobei U eine Umgebung von (t, y(t)) darstellt. 

Ist τh(tj) = O(h r+1 ) für j = 0, . . .,m − 1, dann hat (Ah) die Konsistenzordnung 

r + 1 . 

Beweis: 

Sei P ∈ Πr das Interpolationspolynom durch die Stützpunkte 

(tk, f(tk, y(tk))) = (tk, y ′ (tk)), k = j, . . .,j + r. 

166 

✷

Wegen y ′ ∈ C r+1 (I) gilt die Fehlerdarstellung (vgl. Numerik I, Satz 6.3): 

y ′ j+r � 

(t) − P(t) = (t − tk)y (r+2) 1 

(ξ) 

(r + 1)! 

k=j 

mit einem ξ = ξ(t) ∈ [tj, max(t, tj+r)] für t ≥ tj. Also 

y ′ (t) − P(t) = h r+1 (−1) r+1 

� � 

−s 

y 

r + 1 

(r+2) (ξ(t)) mit s := 

(vgl. (4.9)), also für j = 0, . . .,N − m : 

τh(tj+m) = 1 

h (y(tj+m) − y(tj+m−q)) − 1 

h 

⇒ �τh(tj+m)� ≤ Ch r+1 . 

= 1 

h 

tj+m � 

tj+m−q 

= (−1) r+1 r+1 1 

h 

= (−1) r+1 h r+1 

y ′ (t) − P(t)dt 

h 

tj+m � 

tj+m−q 

m−r 

� 

m−r−q 

167 

tj+m � 

tj+m−q 

P(t)dt 

� � 

−s 

y 

r + 1 

(r+2) (ξ(t))dt 

� −s 

r + 1 

� 

t − tj+r 

h 

y (r+2) (ξ(tj+r + hs))ds 

� �� 

≤�y (r+2) � L ∞ (I) 

(4.49) 

✷

Konsistenzordnung und Fehlerkonstanten der linearen 

Mehrschrittverfahren aus 4.1 

Verfahren Typ ρ(z) σ(z) p cp Voraus- 

Adams- explizit z m − z 

� 

m−1 m−1 

k=0 

setzungen 

αmkz k m = r + 1 γm > 0 f ∈ C m 

Bashforth m ≥ 1 �τh(tj)� = 0(h m ) 

Nyström explizit z m − z 

Adams- implizit z m − z m−1 

� 

m−2 m−1 

k=0 

j = 0,1,... ,m − 1 

α ∗ mk zk m γ ∗ m > 0 f ∈ C m 

m ≥ 2 �τh(tj)� = O(h m ) 

j = 0,1,... ,m − 1 

m� 

βmkzk m + 1 δm+1 < 0 f ∈ Cm+1 k=0 

Moulton m ≥ 1 = r + 1 �τh(tj)� = O(h m+1 ) 

Milne- implizit z m − z m−2 

j = 0,1,... ,m − 1 

m� 

β∗ mkzk m + 1 für m ≥ 3 δ∗ m+1 < 0 f ∈ Cm+1 

k=0 

Simpson m ≥ 2 für m ≥ 3 �τh(tj)� = O(h m+1 ) 

4 für m = 2 δ∗ 3 = 0 

< 0 

j = 0,1,... ,m − 1 

Wenden wir dies auf die Beispielklassen I–IV an, so ergibt sich z.B. für I (A − B) 

ρ(z) = z m − z m−1 

⇒ ρ(1) = 0, ρ ′ (z) = mz m−1 − (m − 1)z m−2 für m ≥ 2, 

d.h. ρ ′ (1) = 1 

Wende die γ− und die αm-Form auf f=constant an σ(z) = m−1 � 

σ(1) = m−1 � 

� 

k=0 

αmk = γ0 = 1 

� 

m−1 

m−1 aus (4.19) oder σ(z) = z 

k=0 

γk 

� � 

1 k 

1 − z 

168 

� 

. 

δ ∗ 4 

k=0 

αmkz k , also 

(4.50) 

(4.51) 

(4.52) 

(4.53)

Nach Satz 4.6 ist das Verfahren also konsistent (bei entsprechenden Startwerten) mit 

Ordnung m nach Satz 4.8. Für die Fehlerkonstante gilt 

cp = γm . 

Insgesamt betrachte man die entsprechende Tabelle. 

Milne-Simpson m = 2 hat die erhöhte Ordnung p = 4. Allgemeiner gilt: 

Satz 4.9 Sei (Ah) ein via numerische Quadratur definiertes Mehrschrittverfahren. Ist 

m gerade, q = m, r = m und f ∈ C m+2 (U), so gilt bei entsprechenden Anfangsdaten 

die erhöhte Konsistenzordnung 

m + 2. 

Beweis: 

Übung: 

Zeige zuerst bk = bm−k, k = 0. . . ., m/2 und damit, dass (2) aus Satz 4.7 auch für 

p = m + 2 gilt. 

Satz 4.10 Sei (Ah) ein via numerische Differentiation definiertes Mehrschrittverfahren. 

Ist f ∈ C m (U) und τh(tj) = O(h m ) für j = 0, . . .,m−1, dann hat (Ah) die genaue 

Konsistenzordnung m. 

Beweis: 

Nach (4.32) ist für j = 0, . . ., N − m : 

τh(tj+m) = P ′ (tj+m−r) − f(tj+m−r, y(tj+m−r)) 

= P ′ (tj+m−r) − y ′ (tj+m−r) , 

wobei P ∈ Πm das die Werte (tk, y(tk)), k = j, . . .,j + m interpolierende Polynom ist. 

Analog zu (4.49) gilt 

y(t) − P(t) = h m+1 (−1) m+1 

� � 

−s 

y 

m + 1 

(m+1) (ξ(t)) (4.54) 

mit einem ξ = ξ(t) ∈ [tj, tj+m] für t ∈ [tj, tj+m], s = (t − tj+m)/h. 

t ↦→ y (m+1) (ξ(t)) ist dort wegen (4.54) differenzierbar und damit 

169 

✷

τh(tj+m) = hm+1 � � 

m+2 d −s 

(−1) � 

ds m + 1 

� 

� 

+h m+1 (−1) m+1 

= −ρrm+1 

� �� 

�=0 

� � 

−s 

m + 1 

� 

� s=−r 

� 

� 

� 

� 

� s=−r 

� �� 

=0 

1 

h y(m+1) (ξ(tj+m)) 

d 

dt y(m+1) (ξ(t)) � � �� t=tj+m 

h m y (m+1) (ξ(tj+m)) nach (4.35) . 

Nach Satz 4.7 müssen die 2(m + 1) Parameter a0, . . .,am, b0, . . .,bm, p + 1 lineare 

Gleichungen erfüllen, damit Konsistenzordnung p vorliegt. am = 1 ist durch Normierung 

festgelegt, bei expliziten Verfahren ist bm = 0, d.h. es gibt 2m bzw. 2m + 1 freie 

Parameter, was als maximale Konsistenzordnung 2m − 1 (explizit) bzw. 2m (implizit) 

vermuten lässt. 

Von den Beispielen erfüllen diese maximale Ordnung: 

explizit p = m = 2m − 1 ⇐⇒ m = 1 

implizit p = m + 1 = 2m ⇐⇒ m = 1 

und Milne-Simpson m = 2, da p = 4 = 2m . 

Generell existiert ein eindeutiges Verfahren maximaler Ordnung (→ [Grigorieff 2], 

S. 19, 20), doch sind diese i. Allg. instabil (s.u.). 

4.3 (Lipschitz)Stabilität und Konvergenz 

Wir möchten wieder von Konsistenz(-ordnung) auf Konvergenz(-ordnung) schließen 

und brauchen dafür die Stabilität des Schemas. Der folgende Begriff ist hinreichend: 

Definition 4.11 Sei uh : I ′ h → Rn . (Ah) heißt Lipschitz-stabil in (uh), wenn 

H, δ, η > 0 existieren, so dass für 0 < h ≤ H und alle wh : I ′ h → Rn mit 

�Ahuh − Ahwh�h ≤ δ gilt: 

�uh − wh�h ≤ η�Ahuh − Ahwh�h . 

170 

✷

Es folgt sofort, setzt man 

(rhy)(t) := y(t), t ∈ I ′ h (Restriktion auf Gitter) (4.55) 

Satz 4.12 (Ah) sei konsistent mit (A) und Lipschitz-stabil in rhy, wobei y die Lösung 

von (A) ist. Dann ist (Ah) konvergent mit Konvergenzordnung p, sofern die Konsistenzordnung 

p ist. 

Beweis: 

Seien H, δ, η > 0 nach Definition 4.11 

Also für h ≤ H ′ : 

Wegen �τh�h → 0 für h → 0 existiert ˜ H > 0, 

so dass �τh�h ≤ δ für h ≤ H ′ := min(H, ˜ H). 

�eh�h = �rhy − yh�h ≤ η�Ahrhy − Ahyh�h 

= η�τh�h → 0 für h → 0. 

Es bleibt also die Aufgabe, eine überprüfbare Charakterisierung für Lipschitz-Stabilität 

zu finden. Wir beginnen mit f = 0 (bzw. allgemein fh = 0), d.h. mit linearen, homogenen 

Differenzengleichungen des Typs 

m� 

k=0 

akyj+k = 0, j = 0, . . ., 

Als Charakterisierung wird sich erweisen: 

Definition 4.13 Ein Polynom 

y0, . . .,ym−1 gegeben (am = 1 oBdA.) . 

ρ(z) = 

m� 

k=0 

ak z k 

erfüllt die Wurzelbedingung, wenn für alle Nullstellen z ∈ C von ρ gilt: 

(1) |z| ≤ 1 , 

(2) |z| = 1 ⇒ z ist einfach (d.h. ρ ′ (z) �= 0) . 

✷ 

(4.56) 

Ein Mehrschrittverfahren erfüllt die Wurzelbedingung, wenn sein 1. charakteristisches 

Polynom dies tut. 

171

Wir wollen zeigen: 

Satz 4.14 Sei f = 0 (bzw. fh = 0). Dann sind für ein Mehrschrittverfahren (Ah) 

äquivalent: 

(1) (Ah) ist Lipschitz-stabil (in (vh)) für ein beliebiges vh : I ′ h → Rn . 

(2) (Ah) erfüllt die Wurzelbedingung. 

Dies wird impliziert von 

Satz 4.15 Sei y0, y1, . . ., die Lösung der Differenzengleichung 

m� 

k=0 

ak yj+k = gj+m , j = 0, 1, . . . 

y0, . . .,ym−1 

gegeben, 

wobei am = 1 (oBdA.) und gm, gm+1, . . . ∈ R gegeben. Dann: 

i) Gilt die Wurzelbedingung (für ρ(z) = m� 

�yj� ≤ C 

� 

m−1 

max 

l=0 �yl� + 

k=0 

j� 

� 

�gk� 

k=m 

(4.57) 

ak z k ) dann gibt es ein C > 0, so dass 

für alle j = 0, 1, . . . . 

yj 

ii) Ist lim 

j→∞ j = 0 für gm = gm+1 = · · · = 0, dann gilt die Wurzelbedingung. 

Beweis: Satz 4.15 ⇒ Satz 4.14: 

• (2) ⇒ (1) in Satz 4.14: 

Wegen f ≡ 0 erfüllt für vh, wh, I ′ h 

die Gleichung (4.57) mit 

also für j = 0, . . ., N : 

→ Rn 

yj := (vh(tj) − wh(tj)), j = 0, . . ., N (4.58) 

gj+m = h(Ahvh − Ahwh)(tj+m), j = 0, . . .,N − m, (4.59) 

172

Es gilt die Wurzelbedingung: 

�vh(tj) − wh(tj)� = �yj� 

also gilt 

≤ C 

� 

m−1 

max 

l=0 �yl� + 

⎛ 

j� 

� 

h�(Ahvh − Ahwh)(tk)� 

k=m 

⎜ 

⎟ 

≤ C ⎝1 + (N − m + 1)h⎠ 

�Ahvh − Ahwh�h 

� �� 

≤(T −t0) 

⎞ 

� �� 

η 

(2) ⇒ (1) in Satz 4.14 (δ aus Definition 4.11 ist beliebig in diesen Fall f ≡ 0). 

• (1) ⇒ (2) in Satz 4.14: 

Für (1) ⇒ (2) sei eine Lösung y0, y1, . . . von (4.56) gegeben. 

Sei N ∈ N, h := (T − t0)/N und 

vh(tj) := Cyj , wh(tj) := 0 , j = 0, . . .,N 

� 

� 

m−1 

wobei C := δ max 

l=0 �yl� 

� 

+ 1 , mit δ aus Definition 4.11. 

vh und wh sind auch Lösungen von (4.56) und Ah ist linear, also nach Definition 

4.5 

�Ahvh − Ahwh�h ≤ m−1 

max 

j=0 �(vh − wh)(tj)� 

= C m−1 

max 

l=0 �yj� 

≤ δ 

also 

�yj� = 1 

C �(vh − wh)(tj)� 

≤ η 

C �Ah(vh 

≤ 

− wh)�h, mit η aus Definition 4.11 

η 

C C 

� 

m−1 

max 

l=0 �yl� 

� 

für j = 0, . . .,N. 

yj 

Damit ist (yj) sogar beschränkt, also lim = 0, also gilt nach Satz 4.15 (ii) die 

j→∞ j 

Wurzelbedingung. 

Für den Beweis von Satz 4.15 brauchen wir einige Vorbereitungen. 

173 

✷

Lemma 4.16 Sei A ∈ C m,m , so dass das charakteristische Polynom χ die Wurzelbedingung 

erfüllt. Dann gibt es eine Vektornorm auf C m , so dass für die erzeugte Matrixnorm 

gilt: 

�A� ≤ 1 . 

Beweis: (vgl. Numerik I, Lemma 2.10 !) 

Es seien z1, . . .,zm die Nullstellen von χ, so angeordnet, dass 

1 = |z1| = . . . = |zk| > |zk+1| ≥ . . . ≥ |zm| . 

Die Jordan’sche Normalform von A hat dann die Form mit einem nichtsingulären U : 

J := U −1 ⎛ 

z1 

⎜ 

AU = ⎜ 

⎝ 

. .. 

zk 

0 

Jk+1 

. .. 

⎞ 

⎟ 

⎠ 

mit 

⎛ 

zi 

⎜ 

Ji = ⎜ 

⎝ 

1 

. .. . .. 

. .. 

⎞ 

0 

⎟ 

1 ⎠ 

0 zi 

, 

da die z1, . . .,zk einfache Nullstellen (d.h. Eigenwerte von A) sind. 

Sei Dε := diag(1, ε, . . ., ε m−1 ), 

dann 

D −1 

ε JDε = 

⎛ 

⎜ 

⎝ 

z1 

0 

. .. 0 

0 

zk 

J (ε) 

k+1 

. .. 

J (ε) 

s 

Js 

⎞ 

⎟ , 

⎟ 

⎠ 

J (ε) 

i = 

⎛ 

zi 

⎜ 

⎝ 

ε 

. .. . .. 

.. . 

⎞ 

0 

⎟ 

ε ⎠ 

0 zi 

. Ist also ε ≤ |zk| − |zk+1|, dann ist die Zeilensummennorm 

174

also 

�J (ε) 

i �∞ = |zi| + ε ≤ |zk| ≤ 1 , 

�(UDε) −1 A UDε�∞ ≤ 1 , 

so dass �x� := �(UDε) −1 x�∞ eine geeignete Norm auf C m darstellt, da für die erzeugte 

Matrixnorm gilt 

Beweis von (∗): 

Betrachten wir B invertierbar und 

d.h. 

�x� ′ 

�A� ′ 

�A� = �(UDε) −1 A UDε�∞ . (∗) 

�x� ↦→ �A� : erzeugte Norm 

:= �Bx� 

� � 

′ �Ax� 

:= sup |x �= 0 

�x� ′ 

⎧ ⎫ 

⎪⎨ ⎪⎬ 

�BAx� 

= sup |y �= 0 

⎪⎩ 

� �� Bx � ⎪⎭ 

y 

� � 

−1 �BAB y� 

= sup 

|y �= 0 

�y� 

�A� ′ = �BAB −1 �. 

Sei oBdA. n = 1, sonst sind die folgenden Überlegungen für die Komponenten durchzuführen 

(und eventuell zum Maximum über die Komponenten überzugehen). 

Wir betrachten (4.57) und schreiben dies um zu einem Einschrittverfahren durch 

Yj := 

⎛ 

⎜ 

⎝ 

yj 

. 

yj+m−1 

175 

⎞ 

⎟ 

⎠ ∈ R m , (4.60) 

✷ 

✷

⎛ 

⎜ 

A := ⎜ 

⎝ 

0 1 

. .. 

. .. 

0 1 

−a0 . . . . . . −am−1 

⎛ 

0 

⎜ 

Gj := 

. 

⎜ 

⎝ 0 

gj+m 

Wegen am = 1 ist dann (4.57) äquivalent zu 

⎞ 

⎞ 

⎟ 

⎠ 

∈ R(m,m) 

(4.61) 

⎟ , j = 0, 1, . . ., (4.62) 

⎠ 

Yj+1 = AYj + Gj , j = 0, 1, . . ., 

Y0 vorgegeben. 

Lemma 4.17 Für das charakteristische Polynom χ von A nach (4.61) gilt: 

(−1) m χ(z) = ρ(z) = 

Beweis: 

Entwickeln nach der ersten Spalte liefert: 

⎛ 

⎜ 

χ(z) = det ⎜ 

⎝ 

−z 

0 

. 

1 

. .. 

0 . . . 

. .. 

.. . 

0 

. 

1 

⎞ 

⎟ 

⎠ 

−a0 . . . . . . . . . −am−1 − z 

m� 

k=0 

akz k . 

(4.63) 

⎛ 

⎜ 

= (−z) det ⎜ 

⎝ 

−z 

0 

. 

1 

. .. 

0 . . . 

. .. 

. .. 

0 

. 

1 

⎞ 

⎟ 

⎠ 

−a1 . . . . . . . . . −am−1 − z 

+ (−1)m+1 ⎛ 

1 

⎜ 

(−a0) det ⎜ 

−z 

⎜ 

⎝ 

. .. 

. .. . .. 

⎞ 

0 

⎟ 

⎠ 

0 −z 1 

176

=: A1 + A2 

und A1 = (−z)χm−1(z) zu den Koeffizienten a1 . . .am−1 

A2 = (−1) m a0 , d.h. 

χ1(z) = −am−1 − z , also 

χ(z) = χm(z) = (−z)χm−1(z) + (−1) m a0 , 

χ(z) = (−1) m a0 + (−1) m a1z + (−z) 2 χm−2(z) 

= (−1) m (a0 + a1z + · · · + am−2z m−2 ) 

+ (−z) m−1 χ1(z) , 

d.h. wegen am = 1 die Behauptung. 

Zum Beweis von Satz 4.15 

Zu (i): Wir benutzen (4.60)–(4.63). Nach Lemma 4.17, 4.16 gibt es eine Norm auf 

C m , also R m , so dass für die erzeugte Matrixnorm gilt 

d.h. 

�A� ≤ 1 , also 

�Yj+1� ≤ �AYj� + �Gj� ≤ �A� �Yj� + �Gj� 

�Yj+1� ≤ �Y0� + 

j� 

�Gk� für j = 0, 1, 2, . . . . (4.64) 

k=0 

Da auf R m alle Normen äquivalent sind (m ist fest!), existiert K > 0 mit 

1 

K �Y � ≤ �Y �∞ ≤ K�Y � für Y ∈ R m , (4.65) 

also 

|yj+m| ≤ �Yj+1�∞ ≤ K�Yj+1� 

≤ 

(4.64) 

K 

⇒ |yj| ≤ C 

� 

= K 2 

� 

K�Y0�∞ + 

� 

j� 

� 

K�Gk�∞ 

k=0 

m−1 

max 

l=0 |yl| + 

m−1 

max 

l=0 |yl| + 

177 

j� 

k=0 

|gk+m| 

� 

, j = 0, 1, . . ., 

j� 

� 

|gk| , j = 0, 1, . . . . 

k=m 

✷

Zu (ii) Sei z eine Nullstelle von ρ, dann ist 

eine spezielle Lösung von (4.56), da 

Annahme: |z| > 1 . Dann 

d.h. 

|yj| 

j 

log |yj| 

j 

yj := z j , j = 0, . . . (4.66) 

m� 

akyj+k = z j ρ(z). 

k=0 

→ ∞ im Widerspruch zu |yj| 

j 

Also gilt |z| ≤ 1 für jede Nullstelle z von ρ. 

Sei z eine mehrfache Nullstelle, d.h. 

= j log |z| − log j → ∞ für j → ∞ , 

� �� 

>0 

0 = ρ ′ (z) = 

→ 0 für j → ∞. 

m� 

kakz k−1 , 

k=1 

dann ist auch yj = jz j eine spezielle Lösung von (4.56), da 

m� 

akyj+k = 

k=0 

m� 

k=0 

|z| j = |yj/j| → 0 für j → ∞ impliziert hier 

ak(j + k)z j+k = jz j ρ(z) + z j+1 ρ ′ (z) = 0 

|z| < 1 . 

Die obige Charakterisierung ist allgemein, da: 

Satz 4.18 Es sind äquivalent: 

(1) (Ah) ist Lipschitz-stabil (in (vh)) für beliebige (lokal) Lipschitzstetige f. 

(2) (Ah) ist Lipschitz-stabil (in (vh)) für f ≡ 0. 

178 

✷

Beweis: (1) ⇒ (2): klar. 

(2) ⇒ (1) (alternativ [Griforieff 2], S. 115): Sei f global Lipschitzstetig. 

Nach Satz 4.14 gilt die Wurzelbedingung. 

Seien vh, wh : I ′ h → R, (oBdA. n = 1), dann sei 

Mit der Notation (4.60)–(4.62) erfüllt Yj 

yj := vh(tj) − wh(tj), j = 0, . . ., N . 

Yj+1 = AYj + Gj , wobei 

gj+m = h(Ahvh − Ahwh)(tj+m) 

+ h m� 

bk(f(tj+k, vh(tj+k)) − f(tj+k, wh(tj+k))) . 

k=0 

Ist L die Lipschitzkonstante von f, dann also 

� 

m� 

� 

|gj+m| ≤ h |˜gj+m| + |bk|L|yj+k| , (4.67) 

wobei 

k=0 

˜gj+m := (Ahvh − Ahwh)(tj+m) , j = 0, . . ., N − m . (4.68) 

Mit � · � nach Lemma 4.16 und (4.65) gilt also für Ej := �Yj� und B := m� 

|bk| 

Also 

⇒ 

Ej+1 ≤ Ej + �Gj� ≤ Ej + K|gj+m| 

� 

≤ Ej + hK |˜gj+m| + LB 

(4.67) 

m 

max 

k=0 |yj+k| 

� 

≤ Ej + hK(|˜gj+m| + LB(�Yj�∞ + �Yj+1�∞) 

≤ Ej + hK(|˜gj+m| + LBK(Ej + Ej+1)) . 

(1 − hLBK 2 )Ej+1 ≤ (1 + hLBK 2 )Ej + hK|˜gj+m| 

Ej+1 ≤ (1 + 4hLBK 2 )Ej + 2hK|˜gj+m| für h ≤ H(L, B; K) , (4.69) 

179 

k=0

da 

1 + a 

1 − a ≤ 1 + 4a ⇐⇒ 1 + a ≤ 1 + 3a − 4a2 ⇐⇒ a ≤ 1 

2 . 

Lemma 1.4 (von Gronwall) impliziert mit (4.68) 

⎛ 

� 

j� 

� 

⎜ 

|yj+m| ≤ KEj+1 ≤ K E0 + 2hK |˜gk+m| exp ⎝4LBK 

k=0 

2 ⎞ 

⎟ 

h(j + 1) ⎠ für j = 0, . . .,N − m . 

� �� 

≤(T −t0) 

Mit E0 ≤ K m−1 

max 

l=0 �(Ahvh −Ahw)(tl)� und (4.68) folgt also schließlich für ein C > 0 und 

h ≤ H : 

�vh − wh�h ≤ C�Ahvh − Ahwh�h . 

Die gefundenen Bedingungen sind sogar Charakterisierungen von Konvergenz. 

Satz 4.19 Es sind äquivalent: 

(1) (Ah) ist konsistent mit (A) und 

(Ah) erfüllt die Wurzelbedingung. 

(2) (Ah) ist konvergent. 

Es gilt Konvergenzordnung = Konsistenzordnung. 

Beweis: 

(1) ⇒ (2): Satz 4.12, Satz 4.14, Satz 4.18 

(2) ⇒ (1): ohne Beweis 

Für die betrachteten Beispiele gilt: 

Verfahren via Quadratur: 

I, III: ρ(z) = z m − z m−1 , d.h. 

Nullstellen z1 = 1, z2 = . . . = zm = 0 

II, IV: ρ(z) = z m − z m−2 , d.h. 

Nullstellen z1 = 1, z2 = −1, z3 = . . . zm = 0 

Die Wurzelbedingung ist also immer erfüllt. Komplizierter ist die Situation für Ver- 

fahren via Differentiation: 

180 

✷ 

✷

Satz 4.20 Für die Verfahren nach (4.32), (4.34) gilt für m ≥ 2: 

Die Wurzelbedingung gilt ⇐⇒ r = 0, m ≤ 6 oder r = 1, m ≤ 2 . 

Beweis: [Grigorieff 2], S. 135 ff. 

Also: 

Satz 4.21 Die Verfahren von Adams-Bashforth, Nyström, Adams–Moulton, Milne– 

Simpson m = 2, Milne–Simpson m ≥ 3, BDF r = 0, m ≤ 6; r = 1, m ≤ 2; r ≥ 

2, m = 1 haben bei entsprechender Anlaufrechnung die Konvergenzordnungen 

m m m + 1 4 m + 1 m 

A − B N A − M M − S2 M − S BDF 

Beweis: 

Satz 4.19 mit (4.70), Satz 4.20 und Satz 4.8, Satz 4.9, Satz 4.10. 

Sämtliche Überlegungen bis zu Satz 4.18 gelten auch für nichtlineare Mehrschrittverfahren. 

In Satz 4.18 ist zusätzlich die Lipschitzstetigkeit der fh gleichmäßig in h zu 

fordern (vgl. Definition 3.20). 

Die maximale Konsistenzordnung 2m − 1 (explizit) bzw. 2m (implizit) ist bis auf Ausnahmen 

nur mit instabilen Verfahren erreichbar, da 

Satz 4.22 (Dahlquist (1956)) 

Sei (Ah) ein lineares m-Schritt-Verfahren, das die Wurzelbedingung erfüllt und für ein 

p ∈ N für jedes f ∈ C p (U) die Konsistenzordnung p besitzt. Dann: 

1) p ≤ m + 2. 

2) p = m + 2 ⇒ m ist gerade und ρ hat nur Nullstellen vom Betrag 1, 

insbesondere z = 1 und z = −1. 

3) Sei p = m + 2 für gerades bzw. p = m + 1 für ungerades m, dann gibt es ein 

lineares Mehrschrittverfahren dieser Ordnung. 

181 

✷

Beweis: [Werner/Arndt], S. 180 ff. 

Beispiele für optimales p : 

m ungerade: Adams–Moulton oder Milne–Simpson, also für m = 1 : implizite 

Trapezregel; m = 2: Milne–Simpson. 

Kommen wir zu den Prädiktor-Korrektor-Verfahren (P-C Verfahren) zurück. Die 

P(EC) l E-Verfahren nach (4.38), (4.39) lassen sich als explizite Mehrschrittverfahren 

auffassen. 

Seien ρ ∗ , σ ∗ bzw. ρ, σ die 1. und 2. charakteristischen Polynome des Prädiktors bzw. 

des Korrektors mit a ∗ m = am = 1 : 

Lemma 4.23 Das durch (ρ ∗ , σ ∗ ) bzw. (ρ, σ) definierte P(EC) l E Verfahren ist ein 

(nichtlineares) m-Schritt-Verfahren mit gleichmäßig in h Lipschitzstetigen fh. 

Sein charakteristisches Polynom ist ˜ρ = ρ. 

Beweis: 

Die letzte Teilbehauptung ist klar. fh ergibt sich rekursiv als 

y (i) 

m := hbmf(t, y (i−1) 

m 

fh(t, y0, . . .,ym) := bmf(t, y (l−1) 

m ) + 

k=0 

m−1 � 

k=0 

m−1 � 

) + h bkf(t + (k − m)h, yk) − 

y (0) 

m−1 

m := h 

bkf(t + (k − m)h, yk) 

m−1 � 

k=0 

� 

b ∗ m−1 � 

kf(t + (k − m)h, yk) − a ∗ kyk, 

k=0 

t ∈ Ih, yk ∈ R n . 

k=0 

akyk, i = l − 1, . . ., 1 , 

Lipschitz-Stetigkeit von fh gleichmäßig in h (bei Lipschitz-stetigen f): Übung. 

P(EC) l E ist also Lipschitz-stabil, genau dann wenn der Korrektor L-stabil ist. Für die 

Konsistenzordnung gilt 

182 

✷ 

✷

Satz 4.24 1) Ist der Korrektor (ρ, σ) konsistent und bei l = 1 auch ρ ∗ (1) = 0, dann 

ist P(EC) l E konsistent. 

2) Hat (ρ, σ) Konsistenzordnung p und der Prädiktor (ρ ∗ , σ ∗ ) die Konsistenzordnung 

p ∗ , dann hat bei entsprechenden Anfangswerten P(EC) l E die Konsistenzordnung 

pl, 

pl := min(p, p ∗ + l) . (4.70) 

3) Genau dann wenn ρ die Wurzelbedingung erfüllt, ist bei 1) P(EC) l E konvergent 

bzw. hat bei 2) Konvergenzordnung pl. 

Beweis: 

1), 2): vgl. z.B. [Werner/Arndt], S. 187 ff. 

3): Satz 4.19, Lemma 4.23. 

Für die P(EC) l -Verfahren gilt im Wesentlichen der gleiche Satz, insbesondere haben 

sie die gleiche Konsistenzordnung (4.70). Sie bieten also ein besseres Verhältnis 

Aufwand zu Genauigkeit (Aufwand P(EC)E ∼ 2 × Aufwand P(EC)). 

Beispiel: 

⇒ 

Prädiktor Pm m-Schritt Adams–Bashforth 

Korrektor Cm m-Schritt Adams–Moulton 

Pm : p ∗ = m , Cm : p = m + 1 

Also haben alle folgenden Varianten für l ∈ N die Ordnung pl = m + 1 

Pm(ECm) l E 

Pm+1(ECm) l E 

Pm(ECm) l 

Pm+1(ECm) l . 

183 

✷ 

(4.71) 

(4.72)

4.4 Stabilität bei fester Schrittweite, Extrapolationsverfahren 

Anknüpfend an Abschnitt 1.8 betrachtet man wieder die Anwendung eines durch (ρ, σ) 

gegebenen linearen Mehrschrittverfahrens auf die lineare Testaufgabe (oBdA. skalar) 

und erhält die lineare Differenzengleichung 

y ′ = qy , y(t0) = y0 , q ∈ C (4.73) 

m� 

akyk+j = h 

k=0 

= h 

m� 

k=0 

bkf(tk+j, yk+j) 

m� 

bkqyk+j , d.h. 

k=0 

m� 

(ak − hqbk)yk+j = 0. (4.74) 

k=0 

Für das Verhalten von (yj) ist also das sog. Stabilitätspolynom 

χ(z, hq) := 

m� 

(ak − hqbk)z k 

k=0 

= ρ(z) − hqσ(z) 

(4.75) 

maßgebend. 

Gilt die Wurzelbedingung für χ(·, hq), bleibt nach Satz 4.15 (yj) beschränkt. Gilt für 

die Nullstellen z(hq) sogar 

dann hat (yj) das qualitativ richtige Verhalten 

|z(hq)| < 1 , (4.76) 

yj → 0 für j → ∞ (4.77) 

(vgl. Beweis von Lemma 4.16, Numerik I, Lemma2.10, Satz 4.15). 

Generell betrachten wir jetzt Mehrschrittverfahren (Ah), für die zu h > 0, q ∈ C 

Polynome χ(·, hq) existieren, so dass mit 

184

χ(z, hq) = 

gilt: (Ah) angewendet auf (4.73) bedeutet 

χ(·, hq)yj := 

m� 

ck(hq)yj+k = 0 , 

k=0 

m� 

ck(hq)z k , (4.78) 

k=0 

Annahme: ck = ck(w) hänge nahe bei w = 0 stetig von w ab und ck(0) = ak. 

(4.79) 

Neben den linearen Mehrschrittverfahren gilt dies für 

P(EC) l E : 

P(EC) l : 

χ(z, hq) = 

χ(z, hq) = 

�l−1 

(hqbm) ν (ρ(z) − hqσ(z)) 

ν=0 

+ (hqbm) l (ρ ∗ (z) − hqσ ∗ (z)) 

�l−1 

(hqbm) ν z m (ρ(z) − hqσ(z)) 

ν=0 

In Erweiterung von Definition 3.41 setzen wir 

Definition 4.25 (Ah) erfülle (4.78), (4.79). 

+ hq(hqbm) l−1 (ρ ∗ σ − ρσ ∗ )(z) . 

HA(0) := {w ∈ C | χ(z, w) = 0 ⇒ |z| < 1} 

heißt Bereich der absoluten Stabilität. 

(Ah) heißt absolut stabil (A-stabil), falls 

w ∈ C, Re w < 0 ⇒ w ∈ HA(0). 

Für ein Einschrittverfahren der Klasse (D) liefert die Anwendung auf (4.73) 

(4.80) 

(4.81) 

yj+1 − g(hq)yj = 0 , d.h. (4.82) 

χ(z, hq) = z − g(hq) 

mit der Nullstelle g(hq), so dass dies die alte Definition von HA(0) ist. 

185

Lemma 4.26 Sei (Ah) ein lineares Mehrschrittverfahren, gegeben durch (ρ, σ), das die 

Wurzelbedingung erfüllt. Seien z1, . . .,zm die Nullstellen von ρ und z1 = 1. Sei q ∈ C 

und z1(hq), . . ., zm(hq) die Nullstellen von χ(·, hq), d.h. zi(0) = zi, i = 1, . . .,m. 

(Ah) habe die Konsistenzordnung p, dann gilt: 

z1(hq) = e hq + O(h p+1 ) für h → 0. 

Beweis: 

y(t) = eq(t−t0) y0 ist die Lösung von (4.73), d.h. für diese Aufgabe gilt: 

m� 

hτh(tj+m) = (ak − hqbk)e q(tj+k−t0) 

y0 

Wegen e q(tj+k−t0) = e qjh (e hq ) k also 

k=0 

= O(h p+1 ) für j = 0, . . . . 

O(h p+1 ) = hτh(tj+m) = e qjh y0χ(e hq , hq) 

= e qjh y0(am − hqbm)(e hq − z1(hq)) . . .(e hq − zm(hq)) . 

(4.83) 

z1(0) = 1 ist einfache Nullstelle von ρ = χ(·, 0). Da die Nullstellen stetig von den Koeffizienten 

abhängen und für h = 0 alle Nullstellen z2, . . .,zm einen positiven Abstand 

von 1 haben, gilt auch für 0 < h < H, H klein: 

|e hq − zk(hq)| ≥ C > 0 , k = 2, . . .,m 

für ein C > 0. Mit (4.83) folgt daraus die Behauptung. 

Milne–Simpson m = 2 war das “genaueste” Verfahren bisher. Für steife Differentialgleichungen 

ist es völlig unbrauchbar: 

d.h. 

yj+2 − yj = h 

3 (fj + 4fj+1 + fj+2) 

� 

χ(z, w) = 1 − w 

� 

z 

3 

2 − 4w 

� 

z − 1 + 

3 w 

� 

. (4.84) 

3 

Wegen χ(1, 0) = 0 und p = 4 gilt nach Lemma 4.26 für q �= 0 

z1(hq) = e hq + O(|hq| 5 ) 

= 1 + hq + (hq)2 

2 ! 

+ (hq)3 

3 ! 

186 

+ (hq)4 

4 ! + O(|hq|5 ) . 

✷ 

(4.85)

Für z2(hq) folgt: 

χ(z, hq) = 

� 

1 − hq 

� 

(z 

3 

2 − (z1(hq) + z2(hq))z + z1(hq)z2(hq)) . 

Also durch Koeffizientenvergleich mit (4.84): 

� 

1 − hq 

� 

(z1 + z2) = 

3 

4hq 

3 

z1 + z2 = 4hq 

3 

1 

1 − hq 

3 

= 4 

∞� 

ν=0 

, d.h. 

� �ν+1 hq 

3 

Nimmt man die Entwickelbarkeit von z2 = z2(hq) in hq = 0 an, d.h. 

folgt aus (4.85) 

z2(hq) = α0 + α1hq + α2(hq) 2 + . . . , 

z1 + z2 = (1 + α0) + (1 + α1)hq + 

� � 

1 

+ . . . + + α4 

4 ! 

Koeffizientenvergleich mit (4.86) liefert 

also 

und schließlich 

Für kleine |hq| gilt also: 

d.h. 

1 + α0 = 0 , 

� � 

1 

+ α2 (hq) 

2 2 

(hq) 4 + O(|hq| 5 ) . 

1 

ν ! + αν = 4 

, ν = 1, . . .,4 , 

3ν α0 = −1 , α1 = 1 

3 , α2 = − 1 

18 , α3 = − 1 

54 

z2(hq) = −e − 

1 

3 hq + O(|hq| 3 ) 

� � 

= − 1 + 1 1 

hq + 

3 18 (hq)2 + O(|hq| 3 �� 

) 

|z1(hq)| > 1 für Re q > 0 , 

|z2(hq)| > 1 für Re q < 0 , 

187 

. (4.86) 

.

Satz 4.27 Für Milne–Simpson m = 2 gilt 

HA(0) ⊂ {z | Re z = 0} . 

Allgemein gilt dies für jedes m-Schritt Verfahren der optimalen Ordnung p = m + 2. 

Milne–Simpson m = 2 eignet sich also nur für Probleme, die nur wachsende Komponenten 

haben. Fallende Komponenten werden nicht stabil integriert. 

Für P − C Verfahren gilt: Während die Ordnung des Korrektors das Maximum an 

Ordnung darstellt, kann die Stabilität in Form der Größe von HA(0) durch den P − C 

Ansatz verbessert werden, z.B. bei Milne–Simpson m = 2 als Korrektor. Die folgenden 

Bildern und Tabellen fassen für (4.72) einige Ergebnisse zusammen (C0 = Euler 

implizit). 

188 

✷

Bereiche der absoluten Stabilität für die Adams–Bashforth–Verfahren (Pm) 

Bereiche der absoluten Stabilität für die Adams–Moulton–Verfahren (Cm) 

189

In den folgenden Bildern sind die Bereiche der absoluten Stabilität für einige PC– 

Verfahren eingezeichnet, die aus Kombination von Adams–Bashforth– und Adams– 

Moulton–Verfahren entstehen: 

190

Bemerkung: Neben den Stabilitätsbereichen für die Verfahren PmECmE und 

Pm+1ECmE sind die auf der reellen Achse liegenden Stabilitätsbereiche für die Verfahren 

Cm (•) und die Verfahren PmECm (✷) angegeben. 

Die auf der reellen Achse liegenden Stabilitätsbereiche (−α, 0) sind für eine 

ganze Reihe von weiteren Verfahren in der folgenden Tabelle zusammengestellt: 

191

Unter den miteinander verglichenen Verfahren sind die mit • gekennzeichnenten diejenigen 

mit maximalem reellen Stabilitätsbereich: 

1 ≤ m ≤ 5 : Cm 

6 ≤ m ≤ 11 : Pm E Cm E 

12 ≤ m ≤ 13 : Pm+1 E Cm E, P(E Cm) 2 

14 ≤ m ≤ 20 : Pm+1(E Cm) 2 

Hinsichtlich A-Stabilität gilt der enttäuschende 

Satz 4.28 (Dahlquist) Ein lineares A-stabiles Mehrschrittverfahren ist implizit und 

hat höchstens die Ordnung 2. Die Trapezregel hat darunter die kleinste Fehlerkonstante. 

Beweis: G. Dahlquist BIT 3, 27-43 (1963). 

Man gibt sich also mit Abschwächungen der A-Stabiliät zufrieden, der 

A(α)−Stabilität, bei der nur 

z ∈ C, Re z < 0, −z = γe iϕ , |ϕ| ≤ α 

⇒ z ∈ HA(0) 

192 

✷ 

(4.87)

gefordert wird. 

Ist (Ah) A(α)-stabil für ein α ∈ 

� 

Im z 

Re z 

� 

0, π 

� 

, spricht man von A(0)−stabil, gilt nur 

2 

z = iy, y < 0 ⇒ z ∈ HA(0) (4.88) 

von A0-Stabilität. 

Bei Mehrschrittverfahren tritt ein zusätzliches Problem auf, was es bei Einschrittverfahren 

nicht gibt: Nach Lemma 4.26 erzeugt schon die durch z1(hq) gegebene Lösung 

der Differentialgleichung (4.74) 

yj := z1(hq) j , j = 0, . . . , (4.89) 

(vgl. (4.66)) eine Approximation entsprechender Genauigkeit der Lösungskomponente 

exp(q(tj − t0)). Diese sollte also (bei q < 0) nicht von den weiteren Lösungen 

(zi(hq)) j , j = 0, . . ., i = 2, . . .,m von (4.74) überwuchert werden (parasitäre 

Lösungen). Das ist die Motivation für 

Definition 4.29 Ein konsistentes lineares m-Schrittverfahren (ρ, σ) heißt relativ stabil 

für w ∈ C , wenn die Nullstellen z1(w), . . ., zm(w) des Stabilitätspolynoms χ(·, w) 

erfüllen 

|zk(w)| < |z1(w)| , k = 2, . . ., m , 

sofern z1(0) = 1. 

Eine ausreichende Forderung ist dann 

193

Definition 4.30 (Ah) heißt steif stabil, wenn es a, b, d mit a, b > 0, d < 0 gibt, so 

dass 

R1 := {z ∈ C | Re z ≤ d} ⊂ HA(0) 

und R2 := {z ∈ C | d ≤ Re z ≤ a, |Im z| ≤ b} 

zum Bereich der relativen Stabilität gehört. 

In diesem Sinn haben die BDF-Formeln gute Stabilitätseigenschaften. 

Satz 4.31 Für das BDF-Verfahren (1.33), (1.35) r = 0 gilt: 

(Ah) ist A-stabil ⇐⇒ m ≤ 2 . 

Für 1 ≤ m ≤ 6 ist (Ah) steif stabil und A(α)-stabil mit 

m 1 2 3 4 5 6 

α (in 0 ) 90 90 ∼ 86 ∼ 76 ∼ 50 ∼ 16 

Bisher wurde nur konstante Schrittweite h besprochen. Wie bei den Einschrittverfahren 

sollte aber auch hier nach analogen Kriterien eine Schrittweitensteuerung 

durchgeführt werden. 

Bei den bisherigen Formeln bedeutet dies bei Schrittweitenwechsel, das zurückliegene 

Werte gebraucht werden, die nicht vorliegen und durch Interpolation verschafft 

werden müssen. Dies ist dann einfach, wenn die Formeln in der nicht besprochenen 

Nordsieck-Form benutzt werden, bei der gerade die Koeffizienten des Interpolationspolynoms 

gespeichert werden. Es gibt auch Varianten der Mehrschrittverfahren 

für variable Schrittweite, bei denen bei jedem Schritt Koeffizienten zu berechnen 

sind. Neben einer Schrittweitensteuerung ist auch einfach eine Ordnungssteuerung 

möglich. 

Bemerkungen zur Praxis der Mehrschrittverfahren 

Wie wir gesehen haben, ist es ein wesentlicher Vorteil der Einschrittverfahren, dass bei 

ihnen die Schrittweite h in jedem Integrationsschritt grundsätzlich neu gewählt werden 

kann; eine Anpassung der jeweiligen Schrittweite an das Verhalten der Lösung der 

AWA stößt auf keine Schwierigkeiten. Dagegen ist es Nachteil der Einschrittverfahren, 

dass die einfacheren unter ihnen nur eine geringe Ordnung besitzen und dass die 

194

Ordnung solcher Verfahren starr ist und nicht geändert werden kann, wenn man 

nicht das Verfahren ändert. Eine hohe Genauigkeit kann man daher nur mit kleinen 

(und dementsprechend vielen) Schritten erreichen. Außerdem ist der Rechenaufwand 

hoch; man braucht pro Schritt bei einem Verfahren p-ter Ordnung mindestens p 

Auswertungen von f. 

Mehrschrittverfahren haben auch eine starre Ordnung. Verfahren hoher Ordnung 

können jedoch leicht konstruiert werden. Ihr Hauptvorteil, zumindestens bei linearen 

Mehrschrittverfahren, ist ihr geringer Rechenaufwand. Pro Schritt muss bei einem 

Prädiktor-Verfahren die rechte Seite der Dgl. nur einmal ausgewertet werden, bei 

einem Korrektor-Verfahren ist diese Zahl gleich der (i. Allg. geringen) Zahl der 

Iterationsschritte. Dieser Vorteil der Mehrschrittverfahren wirkt sich aber nur aus, 

wenn mit konstanter Schrittweite gerechnet wird. Jede Änderung der Schrittweite 

macht die Berechnung der zusätzlichen Punkte der Lösungskurve, die nicht in das 

durch die alte Schrittweite bestimmte Gitter fallen, nötig. Häufige Änderungen der 

Schrittweite, ggf. mit jedem Integrtionsschritt, wie sie bei sehr inhomogenen Lösungsverlauf 

nötig sind, lassen die natürlichen Vorteile von Mehrschrittverfahren schnell 

verloren gehen. Dasselbe Problem hat man beim Start eines Mehrschrittverfahrens, 

denn die fehlenden Startwerte müssen eigens mit einem anderen Verfahren, etwa einem 

Einschrittverfahren, berechnet werden. 

Diese Beurteilung von Mehrschrittverfahren, die dem Buch von Stoer/Bulirsch: 

Einführung in die Numerische Mathematik II, 1973 entnommen ist, scheint der 

Situation der Praxis nicht ganz gerecht zu werden. Z.B. sind von Gear und Krogh 

Implementierungen von Mehrschrittverfahren vorgenommen worden, die es gestatten, 

Ordnung und Schrittweite dem Verlauf der Lösungskurve anzupassen, wobei 

der dabei entstehende Aufwand diese Verfahren durchaus als konkurrenzfähig mit 

anderen Verfahren erscheinen lässt. Wir können hier nicht im einzelnen darauf eingehen 

und beschreiben nur die diesen Verfahren zugrundeliegenden Mehrschrittverfahren. 

1) Das Verfahren von Nordsieck–Gear (1971) 

Gear verwendet in seinem Programm spezielle Mehrschrittverfahren mit konstanter 

Schrittweite, wobei ein Algorithmus bereitgestellt wird, der es gestattet, 

die Schrittweite der Verfahren im Laufe der Rechnung zu ändern. Als Prädiktor 

bzw. als Korrektor werden Mehrschrittverfahren gleicher Ordnung p verwendet, 

und zwar als Prädiktor wird ein Mehrschrittverfahren in Nordsieck- 

Form verwendet, welches zu einem auf numerischer Differentiation beruhenden 

Mehrschrittverfahren der Ordnung p äquivalent ist, während als Korrektor ein 

Mehrschritt-Verfahren in Nordsieck Form benutzt wird, welches zum (p − 1)- 

195

schrittigen Adams–Moulton Verfahren äquivalent ist. Die Nordsieck-Form macht 

eine relativ einfache Bemessung der Schrittweite und der Ordnung (1 ≤ p ≤ 7) 

nach der Größe des Abschneidefehlers möglich. 

2) Das Verfahren von Krogh (1969-1971) 

Dem Verfahren von Krogh liegen Mehrschrittverfahren mit variabler Schrittweite 

zugrunde, dem Verfahren liegt eine nicht notwendig äquidistantes Gitter zugrunde. 

Verwendet werden Prädiktorformeln, deren Ordnung um 1 niedriger ist als die 

der Korrektorformeln. Eine Anpassung der Schrittweite ist aufgrund der Bauart 

der Formeln leicht möglich, ebenso die Anpasung der Ordnung an den Verlauf 

der Lösung. 

Die Verfahren sind mit anderen (Runge–Kutta, Extrapolationsverfahren,...) 

verglichen worden und haben sich als sehr effektiv erweisen (vgl. z.B. 

Hull/Enright/Fellen/Sedgwick: “Comparing Numerical Methods for ordinary 

differential equations”, SIAM J. Numer. Anal. 9 (603-637) 1972). 

196

5 Die Finite-Differenzen-Methode für die Poisson- 

Gleichung 

5.1 Das Dirichlet-Problem für die Poisson-Gleichung 

In diesem Kapitel soll die Finite-Differenzen-Methode am Beispiel der Poisson- 

Gleichung auf einem Rechteck eingeführt werden, und daran und an Verallgemeinerungen 

der Aufgabenstellung Vorzüge und Grenzen des Ansatzes aufgezeigt werden. Auch 

im nachfolgenden Kapitel steht die Poisson-Gleichung im Mittelpunkt, dann aber auf 

einem allgemeinen Gebiet. Für die räumliche Grundmenge der Differentialgleichung 

Ω ⊂ R d wird als Minimalforderung vorausgesetzt, dass es sich um ein beschränktes 

Gebiet handelt, wobei ein Gebiet eine nichtleere, offene, zusammenhängende Menge 

ist. Der Rand dieser Menge wird mit ∂Ω bezeichnet, der Abschluss Ω ∪∂Ω mit Ω. Das 

Dirichlet-Problem für die Poisson-Gleichung lautet dann: 

Gegeben seien Funktionen g : ∂Ω → R und f : Ω → R. Gesucht ist eine Funktion 

u : Ω → R, so dass 

− 

d� 

i=1 

∂ 2 

∂x 2 i 

u = f in Ω , (5.1) 

u = g auf ∂Ω . (5.2) 

Dieses Differentialgleichungsmodell hat Bedeutung in einem weiten Spektrum von 

Disziplinen. Die gesuchte Funktion u lässt sich je nach Anwendung auch als elektromagnetisches 

Potential, Verschiebung einer elastischen Membran oder Temperatur interpretieren. 

Wir benutzen ab jetzt für partielle Ableitungen die folgenden 

Schreibweisen: Für u : Ω ⊂ R d → R setzen wir: 

∂iu := ∂ u für i = 1, . . .,d , 

∂xi 

∂iju := ∂ 2 

∂xi ∂xj 

u für i, j = 1, . . .,d , 

∆u := (∂11 + . . . + ∂dd) u . 

Der Ausdruck ∆u heißt der Laplace-Operator. 

Hiermit können wir (5.1) kurz schreiben als 

−∆u = f in Ω . (5.3) 

197

Wir könnten den Laplace-Operator auch definieren durch 

∆u = ∇ · (∇u) , 

wobei ∇u = (∂1u, . . .,∂du) T den Gradienten einer Funktion u und ∇ · v = ∂1v1 + 

· · · + ∂dvd die Divergenz eines Vektorfeldes v bezeichne. Daher ist eine alternative 

Schreibweise, die hier nicht verwendet werden soll: ∆u = ∇ 2 u . Die auf den ersten 

Blick seltsame Inkorporation des Minuszeichens in die linke Seite von (5.3) hat mit den 

Monotonie- und Definitheitseigenschaften von −∆ zu tun (siehe Abschn. 5.4). 

Es muss noch der Lösungsbegriff für (5.1), (5.2) genauer spezifiziert werden. Bei einer 

punktweisen Sichtweise, die in diesem Kapitel verfolgt werden soll, müssen die Funktionen 

in (5.1), (5.2) existieren und die Gleichungen gelten. Da (5.1) eine Gleichung 

auf der offenen Menge Ω ist, sagt sie nichts über das Verhalten von u bis in ∂Ω hinein 

aus. Damit die Randbedingung eine echte Forderung ist, muss u mindestens stetig 

bis in den Rand hinein, also auf Ω, sein. Diese Forderungen lassen sich kurz mittels 

entsprechender Funktionenräume definieren. Einige Beispiele sind: 

C(Ω) := � u : Ω → R � � u stetig in Ω � , 

C 1 (Ω) := � u : Ω → R � � u ∈ C(Ω) , ∂iu existiert auf Ω , 

∂iu ∈ C(Ω) für alle i = 1, . . .,d � . 

Analog sind die Räume C k (Ω) für k ∈ N, sowie C(Ω) und C k (Ω) definiert und auch 

C(∂Ω). Allgemein spricht man etwas vage bei Forderungen, die die (stetige) Existenz 

von Ableitungen betreffen, von Glattheitsforderungen. 

Im Folgenden sollen im Hinblick auf die Finite-Differenzen-Methode auch f und g als 

stetig auf Ω bzw. ∂Ω vorausgesetzt werden. Dann: 

Definition 5.1 Sei f ∈ C(Ω), g ∈ C(∂Ω). Eine Funktion u heißt (klassische) Lösung 

der Randwertaufgabe (5.1), (5.2), wenn u ∈ C 2 (Ω) ∩ C(Ω) und (5.1) für alle x ∈ Ω, 

sowie (5.2) für alle x ∈ ∂Ω gilt. 

5.2 Die Finite-Differenzen-Methode 

Der Finite-Differenzen-Methode liegt folgender Ansatz zugrunde: Man suche eine Näherungslösung 

für die Lösung der Randwertaufgabe an endlich vielen Punkten in Ω (den 

Gitterpunkten). Hierzu ersetze man die Ableitungen in (5.1) durch Differenzenquotienten 

nur in Funktionswerten an Gitterpunkten in Ω und fordere (5.2) nur an Gitterpunkten. 

Dadurch erhält man algebraische Gleichungen für die Näherungswerte an Gitterpunkten. 

Man spricht allgemein von einer Diskretisierung der Randwertaufgabe. Da die 

198

Randwertaufgabe linear ist, ist auch das Gleichungssystem für die Näherungslösung linear. 

Allgemein spricht man auch bei anderen (Differentialgleichungs-)Problemen und 

anderen Diskretisierungsansätzen von dem algebraischen Gleichungssystem als dem 

diskreten Problem als Approximation des kontinuierlichen Problems. Ziel weiterer Untersuchungen 

wird es sein, den begangenen Fehler abzuschätzen und so die Güte der 

Näherungslösung beurteilen zu können. 

Generierung der Gitterpunkte Im Folgenden werden vorerst Probleme in zwei 

Raumdimensionen betrachtet (d = 2). Zur Vereinfachung betrachten wir den Fall einer 

konstanten Schrittweite (oder Maschenweite) h > 0 in beide Ortsrichtungen. Die Größe 

h ist hier der Diskretisierungsparameter, der insbesondere die Dimension des diskreten 

Problems bestimmt. 

l = 8 

m = 5 

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ 

◦ • • • • • ✸• 

• ◦ 

◦ • • • ✷• 

• • • ◦ 

◦ • • • • • • • ◦ 

◦ • • • • • • • ◦ 

◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ 

• : Ωh 

◦ : ∂Ωh 

Abbildung 2: Gitterpunkte in Rechteckgebiet 

✷: randfern 

✸: randnah 

Vorerst sei Ω ein Rechteck, was den einfachsten Fall für die Finite-Differenzen-Methode 

darstellt. Durch Translation des Koordinatensystems lässt es sich einrichten, dass Ω = 

(0, a) × (0, b) mit a, b > 0 gilt. Die Längen a, b und h seien so, dass 

gilt. Durch 

a = lh , b = mh für gewisse l, m ∈ N (5.4) 

Ωh := � (ih, jh) � � 

� i = 1, . . .,l − 1 , j = 1, . . .,m − 1 

= � (x, y) ∈ Ω � � (5.5) 

� x = ih , y = jh mit i, j ∈ Z 

werden Gitterpunkte in Ω definiert, in denen eine Näherung der Differentialgleichung 

zu erfüllen ist. Ebenso werden durch 

∂Ωh := � (ih, jh) � � i ∈ {0, l} , j ∈ {0, . . ., m} oder i ∈ {0, . . ., l} , j ∈ {0, m} � 

= � (x, y) ∈ ∂Ω � � x = ih , y = jh mit i, j ∈ Z � 

Gitterpunkte auf ∂Ω definiert, in denen eine Näherung der Randbedingung zu erfüllen 

ist. Die Gesamtheit der Gitterpunkte wird bezeichnet mit 

Ωh := Ωh ∪ ∂Ωh . 

199

Aufstellen des Gleichungssystems 

Lemma 5.2 Sei Ω := (x−h, x+h) für x ∈ R, h > 0. Dann gilt mit einer beschränkten, 

von u abhängigen, aber von h unabhängigen Größe R 

1. für u ∈ C 2 (Ω): 

2. für u ∈ C 2 (Ω): 

3. für u ∈ C 3 (Ω): 

u ′ (x) = 

u ′ (x) = 

u ′ (x) = 

4. für u ∈ C 4 (Ω): 

u ′′ (x) = 

u(x + h) − u(x) 

h 

u(x) − u(x − h) 

h 

u(x + h) − u(x − h) 

2h 

+ hR und |R| ≤ 1 

2 �u′′ �∞ , 

+ hR und |R| ≤ 1 

2 �u′′ �∞ , 

+ h 2 R und |R| ≤ 1 

6 �u′′′ �∞ , 

u(x + h) − 2u(x) + u(x − h) 

h 2 + h 2 R und |R| ≤ 1 

12 �u(4) �∞ . 

Dabei ist die Maximumnorm � · �∞ jeweils über das Intervall der beteiligten Punkte 

x, x + h, x − h zu erstrecken. 

Beweis: Der Beweis folgt sofort durch Taylorentwicklung. Als Beispiel betrachte man 

die 3. Aussage: Aus 

u(x ± h) = u(x) ± hu ′ (x) + h2 

2 u′′ (x) ± h3 

6 u′′′ (x ± ξ±) für gewisse ξ± ∈ (0, h) 

folgt die Behauptung durch Linearkombination. ✷ 

Sprechweise: Der Quotient in 1. heißt vorwärtsgenommener Differenzenquotient und 

man bezeichnet ihn kurz mit ∂ + u(x). Der Quotient in 2. heißt rückwärtsgenommener 

Differenzenquotient (kurz: ∂ − u(x)), und der in 3. zentraler Differenzenquotient 

(kurz: ∂ 0 u(x)). Den in 4. auftretenden Quotienten können wir mit diesen Bezeichnungen 

schreiben als ∂ − ∂ + u(x). 

200

Um die Aussage 4. in jede Raumrichtung zur Approximation von ∂11u und ∂22u in 

einem Gitterpunkt (ih, jh) anwenden zu können, sind also über die Bedingungen aus 

Definition 5.1 hinaus die zusätzlichen Glattheitseigenschaften ∂ (3,0) u, ∂ (4,0) u ∈ C(Ω) 

und analog für die zweite Koordinate nötig. Dabei ist zum Beispiel ∂ (3,0) u := ∂ 3 u/∂x 3 1 . 

Wenden wir dann diese Approximationen auf die Randwertaufgabe (5.1), (5.2) an, so 

erhalten wir im Gitterpunkt (ih, jh) ∈ Ωh 

� 

u ((i + 1)h, jh) − 2u(ih, jh) + u ((i − 1)h, jh) 

− 

h2 + u (ih, (j + 1)h) − 2u(ih, jh) + u (ih, (j − 1)h) 

h2 � 

(5.6) 

= f(ih, jh) + R(ih, jh)h 2 . 

Dabei ist R wie in Lemma 5.2, 4. beschrieben eine beschränkte, von der Lösung u 

abhängige, aber von der Schrittweite h unabhängige Funktion. Liegt weniger Glattheit 

für die Lösung u vor, so kann dennoch die Approximation (5.6) für −∆u formuliert 

werden, aber die Größe des Fehlers in der Gleichung ist vorerst unklar. 

Für die Gitterpunkte (ih, jh) ∈ ∂Ωh ist keine Approximation in der Randbedingung 

nötig: 

u(ih, jh) = g(ih, jh) . 

Vernachlässigen wir den Term Rh 2 in (5.6), so erhalten wir lineare Gleichungen für 

Näherungswerte uij für u(x, y) an Stellen (x, y) = (ih, jh) ∈ Ωh. Diese lauten: 

1 

h2 � � 

− ui,j−1 − ui−1,j + 4uij − ui+1,j − ui,j+1 = fij 

für i = 1, . . .,l − 1 , j = 1, . . ., m − 1 , 

(5.7) 

uij = gij , falls i ∈ {0, l}, j = 0, . . .,m oder j ∈ {0, m}, i = 0, . . ., l . (5.8) 

Dabei wurden als Abkürzungen verwendet: 

fij := f(ih, jh), gij := g(ih, jh) . (5.9) 

Also erhalten wir für jeden unbekannten Gitterwert uij eine Gleichung. Die Gitterpunkte 

(ih, jh) und die Näherungswerte uij an ihnen haben also eine natürliche zweidimensionale 

Indizierung. 

In Gleichung (5.7) treten zu einem Gitterpunkt (i, j) nur die Nachbarn in den vier 

Haupthimmelsrichtungen auf, wie in Abb. 3 dargestellt. Man spricht auch vom 5- 

Punkte-Stern des Differenzenverfahrens. 

Bei den inneren Gitterpunkten (x, y) = (ih, jh) ∈ Ωh kann man zwei Fälle unterscheiden: 

201

y 

✻ 

(i−1,j) 

• 

(i,j+1) 

• 

(i,j) 

• 

(i,j−1) 

• 

(i+1,j) 

• 

✲ x 

Abbildung 3: 5-Punkte-Stern 

1. (i, j) liegt so, dass alle Nachbargitterpunkte davon in Ωh liegen (randfern). 

2. (i, j) liegt so, dass mindestens ein Nachbarpunkt (r, s) auf ∂Ωh liegt (randnah). 

Dann ist in Gleichung (5.7) der Wert urs aufgrund von (5.8) bekannt (urs = grs) 

und wir können (5.7) folgendermaßen modifizieren: 

Streiche in den Gleichungen für randnahe (i, j) die Werte urs mit (rh, sh) ∈ ∂Ωh 

und addiere zur rechten Seite in (5.7) den Wert grs/h 2 . Das durch diese Elimination 

von Randunbekannten mittels der Dirichlet-Randbedingung entstehende 

Gleichungssystem nennen wir (5.7) ∗ ; es ist äquivalent zu (5.7), (5.8). 

Anstelle von den Werten uij, i = 1, . . .,l − 1, j = 1, . . .,m − 1 spricht man auch von 

der Gitterfunktion uh : Ωh → R, wobei gilt: uh(ih, jh) = uij für i = 1, . . ., l − 1, j = 

1, . . .,m−1. Analog sind Gitterfunktionen auf ∂Ωh oder auf Ωh definiert. Somit können 

wir das Differenzenverfahren wie folgt formulieren: 

Gesucht ist eine Gitterfunktion uh auf Ωh, so dass die Gleichungen (5.7), (5.8) gelten 

oder äquivalent dazu: 

Gesucht ist eine Gitterfunktion uh auf Ωh, so dass die Gleichungen (5.7) ∗ gelten. 

Gestalt des Gleichungssystems Das Gleichungssystem (5.7) ∗ geht nach Wahl einer 

Anordnung der uij für i = 0, . . .,l, j = 0, . . .,m über in ein Gleichungssystem 

Ah�uh = �qh 

mit Ah ∈ R M1,M1 und �uh,�qh ∈ R M1 , wobei M1 = (l − 1)(m − 1). 

(5.10) 

Es wird also nahezu die gleiche Bezeichnung gewählt für die Gitterfunktion und für 

ihren darstellenden Vektor bei einer festen Nummerierung der Gitterpunkte. Der einzige 

Unterschied besteht darin, dass der darstellende Vektor fett gedruckt wird. Die 

Anordnung der Gitterpunkte sei beliebig mit der Einschränkung, dass mit den ersten 

M1 Indizes die Punkte aus Ωh nummeriert werden, und die Punkte aus ∂Ωh mit den 

folgenden M2 = 2(l + m) Indizes versehen werden. Auf die Gestalt von Ah wirkt sich 

diese Einschränkung nicht aus. 

202

Die rechte Seite �qh hat infolge des beschriebenen Eliminationsprozesses folgende Gestalt: 

�qh = − Âh�g + � f , (5.11) 

wobei �g ∈ R M2 und � f ∈ R M1 die Darstellungsvektoren gemäß der gewählten Nummerierung 

der Gitterfunktionen 

fh : Ωh → R und gh : ∂Ωh → R 

mit den Werten nach (5.9) sind. Die Matrix Âh ∈ R M1,M2 hat folgende Gestalt: 

( Âh)ij = − 1 

h 2 , falls der Knoten i randnah 

und j ein Nachbar im 5-Punkte-Stern ist , 

( Âh)ij = 0 sonst . 

(5.12) 

Bei beliebiger Anordnung sind nur das Diagonalelement und höchstens 4 weitere Einträge 

pro Zeile in Ah nach (5.7) ungleich 0, das heißt, die Matrix ist dünnbesetzt im 

engeren Sinn (siehe Numerik I). 

Eine naheliegende Ordnung ist die zeilenweise Nummerierung von Ωh nach folgendem 

Schema: 

(h,b−h) 

(l−1)(m−2)+1 

(h,b−2h) 

(l−1)(m−3)+1 

. 

(h,2h) 

l 

(h,h) 

1 

(2h,b−h) 

(l−1)(m−2)+2 · · · · · · 

(2h,b−2h) 

(l−1)(m−3)+2 · · · · · · 

. 

. .. 

. .. 

(2h,2h) 

l+1 · · · · · · 

(2h,h) 

2 · · · · · · 

(a−h,b−h) 

(l−1)(m−1) 

(a−h,b−2h) 

(l−1)(m−2) 

. 

(a−h,2h) 

2l−2 

(a−h,h) 

l−1 

, (5.13) 

die auch lexikographisch genannt wird. (Allerdings passt diese Bezeichnung besser zur 

spaltenweisen Nummerierung.) 

Die Matrix Ah nimmt daher die folgende Gestalt einer (m − 1) × (m − 1)- 

Blocktridiagonalmatrix an: 

Ah = h −2 

⎛ 

T 

⎜ −I 

⎜ 

⎝ 

−I 

T 

. .. 

0 

−I 

. .. 

. .. 

. .. 

. .. 

−I 

0 

. .. 

T 

⎞ 

⎟ 

−I ⎠ 

(5.14) 

−I T 

203

mit der Einheitsmatrix I ∈ Rl−1,l−1 und 

⎛ 

4 

⎜ −1 

⎜ 

T = ⎜ 

⎝ 

−1 

4 

. .. 

0 

−1 

. .. 

.. . 

. .. 

.. . 

−1 

0 

.. . 

4 

⎞ 

⎟ ∈ R 

⎟ 

−1 ⎠ 

−1 4 

l−1,l−1 . 

Wir kehren zu einer allgemeinen Nummerierung zurück. Im Folgenden sind einige Eigenschaften 

der Matrizen Ah ∈ RM1,M1 und 

� � � 

Ãh := � Âh ∈ R M1,M 

, 

Ah 

wobei M := M1 + M2, zusammengestellt. Die Matrix Ãh berücksichtigt also alle Gitterpunkte 

aus Ωh. Sie hat für die Auflösung von (5.10) zwar keine Bedeutung, wohl 

aber für die Stabilität der Diskretisierung, die in Abschn. 5.4 untersucht wird. 

• (Ah) rr > 0 für alle r = 1, . . .,M1 , 

• ( Ãh)rs ≤ 0 für alle r = 1, . . ., M1 , s = 1, . . .,M mit r �= s , 

M1 � 

� 

≥ 0 für alle r = 1, . . ., M1 , 

• (Ah) rs > 0 , falls r zu einem randnahen Gitterpunkt gehört, 

• 

s=1 

M� 

( Ãh)rs = 0 für alle r = 1, . . .,M1 , 

s=1 

• Ah ist irreduzibel , 

• Ah ist regulär. 

(5.15) 

Die Matrix Ah ist also schwach diagonaldominant (siehe Numerik I für die nachfolgend 

benutzten Begriffe der linearen Algebra). Die Irreduzibilität folgt aus der Tatsache, 

dass sich zwei beliebige Gitterpunkte durch einen Weg aus jeweiligen Nachbarn im 

5-Punkte-Stern verbinden lassen. Die Regularität folgt aus der irreduziblen Diagonaldominanz. 

Daraus können wir nun schließen, dass (5.10) mit dem Algorithmus der 

Gauß-Elimination ohne Pivotsuche auflösbar ist. Insbesondere bleibt hierbei eine eventuell 

vorliegende Bandstruktur erhalten (siehe Numerik I). 

Ah besitzt noch die weiteren Eigenschaften: 

• Ah ist symmetrisch, 

• Ah ist positiv definit. 

204

Es reicht, diese Eigenschaften für eine feste Anordnung, etwa die zeilenweise, zu verifizieren, 

da durch Änderung der Anordnung Ah in PAhP T mit einer regulären Matrix 

P übergeht, wodurch weder die Symmetrie noch die Positivdefinitheit zerstört wird. 

Dabei ist die zweite Aussage nicht offensichtlich. Sie kann zwar durch explizite Angabe 

von Eigenwerten und -vektoren verifiziert werden. Die Eigenwerte und -vektoren werden 

für den Spezialfall l = m = n in Numerik I, Abschnitt 7.6 angegeben. Somit lässt 

sich (5.10) unter Ausnutzung der Bandstruktur mit dem Cholesky-Verfahren auflösen. 

Güte der Approximation durch die Finite-Differenzen-Methode 

Wir wenden uns nun der folgenden Frage zu: 

Wie gut approximiert die der Lösung �uh von (5.10) entsprechende Gitterfunktion uh 

die Lösung u von (5.1), (5.2)? 

Hierzu betrachten wir die Gitterfunktion U : Ωh → R, die durch 

U(ih, jh) := u(ih, jh) (5.16) 

definiert ist. Um die Größe von U − uh zu messen, benötigen wir eine Norm. Beispiele 

hierfür sind die Maximumnorm 

oder die diskrete L 2 -Norm 

�uh − U�∞ := max |(uh − U) (ih, jh)| 

i=1,...,l−1 

j=1,...,m−1 

�uh − U�0,h := h 

� 

l−1 m−1 

� � 

((uh − U)(ih, jh)) 2 

i=1 

j=1 

� 1/2 

. (5.17) 

Beide Normen können aufgefasst werden als die Anwendung der kontinuierlichen Normen 

� · �∞ des Funktionenraums L ∞ (Ω) bzw. � · �0 des Funktionenraums L 2 (Ω) auf 

stückweise konstante Fortsetzungen der Gitterfunktionen (mit spezieller Behandlung 

des randnahen Bereichs). Offensichtlich gilt 

�vh�0,h ≤ √ ab �vh�∞ 

für eine Gitterfunktion vh, aber die umgekehrte Abschätzung gilt nicht gleichmäßig in 

h, so dass � · �∞ die stärkere Norm darstellt. Allgemein ist also eine Norm � · �h auf 

dem Raum der Gitterfunktionen gesucht, in der das Verfahren konvergiert in dem Sinn 

�uh − U�h → 0 für h → 0 

oder sogar Konvergenzordnung p > 0 hat, indem eine von h unabhängige Konstante 

C > 0 existiert, so dass gilt 

�uh − U�h ≤ C h p . 

205

Nach Konstruktion des Verfahrens gilt für eine Lösung u ∈ C 4 (Ω) 

Ah � U = �qh + h 2 � R , 

wobei � U und � R ∈ R M1 die Darstellungen der Gitterfunktionen U und R nach (5.6) in 

der gewählten Nummerierung seien. Also gilt: 

und damit � 

��Ah(�uh 

− � � 

� 

U) 

Ah(�uh − � U) = −h 2 � R 

� = h 

∞ 

2 | � R|∞ = Ch 2 

mit einer von h unabhängigen Konstante C(= | � R|∞) > 0. 

Nach Lemma 5.2, 4. gilt 

C = 1 � 

(4,0) 

�∂ u�∞ + �∂ 

12 

(0,4) � 

u�∞ . 

Dies bedeutet, dass das Verfahren bei einer Lösung u ∈ C 4 (Ω) konsistent mit der 

Randwertaufgabe ist mit einer Konsistenzordnung 2. Allgemeiner gefasst lautet der 

Begriff wie folgt: 

Definition 5.3 Sei (5.10) das lineare Gleichungssystem, das einer (Finite- 

Differenzen-) Approximation auf den Gitterpunkten Ωh mit dem Diskretisierungsparameter 

h entspricht. Sei � U die Darstellung der Gitterfunktion, die der Lösung u der 

Randwertaufgabe nach (5.16) entspricht. Ferner sei �·�h eine Norm auf dem Raum der 

Gitterfunktionen auf Ωh und | · |h die entsprechende Vektornorm auf dem Raum R M1h, 

wobei M1h die Anzahl der Gitterpunkte in Ωh sei. Die Approximation heißt konsistent 

bezüglich � · �h, wenn gilt: 

|Ah � U − �qh|h → 0 für h → 0 . 

Die Approximation hat Konsistenzordnung p > 0, wenn gilt 

|Ah � U − �qh|h ≤ Ch p 

mit einer von h unabhängigen Konstanten C > 0. 

Der Konsistenz- oder auch Abschneidefehler Ah � U −�qh misst also, inwieweit die exakte 

Lösung die Näherungsgleichungen erfüllt. Wie gesehen, ist er im Allgemeinen leicht, 

allerdings bei unnatürlich hohen Glattheitsvoraussetzungen, durch Taylorentwicklung 

206

zu bestimmen. Dies besagt aber nicht, dass sich der Fehler |�uh − � U|h genauso verhalten 

muss. Es gilt: 

� 

��uh − � U � � 

� � 

= �A h −1 

h Ah(�uh − � � 

� 

U) ≤ � � � 

� −1 

A �Ah(�uh − � U) � � , h (5.18) 

wobei die Matrixnorm � · �h mit der Vektornorm | · |h verträglich gewählt werden muss. 

Der Fehler verhält sich daher erst dann asymptotisch in h wie der Konsistenzfehler, 

wenn � �A −1 

� 

� 

h unabhängig von h beschränkbar, also das Verfahren stabil ist: 

h 

Definition 5.4 In der Situation von Definition 5.3 heißt die Approximation stabil 

bezüglich � · �h, wenn eine von h unabhängige Konstante C > 0 existiert, so dass gilt 

� � 

� −1 

A � 

h ≤ C . h 

Aus der obigen Definition folgt mit (5.18) offensichtlich: 

Satz 5.5 Ein konsistentes und stabiles Verfahren ist konvergent und die Konvergenzordnung 

ist mindestens gleich der Konsistenzordnung. 

Konkret für das Beispiel der 5-Punkte-Stern-Diskretisierung von (5.1), (5.2) auf dem 

Rechteck ist also die Stabilität bezüglich � · �∞ wünschenswert. Sie folgt tatsächlich 

aus der Struktur von Ah: Es gilt nämlich 

� 

� A −1 

h 

� 

� h 

h 

� h 

� ∞ ≤ 1 

16 (a2 + b 2 ) . (5.19) 

Dies folgt aus allgemeineren Überlegungen in Abschn. 5.4 (Satz 5.13). Zusammengenommen 

gilt also: 

Satz 5.6 Die Lösung u von (5.1), (5.2) auf dem Rechteck Ω erfülle u ∈ C 4 (Ω). Die 

5-Punkte-Stern-Diskretisierung hat dann bezüglich � · �∞ die Konvergenzordnung 2, 

genauer: 

|�uh − � U|∞ ≤ 1 

192 (a2 + b 2 ) � �∂ (4,0) u�∞ + �∂ (0,4) � 

2 

u�∞ h . 

5.3 Verallgemeinerung und Grenzen 

der Finite-Differenzen-Methode 

Wir betrachten vorerst weiter die Randwertaufgabe (5.1), (5.2) auf einem Rechteck Ω. 

Die entwickelte 5-Punkte-Stern-Diskretisierung lässt sich als eine Abbildung −∆h von 

Gitterfunktionen auf Ωh in Gitterfunktionen auf Ωh auffassen, die definiert ist durch 

1� 

−∆hvh(x1, x2) := cijvh(x1 + ih, x2 + jh) , (5.20) 

i,j=−1 

207

wobei c0,0 = 4/h 2 , c0,1 = c1,0 = c0,−1 = c−1,0 = −1/h 2 und cij = 0 für alle anderen (i, j) 

gilt. Zur Beschreibung eines wie in (5.20) definierten Differenzen-Sterns werden auch die 

Himmelsrichtungen (bei zwei Raumdimensionen) herangezogen. Beim 5-Punkte-Stern 

treten also nur die Haupthimmelsrichtungen auf. 

Die Frage, ob die Gewichte cij anders gewählt werden können, so dass eine Approximation 

höherer Ordnung in h von −∆u entsteht, führt auf eine negative Antwort. 

Insofern ist der 5-Punkte-Stern optimal. Das schließt nicht aus, dass andere umfangreichere 

Differenzen-Sterne gleicher Approximationsordnung auch erwägenswert sind. 

Ein Beispiel lautet: 

c0,0 = 8 

3h 2 , cij = − 1 

3h 2 für alle sonstigen i, j ∈ {−1, 0, 1} . (5.21) 

Dieser 9-Punkte-Stern kann interpretiert werden als eine Linearkombination aus dem 

5-Punkte-Stern und einem 5-Punkte-Stern für ein um π/4 rotiertes Koordinatensystem 

(mit Schrittweite 2 1/2 h), und zwar mit Gewichten 1/3 bzw. 2/3. Unter Benutzung eines 

allgemeinen 9-Punkte-Sterns kann ein Verfahren mit Konsistenzordnung größer als 

2 nur konstruiert werden, wenn die rechte Seite f an der Stelle (x1, x2) nicht durch 

die Auswertung f(x1, x2), sondern durch Anwendung eines allgemeineren Sterns realisiert 

wird. Ein Beispiel ist das Mehrstellenverfahren nach Collatz. Verfahren höherer 

Ordnung können auch durch umfangreichere Sterne erzielt werden, das heißt, die Summationsindizes 

in (5.20) sind durch k und −k für k ∈ N zu ersetzen. Solche Differenzen- 

Sterne können aber schon für k = 2 nicht für randnahe Gitterpunkte verwendet werden, 

so dass dort auf Approximationen niedrigerer Ordnung zurückgegriffen werden muss. 

Betrachtet man den 5-Punkte-Stern also als geeignete Diskretisierung für die Poisson- 

Gleichung, so fällt in Satz 5.6 die hohe Glattheitsforderung an die Lösung auf. Dies 

kann nicht ignoriert werden, da sie im Allgemeinen nicht gilt: Zwar ist für ein glattberandetes 

Gebiet die Glattheit der Lösung nur durch die Glattheit der Daten f und g 

bestimmt, doch reduzieren Ecken im Gebiet diese Glattheit, und zwar um so mehr, je 

einspringender sie sind. Man betrachte dazu folgende Beispiele: 

Für die Randwertaufgabe (5.1), (5.2) auf einem Rechteck [0, a] × [0, b] werde f = 1 

und g = 0 gewählt, also beliebig glatte Funktionen. Dennoch kann für die Lösung 

u nicht u ∈ C 2 (Ω) gelten, denn sonst wäre auch −∆u(0, 0) = 1, aber andererseits 

ist wegen der Randbedingung ∂1,1u(x, 0) = 0, also auch ∂1,1u(0, 0) = 0 und analog 

∂2,2u(0, y) = 0, also auch ∂2,2u(0, 0) = 0. Somit folgt −∆u(0, 0) = 0 im Widerspruch 

zu obiger Annahme. Der Satz 5.6 ist also hier nicht anwendbar. 

Im zweiten Beispiel soll ein Gebiet mit einspringender Ecke, 

Ω = � (x, y) ∈ R 2 � � x 2 + y 2 < 1 , x < 0 oder y > 0 � , 

208

etrachtet werden. Allgemein gilt bei einer Identifizierung von R 2 und C, das heißt 

von (x, y) ∈ R 2 mit z = x + iy ∈ C: Ist w : C → C analytisch (holomorph), so sind die 

Real- und Imaginärteile ℜw, ℑw : C → R harmonisch, das heißt, sie lösen −∆u = 0. 

Wir wählen w(z) := z 2/3 . Damit löst u(x, y) := ℑ � (x + iy) 2/3� 

−∆u = 0 auf Ω . 

In Polarkoordinaten x = r cos ϕ, y = r sin ϕ schreibt sich u als 

��re iϕ 

u(x, y) = ℑ 

�2/3 � 

= r 2/3 � 

2 

sin 

3 ϕ 

� 

. 

Also erfüllt u die Randbedingungen 

u � e iϕ� � 

2 

= sin 

3 ϕ 

� 

für 0 ≤ ϕ ≤ 3π 

, 

2 

(5.22) 

u(x, y) = 0 sonst auf ∂Ω . 

Allerdings ist w ′ (z) = 2 

3 z−1/3 unbeschränkt für z → 0, so dass ∂1u, ∂2u unbeschränkt 

sind für (x, y) → 0. Hier gilt also nicht einmal u ∈ C 1 (Ω). 

Die Beispiele belegen nicht, dass die 5-Punkte-Stern-Diskretisierung unbrauchbar für 

die betreffenden Randwertaufgaben ist, sie zeigen aber, dass eine Konvergenztheorie 

notwendig ist, die nur die zu erwartende Glattheit der Lösung voraussetzt. 

Im Folgenden sollen Verallgemeinerungen der bisherigen Randwertaufgabe diskutiert 

werden: 

Allgemeine Gebiete � Ω Es werde weiter (5.1), (5.2) betrachtet, aber auf einem 

allgemeinen Gebiet im R 2 , bei dem die Randstücke nicht den Koordinatenachsen folgen. 

Daher können wir zwar die zweite Gleichung in (5.5) als Definition von Ωh beibehalten, 

müssen aber die Menge der Randgitterpunkte ∂Ωh neu definieren: 

Ist für (x, y) ∈ Ωh etwa 

dann existiert ein s ∈ (0, 1], so dass 

(x − h, y) /∈ Ω , 

(x − ϑh, y) ∈ Ω für alle ϑ ∈ [0, s) und (x − sh, y) /∈ Ω . 

Dann liegt (x − sh, y) ∈ ∂Ω und wir definieren: 

(x − sh, y) ∈ ∂Ωh . 

Analog verfahren wir mit den anderen Haupthimmelsrichtungen. Damit ist der Gitterabstand 

in Randnähe variabel, er kann kleiner als h werden. 

Für die Güte der Approximation gilt: 

209

Lemma 5.7 Sei Ω = (x − h1, x + h2) für x ∈ R, h1, h2 > 0. 

1. Dann gilt für u ∈ C 3 (Ω) 

u ′′ (x) = 

2 

h1 + h2 

� � 

u(x + h2) − u(x) u(x) − u(x − h1) 

− 

h2 

+ max {h1, h2}R , 

wobei R unabhängig von h beschränkt sei. 

2. Es gibt keine α, β, γ ∈ R, so dass gilt 

u ′′ (x) = α u(x − h1) + β u(x) + γ u(x + h2) + R1h 2 1 + R2h 2 2 

für Polynome u 3. Grades, falls h1 �= h2. 

Beweis: Übung. ✷ 

Dies führt zu einer kompliziert aufzustellenden Diskretisierung, deren Konsistenz- und 

Konvergenzordnung nur schwer zu bestimmen ist. Die bisherige Vorgehensweise liefert 

nur die Konsistenzordnung 1. 

Andere Randbedingungen Wir wollen folgendes Beispiel betrachten. Hierzu sei 

∂Ω = Γ1 ∪ Γ2 in zwei disjunkte Teilmengen aufgeteilt. Gesucht ist nun eine Funktion 

u mit 

−∆u = f in Ω , 

u = 0 auf Γ1 , 

∂νu := ∇u · ν = g auf Γ2 , 

h1 

(5.23) 

wobei ν : ∂Ω → R d die äußere Einheitsnormale sei, und somit ∂νu die Normalenableitung 

von u. 

Für ein Randstück in eine Koordinatenrichtung reduziert sich ∂νu auf eine positive 

oder negative partielle Ableitung. Wenn aber nur Gitterpunkte in Ωh verwendet werden, 

steht von den bisherigen Approximationen nur ±∂ + u bzw. ±∂ − u (in den Koordinaten 

orthogonal zur Randrichtung) zur Verfügung mit entsprechender Reduktion 

der Konsistenzordnung. Für einen Randpunkt in allgemeiner Lage ist die Frage einer 

angemessenen Approximation von ∂νu offen. 

210

Allgemeinere Differentialgleichungen Wir betrachten folgende Differentialgleichung 

als Beispiel: 

−∇ · (k ∇u) = f auf Ω (5.24) 

mit einer stetigen Koeffizientenfunktion k : Ω → R, die auf Ω durch eine positive 

Konstante nach unten beschränkt sei. Die darin formulierte Erhaltung einer extensiven 

Größe u, deren Fluss −k∇u ist, sollte von der Diskretisierung respektiert werden, 

insofern ist eine ausdifferenzierte Form von (5.24) als Basis für die Diskretisierung nicht 

zu empfehlen. Der Differentialausdruck in (5.24) kann durch sukzessive Anwendung 

zentraler Differenzenquotienten diskretisiert werden, doch dann stellt sich wieder die 

Frage der Konsistenzordnung. 

Hinzu kommt, dass die Glattheit von u von der des Koeffizienten k abhängt. Werden 

Prozesse in inhomogenen Materialien beschrieben, ist k oft unstetig. Als einfachstes 

Beispiel nehme k zwei verschiedene Werte an: Es sei Ω = Ω1 ∪ Ω2 und 

mit Konstanten k1, k2. 

k|Ω1 = k1 > 0 , k|Ω2 = k2 > 0 

Auf dem inneren Rand S := Ω1 ∩ Ω2 ist eine Transmissionsbedingung zu fordern: 

• u ist stetig, 

• (k∇u) · ν ist stetig, wobei ν die äußere Normale auf zum Beispiel ∂Ω1 sei. 

Dies führt zu den folgenden Bedingungen für ui, die Einschränkungen von u auf Ωi für 

i = 1, 2: 

−k1∆u1 = f in Ω1 , (5.25) 

−k2∆u2 = f in Ω2 , 

u1 = u2 auf S , (5.26) 

k1∂νu1 = k2∂νu2 auf S . 

Auch hier ist die Frage der Diskretisierung offen. 

Zusammenfassend ergibt sich folgender Wunschkatalog: 

Wir suchen einen Lösungsbegriff für (allgemeine) Randwertaufgaben mit nichtglatten 

Koeffizienten und rechten Seiten, so dass zum Beispiel Transmissionsbedingungen automatisch 

erfüllt sind. 

Wir suchen nach einer Diskretisierung für beliebige Gebiete, so dass zum Beispiel Konvergenz(ordnung) 

auch bei weniger glatten Lösungen gesichert werden kann, und auch 

Neumann-Randbedingungen wie in (5.23) leicht berücksichtigt werden können. 

211

Die Finite-Element-Methode in den nachfolgenden Kapiteln wird dies weitgehend 

erfüllen. 

5.4 Maximumprinzipien und Stabilität 

In diesem Abschnitt soll der fehlende Beweis der Stabilitätsabschätzung (5.19) gegeben 

werden, und zwar in einem etwas allgemeineren Rahmen, in dem dann auch die Finite- 

Element-Diskretisierung diskutiert werden kann (siehe Kapitel 6). 

Die Randwertaufgabe (5.1), (5.2) erfüllt ein (schwaches) Maximumprinzip in folgendem 

Sinn: 

Ist f stetig mit f(x) ≤ 0 für alle x ∈ Ω (kurz: f ≤ 0), dann gilt: 

max 

x∈Ω 

u(x) ≤ max u(x) , 

x∈∂Ω 

und zwar ist das Maximumprinzip auch stark insofern, dass das Maximum von u auf 

Ω nur dann in Ω angenommen werden kann, wenn u konstant ist. Durch Übergang 

von u, f, g zu −u, −f, −g ergibt sich ein analoges (starkes) Minimumprinzip. Gleiches 

gilt für allgemeinere lineare Differentialgleichungen wie in (5.24), die auch konvektive 

Anteile (das heißt erste Ortsableitungen) enthalten dürfen. Tritt dagegen auch ein 

Reaktionsanteil (das heißt ohne Ableitungen) auf, wie in der Gleichung 

−∆u + ru = f in Ω 

mit einer Funktion r : Ω → R, so dass r(x) ≥ 0 für x ∈ Ω, so gilt ein schwaches 

Maximumprinzip nur in der Form: 

Ist f ≤ 0, dann gilt: 

� � 

max u(x) ≤ max max u(x), 0 

x∈Ω 

x∈∂Ω 

Das schwache Maximumprinzip impliziert direkt Aussagen über die Abhängigkeit der 

Lösung u der Randwertaufgabe von den Daten f und g, also Stabilitätsaussagen. Dieser 

Weg kann auch für Diskretisierungen beschritten werden. Für das grundlegende Beispiel 

gilt: 

Satz 5.8 Sei uh die durch (5.7), (5.8) definierte Gitterfunktion auf Ωh und fij ≤ 0 für 

alle i = 1, . . ., l − 1, j = 1, . . ., m − 1. Dann gilt: 

Nimmt uh sein Maximum auf Ωh ∪ ∂Ω ∗ h in (i0h, j0h) ∈ Ωh an, dann folgt: 

uh ist konstant auf Ωh ∪ ∂Ω ∗ h . 

212 

.

Dabei ist 

Insbesondere ist also 

∂Ω ∗ h := ∂Ωh \ {(0, 0), (a, 0), (0, b), (a, b)} . 

max uh(x, y) ≤ max 

(x,y)∈Ωh 

(x,y)∈∂Ω∗ uh(x, y) . 

h 

Beweis: Sei ū := uh(i0h, j0h), dann gilt wegen (5.7) und fij ≤ 0 

4ū ≤ 

� 

(k,l)∈N (i0 ,j 0 ) 

uh(kh, lh) ≤ 4ū , 

weil insbesondere auch uh(kh, lh) ≤ ū für (k, l) ∈ N(i0,j0). Dabei ist 

N(i0,j0) = {((i0 − 1), j0), ((i0 + 1), j0), (i0, (j0 + 1)), (i0, (j0 − 1))} 

die Menge der Indizes der Nachbarn von (i0h, j0h) im 5-Punkte-Stern. Aus diesen 

Ungleichungen folgt 

uh(kh, lh) = ū für (k, l) ∈ N(i0,j0) . 

Wenn dieses Argument auf die Nachbarn in Ωh der Gitterpunkte (kh, lh) für (k, l) ∈ 

N(i0,j0) und immer weiter auf die jeweils entstehenden Nachbarmengen in Ωh angewendet 

wird, erhält man schließlich für jeden Gitterpunkt (ih, jh) ∈ Ωh ∪ ∂Ω ∗ h die 

behauptete Identität uh(ih, jh) = ū . ✷ 

Die Ausnahmemenge der Ecken ∂Ωh \ ∂Ω∗ h ist an keinem Differenzenstern beteiligt, so 

dass die Werte auch keinen Einfluss auf uh haben. 

Zur Verallgemeinerung dieses Ergebnisses wird das Gleichungssystem wie in (5.10), 

(5.11) betrachtet, das heißt 

Ah�uh = �qh = − Âh ˆ �uh + � f (5.27) 

mit Ah ∈ R M1,M1 wie in (5.14), Âh ∈ R M1,M2 wie in (5.12), �uh, � f ∈ R M1 und ˆ �uh ∈ 

R M2 . Dieses kann interpretiert werden als eine durch die Finite-Differenzen-Methode 

oder einen anderen Ansatz erhaltene Diskretisierung einer Randwertaufgabe auf einem 

Gebiet, das nicht notwendigerweise zweidimensional sein muss. Auf mindestens einem 

Randstück werden Dirichlet-Vorgaben gefordert. Die Einträge des Vektors �uh können 

, wobei 

dann aufgefasst werden als die unbekannten Gitterpunktwerte in Ωh ∪ ∂Ω (1) 

h 

∂Ω (1) 

h einem Teil von ∂Ω (mit Fluss- oder gemischten Randbedingungen) entspricht. 

Analog besteht dann der Vektor ˆ �uh (indiziert von M1+1 bis M1+M2) aus den durch die 

213

Dirichlet-Randbedingungen festgelegten Werten auf ∂Ω (2) 

h . Wieder sei M = M1 + M2 

und 

� 

Ãh := 

Ah 

� � 

� Âh ∈ R M1,M 

. 

Insbesondere sind also die Dimensionen M1 und M2 nicht fest, sondern werden im 

Allgemeinen unbeschränkt für h → 0. 

In Anlehnung an (5.15) seien die Generalvoraussetzungen für den Rest dieses Abschnitts: 

(1) (Ah)rr > 0 für alle r = 1, . . .,M1 , 

(2) (Ah)rs ≤ 0 für alle r, s = 1, . . .,M1 mit r �= s, 

(3) 

�M1 

(Ah)rs ≥ 0 für alle r = 1, . . ., M1 

s=1 

und für mindestens einen Index gilt die echte Ungleichung , 

(4) Ah ist irreduzibel , 

(5) ( Âh)rs ≤ 0 für alle r = 1, . . ., M1 , s = M1 + 1, . . .,M , 

(6) 

M� 

( Ãh)rs ≥ 0 für alle r = 1, . . ., M1 , 

s=1 

(7) Für jedes s = M1 + 1, . . .,M existiert ein r ∈ {1, . . ., M1} , 

so dass ( Âh)rs �= 0 . 

(5.28) 

In Verallgemeinerung der obigen Notation heißen für r ∈ {1, . . ., M1} die s ∈ 

{1, . . ., M} \ {r} Nachbarn, für die ( Ãh)rs �= 0 gilt, und diese werden zur Menge 

Nr zusammengefasst. Die Irreduzibilität von Ah bedeutet also, dass beliebige 

r, s ∈ {1, . . ., M1} über Nachbarschaftsbeziehungen miteinander verbindbar sind. 

Die Bedingung (7) ist keine Einschränkung: Sie schließt nur aus, dass bekannte Werte 

( ˆ �uh)s mit aufgeführt werden, die die Lösung von (5.27) gar nicht beeinflussen. Beim 

5-Punkte-Stern auf dem Rechteck sind dies die Eckpunkte. Aufgrund der Bedingung 

(7) ist auch jedes r ∈ {M1 +1, . . .,M} mit jedem s ∈ {1, . . ., M1} über Nachbarschaftbeziehungen 

verbunden. 

Aus Bedingung (2) und (3) folgt die schwache Diagonaldominanz von Ah. Man beachte 

auch, dass die Bedingungen redundant sind. Die Bedingung (3) folgt aus (6) und (5). 

Zur Vereinfachung der Notation wird für Vektoren �u,�v und auch für Matrizen A, B 

jeweils gleicher Dimensionierung verwendet: 

�u ≥ �0 genau dann, wenn (�u)i ≥ 0 für alle Indizes i , 

�u ≥ �v genau dann, wenn �u − �v ≥ 0 , 

A ≥ 0 genau dann, wenn (A)ij ≥ 0 für alle Indizes (i, j) , 

A ≥ B genau dann, wenn A − B ≥ 0 . 

214 

(5.29)

Dann gilt: 

Satz 5.9 Betrachtet werde (5.27) unter den Voraussetzungen (5.28). Ferner sei f ≤ 0. 

Nimmt ˜ �uh = � � �uh 

ˆ�uh 

ein nichtnegatives Maximum in einem Index r ∈ {1, . . .,M1} an, 

dann sind alle Komponenten gleich. Insbesondere gilt: 

max 

r∈{1,...,M} (˜ � 

�uh)r ≤ max 0, max 

r∈{M1+1,...,M} (ˆ � 

�uh)r . 

Beweis: Sei ū = max ( 

s∈{1,...,M} 

˜ �uh)s und ū = (�uh)r wobei r ∈ {1, . . ., M1}. Die r-te Zeile 

von (5.27) impliziert wegen (5.28) (2), (5), (6) 

(Ah)rrū ≤ − � � � 

Ãh s∈Nr rs (˜ �uh)s = � � 

� 

s∈Nr 

� � � 

Ãh 

� ( �uh)s 

˜ 

≤ � 

s∈Nr 

� 

� � � 

Ãh 

rs 

� 

� ū ≤ (Ah)rrū , 

rs 

(5.30) 

wobei die Voraussetzung ū ≥ 0 in die letzte Abschätzung einging. Somit gilt überall 

Gleichheit. Da die zweite Ungleichung auch für jeden Summanden gilt und ( Ãh)rs �= 0 

nach Definition von Nr, folgt schließlich 

( ˜ �uh)s = ū für alle s ∈ Nr . 

Anwendung der obigen Argumentation auf alle s ∈ Nr ∩ {1, . . .,M1} und so fort auf 

die jeweiligen Nachbarmengen ergibt die Behauptung. ✷ 

Die Irreduzibilität lässt sich abschwächen, wenn anstelle von (5.28) (6) gilt: 

M� � � 

∗ (6) Ãh rs 

s=1 

= 0 für alle r = 1, . . .,M1 . 

Dann reicht anstelle von (4) die Forderung 

(4) ∗ 

Zu jedem r1 ∈ {1, . . ., M1} mit 

M1 � 

s=1 

gibt es Indizes r2, . . ., rl+1 derart, dass 

und 

(Ah)r1s = 0 (5.31) 

(Ah)riri+1 �= 0 für i = 1, . . ., l 

M1 � 

s=1 

(Ah)rl+1s > 0 . (5.32) 

Die entsprechend modifizierten Voraussetzungen werden (5.28) ∗ genannt. 

215

In Anlehnung an das obige Beispiel nennen wir einen Punkt r ∈ {1, . . .,M1} randfern, 

wenn (5.31) gilt und randnah, wenn (5.32) gilt, und die Punkte r ∈ {M1 + 1, . . ., M} 

Randpunkte . 

Es gilt: 

Satz 5.10 Betrachtet werde (5.27) unter der Voraussetzung (5.28) ∗ . 

Ist f ≤ 0, dann gilt: 

max 

r∈{1,...,M} (˜ �uh)r ≤ max 

r∈{M1+1,...,M} (ˆ �uh)r . 

Beweis: Es wird die gleiche Notation und Argumentation wie im Beweis von Satz 

5.9 verwendet. In (5.30) gilt in der letzten Abschätzung sogar Gleichheit, so dass keine 

Vorzeichenbedingung an ū nötig ist. Das Maximum wird also wegen (4) ∗ auch an einem 

randnahen Punkt angenommen und damit auch an dessen Nachbarn. Wegen (6) ∗ gehört 

dazu ein Randpunkt, was die Behauptung beweist. ✷ 

Aus diesen Maximumprinzipien folgt sofort ein Vergleichsprinzip: 

Satz 5.11 Es gelte (5.28) oder (5.28) ∗ . 

Seien �uh1,�uh2 ∈ R M1 Lösungen von 

Ah�uhi = − Âh ˆ �uhi + � fi für i = 1, 2 

für gegebene � f1, � f2 ∈ R M1 , ˆ �uh1, ˆ �uh2 ∈ R M2 , die � f1 ≤ � f2, ˆ �uh1 ≤ ˆ �uh2 erfüllen. Dann folgt: 

�uh1 ≤ �uh2 . 

Beweis: Aus Ah(�uh1 − �uh2) = − Âh( ˆ �uh1 − ˆ �uh2) + � f1 − � f2 folgt mit Satz 5.9 bzw. 5.10 

max 

r∈{1,...,M1} (�uh1 − �uh2)r ≤ 0 . 

Damit ergibt sich die Eindeutigkeit der Lösung von (5.27) für beliebige ˆ �uh und � f und 

so auch die Regularität von Ah. 

Im Folgenden bezeichnen �0 bzw. 0 auch den Nullvektor bzw. die Nullmatrix, bei denen 

alle Komponenten gleich 0 sind. Unmittelbare Konsequenzen aus Satz 5.11 sind: 

Satz 5.12 Gegeben seien eine Matrix Ah ∈ R M1,M1 mit den Eigenschaften (5.28) (1)– 

(3), (4) ∗ , sowie ein Vektor �uh ∈ R M1 . Dann gilt: 

Aus Ah�uh ≥ �0 folgt �uh ≥ �0 . (5.33) 

216 

✷

Beweis: Um Satz 5.11 anwenden zu können, konstruiere man eine Matrix Âh ∈ 

R M1,M2 , so dass (5.28)* gilt. Dann wähle man 

�uh2 := �uh , � f2 := Ah�uh2 , ˆ �uh2 := �0 , 

�uh1 := �0 , � f1 := �0 , ˆ �uh1 := �0 . 

Wegen ˆ �uhi := �0 für i = 1, 2 spielt die konkrete Wahl von Âh keine Rolle. ✷ 

Eine Matrix mit der Eigenschaft (5.33) nennt man inversmonoton. Äquivalent dazu 

ist: 

�vh ≥ �0 ⇒ A −1 

h �vh ≥ �0 

und somit durch Wahl der Einheitsvektoren als �vh : 

A −1 

h 

≥ 0 . 

Inversmonotone Matrizen, die wie hier (5.28) (1), (2) erfüllen, heißen auch M-Matrizen. 

Mit 1 wird im Folgenden der Vektor (passender) Dimension bezeichnet, dessen Komponenten 

alle gleich 1 sind. Dann: 

Satz 5.13 Es gelte (5.28) (1)–(3), (4) ∗ , (5). Ferner seien �w (1) 

h , �w(2) 

h ∈ RM1 gegeben mit: 

Dann folgt für die Lösung von Ah�uh = − Âh ˆ �uh + � f: 

Ah�w (1) 

h ≥ �1 , Ah�w (2) 

h ≥ −Âh �1 . (5.34) 

1) − � | � f|∞�w (1) 

h + |ˆ �uh|∞�w (2) � 

h ≤ �uh ≤ | � f|∞�w (1) 

h + |ˆ �uh|∞�w (2) 

h , 

2) |�uh|∞ ≤ � � 

� (1) 

�w � 

h | ∞ � f|∞ + � � 

� (2) 

�w � 

h | ∞ ˆ �uh|∞ . 

Unter den Voraussetzungen (5.28) (1)–(3), (4) ∗ und (5.34) gilt für die von |·|∞ erzeugte 

Matrixnorm � · �∞: 

� � 

� −1 

A � ≤ ∞ � � 

� (1) 

�w � . ∞ 

h 

Beweis: Da −| � f|∞ �1 ≤ � f ≤ | � f|∞ �1 und die analoge Aussage für � ûh gilt, erfüllt der 

Vektor �vh := | � f|∞�w (1) 

h + |ˆ �uh|∞�w (2) 

h − �uh : 

Ah�vh ≥ | � f|∞ �1 − � f − Âh 

h 

� 

| ˆ �uh|∞ �1 − ˆ � 

�uh ≥ �0 , 

wobei in die letzte Abschätzung auch − Âh ≥ 0 eingeht. Aus Satz 5.12 folgt also die 

rechte Ungleichung von 1), die linke Ungleichung wird analog bewiesen. Die weiteren 

Aussagen folgen unmittelbar aus 1). ✷ 

217

Aus der Inversmonotonie und (5.28) (5) folgt für die in Satz 5.13 postulierten Vektoren 

notwendigerweise �w (i) 

h ≥ �0 für i = 1, 2. Stabilität bezüglich � · �∞ des durch (5.27) 

definierten Verfahrens unter der Voraussetzung (5.28) (1)-(3), (4*) liegt also dann vor, 

wenn sich ein Vektor �0 ≤ �wh ∈ RM1 und eine von h unabhängige Konstante C > 0 

finden lassen, so dass 

Ah�wh ≥ �1 und |�wh|∞ ≤ C . (5.35) 

Dies soll abschließend für die 5-Punkte-Stern-Diskretisierung von (5.1), (5.2) auf dem 

Rechteck Ω = (0, a) × (0, b) mit C = 1 

16 (a2 + b 2 ) nachgewiesen werden. 

Dazu definiere man zunächst die Polynome 2. Grades w1, w2 durch 

w1(x) := 1 

4 x(a − x) und w2(y) := 1 

y(b − y) . 

4 

Es ist klar, dass w1(x) ≥ 0 für alle x ∈ [0, a] und w2(y) ≥ 0 für alle y ∈ [0, b]. Ferner 

gilt w1(0) = 0 = w1(a) und w2(0) = 0 = w2(b), sowie 

w ′′ 

1 (x) = −1 

2 

und w′′ 2 (y) = −1 

2 . 

Somit sind w1 und w2 strikt konkav und nehmen ihr Maximum in a 

2 

Funktion w(x, y) := w1(x) + w2(x) erfüllt also auf Ω 

−∆w = 1 in Ω , 

w ≥ 0 auf ∂Ω . 

bzw. b 

2 

an. Die 

(5.36) 

Sei nun �wh ∈ R M1 für eine fest gewählte Nummerierung die Darstellung der Gitterfunktion 

wh, definiert durch 

(wh)(ih, jh) := w(ih, jh) für i = 1, . . ., l − 1 , j = 1, . . ., m − 1 . 

Analog sei ˆ �wh ∈ R M2 die Darstellung der auf ∂Ω ∗ h definierten Funktion ˆwh. 

Wie aus der Fehlerdarstellung von Lemma 5.2, 4. ersichtlich, ist ∂ − ∂ + u(x) exakt für 

Polynome 2. Grades. Daher folgt aus (5.36) 

und es gilt schießlich 

Ah�wh = − Âh ˆ �wh +�1 ≥ �1 

� 

a 

� � 

a 

� 

|�wh|∞ = �wh�∞ ≤ �w�∞ = w1 + w2 

2 2 

218 

= 1 

16 (a2 + b 2 ) .

6 (Informelle) Einführung in die Methode der Finiten 

Elemente für elliptische Probleme 

Abkürzungen: Methode der Finiten Elemente: FEM 

Randwertaufgabe: RWA 

6.1 Variationsformulierung für ein eindimensionales Modellproblem 

2–Punkt–RWA: 

Gegeben seien k ∈ C 1 (a, b) mit k(x) ≥ k0 > 0 für alle x ∈ [a, b] und f ∈ C(a, b). 

Gesucht ist u, so dass: 

(D) 

(−k(x)u ′ (x)) ′ = f(x) für x ∈ (a, b) =: I , 

u(a) = u(b) = 0 . 

Klassische Lösung: u ∈ C 1 [a, b] ∩ C 2 (a, b), das (D) erfüllt. 

Funktionenräume: 

C(a, b) := � f � � f : (a, b) → R, f stetig � 

C[a, b] analog 

C k (a, b) := � f � � f, f ′ , . . .,f (k) ∈ C(a, b) � 

C k [a, b] analog (Ableitungen stetig fortsetzbar in x = a, b) 

Eine klassische Lösung von (D) existiert eindeutig (Aufintegrieren & Randbedingungen). 

D.h. (D) ist korrekt gestellt (wenn noch u stetig von f abhängt). 

Ohne Randbedingungen gilt: u Lösung ⇒ u + g Lösung, wobei 

−(kg ′ ) ′ � x 

= 0 ⇔ g(x) = 

0 

α/k(s) ds + β , α, β ∈ R . 

f �∈ C(a, b) oder k �∈ C 1 (a, b) ⇒ ? – keine klassische Lösung. 

219

Äquivalente Formulierungen für (D): 

Wir definieren den Raum 

Stückweise stetig: 

V := � v � � v ∈ C[a, b], v ′ stückweise stetig, v(a) = v(b) = 0 � . (6.1) 

Wir definieren weiterhin: 

(v, w) := � 

Ω v(x)w(x) dx für v, w ∈ L2 (Ω), Ω ⊂ R n , 

L 2 (Ω) := � v : Ω → R � � v 2 Lebesgue–integrierbar � , 

�v�0,2 := (v, v) 1/2 für v ∈ L 2 (Ω) (Norm auf L 2 (Ω)) . 

Für Ω = (a, b) wird abkürzenderweise L 2 (a, b) geschrieben. 

Es gilt die Cauchy–Schwarz’sche Ungleichung 

|(v, w)| ≤ �v�0,2�w�0,2 < ∞ für v, w ∈ L 2 (Ω) . 

Variationelle (schwache) Formulierung für (D): 

(V ) 

Gesucht u ∈ V, so dass 

(ku ′ , v ′ ) = (f, v) für alle v ∈ V . 

(Variationsgleichung) (Für die elastische Stange : Prinzip der virtuellen Arbeit.) 

Lemma 6.1 Es gilt 

d.h. jede Lösung von (D) ist auch eine Lösung von (V ). 

Beweis: Klar, dass C 1 [a, b] ⊂ V . Sei u eine Lösung von (D). 

(6.2) 

(D) ⇒ (V ) , (6.3) 

Multiplikation von (D) mit v ∈ V (Testfunktion) und Integration über I liefern: 

(f, v) = ((−ku ′ ) ′ , v) part.Int. 

= (ku ′ , v ′ ) − k(b)u ′ (b)v(b) + k(a)u ′ (a)v(a) = (ku ′ , v ′ ) , (6.4) 

da v ∈ V . ✷ 

220

Der Raum V darf also vergrößert werden, solange die partielle Integration in (6.4) noch 

erlaubt ist. 

(V ) hat die gleichen Lösungen wie die Minimierungsaufgabe 

(M) 


F(u) ≤ F(v) für alle v ∈ V 

mit 

F(v) := 1 

2 (kv′ , v ′ ) − (f, v) . 

(Für die elastische Stange ist F(v) die potentielle Energie, daher: 

Prinzip der minimalen potentiellen Energie.) 

Satz 6.2 Es gilt 

(V ) ⇐⇒ (M) , 

d.h. Variationsgleichung und Minimierungsaufgabe sind äquivalent. 

Beweis: 

(V ) ⇒ (M): Sei u Lösung von (V ) und v ∈ V . Setze w := v − u ∈ V . Dann gilt 

F(v) = F(u + w) = 

(symmetrische)Bilinearform 

� �� 

1 

2 (k(u′ + w ′ ), u ′ + w ′ ) − 

Linearform 

� �� 

(f, u + w) 

= 1 

2 (ku′ , u ′ ) − (f, u) + (ku ′ , w ′ ) − (f, w) + 1 

2 (kw′ , w ′ ) 

≥ 1 

2 (ku′ , u ′ ) − (f, u) = F(u) , 

da (ku ′ , w ′ ) = (f, w) wegen w ∈ V und (kw ′ , w ′ ) ≥ 0. 

(M) ⇒ (V ): Sei u Lösung von (M), v ∈ V beliebig, ε ∈ R. Für g(ε) := F(u + εv) gilt 

g(ε) ≥ F(u) = g(0), da u + εv ∈ V . Also hat g ein globales Minimum in ε = 0. 

g(ε) = 1 

2 (k(u′ + εv ′ ), u ′ + εv ′ ) − (f, u + εv) 

s.o. 1 

= 

2 (ku′ , u ′ ) − (f, u) + ε(ku ′ , v ′ ) − ε(f, v) + ε2 

2 (kv′ , v ′ ) 

ist offensichtlich stetig differenzierbar, d.h. g ∈ C 1 (R). Da g in ε = 0 ein Minimum 

hat, gilt 0 = g ′ (0) = (ku ′ , v ′ ) − (f, v). Weil v ∈ V beliebig war, bedeutet dies: u 

löst (V ). ✷ 

Schwache Lösung: u Lösung von (V ) bzw. (M) 

221

Allgemeine Merkmale von (V ) und (M): 

(V ) hat die Gestalt: Gesucht u ∈ V, so dass 

(ku ′ , v ′ ) = (f, v) für alle v ∈ V 

mit 

und V ist ein R–Vektorraum. 

a(u, v) := (ku ′ , v ′ � b 

) = k(x)u 

a 

′ (x)v ′ (x) dx , 

� b 

b(v) := (f, v) = 

a 

f(x)v(x) dx 

a ist Bilinearform auf V , d.h. für u, v1, v2 ∈ V und α ∈ R gilt 

analog im 1. Argument. 

b ist Linearform auf V . 

Ferner gilt für a: 

a(u, v1 + v2) = a(u, v1) + a(u, v2) , 

a(u, αv) = αa(u, v) , 

a ist symmetrisch, d.h. a(u, v) = a(v, u) für alle u, v ∈ V , 

a ist positiv, d.h. a(u, u) ≥ 0 für alle u ∈ V , 

a ist definit, d.h. a(u, u) = 0 ⇒ u = 0 in V . 

Davon wurde zum Beweis von Satz 6.2 benutzt: 

a bilinear, symmetrisch, positiv, b linear. 

(6.5) 

Bemerkung 6.3 Es wurde also bewiesen: 

Eine durch eine symmetrische, positive Bilinearform a und eine Linearform b definierte 

Variationsgleichung (V ) ist äquivalent zur Minimierungsaufgabe (M). 

Aber (V ) ist allgemeiner: (D) ⇒ (V ) gilt auch für allgemeinere Differentialgleichungen, 

wobei a nicht symmetrisch ist. (M) ist dann nicht sinnvoll. 

Für Eindeutigkeit braucht man: a definit. 

Satz 6.4 Die schwache Lösung ist eindeutig. 

222

Beweis: u1 und u2 seien schwache Lösungen, d.h. es gilt 

(ku ′ 1, v ′ ) = (f, v) = (ku ′ 2, v ′ ) für alle v ∈ V . 

Für u := u1 − u2 ∈ V gilt also (ku ′ , v ′ ) = 0 für alle v ∈ V . Mit der Wahl v = u folgt 

� b 

ku 

a 

′ (x) 2 dx = (ku ′ , u ′ ) = 0 , 

also u ′ = 0 (Übung), d.h. u(x) = c für alle x ∈ [a, b]. Speziell für x = a erhält man: 

c = u(a) = 0. ✷ 

Bemerkung 6.5 Mit gleichem Beweis zeigt man: 

Ist die Bilinearform a definit, so ist die Lösung der Variationsgleichung eindeutig. 

Lemma 6.6 Eine schwache Lösung u mit u ∈ C 2 [a, b] eine ist klassische Lösung (falls 

k ∈ C 1 [a, b]). 

Beweis: u sei schwache Lösung, d.h. (ku ′ , v ′ ) = (f, v) für alle v ∈ V . Mit partieller 

Integration erhält man 

⇐⇒ 

(−(ku ′ ) ′ , v) = (f, v) 

� b 

für alle v ∈ V 

(−(ku 

a 

′ ) ′ − f)(x) v(x) dx = 0 für alle v ∈ V , 

woraus schließlich −(ku ′ ) ′ = f in (a, b) folgt (Übung). ✷ 

Die Aussage von Lemma 6.6 gilt auch für u ∈ C 1 [a, b] ∩ C 2 (a, b) und k ∈ C 1 (a, b) 

(v mit supp v ⊂ (a, b): Übung). 

Wenn (6.5) auf V gilt, dann ist a ein Skalarprodukt, und 

ist eine Norm auf V . 

Unterscheide �u�a = 

�u�a := a(u, u) 1/2 

�� b 

k(x)u 

a 

′ (x) 2 �1/2 

dx 

von �u�0,2 = 

�� b 

a 

u(x) 2 dx 

�1/2 

V ist linearer R–Vektorraum, auf dem sowohl � · �a als auch � · �0,2 Normen bilden. 

223 

! 

(6.6)

Definition: Eine Abbildung �.� : V → R heißt Norm, wenn die folgenden Eigenschaften 

erfüllt sind 

�αu� = |α|�u� für α ∈ R, u ∈ V , 

�u + v� ≤ �u� + �v� für u, v ∈ V (Dreiecksungleichung) , 

�u� = 0 ⇔ u = 0 . 

d(u, v) := �u − v� definiert eine Metrik auf V . 

Konvergenz un → u ⇔ �un − u� → 0 für n → ∞. 

Nachweis der Normeigenschaften für (V, �.�a), V aus (6.1): 

�αu�a = |α|�u�a für α ∈ R, u ∈ V : klar 

�u�a = 0 ⇔ u = 0 : klar 

�u + v�a ≤ �u�a + �v�a für u, v ∈ V ց 

folgt aus Cauchy–Schwarzscher Ungleichung: (Übung) 

a(u, v) ≤ �u�a�v�a für u, v ∈ V ր 

Energiefunktional aus (M): 

Daher nennt man �.�a Energienorm. 

F(v) = 1 

1 

a(v, v) − b(v) = 

2 2 �v�2a − b(v) . 

(V, �.�a), (V, �.�0,2) sind verschiedene normierte Räume, da die Normen nicht äquivalent 

sind. 

Definition: �.�1 und �.�2 seien Normen auf V : 

�.�1 heißt äquivalent zu �.�2 (in Zeichen �.�1 ∼ = �.�2), wenn C1, C2 ≥ 0 existieren, so 

daß 

C1�u�1 ≤ �u�2 ≤ C2�u�1 für alle u ∈ V . 

Sind �.�1 und �.�2 äquivalente Normen, so gilt 

un → u bzgl. �.�1 ⇐⇒ un → u bzgl. �.�2 , 

die erzeugten Topologien sind also gleich. 

224

�.�a und �.�0,2 sind auf V nach (6.1) nicht äquivalent, da für oBdA. [a, b] = [0, 1] und 

folgende Funktionen vn gilt: 

�� 1 

�vn�0,2 ≤ 

0 

aber 

�vn�a = 

� � 1 

n 

0 

1 dx 

�1/2 

= 1 , 

k(x)n 2 dx + 

1 

� 1 

1− 1 

n 

✻ 

✁ ✁✁ 

0 1 

n 

k(x)n 2 dx 

� 1/2 

Eine Abschätzung �v�a ≤ C�v�0,2 gilt also nicht. 

❆ vn 

❆ 

❆ 

n−1 

n 1 

✲ 

≥ k0(2n) 1/2 → ∞ für n → ∞ . 

Alle diese Überlegungen bleiben gültig, wenn statt V ein R–Vektorraum ˜ V mit V ⊂ ˜ V 

und gleichen Normen betrachtet wird. 

6.2 Die FEM für das Modellproblem mit stückweise linearen 

Funktionen 

Ansatz: Ersetze V in (V ) oder (M) durch einen endlich-dimensionalen Teilraum Vh. 

Konstruktion von Vh: lineare Elemente 

Zerlegung von I = [a, b]: 

Knoten: a = x0 < x1 < · · · < xM < xM+1 = b 

M Anzahl der inneren Knoten, d.h. ohne x = a und x = b, 

= Anzahl der Freiheitsgrade (s.u.). 

Teilintervalle (Elemente): Ki = [xi−1, xi], i = 1, . . ., M + 1 =: N, 

Intervallängen: hi := xi − xi−1, i = 1, . . .,N, 

h := max 

i=1,...,N hi (maximale Elementlänge). 

h Diskretisierungsparamenter: xi = x h i 

Äquidistante Zerlegung: h = hi für alle i ⇒ h = (b − a)/N. 

Ist h klein, nennt man eine Diskretisierung fein. 

Wir definieren nun den endlich-dimensionalen Teilraum von V durch 

Vh := � v � � v ∈ C[a, b], v|Kj linear, j = 1, . . .,N, v(a) = v(b) = 0� . (6.7) 

225

v ∈ Vh ist Polygonzug: 

✑ ✑✑ ✥✥� �� ❅ ❅ 

❩ ❩❩❩ 

a b 

Es ist klar, daß Vh ⊂ V . 

Ferner gilt dim Vh = M, denn v ∈ Vh ist gegeben durch v(xi), i = 1, . . ., M, insbesondere 

dadurch definiert, da die Interpolationsaufgabe: 

Gegeben a < b, α, β ∈ R. 

Finde lineares p (d.h. p ∈ P 1 ) mit p(a) = α, p(b) = β. 

eindeutig lösbar ist und v ∈ Vh stetig ist. 

Sei wj ∈ Vh definiert durch 

wj(xi) = δij = 

� 1 für i = j 

0 für i �= j 

� 

, i, j = 1, . . .,M , (6.8) 

also 

⎧ 

⎨ (x − xj)/hj für x ∈ Kj , 

1 

wj(x) = (xj+1 − x)/hj+1 für x ∈ Kj+1 , 

⎩ 

� 

0 sonst . xj−1 xj xj+1 

��◗ ◗ 

◗wj ◗ 

(Die wj heißen Hutfunktionen.) 

Dann bilden w1, . . .,wM eine Basis von Vh, d.h. für v ∈ Vh gilt 

v(x) = 

M� 

ηi wi(x) ⇐⇒ ηj = v(xj) für alle j = 1, . . .,M . 

i=1 

Die Koeffizienten sind also die Werte an den Knoten (da beide Seiten in xj den Wert 

v(xi) annehmen). 

Insbesondere sind die wi linear unabhängig (v = 0 ⇔ ηi = 0). 

Ist also h klein (⇔ M groß) gibt es viele unbekannte Parameter. 

FEM für (D): 

(Mh) 

Gesucht uh ∈ Vh , so dass 

F(uh) ≤ F(v) für alle v ∈ Vh . 

Ritz–Verfahren, d.h. (quadratisches) Minimierungsproblem in M Unbekannten. 

226

oder: 

(Vh) 

Galerkinverfahren. 

Gesucht uh ∈ Vh , so dass 

a(uh, v) = b(v) für alle v ∈ Vh , 

Hierbei sind weiterhin: a(u, v) = (ku ′ , v ′ ) und b(v) = (f, v). 

Satz 6.7 uh löst (Mh) ⇐⇒ uh löst (Vh). 

Beweis: Wie zu Satz 6.2: Ersetze V durch Vh 

(Vh) führt auf ein lineares Gleichungssystem in (ξi). 

Wenn w1, . . ., wM eine Basis von Vh bilden und uh = M� 

ξiwi, gilt nämlich: 

wo 

a(u,.),b linear 

i=1 

a(uh, vh) = b(vh) für alle vh ∈ Vh 

⇔ a(uh, wi) = b(wi) für alle i = 1, . . .,M 

� 

M� 

� 

⇔ a 

= b(wi) für alle i = 1, . . .,M 

a(.,u) linear 

⇔ 

j=1 

ξjwj, wi 

M� 

a(wj, wi)ξj = b(wi) für alle i = 1, . . .,M 

j=1 

⇔ Aξ = b , (6.9) 

A = (aij) ij = (a(wj, wi)) ij , Steifigkeitsmatrix , 

b = (bi) i = (b(wi)) i . 

Die Bezeichnung Steifigkeitsmatrix für A kommt vom Beispiel der elastischen Stange. 

Hier: aij = a(wj, wi) = 

bi = b(wi) = 

Lösungsschritte für (6.9): 

(1) Aufstellen von A, b: Assemblierung. 

� b 

k(x)w 

a 

′ j(x)w ′ i(x) dx , 

� b 

a 

f(x)wi(x) dx . 

227 

✷

(2) Lösen von Aξ = b (direkt oder iterativ). 

Wegen aij = (kw ′ j , w′ i ) gilt aij �= 0 nur wenn supp(w ′ j ) ∩ supp(w′ i ) �= ∅, 

wobei supp(f) = {x � � f(x) �= 0}; 

also supp(wi) = Ki ∪ Ki+1, d.h. aij = 0 für |i − j| > 1. 

wi−1 

wi 

wi+1 

� ��❅❅ � ❅ 

��❅❅ � ❅ 

��❅❅ ❅ 

xi−2 xi−1 xi xi+1 xi+2 

Somit ist A tridiagonal (nur aii, ai,i−1, ai,i+1 �= 0 möglich). 

Allgemein gilt: kleiner Träger von wi ⇒ wenige Einträge in A, d.h. (i, j) mit aij �= 0, 

d.h. A ist dünn besetzt und Aξ = b ist auch bei sehr großem M lösbar. 

Ist a symmetrisch, so ist auch A symmetrisch, 

ist a positiv und definit, so ist A positiv definit, denn mit v := M� 

ηiwi gilt für η ∈ RM η T Aη = 

M� 

ηja(wj, wi)ηi = a(v, v) , 

i,j=1 

und somit η T Aη > 0 für η �= 0 (⇔ v �= 0), da a positiv und definit; 

insbesondere ist A nichtsingulär. 

Satz 6.8 (Vh) bzw. (Mh) haben eine eindeutige Lösung (für eine symmetrische, positive, 

definite Bilinearform). 

Einträge von A: 

aii = 

� b 

k(x)w 

a 

′ i (x)2 � xi 

dx = k(x)/h 

xi−1 

2 i 

dx + 

i=1 

� xi+1 

k(x)/h 2 i+1 dx 

= ˆ ki−1/2/hi + ˆ ki+1/2/hi , i = 1, . . ., M , 

wobei ˆ ki−1/2 := 

ai,i−1 = 

� xi 

xi−1 

� b 

k(x)w 

a 

′ i (x)w′ i−1 

xi 

k(x) dx/hi und ˆ ki+1/2 := 

(x) dx = − 

� xi 

xi−1 

� xi+1 

xi 

k(x) dx/hi+1 , (6.10) 

k(x)/h 2 i dx = −ˆ ki−1/2/hi , i = 2, . . .,M , 

ai,i+1 = − ˆ ki+1/2/hi+1 , i = 1, . . ., M − 1 . 

228

I. Allg. ist eine Quadraturformel nötig zur Auswertung von ˆ ki±1/2: 

z.B. Mittelpunktsregel: � xi 

k(x) dx ∼ ki−1/2 hi , 

xi−1 

wobei ki−α = k(xi − αhi) und ki+α = k(xi + αhi+1) für 0 ≤ α ≤ 1. 

Somit gilt ˆ ki±1/2 ∼ ki±1/2. 

bi = 

� b 

a 

f(x)wi(x) dx = 

Wieder ist i. Allg. Quadratur nötig: 

� xi+1 

xi−1 

Die Mittelpunktregel in xi auf [xi−1, xi+1] liefert: 

die Trapezregel auf Ki und Ki+1 liefert: 

f(x)wi(x) dx für 1 ≤ i ≤ M . 

bi ∼ f(xi)(hi + hi+1) ; 

1 

bi ∼ hi 

2 (0 + f(xi)) 

1 

+ hi+1 

2 (f(xi) + 0) = 1 

2 (hi + hi+1)f(xi) = 

� b 

a 

I(fwi)(x) dx , 

wobei I(f) ∈ Vh für f ∈ C[a, b] die stückweise lineare Interpolierende bezeichne, d.h. 

I(f) ∈ Vh ist definiert durch 

I(f)(xi) = f(xi) , i = 0, . . ., M + 1 . 

Im Spezialfall k = const. erhält man 

� 

1 

aii = k + 

hi 

1 

� 

hi+1 

, ai,i−1 = −k 1 

hi 

, ai,i+1 = −k 1 

Bei einer äquidistanten Zerlegung hj = h = 1/N erhalten wir somit: 

A = k 

⎛ 

2 −1 

⎜ −1 

h ⎜ 

⎝ 

. . . 

. .. 

⎞ 

. .. 

⎟ 

. .. ⎟ 

−1 ⎠ 

−1 2 

. 

Vergleich mit Differenzenapproximation von (D): 

Methode der Finiten Differenzen (FDM) 

Ersetze Ableitungen in xi durch Differenzenquotienten. 

Verschiedene Vorgehensweisen sind möglich: Die erste besteht aus Ausdifferenzieren 

−(ku ′ ) ′ (xi) = −k(xi)u ′′ (xi) − k ′ (xi)u ′ (xi) 

229 

hi+1 

.

und Approximationen für v ′ (x) und v ′′ (x): 

v ′ (x) = v(x + ¯ h) − v(x − ¯ h) 

¯h + ¯ h 

erster zentraler Differenzenquotient. 

+ R1(x, v, ¯ h, ¯ h) für ¯ h, ¯ h > 0 , (6.11) 

Für x = xi liegt ¯ h = hi+1, ¯ h = hi nahe, um wieder Werte am Knoten und so Bestimmungsgleichungen 

für Approximationen ui ∼ u(xi) zu erhalten. 

Die Größe von R1 bestimmt, was die Ersatzgleichungen mit der RWA zu tun haben 

(Konsistenzfehler) und hängt ab von der Glattheit von v und davon, ob eine äquidistante 

Zerlegung vorliegt (Übung: Taylorentwicklung). 

Die zweifache Anwendung von (6.11) zur Approximation von v ′′ (x) durch einen zweiten 

zentralen Differenzenquotienten hat z.B. die Gestalt 

v ′′ (x) = 2 

¯h + ¯ � 

v(x + 

h 

¯ h) − v(x) 

¯h 

− v(x) − v(x − ¯ � 

h) 

+ R2(x, v, 

¯h 

¯ h, ¯ h) 

(Übung: Konsistenzfehler). 

Da durch das Ausdifferenzieren die “Divergenz”struktur verloren gegangen ist, empfiehlt 

sich eher die folgende Vorgehensweise: 

−(ku ′ ) ′ � 

(xi) ∼ − ki+1/2 u ′ 

� 

xi + hi+1 

� 

� 

u(xi+1) − u(xi) 

∼ − ki+1/2 

− ki−1/2 

hi+1 

= 

2 

hi + hi+1 

2 

� 

− ki−1/2 

u(xi−1) + 

hi 

− ki−1/2 u ′ 

� 

xi − hi 

�� 

2 

� 

hi + hi+1 

2 

� ki−1/2 

u(xi) − u(xi−1) 

hi 

hi 

+ ki+1/2 

hi+1 

� � 

hi + hi+1 

2 

� 

u(xi) − ki+1/2 

hi+1 

� 

u(xi) 

Die Differenzenapproximation für (D) lautet daher: 

Gesucht u0, u1, . . .,uM, uM+1 (d.h. eine Gitterfunktion), so dass 

u0 = a, uM+1 = b und u1, . . .,uM bestimmt sind durch die Gleichungen 

� 

2 

− 

hi + hi+1 

ki−1/2 

� 

ki−1/2 

ui−1 + + 

hi hi 

ki+1/2 

� 

ui − 

hi+1 

ki+1/2 

� 

ui+1 = f(xi) (6.12) 

hi+1 

für i = 1, . . .,M. 

230

Vergleich mit (FEM): 

Die Koeffizienten ξ1, . . .,ξM von uh = M� 

ξiwi erfüllen nach (6.10) auch das Gleichungs- 

i=1 

system (6.12), wenn Mittelpunktregel in (6.10) und Trapezregel für die rechte Seite 

angewendet werden. 

Also: u0, . . .,uM+1 sind die Knotenwerte der FEM–Lösung für das durch Quadratur 

(Mittelpunktregel für Koeffizienten, zusammengesetzte Trapezregel für rechte Seite) 

approximierte FEM Gleichungssystem. 

Andere Quadraturformeln liefern andere FDM-Approximationen über den FEM Ansatz. 

FEM : interne Approximation: Vh ⊂ V 

d.h. uh ∈ V : Funktion. 

FDM : externe Approximation: 

Gitterfunktion u0, . . ., uM+1 ⇒ Funktion in V . 

Vergleich mit Finite-Volumen-Approximation: 

Methode der Finiten Volumen (FVM) (oder Box Methode, Balance Methode) 

Ansatz: Zerlege das Grundgebiet Ω (hier Ω = I) in M + 2 Teilgebiete Bi, so dass 

xi ∈ Bi , Bi ∩ Bj = ∅ für i �= j , 

(“sekundäre” Zerlegung in Boxen oder Kontrollvolumina). 

Zur Diskretisierung von (D) verwenden wir 

M+1 � 

i=0 

Bi := (xi−1/2, xi+1/2) , i = 1, . . .,M , 

wobei xi+1/2 := xi + hi+1/2 und xi−1/2 := xi − hi/2, sowie 

Bi = Ω 

B0 := (x0, x1/2) und BM+1 := (xM+1/2, xM+1) . 

a = x0 x1 x2 x3 

�� 

�� 

�� 

�� 

B0 

B1 

B2 

B3 

. . . 

xM−1 xM xM+1 = b 

� �� 

�� 

BM−1 

BM 

BM+1 

Integriert man die Erhaltungsgleichung q ′ = f (q = −ku ′ ) über Bi (i=1,...,M), so folgt 

� xi+1/2 

q(xi+1/2) − q(xi−1/2) = 

231 

x i−1/2 

f(x) dx . (6.13)

Differenzenapproximation für u ′ (xi±1/2) wie bei FDM liefert 

(exakt, wenn u ∈ Vh!). 

q(xi+1/2) ∼ −ki+1/2(u(xi+1) − u(xi))/hi+1 , 

q(xi−1/2) ∼ −ki−1/2(u(xi) − u(xi−1))/hi 

Verwendet man für die rechte Seite die Quadraturformel 

� xi+1/2 

x i−1/2 

f(x) dx ∼ hi + hi+1 

f(xi) , 

� �� 2 � 

=|Bi| 

(6.14) 

so erhält man für die Näherungswerte u1, . . .,uM das Gleichungssystem (6.12), d.h. 

mit u0 = uM+1 = 0 liefert die Finite-Volumen Methode die gleiche Approximation wie 

FDM oder FEM mit Quadratur. 

Vorteil des Ansatzes: 

Lokale (d.h. auf jedem Bi) (Energie-/Masse-/Impuls-) Erhaltung nach (6.13), wenn 

Fluss wie in (6.14) approximiert wird. 

Äquivalente Formulierung: 

Gesucht uh ∈ Vh, so dass 

� 

(−ku 

∂Bi 

′ � 

) ·n ds = 

� �� 

=q 

Bi 

f(x) dx ∼ |Bi| f(xi) . 

Hierbei ist ∂Ω := Ω\ ◦ 

Ω der Rand von Ω und n = n(x) die äußere Normale an ∂Ω. 

Hier haben wir ∂Bi = {xi−1/2, xi+1/2} mit n(xi−1/2) = −1 und n(xi+1/2) = 1. 

Beachte: � 

∂Bi 

(−ku ′ � 

) · n ds = 

Bi 

(−ku ′ ) ′ dx , 

d.h. wir erhalten (6.13) aus der klassischen Formulierung (D) durch die folgende Vorgehensweise: 

Multipliziere (D) mit einer Testfunktion χi und integriere über I. Hierbei ist die Test- 

funktion χi die charakteristische Funktion des Kontrollvolumens Bi definiert durch 

χi(x) = 

� 1 , x ∈ Bi 

0 , x /∈ Bi 

232 

.

Zur Auflösung des Gleichungssystems: 

Direkte Verfahren beruhen auf der Gaußschen Elimination als Basisalgorithmus. 

Für eine nichtsinguläre Matrix A ∈ R n,n ist das Gauß–Verfahren i. Allg. nur mit Pivotisierung 

durchführbar und liefert eine Zerlegung 

wobei 

PA = LR , 

• P Permutationsmatrix (entspricht z.B. den Zeilenpermutationen bei Zeilenpivotisierung), 

• L normierte untere Dreieckmatrix (mit lii = 1, i = 1, . . .,n), 

• R obere Dreiecksmatrix. 

Für unbekanntes x ∈ R n und gegebenes b ∈ R n löst man Ax = b durch 

Ax = b ⇔ PAx = Pb ⇔ L �� Rx = Pb , 

=y 

wobei zunächst Ly = Pb durch Vorwärtssubstitution 

und dann Rx = y durch Rückwärtssubstitution gelöst wird. 

Wann kann auf Pivotisierung verzichtet werden (dann P = I, I Einheitsmatrix)? 

Satz 6.9 Sei A ∈ R n,n nichtsingulär. Dann gilt: 

A hat eine LR-Zerlegung ⇔ alle Hauptunterdeterminanten sind ungleich 0. 

Hinreichende Bedingungen: 

Satz 6.10 A hat eine LR-Zerlegung, wenn 

i) A symmetrisch, positiv definit (SPD). 

ii) A M-Matrix. 

Beweis zum 1. Teil: Vergl. Skript zur Numerik I. ✷ 

Ist A tridiagonal und hat LR–Zerlegung, dann sind L, R Bandmatrizen mit Bandbreite 

1. 

233

Allgemein gilt: Die Bandbreite bleibt erhalten bei Gauß ohne Pivotsuche (entsprechend 

Cholesky). 

Ist A tridiagonal in der Form 

⎛ 

⎜ 

A =: ⎜ 

⎝ 

a1 b1 

c1 

. .. 

. .. 

. .. 

. .. bn−1 

cn−1 an 

⎞ 

⎟ 

⎠ , 

dann ergibt sich bei Durchführbarkeit der Gauß-Elimination A = LR mit 

⎛ 

1 

⎜ l1 

L = ⎜ 

⎝ 

. .. 

. .. . .. 

⎞ 

⎟ , 

⎠ 

⎛ 

m1 

⎜ 

R = ⎜ 

⎝ 

r1 

. .. 

⎞ 

. .. 

⎟ 

. .. ⎟ 

rn−1 ⎠ 

ln−1 1 

und li, mi, ri werden bestimmt durch den folgenden Algorithmus: 

m(1)=a(1); 

for i=1:n-1 

r(i)=b(i); 

l(i)=c(i)/m(i); 

m(i+1)=a(i+1)-l(i)*b(i); 

end 

Vorwärtssubstitution zur Lösung von Ly = b: 

y(1)=b(1); 

for i=2:n 

y(i)=b(i)-l(i-1)*y(i-1); 

end 

Rückwärtssubstitution zur Lösung von Rx = y: 

x(n)=y(n)/m(n); 

for i=n-1:-1:1 

x(i)=(y(i)-b(i)*x(i+1))/m(i); 

end 

Die Anzahl der Multiplikationen beträgt: 5n–4, d.h. der obige Algorithmus hat die 

optimale Komplexität O(n) bzgl. der Dimension n. 

Verbesserung der Konstante für andere Verfahren? 

Mit Pivotisierung (durch Zeilenvertauschung) : R Bandbreite 2 (Details Übung). 

234 

mn

Andere Ansatzräume Vh: 

In den folgenden Beispielen A) und B) betrachten wir nur den Fall k ≡ 1, ferner sei 

oBdA. a = 0 und b = 1. 

Beachte auch: h = 1/M hat hier nicht die Bedeutung der Schrittweite: 

A) Wir betrachten 

Vh = P M+1 ∩ � v ∈ C[0, 1] � � v(0) = v(1) = 0 � , (6.15) 

wobei P k der Raum der Polynome k-ten Grades auf R sei. 

Eine Basis von Vh ist gegeben durch 

wi(x) := x i (1 − x) , i = 1, . . .,M . 

Beweis (der linearen Unabhängigkeit): Es ist klar, daß wi ∈ Vh. 

Sei v = M� 

ξiwi ∈ Vh. Dann: 

i=1 

v(x) = 

M� � 

ξix i+1 − ξix i� = 

i=1 

mit η1 = −ξ1 , 

η2 = ξ1 − ξ2 , 

. 

M+1 � 

i=1 

ηix i 

ηi = ξi−1 − ξi (i = 2, . . .,M) , 

ηM+1 = ξM . 

. 

Wegen v ∈ Vh ⊂ P M+1 sind die Koeffizienten η1, . . .,ηM+1 eindeutig festgelegt, 

denn {xi , i = 1, . . ., M + 1} ist Basis von � v ∈ P M+1 � � 

� v(0) = 0 . 

Wegen v(1) = 0 gilt ferner M+1 � 

ηi = 0. 

i=1 

Daher lassen sich die ξi eindeutig bestimmen durch 

ξM = ηM+1 

ξM−1 = ηM + ξM . . . ξ1 = η2 + ξ2 

. 

ξ1 = η2 + ξ2 = M� 

ηi = −η1 . 

235 

i=2 

✷

Insbesondere sind die wi glatt. 

Steifigkeitsmatrix A: 

Beachte: 

aij = 

= 

� 1 

0 

� 1 

0 

w ′ jw′ i dx = 

� 1 

0 

(ix i−1 (1 − x) − x i )(jx j−1 (1 − x) − x j ) dx 

ijx i+j−2 (1 − x) 2 − (i + j)(1 − x)x i+j−1 + x i+j dx 

� 1 

0 

x i+j dx = 

1 

i + j + 1 

(Hilbertmatrix) 

Insbesondere gilt aij �= 0 für alle i, j (vgl. supp(wi) = [0, 1]), 

und die Matrix A ist vollbesetzt und schlechtkonditioniert. 

B) Betrachte nun 

Vh = span{w1, . . ., wM} , wo wi(x) := sin(iπx) . (6.16) 

Es gilt also wiederum wi ∈ V , wi glatt und supp(wi) = [0, 1] für alle i = 1, . . .,M. 

Steifigkeitsmatrix A: 

aij = 

� 1 

mit λi := (iπ) 2 , denn 

0 

w ′ jw′ i dx = − 

� 1 

0 

w ′′ 

j wi dx = 

� 1 

0 

λiwjwi dx = 1 

2 λiδij 

wi ist Eigenfunktion von −u ′′ , u(0) = u(1) = 0 zum Eigenwert λi. Es gilt nämlich 

−w ′′ 

i (x) = −iπ cos(iπx) ′ = (iπ) 2 sin(iπx) = (iπ) 2 wi(x) , 

wi(0) = wi(1) = 0 . 

und die wi sind orthogonal bzgl. (., .), d.h. 

� 

0 , i �= j 

(wi, wj) = 

1/2 , i = j 

(Beweis durch zweifache partielle Integration). 

Also erhalten wir: A = diag(λi/2). 

Dies ist optimal für die Auflösung von Aξ = b; allerdings sind die Eigenfunktionen 

wi für allgemeinere Differentialoperatoren nicht explizit gegeben. 

Wegen (6.17) heißt die Wahl (6.16) für Vh Spektralmethode; es gilt 

uh = 

M� 

i=1 

236 

(f, wi) 

λi/2 wi . (6.17)

A) und B) sind Galerkin– bzw. Ritzverfahren; aber keine Finite–Element–Verfahren, 

dafür sollte gelten: 

I) supp(wi) ist klein, d.h. 

supp(wi) ⊂ 

ki � 

j=1 

Kij , wobei ki ≤ k ≪ M für alle i = 1, . . ., M . 

Dann ist A eine Bandmatrix (dies gilt aber auch in Beispiel B)!). 

II) Es gibt ein Referenzelement ˆ K := [0, 1] und Bijektionen Gi : ˆ K → Ki aus fester, 

endlich-dimensionaler Funktionenklasse, 

Beispiel: Gi ∈ P 1 (d.h. Gi affin–linear) 

Gi(ˆx) = xi−1 + ˆxhi , i = 1, . . .,N . 

Für alle i = 1, . . ., N (d.h. für alle Elemente) und für alle v ∈ Vh definiere 

(6.18) 

ˆv(ˆx) := v|Ki (Gi(ˆx)) , ˆx ∈ ˆ K . (6.19) 

Dann sei ˆv aus fester endlich-dimensionaler Funktionenklasse (unabhängig von v, 

eventuell abhängig von Ki). 

Damit: elementweiser Aufbau von A und b (s.u.). 

C) Allgemeinere Finite–Element–Räume: 

In jedem Element Kj, j = 1, . . .,N, seien jeweils k − 1 äquidistante Punkte 

definiert, d.h. definiere 

yi,l := xi + (l/k)hi+1 , i = 0, . . .,M , l = 0, . . ., k − 1 , 

yM+1,0 := xM+1 , 

z.B. für k = 1: yi,0 = xi, i = 0, . . ., M + 1, 

und für k = 2: yi,0 = xi, i = 0, . . ., M + 1, 

yi,1 = xi + hi+1/2 i = 0, . . ., M. 

x0 x1 x2 x3 

. . . 

xM 

xM+1 

y0,0 y0,1 y1,0 y1,1 y2,0 y2,1 y3,0 y3,1 yM−1,1 yM,0 yM,1 yM+1,0 

Die unterschiedliche Numerierung der Eckknoten und Elementeknoten mit Freiheitsgraden 

dient hier nur der Unterscheidung. 

Später: durchgehende Numerierung der Knoten mit Freiheitsgraden. 

237

Damit lassen sich weitere Finite-Element Räume definieren, etwa 

Vh := � v � � v ∈ C[a, b], v|Kj ∈ P k für j = 1, . . .,M : v(a) = v(b) = 0 � (6.20) 

(erfüllt (6.18) (mit Gi ∈ P 1 ) und (6.19)). 

α) Funktionswerte in den Knoten yi,l als Freiheitsgrade 

(Lagrange Elemente) 

Eine Basis für Vh besteht aus den Funktionen wi,l ∈ Vh, (i, l) ∈ IB, wo 

IB := {(0, l) , l = 1, . . .,k − 1} ∪ {(i, l) , i = 1, . . .,M , l = 0, . . .,k − 1} , 

die definiert sind durch durch die Forderung wi,l(yj,r) = δ(i,l),(j,r), 

wobei (i, l), (j, r) die Indexmenge IB durchlaufen. 

wi,l existiert eindeutig auf jedem Element Kj, da dort die Lagrange– 

Interpolationsaufgabe in P k zu Werten auf den Knoten yj,r ∈ Kj eindeutig 

lösbar ist. 

Ferner gilt wi,l ∈ C[a, b], denn die Funktionswerte in Eckknoten xk der 

Elemente Kj sind vorgegeben, 

wi,l(a) = wi,l(b) = 0 ist ebenfalls klar (nach Vorgabe 0 in y0,0 und yM+1,0). 

Die Dimension von Vh ist daher dim Vh = (M + 1)k − 1 und entspricht der 

Anzahl der Freiheitsgrade. 

Eine Darstellung für v ∈ Vh ist daher (wie oben): 

v(x) = � 

ηi,l wi,l(x) ⇐⇒ ηi,l = v(yi,l) , (i, l) ∈ IB . 

(i,l)∈IB 

Z.B. für k = 2, quadratischer Ansatz: 

1 

x i-1 x i-1/2 x i x i+1/2 x i+1 

1 

x i x i+1/2 x i+1 

supp wi,0 = Ki ∪ Ki+1 

supp wi,1 = Ki+1 

Explizite Darstellung des Basisfunktionen und Bandbreite der resultierenden 

Steifigkeitsmatrix: Übung. 

β) Funktionswerte und Ableitungen als Freiheitsgrade 

(Hermite–Elemente) 

238

Wir betrachten als Beispiel den Raum Vh nach (6.20) mit k = 3 (kubischer 

Ansatz). 

Freiheitsgrade sind der Funktionswert und die 1. Ableitung in den Eckknoten 

xj, j = 1, . . .,M. 

Die Basisfunktionen sind definiert durch die Forderungen 

w2i−1(xj) = δi,j , i, j = 1, . . ., M , 

w ′ 2i−1(xj) = 0 , i, j = 1, . . ., M , 

w2i(xj) = 0 , i, j = 1, . . ., M , 

w ′ 2i (xj) = δij , i, j = 1, . . ., M . 

Die wj sind wohldefiniert (vgl. Hermitesche Interpolation auf Element). 

1 

x i-1 x i x i+1 

supp w2i−1 = Ki ∪ Ki+1 

x i-1 xi 

Explizite Darstellung des Basisfunktionen Vh: Übung. 

supp w2i = Ki ∪ Ki+1 

6.3 Eine Fehlerabschätzung der FEM für das Modellproblem 

Ziel: Konvergenz �u − uh� → 0 für h → 0. 

Konvergenzordnung: �u − uh� ≤ Ch α , α möglichst groß, �.� aussagekräftig, z.B. 

�.� = �.�0,2 : �u�0,2 := �� 

I |u(x)|2 dx � 1/2 , 

�.� = �.�L ∞ : �u�L ∞ := sup x∈I |u(x)| , 

�.� = �.�1,2 : �u�1,2 := �� 

I |u(x)|2 dx + � 

Die allgemeine Situation bisher war 

(V ) 

(Vh) 


a(u, v) = b(v) für alle v ∈ V . 

I |u′ (x)| 2 dx � 1/2 . 

Gesucht uh ∈ Vh, so dass 

a(uh, v) = b(v) für alle v ∈ Vh , wobei Vh ⊂ V . 

Daraus folgt die Fehlergleichung 

a(u − uh, v) = 0 für alle v ∈ Vh , (6.21) 

239 

x i+1

d.h. der Fehler e := u − uh steht orthogonal auf Vh bzgl. a(·, ·), 

d.h. uh ist beste Approximation von u in Vh bzgl. �.�a. 

Satz 6.11 

�u − uh�a = inf �u − v�a . (6.22) 

v∈Vh 

Beweis: (gilt allgemein für Projektion auf Unterraum von Prä-Hilbertraum) 

�u − uh� 2 a = a(u − uh, u − uh) = a(u − uh, u − uh) + a(u − uh, w) für beliebiges w ∈ Vh. 

Wähle w := uh − v mit beliebigen v ∈ Vh. Dann folgt nach der Cauchy-Schwarz’schen 

Ungleichung 

�u − uh� 2 a = a(u − uh, u − uh + w) 

≤ �u − uh�a�u − v�a für beliebige v ∈ Vh 

� �� 

u−v 

und damit �u − uh�a ≤ �u − v�a. (Für �u − uh�a = 0 ist die Behauptung klar.) ✷ 

Es reicht also, die Approximationsgüte des Ansatzraums Vh abzuschätzen in Termen 

von h (Feinheit der Diskretisierung) durch Abschätzung von �u − ˜v�a für ein speziell 

gewähltes ˜v ∈ Vh. Oft reicht ˜v = I(u), d.h. die Interpolierende von u in Vh. 

Durchführung für stückweise lineare Elemente (Vh nach (6.7)): 

Zur Vorbereitung: Poincaré–Ungleichungen 

Lemma 6.12 Sei v ∈ C[a, b], v ′ stückweise stetig, v(α) = 0 für ein α ∈ [a, b] 

(tatsächlich gebraucht wird v ∈ W 1,2 (a, b), v(α) = 0 s.u.). 

Dann gilt: 

�� b 

a 

|v(x)| 2 dx 

�1/2 

�� b 

≤ (b − a) |v 

a 

′ (x)| 2 �1/2 

dx 

Beweis: Für x ∈ [a, b] gilt: v(x) = � x 

α v′ (s) ds. 

Daher folgt nach der Cauchy-Schwarz’schen Ungleichung 

und damit 

� b 

a 

|v(x)| ≤ 

|v(x)| 2 dx ≤ 

Analog beweist man: 

� b 

a 

� b 

a 

|v ′ (s)| ds ≤ (b − a) 1 

2 

(b − a) 

�� b 

|v 

a 

′ (s)| 2 �1/2 

ds 

. (6.23) 

� b 

|v 

a 

′ (s)| 2 ds dx = (b − a) 2 

� b 

|v 

a 

′ (x)| 2 dx . 

240 

✷

Lemma 6.13 Sei v ∈ C[a, b], v ′ stückweise stetig, α ∈ [a, b] (reicht: v ∈ W 1,2 (a, b)). 

Dann gilt 

�� b 

|v(x)| 2 dx 

a 

�1/2 

Beweis: Analog zu (6.23): Aus 

folgt 

≤ (2(b − a)) 1/2 

� 

(b − a) 

|v(x)| ≤ (b − a) 1/2 

|v(x)| 2 � 

≤ 2 (b − a) 

� b 

|v 

a 

′ (x)| 2 dx + |v(α)| 2 

�1/2 

�� b 

|v 

a 

′ (s)| 2 �1/2 

ds 

� b 

a 

+ |v(α)| 

|v ′ (s) 2 | ds + |v(α)| 2 

� 

. (6.24) 

und damit die Behauptung. ✷ 

Lemma 6.14 Sei v ∈ C[a, b], v stückweise stetig, und es gelte � b 

v(x) dx = 0 (reicht: 

a 

v ∈ W 1,2 (a, b)). Dann gilt: 

�� b 

a 

|v(x)| 2 dx 

�1/2 

�� b 

≤ (b − a) |v 

a 

′ (x)| 2 �1/2 

dx 

Beweis: Seien x, y ∈ [a, b]. Dann gilt v(x) − v(y) = � x 

y v′ (s) ds und damit 

also 

� b 

Für x ≤ y folgt daraus 

|v(y)| ≤ 1 

b − a 

v(x) dx −(b − a)v(y) = 

a � �� 

=0 

� 

� b � b 

a 

x 

v(y) = 1 

b − a 

� b � y 

|v ′ (s)| ds dx = 1 

b − a 

a 

x 

� b � x 

a 

y 

v ′ (s) ds dx . 

� b 

a 

v ′ (s) ds dx , 

(s − a)|v ′ (s)| ds ≤ 

da der Satz von Fubini das Vertauschen der Integrale erlaubt. 

Für x ≥ y folgt analog 

v(y) ≤ 1 

b − a 

� b � x 

a 

a 

|v ′ (s)| ds dx = 1 

b − a 

� b 

a 

. (6.25) 

� b 

a 

(b − s)|v ′ (s)| ds . 

|v ′ (s)| ds , 

(Weiter wie beim Beweis von (6.23).) ✷ 

Es gelten folgende Approximationsordnungen für die Interpolation in Vh entsprechend 

der Definition von xi, Vh, etc. auf [a, b] (nach (6.7)): 

241

Lemma 6.15 Sei v ∈ C[a, b], v ′ stückweise stetig (v ∈ W 1,2 (a, b)). 

Dann gilt: 

wobei �v�0,2 := �v�0 := 

�v − I(v)�0,2 ≤ h �v ′ − (I(v)) ′ �0,2 , 

�1/2 � � b 

a |v(x)|2 dx 

(s.o.). 

Beweis: Für e(x) := v(x) − I(v)(x) gilt e(xi) = 0 für i = 1. . . ., M. 

Daher folgt für x ∈ Ki 

|e(x)| ≤ 

� xi 

xi−1 

|e ′ (s)| ds ≤ h 1/2 

�� 

nach der Cauchy Schwarz’schen Ungleichung, weiter 

� 

� 

Ki 

|e(x)| 2 dx ≤ h 2 

und schließlich die Behauptung. 

Ki 

Ki 

|e ′ (s)| 2 �1/2 ds 

|e ′ (x)| 2 dx für alle i = 1, . . ., M 

Lemma 6.16 Sei v ∈ C 1 [a, b], v ′′ stückweise stetig (reicht: v ∈ W 2,2 (a, b)). 

Dann gilt: 

�v ′ − I(v) ′ �0,2 ≤ h�v ′′ �0,2 . (6.26) 

Beweis: Wir verwenden wieder e = v − I(v). Wegen � 

Ki e′ (x) dx = e(xi) − e(xi−1) = 0 

lässt sich Lemma 6.14 auf e ′ auf Ki anwenden und liefert 

� 

� 

� 

Ki 

|e ′ (x)| 2 dx ≤ h 2 i 

Ki 

|e ′′ (x)| 2 dx = h 2 i 

Ki 

|v ′′ (x)| 2 dx , 

da I(v) ′′ = 0 auf Ki (beachte: I(v) ′′ existiert nicht in xi). Dies liefert die Behauptung 

�e ′ �0,2 ≤ h�v ′′ �0,2. 

✷ 

Aus Satz 6.11 und Lemma 6.16 folgt: 

Satz 6.17 Sei u die Lösung von (D) in C 1 [a, b], u ′′ stückweise stetig (reicht: u ∈ 

W 2,2 (a, b)) und uh die Lösung von (Vh) mit Vh nach (6.7) 

Dann gilt: 

�u ′ − u ′ h �0,2 ≤ 

� �k�∞ 

k0 

242 

�1/2 h�u ′′ �0,2 . 

✷

Beweis: Wegen 

folgt nach Satz 6.11 

�u� 2 a = 

�u ′ − u ′ h �0,2 ≤ 

� b 

k(x)u 

a 

′ (x) 2 dx ≥ k0�u ′ � 2 0,2 für u ∈ V 

1 

(k0) 1/2 �u − uh�a ≤ 1 

k 1/2 �u − I(u)�a . 

0 

Da weiter �u�2 a ≤ �k�∞�u ′ �2 0,2 folgt mit Lemma 6.16 

�u ′ − u ′ h �0,2 ≤ 

� �k�∞ 

k0 

Lemma 6.15 legt nahe, dass auch gilt: 

� 1/2 

�(u − I(u)) ′ �0,2 ≤ 

� �k�∞ 

k0 

�1/2 h�u ′′ �0,2 . 

�u − uh�0,2 ≤ Ch 2 �u ′′ �0,2 . (6.27) 

Diese Behauptung ist hier richtig und kann mit einem Dualitätsargument bewiesen 

werden. 

Für u ∈ C 2 [a, b] (reicht: u ∈ W 2,∞ (a, b)) gilt sogar 

mit �u�L∞ := sup{|u(x)|, x ∈ I} . 

�u − uh�L ∞ ≤ Ch2 �u ′′ �L ∞ 

6.4 Allgemeinere eindimensionale Randwertaufgaben 

Das bisher behandelte Modellproblem 

(D) 

−(ku ′ ) ′ = f für x ∈ (a, b) , 

u(a) = u(b) = 0 

(Randbedingung: homogene Dirichletbedingung) 

führt zu der variationellen Formulierung 

(V ) 

Gesucht u ∈ V (V nach (6.1)), so dass 


Ansatzraum: V (d.h. u ∈ V ); 

jedes v ∈ V erfüllt die Randbedingung: essentielle bzw. erzwungene Randbedingung. 

Testraum: V (d.h. v ∈ V ). 

Inhomogene Dirichletbedingung: 

(D ′ ) 

−(ku ′ ) ′ = f für x ∈ (a, b) , 

u(a) = ua , u(b) = ub für ua, ub ∈ R gegeben . 

243 

✷

Reduktion auf (D): 

klassisch: Stelle u dar als 

u = ũ + w , 

wobei ũ ∈ C 1 [a, b] ∩ C 2 (a, b), so dass ũ(a) = 0, ũ(b) = 0, 

und w ∈ C 1 [a, b] ∩ C 2 (a, b) mit w(a) = ua, w(b) = ub, z.B. 

Dann gilt 

w(x) = ub − ua 

b − a (x − a) + ua . (6.28) 

−(ku ′ ) ′ = f ⇔ −(kũ ′ ) ′ = f + (kw ′ ) ′ =: ˜ f , 

d.h. ũ erfüllt (D) (i. Allg. mit modifizierter rechter Seite). 

variationell: Mit den oben definierten Formen 

a(u, v) = 

� b 

ku 

a 

′ v ′ � b 

dx , b(v) = 

a 

fv dx 

ist eine variationelle Lösung gegeben durch u ∈ C[a, b], u ′ stückweise stetig, mit u(a) = 

ua, u(b) = ub, das 

a(u, v) = b(v) für alle v ∈ V 

erfüllt (klassisch ⇒ variationell: partielle Integration). 

Aber: u �∈ V , da inhomogene Randbedingungen vorliegen. 

Daher verwendet man die obige Darstellung u = ũ + w, 

wobei w ∈ C[a, b], w ′ stückweise stetig, w(a) = ua, w(b) = wb, 

z.B. w wie in (6.28) oder man wähle ein w ∈ ˜ Vh, wo 

˜Vh := � v � � v ∈ C[a, b], v|Kj linear, j = 1, . . .,N� , 

mit möglichst kleinem Träger (s.u. zur Implementierung), z.B. 

ua ❅❅❅ ✟ ✟ ✟ ub (6.29) 

a x1 xM b 

Dann gilt wieder ũ ∈ V , d.h. u ∈ V + w (affiner Teilraum von C[a, b]). 

Die entsprechende variationelle Formulierung lautet daher 

(V ′ ) 

Gesucht u ∈ V + w , so dass 


244

Eine alternative Formulierung ergibt sich aus der Äquivalenz 

a(u, v) = b(v) für alle v ∈ V 

⇐⇒ a(ũ, v) = b(v) − a(w, v) =: ˜ b(v) für alle v ∈ V 

(6.30) 

und ũ ∈ V , d.h. (V ′ ) entspricht (V ) mit modifizierter rechter Seite, d.h. “o.B.d.A.” 

gelten homogene Dirichletbedingungen. 

Das Minimierungsproblem (M) ergibt sich analog: 

Lemma 6.18 Für inhomogene Dirichletbedingungen ist (V ′ ) (bzw. (V ) mit modifizierter 

Linearform ˜ b) äquivalent zum Minimierungsproblem 

(M ′ ) 

Gesucht u ∈ V + w , so dass 

F(u) ≤ F(v) für alle v ∈ V + w . 

Dabei ist w ∈ V beliebig mit w(a) = ua, w(b) = ub, und F wie bisher definiert als 

F(v) := 1 

a(v, v) − b(v) . 

2 

Beweis: Nach Satz 6.2 gilt für ũ aus (6.30): (V ) ⇔ (M), jeweils mit ˜ b aus (6.30) statt 

b, also lautet die äquivalente Aussage 

˜F(ũ) ≤ ˜ F(˜v) für alle ˜v ∈ V , (6.31) 

wobei 

˜F(˜v) := 1 

2 a(˜v, ˜v) − ˜b(˜v) = 1 

a(˜v, ˜v) + a(w, ˜v) − b(˜v) . 

2 

Da F(v) = F(˜v + w) = 1a(˜v, 

˜v) + a(w, ˜v) − b(˜v) + c für v = ˜v + w ∈ V + w, und 

2 

a(w, w) − b(w) konstant ist, gilt (6.31) genau dann, wenn 

c := 1 

2 

F(u) = ˜ F(ũ) + c ≤ ˜ F(˜v) + c = F(v + w) für alle v ∈ V beliebig . 

Allgemeinere Differentialoperatoren 

Gemäß der Diskussion in Abschnitt 2.3 erweitern wir den Differentialoperator auf die 

Form (2.28), d.h. 

−(ku ′ ) ′ + cu ′ + du = f, x ∈ (a, b) (6.32) 

unter den Voraussetzungen (2.30), (2.30), vorerst mit Dirichletbedingungen 

u(a) = ua, u(b) = ub . (6.33) 

245 

✷

Wir beginnen mit ua = ub = 0. 

Variationelle Formulierung für (6.32), (6.33): 

Sei v ∈ V beliebig; partielle Integration im Term 2. Ordnung liefert: 

Gesucht u ∈ V , V nach (6.1), so dass 

a(u, v) := 

� b 

ku 

a 

′ v ′ + cu ′ � b 

v + duv dx = 

a 

fv dx =: b(v) für alle v ∈ V . (6.34) 

Eigenschaften von a: 

Für c = 0, d ≥ 0 (d.h. Senke) ist a ein Skalarprodukt auf V (vgl. (6.5)). Wegen Satz 

6.2 mit Bemerkung 6.3 gilt: 

u ∈ V löst (6.34) ⇐⇒ u ist Minimum von F(v) := 1 

2 

a(v, v) − b(v) für v ∈ V. 

Für c �= 0 ist a weder symmetrisch noch positiv, also ist kein Minimierungsproblem 

äquivalent zu (6.34), d.h. das Galerkin–Verfahren ist definiert ((Vh)), nicht jedoch das 

Ritz–Verfahren ((Mh)). 

Inhomogene Dirichletbedingungen werden wie oben behandelt: 

Ersetze b durch ˜ b(v) := b(v) − a(w, v). 

Um wie für c = d = 0 die Konvergenz(-ordnung) des einfachsten Finite–Element 

Verfahrens (d.h. (Vh) mit Vh nach (6.7)) zu zeigen, brauchen wir (vgl. Beweis von Satz 

6.17) Abschätzungen der Gestalt 

α�v ′ �2 0,2 ≤ a(v, v) , 

a(v, w) ≤ K�v ′ �0,2�w ′ �0,2 für alle v, w ∈ V , 

wobei α > 0, K > 0 konstant sind. 

Satz 6.11 gilt nämlich allgemein in der modifizierten Form: 

Satz 6.19 (Lemma von Cea) Sei a eine Bilinearform auf V , so daß für eine Norm 

� · �V auf V und Konstanten α, K > 0 gilt: 

α�v� 2 V 

≤ a(v, v) (6.35) 

a(v, w) ≤ K�v�V �w�V (6.36) 

für alle v, w ∈ V . 

Dann gilt für eine Lösung u der Variationsgleichung (V ) und eine Lösung uh der 

Galerkin–Approximation (Vh) mit einem Teilraum Vh ⊂ V : 

�u − uh�V ≤ K 

α inf �u − v�V . (6.37) 

v∈Vh 

246

Beweis: Die Fehlergleichung für e := u − uh: 

gilt weiterhin, also folgt 

a(e, v) = 0 für alle v ∈ Vh 

�u − uh� 2 V ≤ 1 

α a(u − uh, u − uh) = 1 

α a(u − uh, u − v) ≤ K 

α �u − uh�V �u − v�V 

für beliebiges v ∈ Vh und daraus die Behauptung. ✷ 

(6.35) heißt Koerzivität, (6.36) Stetigkeit von a. Wenn also (6.35) und (6.36) für �v�V := 

�v ′ �0,2 auf V nach (6.1) gelten, gilt auch Satz 6.17 für Vh nach (6.7). 

– � · �V ist Norm auf V , da für k = 1 a(u, v) = � b 

a u′ v ′ dx Skalarprodukt auf V ist. – 

Ist a Skalarprodukt, kann K 

α durch � K 

α 

6.17 (mit α = k0, K = �k�∞) gezeigt. 

� 1/2 ersetzt werden: Das wurde konkret in Satz 

Gültigkeit von (6.36) (Stetigkeit): 

Zur Gültigkeit von (6.36) braucht man nur Beschränktheitsbedingungen an c und d, 

z.B. c, d ∈ L ∞ (a, b) – kann abgeschwächt werden. Dann gilt 

a(v, w) = � b 

a kv′ w ′ + cv ′ w + dvw dx 

≤ �k�∞�v ′ �0,2�w ′ �0,2 + �c�∞�v ′ �0,2�w�0,2 + �d�∞�v�0,2�w�0,2 

nach der Cauchy–Schwarz’schen Ungleichung in L 2 (a, b). 

Nach Lemma 6.12 gilt für v ∈ V (wegen v(a) = 0) 

so dass (6.36) z.B. gilt mit 

�v�0,2 ≤ (b − a)�v ′ �0,2 , 

K := �k�∞ + (�c�∞ + �d�∞(b − a)) (b − a) . 

Gültigkeit von (6.35) (Koerzivität): 

Mit partieller Integration und v(a) = v(b) = 0 erhalten wir für v ∈ V 

Also gilt: 

� b 

a 

c v ′ v dx = 

a(v, v) = 

� b 

a 

c 1 d 

2 dx (v2 ) dx = − 

� b 

k|v 

a 

′ | 2 � b 

dx + 

a 

247 

� b 

a 

′ 1 

c 

2 v2 dx . 

� 

d − 1 

2 c′ 

� 

|v| 2 dx .

Somit ist hinreichend für (6.35) (mit α = k0): 

� 

d − 1 

2 c′ 

� 

(x) ≥ 0 für alle x ∈ (a, b) . (6.38) 

Diese Bedingung kann noch verbessert werden zu 

m := − inf 

x∈(a,b) 

� 

d − 1 

2 c′ 

� 

(x) < k0 

1 

. (6.39) 

(b − a) 2 

Um dies einzusehen, sei o.B.d.A. m ≥ 0 (sonst gilt auch (6.38)). Dann folgt wegen 

schließlich 

� b 

a 

� 

d − 1 

2 c′ 

� 

|v| 2 dx ≥ −m 

� b 

|v| 

a 

2 dx ≥ −m(b − a) 2 

� b 

|v 

a 

′ (x)| 2 dx 

a(v, v) ≥ ε�v ′ � 2 0,2 mit ε := k0 − (b − a) 2 m . 

Geht man anstelle von (6.32) von der Form 

−(ku ′ − cu) ′ + du = f , x ∈ (a, b) , (6.40) 

aus, so kann man ausdifferenzieren (wenn erlaubt) und (6.39) anwenden oder stattdessen 

die variationelle Formulierung mit 

a(u, v) := 

� b 

ku 

a 

′ v ′ − cuv ′ + duv dx (6.41) 

verwenden. Beides führt auf die gleiche Bedingung für Koerzivität (Übung). 

Es gilt also 

Satz 6.20 Es gelte k(x) ≥ k0 > 0, c, d ∈ L ∞ (Ω), c ′ ∈ L ∞ (Ω) und (6.39). Die Lösung 

u von (V ) erfülle u ∈ C 1 [a, b], u ′′ stückweise stetig (u ∈ W 2,2 (a, b) reicht). 

Dann gilt die Konvergenzordnung 

für eine Konstante C > 0. 

Flussrandbedingungen für (6.32): 

Vorgabe des Flusses q = −ku ′ 

�(u − uh) ′ � 0,2 ≤ C h �u ′′ � 0,2 

bei x = a : q(a) = ga , 

bei x = b : −q(b) = gb 

248 

(d.h. Fluss nach innen) . (6.42)

Variationelle Formulierung: 

d.h. keine Randbedingungen! 

V := � v � � v ∈ C[a, b], v ′ stückweise stetig � , (6.43) 

Partielle Integration liefert und arbeitet also die Randbedingungen in die Formulierung 

ein, so dass die variationelle Formulierung aufgrund von 

also lautet: 

Gesucht u ∈ V , so dass 

a(u, v) = 

� b 

a 

q ′ v dx = − 

� b 

ku 

a 

′ v ′ + cu ′ � b 

v + duv dx = 

a 

� b 

qv 

a 

′ dx + (qv)| b a 

fv dx + gav(a) + gbv(b) =: b(v) , (6.44) 

d.h. wir erhalten eine Variationsgleichung wie bei (homogener) Dirichletbedingung, 

aber einen anderen (größeren) Raum V . 

Auf V ist aber �v� := �v ′ �0,2 keine Norm mehr, da die Definitheit verloren geht. Auch 

gelten alle Argumente, die Lemma 6.12 (Poincaré) benutzen, so nicht, also auch nicht 

die Konvergenzaussagen für Dirichlet–Randbedingungen (Satz 6.20). Wir definieren als 

Norm auf V stattdessen 

�v�V := �v�1,2 := 

�� b 

a 

|v(x)| 2 dx + 

� b 

|v 

a 

′ (x)| 2 �1/2 

dx 

Auch diese Norm wird von einem Skalarprodukt auf V erzeugt, nämlich von 

(Übung). 

Offensichtlich gilt 

aber eine Abschätzung der Form 

〈v, w〉 := 

. (6.45) 

� b 

vw + v 

a 

′ w ′ dx (6.46) 

�v ′ �0,2 ≤ �v�1,2 für alle v ∈ V , 

�v�1,2 ≤ C�v ′ �0,2 für alle v ∈ V 

mit einer Konstanten C > 0 gilt i. Allg. nicht, wohl aber auf V , definiert nach (6.1), da 

dann Lemma 6.12 anwendbar ist und C = (1+(b−a) 2 ) 1/2 ergibt. Auf dem Grundraum 

V nach (6.1) sind also die Normen äquivalent und daher auch Konvergenzordnungsaussagen 

in den Normen (bis auf Konstanten). 

Wir suchen jetzt Bedingungen für die Gültigkeit von (6.35), (6.36) für �·�V nach (6.45). 

249

Gültigkeit von (6.36): 

Wie oben gilt für c, d ∈ L ∞ (a, b) : 

a(v, w) ≤ �k�∞�v ′ �0,2�w ′ �0,2 + �c�∞�v ′ �0,2�w�0,2 + �d�∞�v�0,2�w�0,2 

≤ C�v�V �w�V 

für C := max(�k�∞, �d�∞) + �c�∞ nach der Cauchy–Schwarzschen Ungleichung in 

L 2 (a, b) und in R 2 . 


Wir haben 

a(v, v) = 

� b 

k|v 

a 

′ | 2 � b 

dx + 

a 

Es gilt für 0 < ε < k0: 

�� 

� b 

� 

� cvv 

a 

′ � 

� k0 

dx� 

− ε 

� ≤ �c�∞ 

�c�∞ 

d|v| 2 dx + 

� b 

|v 

a 

′ | 2 dx + �c�∞ 

� b 

a 

cvv ′ dx . 

�c�∞ 

4(k0 − ε) 

denn für a, b ≥ 0, δ > 0 gilt ab ≤ (δ/2) a 2 + (1/2δ) b 2 , und somit 

wobei 

a(v, v) ≥ ε 

Hinreichend ist ε > 0 und m(ε) > 0, also 

� b 

|v 

a 

′ | 2 � b 

dx + m(ε) 

a 

|v| 2 dx , 

m(ε) := min 

x∈(a,b) d(x) − �c�2 ∞ 

4(k0 − ε) . 

min d(x) − 

x∈(a,b) 

�c�2∞ 4 k0 

Im Fall c = 0 reicht also min d(x) > 0. 

x∈(a,b) 

� b 

a 

|v| 2 dx , 

> 0 . (6.47) 

Analog zu V in (6.43) wird jetzt Vh ohne erzwungene Randbedingungen definiert, d.h. 

Vh := � v ∈ C[a, b] � � v|Kj linear, j = 1, . . .,M� . (6.48) 

Im Vergleich zu Dirichlet–Randbedingungen hat also Vh die Dimension M + 2, nicht 

M, da die Freiheitsgrade u(a) und u(b) als Unbekannte auftreten. 

Es gilt also 

250

Satz 6.21 Es gelte k(x) ≥ k0 > 0, c, d ∈ L ∞ (Ω) und (6.47). Die Lösung von (V ) 

erfülle u ∈ C 1 [a, b], u ′′ stückweise stetig (u ∈ W 2,2 (a, b) reicht). Vh sei nach (6.48) 

gewählt. 

Dann gilt für eine Lösung uh von (Vh) die Konvergenzordnung 


�u − uh�V ≤ C h�u ′′ �0,2 

Eine RWA mit Flussrandbedingungen ist nicht immer eindeutig lösbar. 

Beispiel: 

−(ku ′ ) ′ = f in (a, b) , 

−k(a)u ′ (a) = ga , 

k(b)u ′ (b) = gb . 

(6.49) 

Falls eine Lösung zu (6.49) existiert, liefert die schwache Formulierung (6.44) mit v ≡ 1: 

0 = 

� b 

a 

f dx + ga + gb (Kompatibilitätsbedingung) . 

Ist u eine Lösung, dann ist auch u+const. eine Lösung. 

Gemischte Randbedingung für (6.32): 

Vorgabe: Linearkombination aus Fluss und Funktionswert 

bei x = a : q(a) + αa u(a) = ga , 

bei x = b : − q(b) + αb u(b) = gb 

mit αr ∈ R und gr ∈ R, αr ≥ 0 für r = a, b. 

(6.50) 

Diese Randbedingung ist motiviert durch den Ansatz: 

q(r) = αr(ur − u(r)) , 

wo ur = gr/αr, für r = a, b. Wegen αr > 0 gilt daher: 

q(r) > 0 (d.h. Fluss nach innen) ⇔ ur > u(r). 

Der Fluss ist also proportional zur (Temperatur)differenz mit Austauschkoeffizient αr. 

Eine Dirichlet-Bedingung erhält man formal durch den Grenzübergang αr → ∞, da 

dann aus q(r) = αr(ur − u(r)) folgt u(r) → ur (r=a,b). 

Variationelle Formulierung: 

V nach (6.43) (d.h. ohne erzwungene Randbedingungen): 

Multiplikation der Differentialgleichung mit v ∈ V und partielle Integration liefern: 

251

Gesucht u ∈ V , so dass 

a(u, v) := 

= 

� b 

ku 

a 

′ v ′ + cu ′ v + duv dx + αau(a)v(a) + αbu(b)v(b) 

� b 

a 

fv dx + gav(a) + gbv(b) =: b(v) für alle v ∈ V , 

d.h. zusätzliche Rand(integral)terme in der Bilinearform a. 

Auch hier sind wieder (6.35) und (6.36) zu überprüfen. Dazu brauchen wir 

(6.51) 

Lemma 6.22 Die Einbettung von (V, � · �1,2) (definiert nach (6.43) und (6.45)) nach 

(C[a, b], � · �∞) ist stetig. 

Beweis: Für v ∈ V gilt v ∈ C[a, b] nach Definition. 

Zu zeigen bleibt die Existenz einer Konstante C ≥ 0, so dass 

�v�∞ ≤ C�v�1,2 für alle v ∈ V . 

Im Beweis von Lemma 6.14 (Poincaré) wurde gezeigt: 

� b 

und daraus folgt wie dort 

d.h. 

a 

� 

�v�∞ ≤ max 1, 

v(x) dx − (b − a)v(y) = 

|v(y)| ≤ 

� b 

a 

� b � x 

a 

|v ′ (x)| dx + 1 

b − a 

� � 

1 

�v�1,1 ≤ max 1, 

b − a 

y 

� b 

a 

v ′ (s) ds dx 

|v(x)| dx , 

� 

1 

(2(b − a)) 

b − a 

1/2 �v�1,2 

(6.52) 

nach der Cauchy–Schwarz’schen Ungleichung. ✷ 

Hier wurde in Verallgemeinerung von � · �1,2 die Notation 

�v�1,p = 

�� b 

a 

|v(x)| p dx + 

� b 

a 

|v ′ (x)| p dx 

�1/p 

für p ≥ 1 (6.53) 

benutzt. Also ergibt sich analog zu den Flussrandbedingungen mittels Lemma 6.22: 


|a(v, w)| ≤ � max (�k�∞, �d�∞) + �c�∞ + max (αa, αb)C 2� �v�1,2�w�1,2 , 

wobei C die Stetigkeitskonstante aus Lemma 6.22 ist. 

Als Folgerung aus Lemma 6.13 (Poincaré) gilt: 

252

Lemma 6.23 Auf V nach (6.43) sind die Normen � · �1,2 und 

äquivalent. 

�v� := 

Beweis: Nach Lemma 6.13 gilt 

und nach Lemma 6.22 


�� b 

|v 

a 

′ (x)| 2 dx + |v(γ)| 2 

�1/2 

�v� 2 1,2 ≤ max � 1 + 2(b − a) 2 , 2(b − a) � �v� 2 

�v� 2 ≤ max(1, C 2 ) �v� 2 1,2 

(6.54) 

. ✷ 

Wie bei Flussrandbedingungen folgt unter Benutzung von Lemma 6.13 

|a(v, v)| ≥ ε�v ′ � 2 0,2 + m(ε)�v�2 0,2 + αa |v(a)| 2 + αb |v(b)| 2 

≥ (ε − (b − a)(αa + αb)) �v ′ � 2 0,2 + 

� 

1 

m(ε) + 

2(b − a) (αa 

� 

+ αb) 

�v� 2 0,2 , 

wobei 0 ≤ αa ≤ αa und 0 ≤ αb ≤ αb beliebig sind. Es ist also ε > (b − a)(αa + αb) 

zu wählen, was durch entsprechende Wahl von αa, αb beliebig klein gemacht werden 

kann, um andererseits 

zu sichern. 

Im Fall c = 0 reicht also 

˜m(ε) := min 

x∈(a,b) d(x) − �c�2∞ 4(k0 − ε) + 

1 

2(b − a) (αa + αb) > 0 (6.55) 

1 

min d(x) + 

x∈(a,b) 2(b − a) (αa + αb) > 0 

(ε > 0 tritt wegen der nicht nötigen Aufspaltung von 

reicht also 

min d(x) ≥ 0 

x∈(a,b) 

im Gegensatz zu den Flussrandbedingungen. 

�b 

a 

cvv ′ dx nicht auf); insbesondere 

Wieder gilt u.a. unter der Voraussetzung (6.55) ein Konvergenzordnungssatz analog zu 

Satz 6.21, wobei hier wie dort die Norm � · �V = � · �1,2 auch durch die äquivalente 

Norm nach (6.54) ersetzt werden kann (mit modifizierter Konstante). 

253

Kombination Dirichlet/gemischte Randbedingung für (6.32), z.B. 

Der entsprechende Raum V ist dann 

für x = a : u(a) = ua , 

für x = b : −q(a) + αbu(b) = gb . 

V := {v � � v ∈ C[a, b], v ′ stückweise stetig, v(a) = 0} , 

d.h. die Dirichlet-Bedingung ist in den Raum aufgenommen. 

(6.56) 

Setze wieder u = ũ+w mit ũ ∈ V und w ∈ C[a, b], w ′ stückweise stetig und w(a) = ua, 

z.B. w(x) = ua oder w in der Form 

Mit der Bilinearform 

a(u, v) := 

lautet dann die variationelle Formulierung: 

Gesucht ũ ∈ V , so dass 

a(u, v) = b(v) := 

ua❍ ❍❍ 

a x1 b 

� b 

ku 

a 

′ v ′ + cu ′ v + duv dx + αbu(b)v(b) (6.57) 

� b 

a 

fv dx + gbv(b) − a(w, v) . 

Der Fall x = a: gemischt, x = b: Dirichlet geht analog. 

Durch eine Spiegelung: x ↦→ b − x + a geht er in den obigen über. 

Unstetige Koeffizienten, Interfacebedingungen: 

Beispiel: q = − ku ′ und k nur stückweise stetig, 

z.B. stetig in x �= γ, x = γ ∈ (a, b) Sprungstelle. 

Die klassische Formulierung q ′ = f in (a, b) ist dann nicht sinnvoll. 

Herleitung aus der Erhaltung einer extensiven Größe liefert 

q ′ = f in (a, γ) ∪ (γ, b) , 

[q(γ)] := q(γ+) − q(γ−) = 0 (Interface–Bedingung) . 

Übergang zu variationeller Formulierung liefert bisherige Form wegen (6.58), 

denn für v ∈ V gilt 

� b 

a 

fv dx = 

� γ 

= − 

= 

a 

� b 

a 

� b 

a 

q ′ v dx + 

� b 

γ 

q ′ v dx 

qv ′ dx − q(a)v(a) + q(γ−)v(γ) − q(γ+)v(γ) + q(b)v(b) 

−qv ′ dx − q(a)v(a) + q(b)v(b) = a(u, v) . 

254 

(6.58)

Umgekehrt: 

Satz 6.24 u ∈ V erfülle a(u, v) = b(v) für alle v ∈ V (V gemäß Randbedingung, die 

Formen a, b entsprechend). 

Es sei q stetig in (γ − ε, γ) ∪ (γ, γ + ε) für ein ε > 0, f ∈ L 2 (a, b), c, d ∈ L ∞ (a, b). 

Dann gilt: [q(γ)] = 0 für alle γ ∈ (a, b). 

(D.h. der Fluss q ist stetig in x = γ, i.a. aber nicht u ′ in x = γ (z.B. bei unstetigem k 

und q = −ku ′ ).) 

Beweis: Wähle in der Variationsgleichung 

a(u, v) = 

� b 

a 

−qv ′ dx + 

� b 

a 

cu ′ v + duv dx = b(v) = 

(bei entsprechenden Fluss oder gemischten Randbedingungen) 

v = vn (n ∈ N) als 

Dann folgt 

� γ 

−n 

γ− 1 

q dx + n 

n 

Für n → ∞ gilt aber 

sowie wegen 

für die restlichen Terme 

� γ+ 1 

n 

γ− 1 

n 

1 

γ − 1 

n γ γ + 1 

� 

n 

��❅❅ ❅ 

� γ+ 1 

n 

γ 

q dx + 

� γ+ 1 

n 

γ− 1 

n 

� γ 

n 

γ− 1 

q dx → q(γ−) und n 

n 

cu ′ v + duv dx ≤ 

� γ+ 1 

n 

γ− 1 

n 

� � γ+ 1 

n 

γ− 1 

n 

fv dx ≤ �f�L 2 

v 2 dx 

� 1/2 

≤ 

. 

� b 

a 

cu ′ v + duv dx = 

� γ+ 1 

n 

γ 

fv dx(+gav(a) + gbv(b)) 

� γ+ 1 

n 

γ− 1 

n 

q dx → q(γ+) , 

� �1/2 2 n→∞ 

→ 0 , 

n 

fv dx . 

� 

�c�∞�u ′ � 

�0,2 + �d�∞�u�0,2 

�� 1 

γ+ n 

γ− 1 

v 

n 

2 �1/2 n→∞ 

dx → 0 , 

� � γ+ 1 

n 

γ− 1 

n 

v 2 dx 

� 1/2 

n→∞ 

→ 0 . 

Somit erhalten wir für n → ∞ die Behauptung [q(γ)] = 0. ✷ 

255

Die Beschränktheitsforderungen an f, c, d können abgeschwächt werden, z.B. reicht 

f ∈ Lq (a, b), q > 1, da 

�� 

� 

� b � 

� 

� fv dx� 

1 1 

� ≤ �f�0,q�v�0,q ′ mit + = 1 

q ′ q 

a 

und für v = vn immer noch �vn�0,q ′ → 0 für n → ∞ gilt. 

Befindet sich in x = γ ∈ (a, b) eine konzentrierte Quelle (Punktquelle der Stärke h), 

hat die Erhaltungsgleichung dort die Form der Interface–Bedingung 

[q(γ)] = h . (6.59) 

Die zugehörige variationelle Formulierung hat die gleiche Bilinearform, aber die Linearform 

wird erweitert um den Summanden 

˜ b(v) := hv(γ) , (6.60) 

d.h. ein Punktfunktional. Wie oben, lässt sich die Interface-Bedingung (6.59) wieder 

aus der variationellen Formulierung erhalten. 

6.5 Zur Implementierung der FEM für 2 Punkt Randwertaufgaben 

Wir betrachten die Randwertaufgabe 

−(ku ′ ) ′ + cu ′ + du = f in (a, b) , 

bei x = a : u(a) = ua oder − k(a)u ′ (a) + αau(a) = ga , 

bei x = b : u(b) = ub oder k(b)u ′ (b) + αbu(b) = gb . 

Dabei gelte: k(x) ≥ k0 > 0, c(x) ∈ R, d(x) ≥ 0, αa,b ≥ 0, f(x) ∈ R, ga,b ∈ R. 

(6.61) 

Die zugehörige Variationsgleichung ist angegeben in (6.34) (Dirichlet/Dirichlet), (6.51) 

(gemischt/gemischt) oder (6.57) (Dirichlet/gemischt). 

Also gilt für die Bilinearform a 

wobei 

a(u, v) = a1(u, v) + a2(u, v) , 

a1(u, v) = 

� b 

ku 

a 

′ v ′ + cu ′ v + duv dx 

und je nach Randbedingung a2 aus einigen der Summanden 

αau(a)v(a) und αbu(b)v(b) 

256

esteht, und für die Linearform b 

wobei 

b(v) = b1(v) + b2(v) + b3(v) , 

b1(v) = 

� b 

a 

fv dx 

und je nach (gemischter) Randbedingung b2 aus einigen der Summanden 

gav(a) und gbv(b) 

besteht, sowie bei Dirichletrandbedingungen 

b3(v) = −a(w, v) , 

wobei w die Dirichlet–Randbedingung erfüllt (s.u.). 

Leistungsumfang des zu entwickelnden Programms: 

”Beliebige” Zerlegung von [a, b] in Elemente (Triangulierung) 

Lagrange Ansatz, i. Allg. von Element zu Element verschieden (i.f. linear, quadratisch, 

kubisch) 

Genereller Aufbau: 

(1) Präprozessor: Definition der RWA (k, f, . . ., Randbedingungen, . . .) 

Definition der Triangulierung inkl. Ansatzräume (← Triangulierungsprogramm) 

Definition der Quadraturformeln 

(2) Prozessor: Aufstellen des Gleichungssystems (Assemblierung) 

Lösen (in spezieller Datenstruktur) 

(3) Postprozessor: (bei exakter Lösung: Fehlerberechnung) 

Graphische Ausgabe 

Berechnung, Ausgabe abgeleiteter Größen (z.B. Fluss) 

Zu (1): Definition der Triangulierung 

M Knoten (immer einschließlich x = a, x = b, d.h. abweichend von bisheriger Numerierung, 

s.u. Einbringen der Randbedingungen) 

Koordinaten der Knoten: x[1 : M] 

257

N Elemente Kl, l = 1, . . ., N, Kl abgeschlossen: Kl = [xr, xs] 

Beschreibung der Elemente in Feld ekt (Elementknotentabelle) durch 

– Polynomgrad +1 (2 oder 3 oder 4) 

– Knotenindizes: 

Anordnung linker, rechter Randknoten (weitere Knoten von links nach rechts) 

evtl. “Teilgebietsnummer” 

(wenn Koeffizienten k, f, . . . stückweise konstant definiert) 

Beispiel: Grobtriangulierung 

K1 

� �� K2 

� �� auf K1 quadratischer Ansatz 

x1 x2 x3 x4 

auf K2 linearer Ansatz 

Zeilenspeicherung der Elemente im Feld ekt: 

i \ j 1 2 3 4 

1 3 1 3 2 

2 2 3 4 

↑ ↑ ↑ ↑ 

Dimension 

linker 

Randknoten 

rechter 

Randknoten 

Anforderung an globale Numerierung 

(→ Lösungsverfahren, Gleichungssystem, Datenstruktur) 

weitere 

Knoten 

Bei direktem Lösungsverfahren (Gauß, Cholesky) PA = LR: 

Bandstruktur bleibt immer erhalten für R. 

Ohne Pivotisierung bleibt die Bandbreite gleich für L und R, 

mit Zeilenpivotisierung bekommt R die doppelte Bandbreite 

Speicherstruktur: Band (untere Hälfte bei symmetrischen Matrizen) 

❅ ❅ 

❅❅❅❅❅❅❅❅ ❅❅❅❅❅ 

❅ ❅❅❅❅❅ 

(ausführlich später) 

❀ 

� �� 

� �� 

Daher: Numerierung so, dass Bandbreite minimal wird. 

258 

aik ❀ ai,k−i+m+1 

m Bandbreite

Aufzubauen und zu lösen (vgl. (6.9)) ist das Gleichungssystem Au = b mit 

A = (aij) , aij = a(wj, wi) , b = (bi) , bi = b(wi) . 

Die wi bilden eine Basis von Vh, so dass wi(xj) = δij, wobei, wenn gl der Grad des 

Polynomansatzes auf Kl ist 

Es ist aij �= 0, nur wenn 

Vh = V N 

h = � v ∈ C[a, b] � � v|Kl ∈ P gl , l = 1, . . ., N � . 

supp(wi) ∩ supp(wj) �= ∅ ⇔ xi, xj ∈ Kl für ein l ∈ {1, . . ., N} , (6.62) 

da supp(wi) = 

� 

Kl Elementmit xi∈Kl 

Kl. 

1–dimensional ist daher eine Numerierung von links nach rechts aufsteigend (oder rechts 

nach links absteigend) optimal, denn dann gilt 

Bandbreite = maximale Dimension der Polynomansatzräume −1. 

Allerdings ist diese Numerierung z.B. bei periodischen Randbedingungen 

nicht optimal (Übung). 

u(a) = u(b) 

k(a)u ′ (a) = k(b)u ′ (b) 

Triangulierungsprogramm: 

Z.B. Generierung einer (Fein-)Triangulierung aus eingegebener Grobtriangulierung 

durch mehrfache Verfeinerung. Am obigen Beispiel: 

(quadr.) 

K1 

(lin.) 

K2 

� �� 

�� 

x1 x2 x3 x4 

zu (2): Assemblierung 

❀ 

(quad.) (quad.) (lin.) (lin.) 

K1 

K2 

K3 

K4 

� �� 

�� 

x1 x2 x3 x4 

x5 x6 x7 

Sortieren: x1 x2 x3 x4 x5 x6 x7 

Aufbau von aij = a(wj, wi) und bi = b(wi) elementweise: 

Randbedingungsunabhängige Anteile, z.B. 

kij := 

� b 

a 

k(x)w ′ j (x)w′ i (x) dx = 

N� 

� 

l=1 

259 

Kl 

k(x)w ′ j (x)w′ i (x) dx = 

N� 

l=1 

k (l) 

ij .

Wegen (6.62) gilt wieder k (l) 

ij �= 0 nur wenn xi, xj ∈ Kl, d.h. das Element Kl liefert nur 

Beiträge zu kij mit xi, xj ∈ Kl. 

Transformation auf Referenzelement, z.B. ˆ K := [0, 1]. 

Gl : ˆ K → Kl = [xr1, xr2] , Gl(ˆx) = (xr2 − xr1) ˆx + xr1 . (6.63) 

Am Beispiel kubischer Ansatz, d.h. vh|Kl ∈ P 3 : 

Globale Numerierung auf Ke: 

Lokale Numerierung auf ˆ K: 

xr1 xr3 xr4 xr2 

x1 x3 x4 x2 

i, j ∈ {r1,...,r4} (i = rs, j = rt) s, t ∈ {1, . . ., 4} 

global ←→ lokal 

Mit Variablentransformation erhält man 

k (l) 

ij = 

= 

� xr2 

xr1 � 1 

0 

k(x) d d 

wj(x) 

dx dx wi(x) dx 

k(G(ˆx)) d d 

wj(G(ˆx)) 

dx dx wi(G(ˆx)) (xr2 − xr1) dˆx . 

Mit Ll := |xr2 − xr1|, der Länge des Elements Kl, und 

Ni(ˆx) := wri (G(ˆx)) , i = 1, 2(, 3, 4) , 

den lokalen Basisfunktionen auf ˆ K (Formfunktionen), die durch den Grad des Ansatzes 

auf Kl bestimmt sind, erhält man 

k (l) 

ij = 

= 

= 

� 1 

0 

� 1 

0 

� 1 

0 

k(G(ˆx)) d d 

Nt(ˆx) 

dx dx Ns(ˆx) Ll dˆx 

k(G(ˆx)) d 1 

Nt(ˆx) 

dˆx Ll 

d 1 

Ns(ˆx) Ll dˆx 

dˆx Ll 

k(G(ˆx)) d d 1 

Nt(ˆx) Ns(ˆx) dˆx =: 

dˆx dˆx Ll 

ˆ k (l) 

t,s , 

wobei wieder i = rs und j = rt gelte. 

� � 

Die Matrix ˆk (l) 

t,s heißt Elementsteifigkeitsmatrix. 

t,s=1,2(,3,4) 

� � 

Nach Berechnung wird ˆk (l) 

t,s gemäß globaler Numerierung zu (kij) addiert: 

Bei Speicherung � � des unteren Bandes (bei symmetrischen Matrizen) wird das untere 

Band von ˆk (l) 

t,s zu (kij) addiert, eventuell nach Indexvertauschung. 

260

Die Knoten von ˆ K erhält man allgemein durch ˆxs := G −1 (xrs), die Beziehung zwischen 

lokaler und globaler Numerierung aus ekt. 

Für obiges ˆ K gilt ˆx1 = 0, ˆx2 = 1 (und ˆx3 = 1/2 bei quadratischem bzw. ˆx3 = 1/3, 

ˆx4 = 2/3 bei kubischem Ansatz). 

Die lokalen Basisfunktionen Ni sind aus dem Ansatzraum, so daß Ni(ˆxj) = δij, i, j = 

1, 2(, 3, 4) gilt; d.h. zum Beispiel bei linearem Ansatz: 

N1(ˆx) = (1 − ˆx) , 

N2(ˆx) = ˆx . 

Approximation von ˆ k (l) 

t,s durch Quadraturformel (z.B. Gaußquadratur), d.h. 

� 1 

0 

h(ˆx) dˆx ∼ 

p� 

ωih(ˆx (i) ) . 

Dabei sind: ωi > 0: Gewichte, 

ˆx (i) : Quadraturpunkte. 

Es sind also die Werte Ni(ˆx (j) ) und N ′ i (ˆx(j) ) nötig. Diese müssen nur einmal bestimmt 

werden. 

Die Wahl der Quadraturformel ist vom Element (d.h. dem Ansatzraum) abhängig. 

Die Anteile 

sowie 

�b 

a 

�b 

a 

cw ′ j wi dx und 

�b 

a 

i=1 

dwjwi dx (→ Matrix), 

fwi dx (→ rechte Seite) werden analog behandelt. 

Einbringen der Randbedingungen: 

Fluss– bzw. gemischte Randbedingungen: 

liefern Anteile ga wi(a), bzw. gb wi(b) für die rechte Seite, sowie Anteile αa wj(a)wi(a) 

bzw. αb wj(b)wi(b) für die Steifigkeitsmatrix. 

i = ia sei der Index von xi = a (bei obiger Numerierung ia = 1), dito i = ib 

⎛ ⎞ 

0. ⎜ ⎟ 

⎜ ⎟ 

⇒ (ga wi(a)) = ⎜ ga ⎟ ← i = ia 

⎝ 

. 

⎠ 

0 

261

und 

Dirichletrandbedingungen: 

⎛ 

⎞ 

0 

⎜ .. 

⎜ . 0 ⎟ 

(αa wj(a)wi(a)) = ⎜ αa ⎟ ← i = ia 

⎝ . 

0 .. ⎠ 

0 

↑ 

i = ia 

Dirichletrandbedingungen fließen in die Wahl des Ansatzraumes Vh mit ein, d.h. 

Vh = V D 

h := V N 

h ∩ {v ∈ C[a, b] � � v(a) = v(b) = 0} 

Daher gilt für V N 

h = span{w1, . . .,wM}: 

V D 

h = span ({w1, . . .,wM} \ {wia, wib }) . 

Auf der rechten Seite kommt der Anteil −a(w, wi) hinzu. 

Wählt man w ∈ Vh durch w = uawia + ubwib (dies entspricht der Wahl von (6.29), so 

gilt 

−a(w, wi) = −a(wia, wi)ua − a(wib , wi)ub ; 

dies entspricht der Assemblierung mit V N 

h . 

In den Zeilen i �= ia, �= ib werden die bekannten Einträge uia = ua, uib = ub (zu 

Spaltenindex j = ia, = ib) auf rechte Seite gebracht, d.h. bi wird ersetzt durch bi − 

ai,iaua − ai,ibub. In der Matrix werden die Elemente ai,ia und ai,ib durch 0 ersetzt. Die 

Zeile ia wird gestrichen und durch die triviale Zeile 

ersetzt (analog für ib). 

Dadurch bleibt die Symmetrie erhalten. 

(0 . . . 0 1 0 . . . 0) u = ua 

↑ 

ia 

Alle Operationen werden in der jeweiligen Datenstruktur durchgeführt. 

6.6 Variationsgleichungen und Funktionenräume 

Grundlage für die eindeutige Existenz einer Lösung einer Variationsgleichung 

(V ) 

ist der Satz von Lax–Milgram. 



262

Satz 6.25 (von Lax–Milgram) Sei V ein Hilbertraum mit Skalarprodukt 〈·, ·〉, 

�u� = 〈u, u〉 1/2 , und die Bilinearform a zusätzlich stetig, d.h. es existiert C > 0, so 

dass 

|a(u, v)| ≤ C�u��v� für alle u, v ∈ V , (6.64) 

und koerziv, d.h. es existiert α > 0, so dass 

a(u, u) ≥ α�u� 2 

b sei stetig auf V . 

Dann besitzt (V ) genau eine Lösung u ∈ V . 

Beweis: 

(1) Aus dem Darstellungssatz von Riesz folgt erstens: 

Es gibt genau ein f ∈ V mit b(v) = 〈f, v〉 für alle v ∈ V . 

und zweitens: 

Zu u ∈ V existiert genau ein Au ∈ V , so dass 

für alle u ∈ V ; (6.65) 

〈Au, v〉 = a(u, v) für alle v ∈ V , (6.66) 

da für jedes u ∈ V durch v ↦→ a(u, v) eine lineare stetige Abbildung von V nach 

R definiert wird. 

Also wird durch (6.66) eine Abbildung A : V → V definiert. 

(2) Wegen (1) ist (V ) äquivalent zu 

Zu zeigen: (6.67) hat genau eine Lösung u ∈ V . 

Au = f . (6.67) 

(3) Es ist klar, dass A linear ist. 

A ist ferner stetig, denn für die Operatornorm gilt: �A� ≤ C: 

�Au� = sup |〈Au, v〉| = sup |a(u, v)| ≤ C�u� . 

�v�≤1 

�v�≤1 

(4) Wir definieren zu ε > 0 ein Tε : V → V durch 

Tε(u) = u − ε(Au − f) . 

Es gilt: u ist Fixpunkt von Tε ⇔ u ist Lösung von (6.67). 

263

(5) Wir finden ein ε > 0, so dass Tε eine Kontraktion ist: 

Tε(u1) − Tε(u2) = u1 − εAu1 − u2 + εAu2 = (I − εA)(u1 − u2) . 

Es genügt zu zeigen: �I − εA� < 1. Dazu sei v ∈ V beliebig. 

�(I − εA)v� 2 = 〈v − εAv, v − εAv〉 

= 〈v, v〉 − ε〈Av, v〉 − ε 〈v, Av〉 +ε 

� �� 

=〈Av,v〉 

2 〈Av, Av〉 

= �v� 2 − 2εa(v, v) + ε 2 �Av� 2 

≤ (1 − 2εα + ε 2 C 2 ) 

� �� v�2 

< 1, sfalls 0 < ε < 2α 

C 2 

Nach dem Banachschen Fixpunktsatz existiert also genau ein Fixpunkt von Tε 

fur solch ein ε und damit genau eine Lösung von (6.67). ✷ 

Bemerkung 6.26 1. Für die Eindeutigkeitsaussage reicht a(v, v) > 0 für v �= 0 

(vgl. Satz 6.4), denn sind u1 und u2 Lösungen, so gilt 

a(ui, v) = b(v) für alle v ∈ V 

⇒ a(u1 − u2, v) = 0 für alle v ∈ V 

⇒ a(u1 − u2, u1 − u2) = 0 

und damit schließlich u1 = u2. 

2. Ist a symmetrisch, stetig und koerziv, dann ist a ein Skalarprodukt auf V . Mit 

�u�a := a(u, u) 1/2 besitzt V eine äquivalente Norm (nach (6.64), (6.65)), d.h. 

auch (V, �.�a) ist Hilbertraum. Bezüglich �.�a gelten (6.64), (6.65) dann mit: α = 

C = 1. 

Ohne Koerzivität ist die Lösbarkeit nicht gesichert. 

Die bisher betrachteten Räume V sind nicht vollständig in angemessenen Normen: 

Betrachte z.B. −u ′′ = f in (a, b) , 

u(a) = 0 , u ′ (b) = gb . 

Dann ist a(u, v) = 

�b 

a 

u ′ v ′ dx und V = � v ∈ C[a, b] � � v ′ stückweise stetig, v(a) = 0 � . 

V ist aber nicht vollständig bezüglich �.�a und daher auch nicht bezüglich der Norm 

�.� eines Skalarprodukts 〈·, ·〉, so dass a koerziv (vergleiche Bemerkung 6.26, 2): 

264

Betrachte u(x) := x α mit α ∈ (1/2, 1), sowie oBdA. a = 0, b = 1. 

Dann ist u /∈ V , aber 

und es gilt 

� 

un(x) := 

�u − un� 2 a = 

= 

n u( 1 

n 

1/n � 

0 

1/n 

� 

0 

u(x) für x ∈ � 1 

n 

) x = ( 1 

n )α−1 x für x ∈ � 0, 1 

n 

� 

2 1 = α 2α−1 

α xα−1 − � � � 

1 α−1 

2 

n 

α 2 x 2α−2 − 2α � 1 

n 

� 1 

n 

dx 

� 

, 1� 

� ∈ V , 

�α−1 � � 

α−1 1 2α−2 

x + dx n 

�2α−1 � � 

1 α−1 1 

− 2 n n + � 1 

n 

so dass �u − un�a → 0 für n → ∞ folgt, da 2α − 1 > 0. 

� 2α−1 , 

Insbesondere ist un eine Cauchy–Folge in (V, � · �a). Wäre (V, � · �a) vollständig, so 

würde un in V gegen ein ũ ∈ V konvergieren. In einem V und u umfassenden, durch 

� · � normierten Raum (Existenz s.u.) würde also der Widerspruch u = ũ folgen. 

Es ist also nötig, die Räume V so zu erweitern, dass z.B. u aus obigem Beispiel zu V 

gehört. 

Das geschieht mit dem Begriff der distributionellen Ableitung. 

Jedem v ∈ L 1 (a, b) (oder auch v ∈ L 1 (Ω), Ω ⊂ R n beschränkt) kann eine Distribution 

Tv ∈ D ′ (Ω) zugeordnet werden, d.h. ein lineares Funktional 

auf dem Raum der Testfunktionen 

Tv : D(Ω) → R , 

ϕ ↦→ � 

vϕ dx 

D(Ω) := � ϕ ∈ C ∞ (Ω) � � supp ϕ ⊂ Ω � , 

Ω 

(6.68) 

wobei supp ϕ := cl � x ∈ Ω � � ϕ(x) �= 0 � , d.h. ein ϕ ∈ D(Ω) verschwindet in der Nähe 

von ∂Ω. 

Jede Distribution hat beliebige (partielle) Ableitungen, indem die Formeln für partielle 

Integration in (6.68) (für glatte v ) erweitert werden. 

Im Folgenden soll die entstehende Distribution wieder durch ein w ∈ V darstellbar 

sein, d.h. eindimensional 

265

Definition: Sei v ∈ L 1 (a, b). 

w ∈ L 1 (a, b) heißt distributionelle oder schwache Ableitung k-ter Ordnung von v, 

falls � b 

wϕ dx = (−1) k 

a 

� b 

a 

w = dk 

v , 

dxk v dk 

ϕ dx für alle ϕ ∈ D(a, b) . 

dxk Wenn also v ∈ Ck [a, b], dann ist dk 

v ∈ C[a, b] auch schwache Ableitung von v. 

dxk Für eine Raumdimension ist die reguläre distributionelle Ableitung gerade die fast 

überall (im Sinne des Lebesgue–Maßes) existierende punktweise Ableitung: 

Lemma 6.27 Für u, g ∈ L 1 (a, b) sind äquivalent: 

(1) 

� b 

a 

g(x) ϕ(x) dx = − 

� b 

a 

u(x) ϕ ′ (x) dx für alle ϕ ∈ D(a, b). 

(2) Zu x0 ∈ [a, b] existiert ein c ∈ R mit u(x) = c + 

Beweis: 

� x 

x0 

g(t) dt für fast alle x ∈ (a, b). 

(2) ⇒ (1): Sei ϕ ∈ D(a, b) beliebig. Ferner sei x0 ∈ (a, b), so dass [a, x0] ∩ supp ϕ = ∅ 

�b 

und es gelte (2). Aus ϕ(a) = ϕ(b) = 0 folgt ϕ ′ (x) dx = 0 und damit unter 

Verwendung des Satzes von Fubini 

� b 

a 

u(x) ϕ ′ (x) dx = 

da ϕ(b) = 0. 

= 

= 

� b 

a 

� b 

x0 

� b 

x0 

(1) ⇒ (2): Zunächst für g = 0: 

(u(x) − u(x0)) ϕ ′ (x) dx = 

ϕ ′ � x 

(x) 

g(t) 

x0 

� b 

t 

g(t) dt dx = 

a 

� b 

ϕ ′ (x) dxdt = − 

x0 

� b 

Sei x0 ∈ (a, b) fest und η ∈ D(a, x0), η0 ∈ D(x0, b) mit 

ϕ ∈ D(a, b) durch 

ϕ(x) := 

� x 

a 

η(t) dt 

266 

� b 

x 

� b � x 

a 

g(t) 

x0 

x0 

� b 

x0 

g(t) dt ϕ ′ (x) dx 

χ[x0,x](t) ϕ ′ (x) dxdt 

g(t) ϕ(t) dt , 

�b 

a 

η0 dx �= 0 und definiere 

η0(t) dt . (6.69)

Dann gilt 

0 = 

= 

= 

für c := 

�b 

a 

� b 

a 

� b 

a 

� b 

a 

Daraus folgt 

u(x) ϕ ′ � b � 

(x) dx = u(x) η(x) 

� � b 

a 

u(x) η(x) η0(t) dt − η0(x) 

a 

� b 

x 

� b 

a 

� x 

η0(t) dt − η0(x) 

� 

η(t) dt dx 

a 

� 

η(t) dt dx 

�� b 

(da supp η ⊂ (a, x0) , supp η0 ⊂ (x0, b)) 

� 

η0(x) dx u(x) η(x) − c η(x) dx 

a 

η0(x)u(x) dx 

�b 

a 

� �b 

a 

η0(x) dx. 

η(x)(u(x) − c) dx = 0 für alle η ∈ D(a, x0), 

also u(x) = c für fast alle x ∈ (a, x0) 

und schließlich u(x) = c für fast alle x ∈ (a, b). 

Nun der Beweis für beliebige g: 

ϕ sei definiert wie oben in (6.69). Durch partielle Integration erhält man 

also 

� b 

a 

ϕ ′ (x) 

� x 

x0 

g(t) dt dx = − 

0 = 

� b 

Wie im Fall g = 0 folgt daher 

u(x) − 

� x 

x0 

a 

� b 

a 

� 

u(x) − 

� x 

ϕ(x)g(x) dx = 

x0 

� b 

� 

g(t) dt ϕ ′ (x) dx . 

a 

ϕ ′ (x)u(x) dx , 

g(t) dt = c für ein c ∈ R für fast alle x ∈ (a, b) 

und damit die Behauptung für beliebige g. ✷ 

Aus der Charakterisierung absolut stetiger Funktionen folgt: 

Satz 6.28 Sei u ∈ L 1 (a, b). Dann sind äquivalent: 

(1) Die distributionelle Ableitung u ′ erfüllt u ′ ∈ L 1 (a, b). 

(2) u ist absolut stetig und für die fast überall existierende Ableitung u ′ gilt u ′ ∈ 

L 1 (a, b). 

Beweis: Siehe z.B. E. Hewitt, K. Stromberg: Real and Abstract Analysis, S. 286. ✷ 

267

Definition: f : [a, b] → R heißt absolut stetig, wenn zu ε > 0 ein δ > 0 existiert, so 

dass 

n� 

|f(dk) − f(ck)| < ε , wenn 

n� 

(dk − ck) < ε 

k=1 

für jede endliche paarweise disjunkte Familie ((ck, dn)) k in [a, b]. 

k=1 

Für absolut stetige Funktionen gilt die partielle Integration. 

Wir definieren folgende Funktionenräume: 

Definition: (Sobolevräume) Sei k ∈ N0, p ≥ 1: Die Räume 

W k,p � 

(a, b) := v ∈ L p � 

� 

(a, b) � di 

dxi v ∈ Lp � 

(a, b) für alle i = 0, . . .,k 

wobei Ableitung immer schwache Ableitung meint, versehen mit der Norm 

� 

k� � 

� 

�v�k,p := � 

d 

� 

i 

� 

� 

v� 

dxi � 

i=0 

p 

0,p 

�1/p 

heißen Sobolevräume (der Ordnung k zur p–ten Potenz). 

Dabei ist 

L p (a, b) := 

�v�0,p := 

für v ∈ W k,p (a, b) 

� 

v : (a, b) → R � � v (Lebesgue-)meßbar , 

� 

�b 

�v�p �1/p 

dx ; 

also insbesondere W 0,p (a, b) = L p (a, b). 

a 

Insbesondere gilt auf H k (a, b) := W k,2 (a, b) 

wobei 

(v, w)k := 

k� 

i=0 

und kurz (v, w) := (v, w)0. 

� b 

�v�k := �v�k,2 = (v, v) 1/2 

k , 

Für die so definierten normierten Räume gilt: 

a 

�b 

a 

|v| p � 

dx < ∞ 

di di 

v 

dxi dxi w dx für alle v, w ∈ Hk (a, b) , 

268 

, 

,

Satz 6.29 Sei k ∈ N0, p ≥ 1. 

W k,p (a, b) ist ein Banachraum bezüglich �·�k,p und H k (a, b) ist ein Hilbertraum bezüglich 

(·, ·)k. 

Beweis: Entsprechende Eigenschaften von L p (a, b). ✷ 

Weitere Eigenschaften der Räume sind 

Satz 6.30 Seien k, l ∈ N0, k ≥ l, p, q ≥ 1, so daß k − 1 

p 

W k,p (a, b) ⊂ W l,q (a, b) 

und die Einbettung ist stetig. 

(Gilt sogar k − 1 1 > l − , dann ist die Einbettung kompakt.) 

p q 

1 ≥ l − . Dann gilt 

q 


Nach Lemma 6.27 sind also v ∈ W 1,1 (a, b) (eventuell nach Abänderung auf einer Menge 

vom Maß 0) stetig. Es gilt sogar: 

Satz 6.31 

und die Einbettung ist stetig. 

(In Zeichen: W 1,1 (a, b) ֒→ C[a, b].) 

W 1,1 (a, b) ⊂ C[a, b] 

Beweis: Seien x, xn ∈ [a, b], xn → x für n → ∞. Wegen Lemma 6.27 gilt (Übung) für 

v ∈ W 1,1 � 

��xn 

(a, b): |v(x) − v(xn)| = � 

� v ′ � 

� 

(s) ds� 

� . 

x 

Nach dem Lemma von Lebesgue (vgl. Hewitt/Stromberg, S. 276) konvergiert der rechte 

Ausdruck wegen v ′ ∈ L1 (a, b) für fast alle x ∈ (a, b) gegen 0. 

Die Stetigkeit der Einbettung wurde schon im Beweis zu Lemma 6.22 gezeigt. 

Nach Satz 6.30 gilt auch 

W k,p (a, b) ֒→ C[a, b] für alle k ≥ 1, p ≥ 1 . (6.70) 

Für p > 1 ist die Einbettung sogar kompakt: 

Satz 6.32 Sei k ≥ 1, p > 1, dann ist 

W k,p (a, b) ֒→ C[a, b] kompakt . 

269

Beweis: Wegen Satz 6.30 reicht es, die Behauptung für k = 1 zu zeigen. 

Sei K > 0 und betrachte eine Folge vn ∈ W 1,p (a, b) mit �vn�1,p ≤ K. 

Zu zeigen: Es existiert eine Teilfolge, so dass �vnk − v�L∞ → 0 für ein v ∈ C[a, b]. 

Nach dem Satz von Arzela–Ascoli reicht dafür: 

i) �vn�L∞ ist beschränkt: gilt nach Satz 6.31. 

ii) Die vn sind gleichgradig stetig. 

Dies gilt, da für x, y ∈ [a, b] mit x ≤ y: 

|vn(x) − vn(y)| = 

� 

� 

� 

� 

� y 

x 

v ′ � 

� 

n(s) ds� 

� ≤ 

≤ K|y − x| 1−1/p 

� y 

|v 

x 

′ (s)| ds ≤ (y − x) 1/p′ 

�� y 

x 

|v ′ n(s)| p �1/p ds 

für alle n ∈ N nach der Hölder’schen Ungleichung mit p und p ′ := (1 − 1 

p )−1 . Also ist 

vn sogar gleichmäßig Hölderstetig mit Exponent α = 1 − 1/p. ✷ 

Tatsächlich wurde gezeigt: 

W 1,p (a, b) stetig 

֒→ C 0,α [a, b] mit α = 1 − 1/p , 

und dann ausgenutzt, dass C 0,α [a, b] ֒→ C[a, b] kompakt ist. 

Insbesondere ist 

W k,p (a, b) ֒→ L q (a, b) kompakt für k ≥ 1 , p, q ≥ 1 . (6.71) 

Wegen (6.70) gilt also für die (vorläufige) Definition der Grundräume V (nach (6.1) 

für Dirichlet-Randbedingungen und nach (6.43) sonst) 

Für die verwendete Norm auf V gilt 

V ⊂ W 1,1 (a, b) . 

� · �V = � · �1,2 

bzw. � · �V ist äquivalent zu � · �1,2 = � · �1 (vergleiche die Poincaré–Ungleichungen in 

Lemma 6.12 – 6.14). Benutzen wir noch den folgenden Teilraum von W 1,p (a, b) 

W 1,p 

0 (a, b) := � v ∈ W 1,p (a, b) � � v(a) = v(b) = 0 � , (6.72) 

270

so ist W 1,p 

0 (a, b) abgeschlossen, also auch ein Banach- bzw. für p = 2 ein Hilbertraum. 

Dazu muss nur sichergestellt werden, dass die Punktfunktionale 

W 1,p (a, b) ∋ v ↦→ V (γ) (6.73) 

für ein fest gewähltes γ ∈ [a, b] stetig sind, was aus (6.70) folgt. 

Es bieten sich also folgende (größere) Grundräume an: 

und 

V = H 1 0 

1,2 

(a, b) := W0 (a, b) für Dirichletrandbedingungen (6.74) 

V = H 1 (a, b) für Fluss- bzw. gemischte Randbedingungen. (6.75) 

Liegt an einem Randpunkt, etwa x = a, eine Dirichletvorgabe und sonst eine gemischte 

Randbedingung vor, so verwende man 

V = � v ∈ H 1 (a, b) � � v(a) = 0 � , (6.76) 

was ebenfalls ein Hilbertraum ist. (vgl. (6.73)). Alle Überlegungen aus den Kapiteln 

6.1–6.5 bleiben gültig, sofern partielle Integration in V erlaubt ist. Das gilt nach Lemma 

6.27 (Übung). Nach Satz 6.25 ist die eindeutige Existenz einer Lösung von (V ) in V 

gesichert, sofern gilt 

(1) a ist stetig und koerziv, 

(2) b ist stetig. 

Für (1) sind für die verschiedenen Randbedingungen hinreichende Bedingungen angegeben 

worden in Kapitel 6.4; (2) ist klar, auch für die Punktfunktionalanteile nach 

(6.73) (vgl. auch (6.70)). 

6.7 Allgemeine Konvergenzordnungsaussagen 

Im Folgenden wird vorausgesetzt, dass bei Wahl von V nach (6.74)–(6.76) die Randwertaufgabe 

so ist, dass a stetig und koerziv und b stetig ist. Nach dem Lemma von 

Cea (Satz 6.19) ist also die Approximationsgüte einer Finite–Element–Lösung u ∈ Vh 

(asymptotisch) so wie die Approximationsgüte von Vh selbst. Wir betrachten im Folgenden 

Vh wie in Kapitel 6.2, Abschnitt C (6.20) definiert (vgl. auch Kapitel 6.5). 

Seien a = x1 < x2 < . . . < xM = b fest gewählte Knoten, g ∈ N sei der lokale Polynomansatzgrad, 

d.h. τh = � � � 

Kl 

� l = 1, . . .,N sei eine Zerlegung von [a, b] in Elemente 

271

(= abgeschlossene Teilintervalle), so dass jedes Kl außer den beiden Randknoten noch 

g − 1 innere Knoten enthält. Dann: 

Vh := V N 

h := � v ∈ H 1 (a, b) � � g 

v|Kl ∈ P 

bzw. bei Dirichletrandbedingungen 

Wir schätzen für u ∈ H 2 (a, b) 

für alle l = 1, . . ., N � , (6.77) 

Vh := V N 

h ∩ � v ∈ C[a, b] � � v(a) = v(b) = 0 � . (6.78) 

inf �u − vh�1 ≤ �u − Ih(u)�1 

vh∈Vh 

(6.79) 

völlig analog zur Vorgehensweise bei der Assemblierung in Kapitel 6.5 ab. Dabei ist 

der Interpolationsoperator I = Ih in Verallgemeinerung von Kapitel 6.3 folgendermaßen 

definiert: 

Betrachte auf einem Element Kl = [xr1, xr2] mit den Knoten xr1 < xr3 < . . . < xrg+1 < 

xr2 (bzw. für g = 1: xr1 < xr2) die lokale Interpolationsaufgabe: 

Gesucht p ∈ P g , so dass 

für beliebige, feste Werte urj 

p(xrj ) = urj , j = 1, . . .,g + 1 , (6.80) 

∈ R. 

(6.80) ist eindeutig lösbar (Numerik I) und somit gibt es zu ui ∈ R, i = 1, . . ., M, ein 

eindeutiges p ∈ C[a, b] mit p|Kl ∈ P g für alle l = 1, . . .,N, so dass 

p(xj) = uj für j = 1, . . .,M (6.81) 

(Die Stetigkeit in x = xi folgt aus der Interpolationsbedingung). Wegen des folgenden 

Lemmas ist p ∈ V N 

h , und so wird der Interpolationsoperator 

Ih : V → Vh , 

u ↦→ p , 

wobei in (6.81) uj := u(xj), j = 1, . . ., M (wohldefiniert wegen (6.70)). 

Lemma 6.33 Sei v ∈ L 1 (a, b), so dass v|Kl ∈ P g , l = 1, . . ., N. Dann 

v ∈ W 1,1 (a, b) ⇐⇒ v ∈ C[a, b] . 

272 

(6.82)

Beweis: “ ⇒ “ ist klar nach (6.70). 

“ ⇐ “ : Die Ableitung v ′ existiert auf Kl punktweise und stetig. Wir definieren w ∈ 

L ∞ (a, b) durch w|int(Kl) := v ′ . Wir zeigen, dass w die schwache Ableitung von v ist. 

Dazu sei ϕ ∈ D(a, b): 

� b 

a 

wϕ dx = 

N� 

� 

l=1 

Kl 

v ′ ϕ dx (∗) 

= − 

N� 

� 

l=1 

Kl 

vϕ ′ dx = − 

� b 

a 

vϕ ′ dx . 

Im (∗) geht die Stetigkeit von v (in den Randknoten der Kl) ein, so dass sich die 

Randanteile bei der partiellen Integration gerade wegheben bzw. bei x = a, b wegen 

ϕ(x) = 0 wegfallen. ✷ 

Wegen (6.81) hat Vh eine Basis {w1, . . ., wM}, definiert durch 

wi(xj) = δij , i, j = 1, . . ., M (6.83) 

– Bei Dirichletrandbedingungen sind die Randfreiheitsgrade zu entfernen – 

Wir schätzen jetzt �u − Ih(u)�1 ab. 

�u − Ih(u)� 2 1 = 

� b 

a 

|u − Ih(u)| 2 dx + 

Für den ersten Summanden erhalten wir 

und 

A1 = 

N� 

� 

l=1 

Kl 

� b 

|u 

a 

′ − (Ih(u)) ′ | 2 dx =: A1 + A2 

|u − Ih(u)| 2 dx =: 

N� 

l=1 

A (l) 

1 

(6.84) 

A (l) 

1 = 

� 

|(u − Ih(u)) (Gl(ˆx))| 

ˆK 

2 hl dˆx , (6.85) 

wobei wie in (6.63) ˆ K = [0, 1], G = Gl : ˆ K → Kl, ˆx ↦→ x die affin–lineare Bijektion 

zwischen Referenz- und allgemeinen Element darstellt, und hl die Länge von Kl 

bezeichnet, also 

Analog ist A2 = N� 

l=1 

A (l) 

2 und 

h = N 

max 

l=1 hl . 

A (l) 

� � 

� 

2 = � 

d 

� ˆK dˆx ((u − Ih(u)) 

� 

�2 

(Gl(ˆx))) � 

1 

� dˆx , (6.86) 

hl 

da die Kettenregel auch für u ◦ Gl und u ∈ H 1 (Kl) gilt. (Beweis: Übung) 

273

Außerdem gilt für den Interpolationsoperator 

Î : H 1 ( ˆ K) → P g , 

ˆv ↦→ ˆp , 

(6.87) 

und ˆp(ˆxj) = uj, j = 1, . . .,g + 1, wobei 0 ≤ ˆx1 < ˆx3 < . . . < ˆx2 die Knoten von ˆ K sind 

(vgl. Kapitel 6.5) 

Ih(v)|Kl ◦ Gl = Î(v ◦ Gl) (6.88) 

für v ∈ H 1 (a, b), da v ◦ Gl ∈ H 1 ( ˆ K) (Beweis: Übung), und für p ∈ P g (in der Variable 

x) auch p ◦ Gl ∈ P g (in der Variable ˆx) gilt, und die Knoten von ˆ K und Kl durch Gl 

aufeinander abgebildet werden. Also 

A (l) 

1 = � K ˆ |u(ˆx) − Î(u ◦ Gl)(ˆx)| 2 dˆxhl 

A (l) 

2 = � � 

� 

ˆK � d 

� 

��2 �� 

u(ˆx) − Î(u ◦ Gl)(ˆx) 

dˆx 

dˆx 1 

hl 

(6.89) 

und es reicht, den Interpolationsfehler auf ˆ K abzuschätzen. Für die Halbnormen 

�� b � 

|v|k := � 

d 

� 

k 

� � 

2 1/2 

� 

v� 

dxk � dx für k ∈ N0 

(6.90) 

gilt 

a 

�v�k = 

� k� 

i=0 

|v| 2 i 

�1/2 

Zur Unterscheidung kann das Grundgebiet angegeben werden, d.h. 

Durch (6.84) – (6.86) wurde gezeigt 

|v|k,(a,b) bzw. �v�k,(a,b) . 

|v| 2 0,Kl = hl |v ◦ Gl| 2 

0, ˆ K , 

|v| 2 1,Kl 

= 1 

hl 

|v ◦ Gl| 2 

1, ˆ K . 

. (6.91) 

Für höhere Ableitungen gilt entsprechend 

|v| 2 k,Kl = 

� �2k−1 1 

|v ◦ Gl| 2 

k, ˆ K für v ∈ H k (Kl) (6.92) 

und also auch 

Es gilt 

hl 

|v ◦ Gl| 2 

k, ˆ ≤ h2k−1 

K l |v| 2 . (6.93) 

k,Kl 

274

Lemma 6.34 (von Bramble–Hilbert) 

Sei K ein Intervall, m ∈ N. Dann existiert eine Konstante C = C(K) > 0, so dass 

inf 

p∈P m−1 �v + p�m,K ≤ C|v|m,K für alle v ∈ H k (K) . 


Also ist |v|m,K eine Norm auf den Quotientenraum H m (K)/P m−1 . 

Lokal lässt sich also der Interpolationsfehler wie folgt abschätzen, wenn k, m ∈ N mit 

k ≥ m ≥ 0, so dass 

P k−1 ⊂ ˆ P , (6.94) 

wobei ˆ P der Ansatzraum auf ˆ K ist und alle Elemente (mit ihren Ansatzräumen) durch 

affin–lineare Transformationen auf ˆ K (und ˆ P) entstehen (Die Triangulierung heißt dann 

affin–äquivalent.). Dies ist für (6.77) mit k ≤ g +1 erfüllt. Also gilt für u ∈ H k (Kl) für 

ein beliebiges Element Kl. 

|u − Ih(u)| m,Kl 

(6.92) 

≤ h 1−2m 

l 

(6.88) 

= h 1−2m 

l 

≤ h 1−2m 

l 

|u ◦ Gl − Ih(u) ◦ Gl| 2 

m, ˆ K 

� 

� 

� 

� 

�u ◦ Gl − Î(u ◦ Gl) � 2 

m, ˆ K 

� 

� 

�u ◦ Gl + ˆp − Î(u ◦ Gl 

� 

� 

+ ˆp) 

für ein beliebiges ˆp ∈ P k−1 . 

Wegen der Stetigkeit des Operators Ih : Hk ( ˆ K) → Hm ( ˆ K) gilt also 

|u − Ih(u)| 2 � 

≤ h1−2m� 

m,Kl l Id − Î � �2 inf 

ˆp∈P k−1 

�u ◦ Gl + ˆp� 2 

k, ˆ K 

Summation ergibt also 

also auch 

� 2 

m, ˆ K 

≤ h 1−2m 

l C 2 |u ◦ Gl| 2 

k, ˆ K nach Lemma 6.34 

≤ h 1−2m+2k−1 

l C 2 |u| 2 . k,Kl (6.95) 

|u − Ih(u)|m,(a,b) ≤ C h k−m |u|k,(a,b) , 

Satz 6.35 Sei τh eine affin–äquivalente Triangulierung, in Lagrange–Elementen, so 

dass (6.94) gilt. Dann existiert eine Konstante C > 0, so dass 

�u − Ih(u)�m ≤ C h k−m |u|k für alle u ∈ H k (a, b) . 

Zur Kombination mit dem Lemma von Cea (Satz 6.19) wähle man m = 1, d.h. 

275

Satz 6.36 Es sei τh eine Triangulierung von (a, b) und Vh nach (6.77) oder (6.78) 

gewählt (je nach Randbedingung). Es seien a, b stetig und a koerziv auf V (nach (6.65)). 

Gilt für die Lösung u der Variationsgleichung (V ) u ∈ H k (a, b) für k ≤ g + 1, dann 

erfüllt die Finite–Element–Lösung uh von (Vh) die Konvergenzordnungsaussage 

d.h. bei maximaler Regularität u ∈ H g+1 (a, b) 

�u − uh�1 ≤ C h k−1 |u|k , (6.96) 

�u − uh�1 ≤ h g |u|g+1 . 

Für die linearen Elemente (d.h. g = 1) ist dies schon in Satz 6.21 gezeigt. 

Wegen der Einbettung (6.70) gilt die gleiche Konvergenzordnung auch in � · �∞ (bzw. 

auch in der Hölder–Norm � · �∞,α). Das ist aber nicht optimal. 

Trivialerweise gilt die Abschätzung auch in � · �0. Hier können wir eventuell eine Verbesserung 

in der Ordnung um 1 erwarten, da 

Satz 6.37 (von Aubin und Nitsche) 

Betrachte zu ˜ f ∈ L 2 (a, b) das adjungierte Problem: 

Gesucht ist u = u ˜ f ∈ V , so daß 

a(v, u) = ( ˜ f, v) für alle v ∈ V . (6.97) 

Ist das adjungierte Problem regulär, d.h. gilt auch u ˜ f ∈ H 2 (a, b) und 

dann folgt für die Lösungen von (V ) bzw. (Vh): 


Beweis: 

und 

|u ˜ f |2 ≤ C� ˜ f�0 , (6.98) 

�u − uh�0 ≤ C h�u − uh�1 

�u − uh�0 = sup 

0�= ˜ f∈L2 |(u − uh, 

(a,b) 

˜ f)| 

� ˜ f�0 

(u − uh, ˜ f) = ( ˜ f, u − uh) �� = a(u − uh, uf ˜) �� = a(u − uh, uf˜ − vh) 

(6.97) 

(V ),(Vh),Vh⊂V 

276

für ein beliebiges vh ∈ Vh. 

Für vh = Ih(u ˜ f ) gilt 

Zusammenfassend folgt 

�u ˜ f − vh�1 ≤ C h|u ˜ f |2 nach Satz 6.36 

≤ C h� ˜ f�0 nach (6.98) . 

�u − uh�0 ≤ C�u − uh�1 sup 

0�= ˜ f∈L2 �u 

(a,b) 

˜ f − Ih(uf ˜)�1 � ˜ f�0 

≤ C�u − uh�1 h . 

Satz 6.37 sichert also unter den Voraussetzungen von Satz 6.36 eine Ordnungserhöhung, 

wenn die Voraussetzungen von Satz 6.36 nicht gelten, aber die von Satz 6.37, so ist 

noch lineare Konvergenz bzgl. � · �0 gesichert. 

Die Flexibilität der FEM kann in zweierlei Weise genutzt werden: 

• h–Verfeinerung bei festem Ansatz ˆ P (sogenannte h–Methode): 

Die empfiehlt sich zur Genauigkeitssteigerung und kann auch lokal angewendet 

werden, z.B. da wo |u|k,Kl groß ist (vgl. (6.95)). Da u unbekannt ist, geben a posteriori 

Fehlerindikoren (d.h. von uh abhängige, (leicht) berechenbare Ausdrücke) 

an, wo verfeinert werden soll. 

• p–Verfeinerung bei festem h (sogenannte p–Methode): 

Hier wird h, d.h. die Triangulierung festgehalten, aber lokal der Grad des Ansatzraums 

erhöht. Dadurch steigt (bei entsprechender Glattheit der Lösung) lokal die 

Konvergenzordnung. 

277 

✷

SkriptNumII_SS08.pdf

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?