Karteikartein zur Numerik

1. Lineare Gleichungssysteme: Direkte Methoden # 1 

✗ Gaußsches Eliminationsverfahren 


✗ LR-Zerlegung

# 1 Antwort 

Das gaußsche Eliminationsverfahren ist ein Algorithmus aus den mathematischen 

Teilgebieten der linearen Algebra und der Numerik. Es ist 

ein wichtiges Verfahren zum Lösen von linearen Gleichungssystemen und 

beruht darauf, dass elementare Umformungen zwar das Gleichungssystem 

ändern, aber die Lösung erhalten. Dies erlaubt es, jedes eindeutig 

lösbare Gleichungssystem auf Stufenform zu bringen, an der die Lösung 

durch sukzessive Elimination der Unbekannten leicht ermittelt oder die 

Lösungsmenge abgelesen werden kann. 

Die Anzahl der benötigten Operationen ist bei einer n×n-Matrix von der 

Größenordnung n 3 . In seiner Grundform ist der Algorithmus anfällig für 

Rundungsfehler, aber mit kleinen Modifikationen (Pivotisierung) stellt er 

für allgemeine lineare Gleichungssysteme das Standardlösungsverfahren 

dar und ist Teil aller wesentlichen Programmbibliotheken für numerische 

lineare Algebra. 

Verfahren (Vorwärtselimination). Wir lösen das Gleichungssystem 

(1.1) 

a x 11 1 +a x 12 2 + . . . +a x 1n n = b 1 

a 21 x 1 +a 22 x 2 + . . . +a 2n x n = b 2 

. 

. 

a n1 x 1 +a n2 x 2 + . . . +a nnx n = b n 

indem wir zunächst von der i-ten Zeile die 1. Zeile ·a i1/a 11 abziehen. 

Analog wird weiter eliminiert, bis das gesamte System auf Dreiecksgestalt 

gebracht worden ist. 

⎛ 

⎞ 

a 11 a 22 a 33 · · · a 1n ⎛ ⎞ ⎛ ⎞ 

x b 1 

1 

a (1) 

22 a (1) 

2n 

x a (2) 

33 a (2) 

2 

b (1) 

2 

3n 

x ⎜ 

. 

⎝ 0 

.. 

. 3 

= 

b (2) 

3 .. ⎟ ⎜ 

⎟ 

⎠ ⎝ 

. ⎠ ⎜ ... 

, (1.2) 

⎟ 

⎝ ⎠ 

a nn 

(n−1) x n b (n−1) 

n 

} {{ } } {{ } 

=R 

=˜b 

wobei i = k + 1, . . . , n und 

l ik = a(k−1) ik 

a (k−1) 

kk 

a (k) 

ij 

b (k) 

i 

(1.3) 

= a (k−1) 

ij − l ik a (k−1) 

kj für j = k + 1, . . . , n (1.4) 

= b (k−1) 

i − l ik b (k−1) 

k für j = k + 1, . . . , n. (1.5) 

Verfahren (Rückwärtssubstitution). Zur Lösung des Gleichungssystems 

ist nun noch die Rückwärtssubstitution nötig. 

x n = b(n−1) n 

a (n−1) 

nn 

x n−1 = b(n−2) n−1 − a (n−2) 

n−1,n xn 

a (n−2) 

n−1,n−1 

x k = b(k−1) k − ∑ n 

j=k+1 a(k−1) kj x j 

a (k−1) 

kk 

(1.6) 

(1.7) 

(1.8) 

# 2 Antwort 

Will man das Lösen eines quadratischen eindeutig lösbaren Gleichungssystems 

Ax = b umsetzen, bietet es sich an, den Gaußalgorithmus als LR- 

Zerlegung zu interpretieren. Dies ist eine Zerlegung der regulären Matrix 

A in das Produkt einer linken unteren Dreiecksmatrix L und einer rechten 

oberen Dreiecksmatrix R. Dabei hat R die erwähnte Stufenform und 

die Matrix L dient dem Speichern der benötigten Umformungsschritte, 

die Multiplikationen mit Frobeniusmatrizen entsprechen. Das zeigt die 

Existenz der Zerlegung. Um Eindeutigkeit zu erreichen, werden die Diagonalelemente 

der Matrix L als 1 festgelegt. Die Umformungsschritte zu 

speichern hat den Vorteil, dass für verschiedene rechte Seiten b das Gleichungssystem 

effizient durch Vorwärts- und Rückwärtseinsetzen gelöst 

werden kann. 

Sei 

⎛ ⎞ 

0 

⎛ 

⎞ 

1 0 

. 

. .. 

0 

l k := 

, L l k+1,k 

k := 

−l k+1,k 1 

⎜ 

⎜ 

⎝ 

⎟ 

⎝ 

. 

. ⎠ 

. 

.. 

⎟ 

⎠ 

0 −l 

l n,k 1 

n,k 

(1.9) 

Dann gilt 

Sei weiterhin 

A (k) = L k A (k−1) (1.10) 

b (k) = L k b (k−1) (1.11) 

A = L −1 

1 A(1) = . . . = L (−1) 

1 · . . . · L −1 

n−1 · R. (1.12) 

⎛ 

L := L −1 

1 · . . . · L −1 

n−1 = ⎜ 

⎝ 

⎞ 

1 0 

. .. 

l ij 1 

⎟ 

⎠ . (1.13) 

Satz (LR-Zerlegung). Die Vorwärtselimination erzeugt unter der Voraussetzung 

an die Pivotelemente a (k−1) 

kk ≠ 0 für k = 1, . . . , n − 1, eine 

Faktorisierung A = L · R, wobei R eine obere Dreiecksmatrix und L eine 

normierte, d. h. l ii = 1 für i = 1, . . . , n, untere Dreiecksmatrix ist.


✗ Rechenaufwand des Gaußschen Eliminationsverfahrens 


✗ Pivotisierung

# 3 Antwort 

Unter dem Aufwand eines Algorithmus versteht man seinen maximalen 

Ressourcenbedarf. Dieser wird oft in Abhängigkeit von der Länge der 

Eingabe n angegeben und für große n asymptotisch unter Verwendung 

eines Landau-Symbols abgeschätzt. Analog wird die Komplexität eines 

Problems definiert durch den Ressourcenverbrauch eines optimalen Algorithmus 

zur Lösung dieses Problems. Die Schwierigkeit liegt darin, dass 

man somit alle Algorithmen für ein Problem betrachten müsste, um den 

Aufwand desselben zu bestimmen. 

Definition (Landau-Symbole). Seien f, g : D → R mit D ⊆ R und 

−∞ ≤ a ≤ ∞, sowie (a n) n∈N , (b n) n∈N Folgen in R. Dann gilt 

1. f(x) = O(g(x)) für x → a, falls ∃U(a), c ∈ R, ∀x ∈ U(a) : |f(x)| ≤ 

c|g(x)|, d. h. 

und man sagt ” 

f verhält sich wie g“. 

2. f(x) = o(g(x)) für x → a, falls 

|f(x)| 

c = lim < ∞, (1.14) 

x→a |g(x)| 

|f(x)| 

lim = 0, (1.15) 

x→a |g(x)| 

und man sagt ” 

f wächst langsamer als g“ oder ” 

f ist asymptotisch 

gegenüber g vernachlässigbar“. 

3. a n = O(b n) für n → ∞, falls ∃N ∈ N, c ∈ R, ∀n ∈ N : |a n| ≤ c|b n|. 

4. a n = o(b n) für n → ∞, falls ∀ε > 0, ∃N ∈ N, ∀n ≥ N : |a n| ≤ ε|b n|. 

Rechnung (Rechenaufwand gezählt in flops). 

1. Dreieckszerlegung: 

for j = k + 1, . . . , n je eine Addition und eine Multiplikation für a ij 

⇒ (n − k) Additionen und Multiplikationen. 

for i = k + 1, . . . , n zusätzlich je eine Dividion für l ik . 

Das je for k = 1, . . . , n − 1, also 

n−1 ∑ 

n−1 ∑ 

(n − k) 2 = l 2 = 

k=1 

l=1 

= 2n3 − 3n 2 + n 

6 

(n − 1)n(2n − 1) 

6 

≈ n3 

2 

Additionen, sowie Multiplikationen für große n und 

n−1 ∑ 

(n − k) = n2 − n 

2 

k=1 

≈ n2 

2 

Divisionen für große n. Dann ist die Anzahl der flops 

2 2n3 − 3n 2 + n 

6 

für große n. 

+ n2 − n 

2 

2. Vorwärts- bzw. Rückwärtssubstitution: je 

n−1 ∑ 

(n − k) = n2 − n 

2 

k=1 

= (1.16) 

(1.17) 

(1.18) 

= 2 3 n3 − 1 2 n2 − 1 6 n ≈ 2 3 n3 (1.19) 

≈ n2 

2 

(1.20) 

Multiplikationen und Additionen und n Divisionen für die 

Rückwärtssubstitution. Also n 2 flops. 

3. Zusammengefasst: Die Dreieckszerlegung benötigt O(n 3 ) flops, die 

Vorwärts- bzw. Rückwärtssubstitution benötigt O(n 2 ) flops. 

# 4 Antwort 

Das gaußsche Eliminationsverfahren ist im Allgemeinen nicht ohne Zeilenvertauschungen 

durchführbar. Gilt z. B. a 11 = 0, so kann der Algorithmus 

ohne Zeilenvertauschung gar nicht starten. Zur Abhilfe wählt man 

ein Element der ersten Spalte der Koeffizientenmatrix, das so genannte 

Pivotelement, welches ungleich 0 ist. 

Verfahren (Spaltenpivotisierung: Partielle, halbmaximale Pivotisierung). 

Im k-ten Eliminationsschritt A (k−1) bis zur k − 1-ten Zeile Diagonalgestalt. 

1. Bestimme das Pivotelement a (k−1) 

pk als betragsmäßig größtes der 

Rest-Spalte, d. h. 

|a (k−1) 

pk | ≥ |a (k−1) 

jk | für j = k, . . . , n. (1.21) 

2. Vertausche in A (k−1) de k-te mit der p-ten Zeile. 

3. Führe einen Gauß-Eliminationsschritt aus. 

Definition (Permutationsmatrix). Damit die LR-Zerlegung unabhängig 

von der rechten Seite erstellt werden kann, müssen die Permutationen gespeichert 

werden. Für die Permutationsmatrix 

P π = ( e π(1) · · · e π(n) 

) 

(1.22) 

mit e j dem j-ten Einheitsvektor, gilt P A = LR. Weiterhin ist P −1 = P t 

und det P = sign π = ±1, falls π durch eine gerade, bzw. ungerade Anzahl 

von Transpositionen erzeugt wird. 

Satz (Permutationsmatrix und Dreieckszerlegung). Für jede invertierbare 

Matrix A existiert eine Permutationsmatrix P , sodass eine Dreieckszerlegung 

P A = LR existiert. P kann so gewählt werden, dass alle 

Elemente von L betragsmäßig ≤ 1 sind, das heißt |l ij | ≤ 1. 

Verfahren (Gauß-Elimination zur Lösung von Ax = b). Das Lösen eines 

Gleichungssystems Ax = b mit einer invertierbaren Matrix A wird 

durch Elimination mit folgenden drei Schritten durchgeführt: 

1. Zerlege A durch P A = LR. 

2. Löse durch Vorwärtssubstitution Lz = P b. 

3. Löse durch Rückwärtssubstitution Rx = z. 

Bemerkung (Unnötigkeit einer Pivotisierung). Pivotisierung ist unter 

bestimmen Umständen unnötig, wenn die Matrix A bereits in einer für 

die Numerik günstigen Form vorliegen, z. B. wenn A positiv definit ist, 

oder strikt-diagonale Dominanz besitzt.


✗ Cholesky-Verfahren 

2. Fehleranalyse # 6 

✗ Welche Fehler gibt es?

# 5 Antwort 

Die Cholesky-Zerlegung bezeichnet in der numerischen Mathematik eine 

Zerlegung einer symmetrischen positiv definiten Matrix. Bei der Anwendung 

der Methode der kleinsten Quadrate ist eine Möglichkeit, die auftauchenden 

Minimierungsprobleme über die Normalgleichungen zu lösen, 

die eine symmetrisch positiv definite Systemmatrix haben. Dies ist mit 

Hilfe der Cholesky-Zerlegung möglich und dies war die Motivation von 

Cholesky, die Zerlegung zu entwickeln. Beim Gauß-Newton-Verfahren ist 

damit bei jedem Iterationsschritt ein Gleichungssystem zu lösen, das sich 

mit dem Cholesky-Verfahren bestimmen lässt. 

Im Folgenden sei A eine symmetrische, positiv definite Matrix im R n×n , 

das heißt 

A = A t , 〈x, Ax〉 := x t Ax > 0, ∀x ≠ 0. (1.23) 

Wir nennen eine solche Matrix auch kurz spd-Matrix. 

Satz (Eigenschaften von spd-Matrizen). Für jede symmetrische, positiv 

definite Matrix A ∈ R n×n gilt: 

1. A ist invertierbar, 

2. a ii > 0 für i = 1, . . . , n, 

3. max ij |a ij | = max i a ii , 

4. bei der Gauß-Elimination ohne Pivotsuche ist jede Restmatrix wiederum 

eine symmetrische, positiv definite Matrix. 

Korollar (Cholesky-Zerlegung). Für jede spd-Matrix exisitert eine eindeutige 

Zerlegung der Form A = LDL t , wobei L eine reelle unipotente, 

d. h. l ii = 1 für alle i) untere Dreiecksmatrix und D eine positive Diagonalmatrix 

ist. Diese Zerlegung heißt rationale Cholesky-Zerlegung. Die 

Zerlegung 

A = ¯L¯L t (1.24) 

mit der reellen unteren Dreiecksmatrix 

⎛√ ⎞ 

d1 0 

¯L = L · ⎜ . ⎝ .. ⎟ 

⎠ 

√ = LD1/2 

0 

dn 

heißt Cholesky-Zerlegung. Wegen der Eigenschaften von spd-Matrizen 

gilt: 

a kk = ¯l 2 k1 + . . . + ¯l 2 kk , (1.25) 

a ik = ¯l i1¯lk1 + . . . + ¯l ik¯lkk , i > k, (1.26) 

d. h. spaltenweise Berechnung funktioniert. 

Rechnung (Rechenaufwand der Cholesky-Zerlegung). Es sind je 1/6 · 

(n 3 − n) Additionen sowie Multiplikationen, 1/6 · (3n 3 − 3n) Divisionen 

und n Quadratwurzeln notwendig, also für große n sind ≈ 1/3 · n 3 flops 

notwendig. Im Vergleich zur LR-Zerlegung halbiert sich in etwa der Aufwand. 

# 6 Antwort 

Es gibt zwei Arten von Fehlern, die zu verschiedenen Fragestellungen 

führen: 

1. Eingabefehler: Rundungsfehler, Fehler in Messdaten, Fehler im Modell 

(falsche Parameter). 

→ Wie wirkt sich der Eingabefehler auf das Resultat unabhängig 

vom gewählten Algorithmus aus? f(x) ↔ f(x + ε): → Kondition 

des Problems 

2. Fehler im Algorithmus: Rundungsfehler durch Rechenoperationen, 

Approximationen (z. B. Ableitung durch Differenzenquotienten 

oder die Berechnung von Sinus durch eine abgebrochene Reihenentwicklung). 

→ Wir wirken sich (Rundungs-) Fehler des Algorithmus aus und 

wie verstärkt der Algorithmus die Eingabefehler? f(x) ↔ ˜f(x): → 

Stabilität des Algorithmus 

Bemerkung (Absoluter Rundungsfehler). 1 + eps ist die kleinste Zahl 

am Rechner, welche größer als 1 ist. Also: eps = β 1−t ≈ 10 −7 bei einfacher 

Genauigkeit. 

Wir bezeichnen mit fl(x) die gerundete Zahl, wobei fl(x) eindeutig gegeben 

ist durch die Schranke an den absoluten Rundungsfehler 

{ 

1/2β e+1−t bei symmetrischem Runden 

| fl(x) − x| ≤ 

β e+1−t bei Abschneiden 

Für die relative Genauigkeit folgt somit 

| fl(x) − x| 

|x| 

≤ 

{ 

1/2β 1−t =: τ bei symmetrischem Runden 

β 1−t 

bei Abschneiden 

(2.1) 

(2.2) 

Die Maschinengenauigkeit des Rechners ist somit durch eps = β 1−t gegeben. 

Die Mantissenlänge bestimmt also die Maschinengenauigkeit. Bei 

einfacher Genauigkeit ist fl(x) bis auf ungefähr 7 signifikante Stellen genau. 

Definition (Fehler). Sei x ∈ R n und ˜x ∈ R n eine Näherung an x. Weiterhin 

sei ‖.‖ eine Norm auf R n . Dann sind definiert 

1. α˜x (x) := ‖˜x − x‖ der absolute Fehler, und 

2. ρ˜x (x) := ‖˜x−x‖ 

‖x‖ 

der relative Fehler. 

Da der relative Fehler skalierungsinvariant ist, d. h. nicht von der Größe 

von x abhängt, ist er in der Regel bei der Fehleranalyse von größerem 

Interesse. Sowohl α als auch ρ hängen von ‖.‖ ab.


✗ Was ist das Residuum? 


✗ Was ist eine Kondition?

# 7 Antwort 

Als Residuum bezeichnet man in der Mathematik, speziell in der numerischen 

Mathematik, die Abweichung vom gewünschten Ergebnis, welche 

entsteht, wenn in eine Gleichung Näherungslösungen eingesetzt werden. 

Angenommen, es sei eine Funktion f gegeben und man möchte ein x 

finden, so dass f(x) = b. Mit einer Näherung x 0 an x ist das Residuum r 

r = b − f(x 0 ) (2.3) 

der Fehler hingegen x − x 0 . Der Fehler ist in der Regel unbekannt, da 

x unbekannt ist, weswegen dieser als Abbruchkriterium in einem numerischen 

Verfahren nicht benutzbar ist. Das Residuum ist dagegen stets 

verfügbar. Wenn das Residuum klein ist, folgt in vielen Fällen, dass die 

Näherung nahe bei der Lösung liegt, d. h. 

|x 0 − x| 

|x| 

≪ 1. (2.4) 

In diesen Fällen wird die zu lösende Gleichung als gut gestellt angesehen 

und das Residuum kann als Maß der Abweichung der Näherung von 

der exakten Lösung betrachtet werden. Bei linearen Gleichungssystemen 

können sich die Norm des Fehlers und des Residuums um den Faktor der 

Kondition unterscheiden. 

# 8 Antwort 

In der numerischen Mathematik beschreibt man mit der Kondition die 

Abhängigkeit der Lösung eines Problems von der Störung der Eingangsdaten. 

Die Konditionszahl stellt ein Maß für diese Abhängigkeit dar. Sie 

beschreibt den Faktor, um den der Eingangsfehler im ungünstigsten Fall 

verstärkt wird. Sie ist unabhängig von konkreten Lösungsverfahren, aber 

abhängig vom mathematischen Problem. 

Definition (Matrixnorm). Auf dem R n sei eine Norm ‖.‖ a und auf dem 

R m eine Norm ‖.‖ b gegeben. Dann ist die zugehörige Matrixnorm gegeben 

durch 

‖Ax‖ b 

‖A‖ a,b = sup = sup ‖Ax‖ b . (2.5) 

x≠0 ‖x‖ a ‖x‖ a=1 

Es gilt also: ‖A‖ a,b ist die kleinste Zahl c mit ‖Ax‖ b ≤ c · ‖x‖ a für alle 

x ∈ R n . Die meist gebrauchten Matrixnormen sind: 

- Frobenius-Norm einer n × m-Matrix (Schurnorm): 

n∑ m∑ 

‖A‖ F := √ |a ij | 2 . (2.6) 

i=1 j=1 

- p-Norm: 

‖Ax‖ p 

‖A‖ p := ‖A‖ p,p = sup . (2.7) 

x≠0 ‖x‖ p 

Definition (Normweise Kondition). Sei (f, x) ein Problem mit f : U ⊆ 

R n → R m und ‖.‖ a auf R n , sowie ‖.‖ b auf R m Normen. 

1. Absolute normweise Kondition: Die absolute normweise Kondition 

eines Problems (f, x) ist die kleinste Zahl κ abs > 0 mit 

‖f(˜x) − f(x)‖ b ≤ κ abs (f, x)‖˜x − x‖ a + o(‖˜x − x‖ a). (2.8) 

für ˜x → x. 

2. Relative normweise Kondition: Die relative normweise Kondition 

eines Problems (f, x) mit x ≠ 0 und f(x) ≠ 0 ist die kleinste Zahl 

κ rel > 0 mit 

‖f(˜x) − f(x)‖ b 

‖f(x)‖ b 

für ˜x → x. 

( ) 

‖˜x − x‖a ‖˜x − x‖a 

≤ κ rel (f, x) + o 

. (2.9) 

‖x‖ a 

‖x‖ a 

Man sagt das Problem ist gut konditioniert, falls κ klein ist und das 

Problem ist schlecht konditioniert, falls κ groß ist.


✗ Normweise Kondition eines Problem (f, x)? 


✗ Herleitung der Kondition der Addition?

# 9 Antwort 

Wir untersuchen das Verhältnis von Ausgabefehler zu Eingabefehler. 

Definition (Problem). Sei f : U ⊂ R n → R m mit U offen und sei 

x ∈ U. Dann bezeichne (f, x) das Problem zu einem gegebenen x die 

Lösung f(x) zu finden. 

Lemma (Formel für die Normweise Kondition eines Problems). Falls f 

differenzierbar ist, gilt 

κ abs (f, x) = ‖Df(x)‖ a,b (2.10) 

κ rel (f, x) = 

wobei Df(x) die Jacobi-Matrix bezeichnet. 

‖x‖a 

‖f(x)‖ b 

‖Df(x)‖ a,b (2.11) 

# 10 Antwort 

Sei f(x 1 , x 2 ) = x 1 + x 2 und wir wählen die C 1 -Norm auf R 2 . Dann ist 

Df(x 1 , x 2 ) = (1, 1) (2.12) 

κ abs = ‖Df(x 1 , x 2 )‖ 1 = 1 (2.13) 

κ rel = |x 1| + |x 2 | 

|x 1 + x 2 | 

(2.14) 

Also hat die Addition von zwei Zahlen mit gleichem Vorzeichen κ rel = 1, 

wohingegen die Addition zweier Zahlen mit unterschiedlichem Vorzeichen 

(das entspricht einer Subtraktion) eine sehr schlechte Kondition κ rel ≫ 1 

ergibt.


✗ Was ist die Kondition einer Matrix? 


✗ Kondition eines nichtlinearen Gleichungssystems?

# 11 Antwort 

Löse Ax = b mit einer invertierbaren Matrix A ∈ R n×n und ‖.‖ sei die 

zugehörige Matrixnorm. 

1. Störung in b: f : b ↦→ x = A −1 b, berechnet κ(f, b). Löse 

A(x + ∆x) = b + ∆b. Es ist mit x = A −1 b auch 

f(b + ∆b) − f(b) = ∆x = A −1 ∆b (2.15) 

‖∆x‖ = ‖A −1 ∆b‖ ≤ ‖A −1 ‖ · ‖∆b‖ (2.16) 

Die Abschätzung ist scharf, d. h. es gibt ein ∆b ∈ R n , sodass Gleichheit 

gilt, also 

Ebenso folgt die scharfe Abschätzung 

‖f(b + ∆b) − f(b)‖ 

‖f(b)‖ 

κ abs (f, b) = ‖A −1 ‖. (2.17) 

= ‖∆x‖ 

‖x‖ 

= ‖A−1 ‖ · ‖b‖ 

‖x‖ 

κ rel (f, b) = ‖A −1 ‖ · 

≤ ‖A−1 ‖ · ‖∆b‖ 

‖x‖ 

und mit ‖b‖ ≤ ‖A‖ · ‖x‖ = ‖A‖ · ‖A −1 b‖ folgt 

· ‖b‖ 

‖b‖ = (2.18) 

· ‖∆b‖ 

‖b‖ , (2.19) 

‖b‖ 

‖A −1 b‖ , (2.20) 

κ rel (f, b) ≤ ‖A‖ · ‖A −1 ‖. (2.21) 

2. Störung in A: Löse (A + ∆A)(x + ∆x) = b, d. h. f : R n×n → R n , 

f(A) = A −1 b = x und berechnet κ(f, A) mittels Ableitung 

da 

Df(A) : R n×n → R n , (2.22) 

C ↦→ Df(A)C = d dt ((A + tC)−1 b)| t=0 = −A −1 CA −1 . (2.23) 

0 = d dt En = d dt (A + tC)(A + tc)−1 = (2.24) 

= C(A + tC) −1 + (A + tC) d dt (A + tC)−1 (2.25) 

Also gilt für die Kondition 

‖A −1 CA −1 b‖ 

κ abs (A) = ‖Df(A)‖ = sup 

= (2.26) 

C≠0 ‖C‖ 

κ rel (f, A) = 

‖A −1 Cx‖ ‖A −1 ‖ · ‖C‖ · ‖x‖ 

= sup 

≤ sup 

= (2.27) 

C≠0 ‖C‖ C≠0 ‖C‖ 

= ‖A −1 ‖ · ‖x‖ (2.28) 

‖A‖ 

‖f(A)‖ ‖Df(A)‖ ≤ ‖A‖ · ‖A−1 ‖. (2.29) 

Die Größe κ(A) = cond(A) := ‖A −1 ‖ · ‖A‖ wird Kondition der Matrix A 

genannt. Sie beschreibt die relative Kondition eines linearen Gleichungssystems 

Ax = b für alle möglichen Störungen in A und b, d. h. bezüglich 

aller möglichen Eingabefehler. 

# 12 Antwort 

Sei f : R n → R n stetig differenzierbar und y ∈ R n . Löse 

f(x) = y. (2.30) 

Sei nun Df(x) invertierbar, dann existiert aufgrund des Satzes von der 

inversen Funktion auch die inverse Funktion f −1 lokal in einer Umgebung 

von y und f −1 (y) = x. Weiterhin gilt D(f −1 )(y) = (Df(x)) −1 . 

Die Konditionen des obigen Problems, d. h. (f −1 , y) sind daher 

Etwa ist für eine eindimensionale Funktion f : R → R mit f(x) = y die 

relative Kondition 

κ rel (f −1 , y) = |f(x)| 

|x| 

· 

1 

|f ′ (x)| , (2.32) 

also wenn |f ′ (x)| fast 0 ist → schlechte absolute Kondition und wenn 

|f ′ (x)| ≫ 0 → gute absolute Kondition. 

κ abs (f −1 , y) = ‖(Df(x)) −1 ‖, 

κ rel (f −1 , y) = ‖f(x)‖ 

‖x‖ ‖(Df(x))−1 ‖. (2.31)


✗ Kondition des Skalarprodukts? 


✗ Was ist Stabilität eines Alogirithmus?

# 13 Antwort 

Sei 〈x, y〉 := ∑ n 

i=1 x iy i = x t y und f : R 2n → R mit (x, y) ↦→ x t y = 〈x, y〉. 

Dann ist Df(x, y) = (y t , x t ) und es gilt 

κ rel = 

da cos(∡(x, y)) = 

∥ |(y t , x t )| · ( x 

y 

)∥ ∥∞ 

‖ 〈x, y〉 ‖ ∞ 

〈x,y〉 

‖x‖ 2 ‖y‖ 2 

= 2|yt ||x| cos(∡(|x|, |y|)) 

= 2 · 

| 〈x, y〉 | cos(∡(x, y)) , 

und |y t ||x| = 〈|y|, |x|〉 ist. 

Falls x und y nahezu senkrecht aufeinander stehen, kann das Skalarprodukt 

schlecht konditioniert sein, z. B. für x = ˜x = ( ) 

1 

1 und y = 

( ) 

, ỹ = ( ) 

1 

−1 . 

1+10 −10 

−1 

Das zeigt, dass das Cholesky-Verfahren für die Lösung der Normalengleichung 

ungeeignet ist. 

# 14 Antwort 

In der numerischen Mathematik heißt ein Verfahren stabil, wenn es gegenüber 

kleinen Störungen der Daten unempfindlich ist. Insbesondere 

bedeutet dies, dass sich Rundungsfehler nicht zu stark auf die Berechnung 

auswirken. Man unterscheidet in der Numerik hierbei Kondition, 

Stabilität und Konsistenz, die untereinander stark verwandt sind. Stabilität 

ist dabei eine Eigenschaft des Algorithmus und die Kondition eine 

Eigenschaft des Problems. 

Verfahren (Vorwärtsanalyse). Ein Verfahren heißt stabil, wenn es eine 

Konstante σ v ∈ R gibt, so dass gilt 

‖ ˜f(˜x) − f(˜x)‖ ≤ σ v · κ rel · eps, (2.33) 

wobei κ rel die relative Kondition des Problems und eps die Maschinengenauigkeit 

bezeichnet. σ v quantifiziert die Stabilität im Sinne der 

Vorwärtsanalyse. 

Verfahren (Rückwärtsanalyse). Meistens kennt man eine sinnvolle obere 

Schranke ε für den unvermeidbaren relativen Eingabefehler ‖˜x−x‖/‖x‖. 

Problemabhängig kann das ein Messfehler oder auch ein Rundungsfehler 

sein. Um den durch den Algorithmus verursachten Fehler besser 

einschätzen zu können, rechnet man ihn bei der Rückwärtsanalyse in 

einen äquivalenten Fehler in den Eingangsdaten des Problems um, der 

auch als Rückwärtsfehler bezeichnet wird. Die formale Definition des 

Rückwärtsfehlers des Algorithmus ˜f für die (gerundeten) Eingabedaten 

˜x (mit ‖˜x‖ ̸= 0) lautet: 

{ } 

‖ˆx − ˜x‖ 

σ r(˜x) := inf 

: ˆx ∈ D(f) und f(ˆx) = ˜f(˜x) , (2.34) 

‖˜x‖ 

wobei D(f) für den Definitionsbereich von f steht. Der Algorithmus ist 

rückwärtsstabil, wenn der relative Rückwärtsfehler für alle kleiner als der 

unvermeidbare relative Eingabefehler ist. 

Bemerkung (Zusammenhang zwischen Vorwärtsfehler, Rückwärtsfehler 

und Kondition eines Problems). Der Vorwärtsfehler ist kleiner als die 

Kondition des Problems mal den Rückwärtsfehler: 

‖ ˜f(˜x) − f(x)‖ ≤ κ(f, x) · ‖ˆx − x‖. (2.35)


✗ Warum soll man die Subtraktion bzw. schlecht konditionierte Probleme an den Anfang von 

Algoirthmen stellen? 


✗ Stabilitätsindikatoren?

# 15 Antwort 

Wie wirken sich Fehler eines Rechenschrittes innerhalb eines Algorithmus 

aus? 

Definition (Durch elementare Operation ausführbar). Eine Abbildung 

ϕ : K ⊂ R n → R m heißt durch eine elementare Operation ausführbar, 

falls es eine Abbildung ˜ϕ : F n → F m gibt, mit der Menge F der Maschinenzahlen, 

die auf dem Rechner mit relativer Genauigkeit eps realisiert 

werden kann, d. h. 

‖ ˜ϕ(x) − ϕ(x)‖ p 

‖ϕ(x)‖ p 

≤ eps, p = 1, . . . , ∞. (2.36) 

Definition (Algorithmus, Implementation). Eine Zerlegung der Abbildung 

f : E → R m der Form f = f (l) ◦ . . . ◦ f (1) mit l ∈ N und 

f (i) : U i ⊂ R k i → U i+1 ⊂ R k i+1 mit k 1 = n und k l+1 = m heißt Algorithmus, 

falls alle f (i) durch elementare Operationen ausführbar sind. 

Seien ˜f (i) die Abbildungen, die f (i) auf dem Rechner bis auf Maschinengenauigkeit 

realisieren. Dann heißt die Zerlegung ˜f = ˜f (l) ◦ . . . ◦ ˜f (1) : 

F n → F m Implementation von f. Im Allgemeinen gibt es verschiedenen 

Implementationen einer Abbildung f. 

Lemma (Fehlerfortpflanzung). Sei x ∈ R n mit ˜x ∈ F n mit |˜x i − x i | ≤ 

eps |x i | für alle i = 1, . . . , n. Sei f = f (l) ◦ . . . ◦ f (1) ein Algorithmus 

für f und ˜f eine zugehörige Implementation. Mit den Abkürzungen 

x (j+1) = f (j) ◦ . . . ◦ f (1) (x) und x (1) = x, sowie entsprechend ˜x (j+1) gilt 

‖˜x (j+1) − x (j+1) ‖ 

‖x (j+1) ‖ 

≤ eps K (j) + o(eps), (2.37) 

mit K (j) = (1 + κ (j) + κ (j) κ (j+1) + . . . + κ (j) · . . . · κ (1) ), wobei 

κ (j) := κ rel (f (j) , x (j) ) und ‖.‖ eine bleibige p-Norm ist. 

Korollar. Sei x ∈ R n mit ˜x ∈ F n mit |˜x i − x i | ≤ eps |x i | für alle 

i = 1, . . . , n. Sei f = f (l) ◦ . . . ◦ f (1) ein Algorithmus für f und 

˜f eine zugehörige Implementation. Mit den Abkürzungen x (j+1) = 

f (j) ◦ . . . ◦ f (1) (x) und x (1) = x, sowie entsprechend ˜x (j+1) gilt 

˜f(˜x) − f(x)‖ 

≤ 

‖f(x)‖ 

≤ eps 

(1 + κ (l) + κ (l) κ (l−1) + . . . + κ (l) · . . . · κ (1)) +o(eps). (2.38) 

} {{ } 

=:K 

Damit ist offensichtlich, dass schlecht konditionierte Probleme zu elementar 

ausführbaren Abbildungen so früh wie möglich ausgeführt werden 

sollen. Die Subtraktion zweier annähernd gleich großer Zahlen 

ist schlecht konditioniert. Unvermeidbare Subtraktionen sollten also 

möglichst früh durchgeführt werden. Allerdings hängt κ (i) nicht nur von 

f (i) , sondern auch von dem Zwischenergebnis x (j) ab, welches a priori 

unbekannt ist. 

# 16 Antwort 

Der Quotient 

gibt die Güte des Algorithmus an. Als Stabilitätsindikator kann also 

Gesamtfehler 

{ }} { 

‖ ˜f(˜x) − f(x)‖ 

‖f(x)‖ 

‖f(˜x) − f(x)‖ ‖˜x − x‖ 

· 

‖f(x)‖ ‖x‖ 

} {{ } } {{ } 

Fehler des Eingabefehler 

Problems 

(2.39) 

verwendet werden und es gilt 

‖ ˜f(˜x) − f(x)‖ 

‖f(x)‖ 

σ(f, ˜f, x) := 

≤ σ(f, ˜f, x) 

} {{ } 

Beitrag des 

Algorithmus 

K 

κ rel (f, x) 

· κ rel (f, x) · eps 

} {{ } 

Beitrag des 

Problems 

}{{} 

Rundungsfehler 

(2.40) 

+o(eps). (2.41) 

Falls σ < 1 ist, dämpft der Algorithmus die Fehlerfortpflanzung der 

Eingabe- und Rundungsfehler und heißt stabil. Falls σ ≫ 1 heißt der 

Algorithmus instabil.

3. Lineare Ausgleichsprobleme # 17 

✗ Herleitung und Beschreibung linearer Ausgleichsprobleme? Herleitung Gaußscher Fehlerquadrate? 


✗ Normalengleichung?

# 17 Antwort 

Beispiel (Widerstandsmessung). Man betrachte einen einfachen Stromkreis, 

wobei I die Stromstärke, U die Spannung und R den Widerstand 

bezeichnet. Das Ohmsche Gesetz besagt, dass diese Größen über U = RI 

gekoppelt sind. Man nehme nun an, dass eine Messreihe von Daten 

(U i , I i ), i =, 1 . . . , m angelegt wird. Die Aufgabe besteht darin, aus diesen 

Messdaten den Widerstand R im Stromkreis zu bestimmen. Theoretisch 

müsste der gesuchte Wert alle Gleichungen U i = RI i , i = 1, . . . , m 

erfüllen. Nun sind aber die Messdaten notgedrungen mit Fehlern behaftet. 

Da keinerlei Hinweise vorliegen, welcher dieser Werte geeignet ist, 

muss man eine andere Strategie entwickeln, die in einem gewissen Sinne 

die Fehler ausgleicht und in einem zu spezifizierenden Sinne optimal 

ist. Hierzu kann man versuchen, die durch eine Wahl von R bedingten 

Residuen U i − RI i zu quadrieren, aufzusummieren und dasjenige R zu 

suchen, das diesen Ausdruck minimiert: 

f(R) := 

m∑ 

(RI i − U i ) 2 = min . (3.1) 

i=1 

Da f eine quadratische Funktion ist, kann nur ein Exrtemum vorliegen, 

das durch die Nullstelle der Ableitung gegeben ist: 

( 

m∑ 

m 

) 

∑ 

m∑ 

0 = f ′ (R) = 2(RI i − U i )I i = 2R Ii 

2 − 2 U i I i . (3.2) 

i=1 

i=1 

i=1 

Hier ergibt sich diese Nullstelle R ∗ als 

∑ 

R ∗ i 

= 

U iI i 

∑ 

i I2 i 

(3.3) 

Verfahren (Gaußsche Fehlerquadratmethode). Allgemeiner liegt häufig 

folgende Situation vor: Aus theoretischen Überlegungen ist bekannt, dass 

eine bestimmte Größe b(t) über einen gewissen funktionalen Zusammenhang 

von einigen Parametern x 1 , . . . , x n abhängt: 

b(t) = y(t|x 1 , . . . , x n). (3.4) 

Im Beispiel war b(t) = y(t|x) = t · x und n = 1. Es geht darum, aus einer 

Reihe von Beobachtungen (Messungen) diejenigen Parameter x 1 , . . . , x n 

zu ermitteln, die den gegebenen Prozess möglichst gut beschreiben. Wenn 

mehr Messungen 

b i ≈ b(t i ), i = 1, . . . , m, (3.5) 

als unbekannte Parameter x i , i = 1, . . . , n vorliegen, also m > n ist, 

so hat man im Prinzip ein überbestimmtes Gleichungssystem, welches 

aufgrund von Messfehlern im Allgemeinen nicht konsistent ist. Deshalb 

versucht man, diejenigen Parameter x 1 , . . . , x n zu bestimmen, die 

m∑ 

w i (y(t|x 1 , . . . , x n) − b i ) 2 = min (3.6) 

i=1 

erfüllen. Hierbei können die w i als positive Gewichte verschieden von 1 

gewählt werden, wenn man einigen der Messungen mehr oder weniger Gewicht 

beimessen möchte. Dieses Vorgehen bezeichnet man als Gaußsche 

Fehlerquadratmethode. 

Definition (Lineares Ausgleichsproblem). Im Falle einer linearen Funktion 

ϕ 

ϕ(t, x 1 , . . . , x m) = a 1 (t)x 1 + . . . + a n(t)x n (3.7) 

mit gegebenen a i : R → R, definiere 

A := (a ij ) ∈ R m×n mit a ij = a j (t i ) (3.8) 

b := (b i ) ∈ R m . (3.9) 

Weiterhin seien mehr Daten bekannt als Parameter gesucht, d. h. m ≥ n. 

Dann ergibt sich ein lineares Ausgleichsproblem. Zu gegebenen b ∈ R m 

und A ∈ R m×n mit m ≥ n ist das ¯x ∈ R n gesucht, sodass 

‖b − A¯x‖ 2 = min x 

‖b − Ax‖ 2 . (3.10) 

Dies entspricht der Lösung eines überbestimmten, im Allgemeinen nicht 

erfüllbaren Gleichungssystems Ax = b. 

Das Beispiel der Widerstandsbestimmung passt auf die gerade gemachte 

Definition. Dabei ist n = 1, a 1 (t i ) = I i , b(t i ) = U i und x 1 = R. 

# 18 Antwort 

Satz (Projektionssatz). Sei V ein reeller Vektorraum mit einem Skalarprodukt 

〈., .〉. Sei U ⊂ V ein endlich dimensionaler Untervektorraum 

und sei 

U ⊥ := {v ∈ V : 〈v, u〉 = 0 für alle u ∈ U} . (3.11) 

Weiterhin sei ‖v‖ := √ 〈v, v〉 die von 〈., .〉 induzierte Norm. 

1. Zu jedem v ∈ V existiert genau ein ū ∈ U, sodass v − ū ∈ U ⊥ , 

d. h. 〈v − ū, u〉 = 0 für alle u ∈ U. Dies definiert die orthogonale 

Projektion P : V → U durch P v := ū. 

2. Zu jedem v ∈ V bestimmt P v die eindeutige Lösung ‖v − P v‖ = 

min u∈U ‖v − u‖. Also gilt 

‖v − ū‖ = min ‖v − u‖ ⇔ 〈v − ū, u〉 = 0 ∀u ∈ U (3.12) 

u∈U 

und ū = P v ist eindeutig. 

Bemerkung (Projektionssatz in Worten). Zu jedem Vektor v aus einem 

Vektorraum gibt es genau einen Vektor ū aus einem Untervektorraum, 

sodass die Differenz der beiden Vektoren ganz im orthogonalen Komplement 

des Untervektorraums bezüglich des Vektorraums liegt. 

Korollar. Sei P : V → U die orthogonale Projektion von V auf U. 

Dann gilt: P ist linear, v − P v ∈ U ⊥ und P 2 = P , sowie P | U = id. 

Satz (Normalgleichung). Der Vektor ¯x ∈ R n ist genau dann Lösung des 

linearen Ausgleichproblems min x∈R n ‖b − Ax‖ 2 , falls ¯x die Normalgleichung 

A t Ax = A t b (3.13) 

erfüllt. Insbesondere ist das lineare Ausgleichsproblem eindeutig lösbar, 

wenn der Rang von A maximal ist, d. h. Rang(A) = n falls n ≤ m. 

Beweis. Sei V = R m , U = R(A) = {Ax : x ∈ R n }, b ∈ R m . Nach dem 

Projektionssatz gilt 

‖b − A¯x‖ 2 = min 

x∈R n ‖b − Ax‖ 2 (3.14) 

⇔ 〈b − A¯x, Ax〉 = 0 ∀x ∈ R n (3.15) 

⇔ 〈 A t (b − A¯x), x 〉 = 0 ∀x ∈ R n (3.16) 

⇔ A t (b − A¯x) = 0 (3.17) 

⇔ A t A¯x = A t b. (3.18) 

Nach dem Projektionssatz existiert ein eindeutiges ȳ = P b ∈ U. Für dieses 

ȳ ist ¯x ∈ R n mit ȳ = A¯x eindeutig bestimmt, falls A injektiv ist, d. h. 

falls Rang(A) = n ist. 

Rechnung (Lösung der Normalgleichung). Zu Lösen sei die Normalgleichung 

A t Ax = A t b. Falls Rang(A) = n ist, ist A t A eine spd-Matrix und 

das Cholesky-Verfahren ist anwendbar. Eine Betrachtung des jeweiligen 

Aufwandes ergibt 

1. A t A ∈ R n×n ≈ 1/2 · n 2 m Multiplikationen, 

2. Cholesky-Zerlegung von A t A ≈ 1/6 · n 3 Multiplikationen. 

Für m ≫ n überwiegt der Aufwand A t A zu berechnen: 

Die Kondition der Berechnung von A t A erhält man wie folgt: A t A entspricht 

vieler Auswertungen von Skalarprodukten zweier Spaltenvektoren 

a i ∈ R m von A. Dies ist jedoch häufig schlecht konditioniert. Es gilt 

cond 2 (A t A) = (cond 2 (A)) 2 . (3.19) 

Im Vergleich dazu ist die Kondition zur Lösung von (P, b) zum Ausgleichsproblem 

eher mit cond 2 (A) beschrieben. Das Cholesky-Verfahren 

angewandt auf die Normalengleichung zur Lösung des linearen Ausgleichproblems 

ist also meist ungeeignet.


✗ Orthogonalisierungsverfahren? 


✗ QR-Zerlegung durch Givens-Rotation?

# 19 Antwort 

Sei A eine m × n-Matrix, die eine QR-Zerlegung besitzt, d. h. A = QR 

mit einer orthogonalen Matrix Q und einer oberen Dreiecksmatrix R. 

Weiterhin gilt Q ist längenerhaltend ‖Qv‖ 2 = ‖v‖ 2 , also ‖Q‖ 2 = 1 und 

damit 

‖Q −1 ‖ 2 = 1, ⇒ cond 2 (Q) = 1. (3.20) 

Dann kann das lineare Gleichungssystem Ax = b wie folgt gelöst werden: 

1. Löse Qz = b, berechnet z = Q t b. Das ist stabil wegen cond 2 (Q) = 

1. 

2. Löse durch Rückwärtssubstitution Rx = z. 

Satz. Sei A ∈ R m×n , m ≥ n und Rang(A) = n, b ∈ R m und besitze A 

eine Zerlegung 

( ) R 

A = Q 

(3.21) 

0 

mit einer orthogonalen Matrix Q ∈ R m×m und einer oberen Dreiecksmatrix 

R ∈ R n×n . Dann ist R invertierbar. Sei weiter 

) (¯b1 

Q t b = . (3.22) 

¯b2 

Dann ist 

¯x = R −1¯b1 (3.23) 

die Lösung des linearen Ausgleichproblems und ‖¯b 2 ‖ = ‖b − A¯x‖ = 

min ‖b − Ax‖ 2 . 

Beweis. R ist invertierbar, da Rang(R) = Rang ( R 

0 

) 

= Rang(Q t A) = 

Rang(A) = n ist. Damit gilt 

∥ ) ( ) 

∥∥∥ 

(¯b1 

‖b − Ax‖ 2 2 = ‖Qt (b − Ax)‖ 2 R 

2 = 2 

− x 

¯b2 0 ∥ = 

2 

(3.24) 

= ‖¯b 1 − Rx‖ 2 2 + ‖¯b 2 ‖ 2 2 (3.25) 

da Q längenerhaltend ist. Dieser Ausdruck wird minimal für R¯x = ¯b 1 . 

(QR-Zerlegung zum Lösen eines linearen Ausgleichpro- 

Verfahren 

blems). 

1. Berechne A = Q ( R 

0 

) 

. 

a) mit Givens-Rotation: Q = Q (1)t · . . . · Q (p)t , merke zugehörige 

(c, s). Jede Rotation setzt eine Null, also p = ∑ n 

j=1 (m − j). 

Ist insbesondere für Hessenberg-Matrizen interessant. 

b) mit Householder-Reflexion: Q = Q (1) · . . . · Q (p) , merke zugehörige 

Vektoren v (i) . Jede Reflexion setzt alle gewünschten 

Nullen in einer Spalte, also p = min(m − 1, n). Interessant zur 

Berechnung von: 

- Ax = b mit invertierbarem A ist sie ungefähr doppelt so 

aufwendig wie die LR-Zerlegung, aber dafür stabil, 

- Für lineare Ausgleichsprobleme ist sie in der Regel der 

Givens-Rotation und dem Cholesky-Verfahren für die 

Normalengleichung vorzuziehen. 

2. Berechne 

( ¯b1 

¯b2 

) 

Q t b = Q (p) ·. . .·Q (1) b. Dies ist numerisch stabil, da 

cond(Q (i) ) = 1. Rx = ¯b 1 , welches Lösung des linearen Ausgleichsproblems 

min x ‖b − Ax‖ ist. 

# 20 Antwort 

In der linearen Algebra ist eine Givens-Rotation eine Drehung in einer 

Ebene, die durch zwei Koordinaten-Achsen aufgespannt wird. Die Transformation 

lässt sich durch einer Matrix der Form 

⎛ 

1 · · · 0 · · · 0 · · · 0 

⎞ 

. . .. 

. .. . .. 

. .. . .. 

. .. 

0 · · · c · · · s · · · 0 

Ω kl = 

. . .. 

. .. . .. 

. .. . .. 

. .. 

0 · · · −s · · · c · · · 0 

⎜ 

⎝ 

. 

. .. 

. .. . .. 

. .. . .. 

. ⎟ .. ⎠ 

0 · · · 0 · · · 0 · · · 1 

(3.26) 

beschreiben, wobei c = cos(θ) und s = sin(θ) in der k-ten bzw. l-ten Zeile 

und Spalte erscheinen. Eine solche Matrix heißt Givens-Matrix. 

Verfahren (QR-Zerlegung durch Givens-Rotation). Die Idee besteht 

darin, sukzessiv die Elemente unterhalb der Hauptdiagonalen auf Null 

zu setzen, indem man die Matrix von links mit Givens-Rotationen multipliziert. 

Zunächst bearbeitet man die erste Spalte von oben nach unten 

und dann nacheinander die anderen Spalten ebenfalls von oben nach unten. 

Ω kl A = Ã (3.27) 

ã ij = a ij für i ≠ k, l, (3.28) 

ã kj = ca kj + sa lj für k < l, (3.29) 

ã lj = −sa kj + ca lj für k < l, (3.30) 

Das Verfahren ist sehr stabil und erfordert keine Pivotisierung. Außerdem 

berücksichtigt es schon vorhandene 0-Einträge in strukturierten, insbesondere 

dünnbesetzten Matrizen. 

Rechnung (Aufwand der Givens-Rotation). 1. Falls m ≈ n sind ungefähr 

4/3 · n 3 Multiplikationen, sowie 1/2 · n 2 Quadratwurzeln notwendig. 

Die Givens-QR-Zerlegung ist somit ungefähr vier mal so 

teuer wie die Gauß-Elimination, dafür jedoch stabil. 

2. Falls m ≫ n sind ungefähr 2n 2 m Multiplikationen, sowie mn Quadratwurzeln 

nötig. Das Verfahren ist daher 2-4 mal so teuer wie 

das Cholesky-Verfahren für die Normalgleichung, aber stabil. 

3. Bei Hessenberg-Matrizen, d. h. Matrizen mit der Gestalt 

⎛ 

∗ 

∗ 

A = 

⎜ 

⎝ 

. .. 

∗ 

. .. . .. 

0 ∗ ∗ 

⎞ 

, (3.31) 

⎟ 

⎠ 

also a ij = 0 für alle i > k + 1, sind nur (n − 1) Givens-Rotationen 

auszuführen. Diese Matrizen tauchen z. B. bei Eigenwertberechnungen 

auf und sind dort ein wichtiger Bestandteil des Verfahrens. 

Beispiel (Beispielrechnung). Gesucht ist also die Matrix 

( ( ) 

c s a 

−s c) 

b 

! 

= 

( r 

0) 

. (3.32) 

Dann folgt wegen |r| = ‖(r, 0) t ‖ ! = ‖(a, b) t ‖ = √ a 2 + b 2 schon die eindeutige 

Gestalt von r, c, s: 

r = ± √ a 2 + b 2 , c = a r , s = b r . (3.33) 

Im Allgemeinen gilt für Ω kl also 

√ 

r = ± x 2 k + x2 l , 

c = x k 

r , 

s = x l 

r , (3.34) 

denn dann erhalten wir genau die gewünschte 0 in der l-ten Spalte, weil 

cx k + sx l = x2 k 

r + x2 l 

r 

−sx k + cx l = −x kx l 

r 

= √ 

x 2 k + x2 l , (3.35) 

+ x kx l 

r 

= 0. (3.36)


✗ QR-Zerlegung durch Householder-Reflexion? 

4. Numerische Lösung nichtlinearer Gleichungssysteme # 22 

✗ Bisektionsverfahren?

# 21 Antwort 

Die Householdertransformation beschreibt die Spiegelung eines Vektors 

an einer Hyperebene durch Null im euklidischen Raum. Im dreidimensionalen 

Raum ist sie somit eine Spiegelung an einer Ebene (durch den 

Ursprung). Verwendung findet sie vor allem in der numerischen Mathematik, 

wenn mittels orthogonaler Transformationen Matrizen so gezielt 

umgeformt werden, dass bestimmte Spaltenvektoren auf das Vielfache 

des ersten Einheitsvektors abgebildet werden. 

Die Darstellung einer solchen linearen Abbildung durch eine Matrix wird 

als Householder-Matrix bezeichnet und hat die Form 

Q = E n − 2 vvt 

v t v , (3.37) 

mit v t der Transponierten des Spaltenvektors v. Der Nenner v t v ist das 

Skalarprodukt von v mit sich selbst, vv t das dyadische Produkt. Die Matrix 

vv t /v t v beschreibt die Orthogonalprojektion auf die durch v gegebene 

Richtung und ist symmetrisch, orthogonal und involutorisch. 

Verfahren (QR-Zerlegung durch Householder-Reflexion). Es gilt v ∈ 

span {a − αe 1 } und α = ±‖a‖ 2 . Setze 

Also 

v = a − αe 1 , (3.38) 

α = − sign(a 1 )‖a‖ 2 , (3.39) 

⎛ 

α (1) ⎞ 

0 ∗ 

A → A (1) = Q (1) A = ⎜ 

⎟ 

⎝ 

. 

⎠ 

0 

(3.40) 

mit Q (1) = E n − 2 v(1) v (1)t 

. Nach insgesamt p = min(m − 1, n) Schritten 

v (1)t v (1) 

erhalten wir die obere Dreiecksmatrix 

R = Q (p) · . . . · Q (1) A, (3.41) 

und wegen Q (i) = (Q (i) ) −1 folgt 

A = QR, Q = Q (1) · . . . · Q (p) . (3.42) 

Bemerkung (Speicherung). Gespeichert werden müssen die obere Dreiecksmatrix 

R und die Householdervektoren v (i) ∈ R m+1−i . Die Diagonalelemente 

von R sind r ii = α (i) . Folgende Speicheraufteilung ist möglich: 

A 

→ 

R 

v (1) v (2) . .. 

v (n) + 

α (1) 

. 

α (p) (3.43) 

Falls 〈 v (i) , e i 

〉 

= 1, d. h. die erste Komponente von v (i) ist normiert, 

kann diese weggelassen werden und R komplett in A gespeichert werden. 

Rechnung (Aufwand für den Householder QR-Algorithmus). 

1. Falls m ≈ n sind ungefähr 2/3 · n 3 Multiplikationen notwendig und 

damit ist der Householder-Algorithmus ungefähr doppelt so teuer 

wie die LR-Zerlegung, aber stabil. 

2. Falls m ≫ n sind ungefähr 2mn 2 Multiplikationen notwendig. Der 

Aufwand ist daher ungefähr so hoch wie beim Cholesky-Verfahren 

für die Normalgleichung, aber stabil. 

Beispiel (Beispielrechnung). Insgesamt erhält man 

α = sign(y 1 ) · ‖y‖ 2 , v = y + αe 1 , Q vy = −αe 1 . (3.44) 

Die explizite Form von Q v wird zur Berechnung von Q vy gar nicht 

benötigt: 

Q 1 A = A − 2v 1w t 

v1 t v , mit w t = v1 t A (3.45) 

1 

# 22 Antwort 

Die Bisektion ist ein Verfahren der Mathematik. Durch sie wird eine 

konvergente Folge von Intervallschachtelungen erzeugt. 

Satz (Mittelwertsatz der Differentialrechnung). Die Funktion f : 

[a, b] → R sei auf dem kompakten Intervall [a, b] stetig und auf dem offenen 

Intervall (a, b) differenzierbar. Dann gibt es ein ξ ∈ (a, b), sodass 

gilt 

f ′ (ξ) = 

f(b) − f(a) 

. (4.1) 

b − a 

Verfahren (Bisektionsverfahren mit Intervallhalbierung). Sei f : 

[a, b] → R stetig und f(a) · f(b) < 0. Dann folgt aus dem Mittelwertsatz 

die Existenz mindestens einer Nullstelle x ∗ ∈ (a, b), d. h. f(x ∗ ) = 0. 

Generiere eine Folge von Intervallen 

[ 

a (i) , b (i)] ⊆ 

[ 

a (i−1) , b (i−1)] (4.2) 

mit x ∗ ∈ [ a (i) , b (i)] mit b (i) − a (i) → 0. Setze a (0) = a und b (0) = b. 

Definiere 

x (i+1) := 1 ( 

b (i) + a (i)) (4.3) 

2 

[ 

{[ 

a (i+1) , b (i+1)] x (i+1) , b (i)] falls f(a (i) ) · f(x (i+1) ) > 0, 

:= [ 

a (i) , x (i+1)] falls f(a (i) ) · f(x (i+1) (4.4) 

) < 0. 

Bemerkung (Anmerkungen zum Bisektionsverfahren). 

- Vorteil: Konvergenz 

Für jede i ≥ 1 gilt: 

b (i) − a (i) = 1 

2 (i−1) (b − a) mit x∗ ∈ 

∣ 

∣x (i+1) − x ∗∣ ∣ 1 

≤ 

2 

[ 

a (i) , b (i)] , (4.5) 

( 

b (i) − a (i)) = 2 −i (b − a). (4.6) 

Also folgt lim i→∞ x (i) = x ∗ . Es gilt sogar: 

Das oben genannte Bisektionsverfahren konvergiert, falls f : 

[a, b] → R stetig ist und f(a) · f(b) < 0 gilt. 

- Vorteil: Differenzierbarkeit 

Es muss keine Differenzierbarkeitsvoraussetzung gemacht werden. 

Zuerst muss jedoch a und b mit f(a)f(b) < 0 gefunden werden. 

- Nachteil: Niedrige Konvergenzgeschwindkeit 

Das Verfahren wählt x (i) als Intervallmitte also unabhängig von 

f und unabhängig davon, wie dicht x (i) an x ∗ liegt. Deshalb ist 

im Allgemeinen die Konvergenzgeschwindigkeit extrem niedrig. Sie 

hängt von der Länge des Intervalls [a, b] und der Lage von x ∗ 

bezüglich der Intervallhalbierungen ab. 

- Nachteil: Anwendbarkeit 

Es ist nicht für f : R → R n anwendbar. 

- Nachteil: Kondition 

Falls f ′ (x ∗ ) ≈ 0 ist, ist das Problem (f −1 , 0) schlecht konditioniert 

und die Approximation x (k) kann weit von x ∗ wegliegen. 

Definition (Arten von Konvergenz). Eine Folge {x (k) } k∈N mit x (k) ∈ 

R n konvergiert mit mindestens der Ordnung p ≥ 1 gegen x ∗ , falls 

lim k→∞ ‖x (k) − x ∗ ‖ = 0 und falls es eine Konstante c > 0 und N ∈ N 

gibt, sodass ‖x (k+1) − x ∗ ‖ ≤ c‖x (k) − x ∗ ‖ p für alle k ≥ N. 

Im Falle p = 1 sei zusätzlich c < 1 verlangt und wir sprechen von linearer 

Konvergenz, im Falle p = 2 von quadratischer Konvergenz. Gilt: 

lim ‖x(k+1) − x ∗ ‖ 

‖x (k) − x ∗ ‖ 

so sprechen wir von superlinearer Konvergenz. 

= 0, (4.7)


✗ Fixpunkt-Iteration? 


✗ Newtonverfahren für skalare Gleichungen? Tangentenverfahren?

# 23 Antwort 

Fixpunktiteration ist ein in der Mathematik gebräuchliches iteratives 

Verfahren zur näherungsweisen Bestimmung der Nullstellen einer Funktion 

f auf einem bestimmten Intervall [a, b]. Die Gleichung muss dazu 

zuerst in eine Fixpunktgleichung, also eine Gleichung der Form ϕ(x) = x 

umgeformt werden. 

Gesucht sei ein Fixpunkt x ∗ ∈ D ⊆ R n der stetigen Funktion g : D → 

R n , d. h. 

g(x ∗ ) = x ∗ . (4.8) 

Idee: Nutze obige Gleichung zur Iteration, d. h. wähle x (0) ∈ D und definiere 

Falls x (k) konvergiert, gilt 

x (k+1) := g(x (k) ). (4.9) 

x ∗ = lim 

k→∞ x(k) = lim 

k→∞ g(x(k−1) ) = g(x ∗ ). (4.10) 

Da g stetig ist ist damit x ∗ ein Fixpunkt. 

Definition (Kontraktion). Sei D ⊆ R n abgeschlossen und ‖.‖ eine Norm 

auf dem R n . Eine Abbildung g : D → R n heißt Kontraktion bzgl. ‖.‖, 

falls ein κ ∈ [0, 1) mit ‖g(u)−g(v)‖ ≤ κ‖u−v‖ für alle u, v ∈ D existiert. 

Die kleinste solche Zahl κ heißt Kontraktionszahl von g. 

Offensichtlich ist jede auf D kontrahierende Abbildung stetig. 

Lemma. Sei D = ¯Ω mit Ω ⊆ R n offen und konvex. Falls g : D → R n 

eine stetig differenzierbare Funktion ist mit 

so ist g kontrahierend. 

sup ‖Dg(x)‖ < 1, (4.11) 

x∈Ω 

Satz (Banachscher Fixpunktsatz). Sei D ⊆ R n abgeschlossen und die 

Abbildung g : D → R n eine Kontraktion. Weiterhin gelte g(D) ⊂ D. 

Dann gilt: 

1. Es existiert genau ein Fixpunkt x ∗ von g, d. h. g(x ∗ ) = x ∗ . 

2. Für jeden Startwert x (0) ∈ D konvergiert die Folge der Fixpunktiterierten 

x (k+1) := g(x (k) ) gegen x ∗ . 

3. Es gilt die a posteriori Fehlerabschätzung 

‖x (k) − x ∗ ‖ ≤ 

und die a priori Fehlerabschätzung 

‖x (k) − x ∗ ‖ ≤ 

κ 

1 − κ ‖x(k) − x (k−1) ‖, (4.12) 

κk 

1 − κ ‖x(1) − x (0) ‖. (4.13) 

Bemerkung (Anmerkungen zum Banachschen Fixpunktsatz). 

1. Es reicht bereits aus, dass D ein vollständig metrischer Raum und 

d eine Metrik auf D anstelle einer Norm ‖.‖ um die Korrektheit des 

Satzes zu gewährleisten. 

2. Das Iterationsverfahren aus dem Banachschen Fixpunktsatz konvergiert 

mindestens linear, denn es gilt ‖x (k+1) − x ∗ ‖ = ‖g(x (k) ) − 

g(x ∗ )‖ ≤ κ‖x (k) − x ∗ ‖. 

3. Im Allgemeinen ist der Nachweis von g(D) ⊂ D schwierig. 

Beispiel (Berechnung der Nullstelle mit Fixpunktiteration). Wir suchen 

die Nullstelle einer Funktion f(x). Finde eine Funktion g(x) mit g(x) = x 

genau dann, wenn f(x) = 0 ist. Eine Möglichkeit ist g(x) = f(x) + x. 

Überprüfe, ob g eine Kontraktion ist und iteriere den Fixpunkt. 

Für f(x) = 2x − tan(x) = 0 sind mögliche Fixpunktgleichungen gegeben 

durch g(x) = 1/2 · tan(x) oder die Umkehrfunktion h(x) = arctan(2x). 

Betrachte die Ableitungen, um herauszufinden, welche der beiden Funktionen 

eine Kontraktion ist: 

g ′ (x) = 

1 

cos(2x) + 1 , 2 

h′ (x) = 

4x 2 + 1 . (4.14) 

Man sieht, dass g ′ (x) viele Pole hat und damit nur in sehr kleinen Intervallen 

eine Kontraktion sein kann. Für x > 1/2 gilt aber h ′ (x) < 1 und 

damit ist h kontrahierend für x > 1/2 und eine geeignete Funktion für 

die Fixpunktiteration. 

# 24 Antwort 

Die grundlegende Idee dieses Verfahrens ist, die Funktion in einem Ausgangspunkt 

zu linearisieren, d. h. ihre Tangente zu bestimmen, und die 

Nullstelle der Tangente als verbesserte Näherung der Nullstelle der Funktion 

zu verwenden. Die erhaltene Näherung dient als Ausgangspunkt 

für einen weiteren Verbesserungsschritt. Diese Iteration erfolgt, bis die 

Änderung in der Näherungslösung eine festgesetzte Schranke unterschritten 

hat. Das Iterations-Verfahren konvergiert im günstigsten Fall asymptotisch 

mit quadratischer Konvergenzordnung, die Zahl der korrekten 

Dezimalstellen verdoppelt sich dann in jedem Schritt. 

Gegeben sei also der skalare Fall, d. h. f : [a, b] → R. Sei f ∈ C 2 ([a, b]), 

dann gilt f(x) = f(˜x) + f ′ (˜x)(x − ˜x) + f ′′ (ϕ(x)) (x−˜x)2 

2 mit ϕ(x) ∈ (x, ˜x) 

(Taylorentwicklung). Für f(x ∗ ) = 0 gilt daher annähernd 

0 = f(˜x) + f ′ (˜x)(x ∗ − ˜x) ⇔ x ∗ = ˜x − f(˜x) 

f ′ (˜x) . (4.15) 

f wird durch die Tangente in ˜x approximiert. 

Verfahren (Iterationsschritt des Newton-Verfahrens). 

x (k+1) = x (k) − f(x(k) ) 

f ′ (x (k) ) . (4.16) 

Die Methode wird auch Tangentenverfahren genannt. 

Satz (Konvergenz des Newton-Verfahrens). Sei f ∈ C 1 ([a, b]), x ∗ ∈ 

(a, b) eine einfache Nullstelle von f, d. h. f ′ (x ∗ ) ≠ 0. Dann gibt es ein 

ε > 0, sodass für jedes x (0) ∈ B ε(x ∗ ) das Newton-Verfahren superlinear 

gegen x ∗ konvergiert. Falls f ∈ C 2 ([a, b]), tritt mindestens quadratische 

Konvergenz ein, d. h. das Verfahren konvergiert lokal quadratisch. 

Beweis. Der Iterationsschritt x (k+1) = x (k) − f(x (k) )/f ′ (x (k) ) definiert 

eine Fixpunktiteration mit g(x) = x − f(x)/f ′ (x). Für f ∈ C 2 ([a, b]) gilt 

g ′ (x) = 1 − f ′ (x)f ′ (x) − f(x)f ′′ (x) 

(f ′ (x)) 2 = f(x)f ′′ (x) 

(f ′ (x)) 2 . (4.17) 

Dann ist g ′ (x ∗ ) = 0 und damit exisitert ein ε > 0, sodass |g ′ (x)| ≤ κ < 1 

für alle x ∈ B ε(x ∗ ). Da g(x ∗ ) = x ∗ ist, ist g eine Kontraktion und der 

Banachsche Fixpunktsatz liefert die Konvergenz für alle x (0) ∈ B ε(x ∗ ). 

Die quadratische Konvergenz folgt aus der Taylorentwicklung von 

|x (k+1) − x ∗ | = |x (k) − (f ′ (x (k) )) −1 f(x (k) ) − x ∗ + 

+ (f ′ (x (k) )) −1 f(x ∗ )| ≤ 

≤ sup |(f ′ (x)) −1 | · sup |f ′′ (x)| · 1 

x∈B 

x∈B 2 · |x(k) − x ∗ | 2 . (4.18) 

Bemerkung (Anmerkungen zum Newton-Verfahren). 

- Idee: Linearisierung 

Die entscheidende Idee des Newton-Verfahrens ist der iterative Linearisierungsprozess, 

d. h. die Lösung einer nichtlinearen Gleichung 

wird durch eine Folge von Lösungen linearer Gleichungen ersetzt. 

- Voraussetzung: Konvergenzintervall 

Die Größe und die Lage des Konvergenzintervalls D 0 ist a priori 

unbekannt und muss geschätzt werden, z. B. könnte das Bisektionsverfahren 

angewendet werden, bis D 0 klein genug ist. Klein genug 

bedeutet: 

1. Es muss eine und nur eine Nullstelle x ∗ ∈ D 0 geben, da 

f ′ (x) ≠ 0 für alle x ∈ D 0 gelten muss, 

2. |g ′ (x)| ≤ κ < 1 für alle x ∈ D 0 , 

3. x (k) muss in D 0 liegen, insbesondere im Definitionsbereich von 

f. 

- Voraussetzung: Ableitung 

f ′ (x (k) ), d. h. die Ableitung f ′ muss analytisch bekannt sein. 

- Nachteil: Doppelte Nullstellen 

Eine notwendige Bedingung ist f ′ (x (k) ) ≠ 0. Also ist die Berechnung 

doppelter Nullstellen ausgeschlossen. 

- Nachteil: Mehrfache Nullstellen 

Mehrfache Nullstellen können nicht immer bestimmt werden.


✗ Sekantenverfahren? 


✗ Vergleich der Verfahren?

# 25 Antwort 

Bei dem Sekantenverfahren handelt es sich um ein schon seit dem Mittelalter 

bekanntes numerisches Verfahren zur näherungsweisen Lösung 

einer Gleichung des Typs f(x) = 0. Es entspricht einer Vereinfachung 

des Newton-Verfahrens, da nicht die Ableitung der Funktion berechnet 

werden muss. 

f ′ (x) ist nicht immer analytisch bekannt, kann aber durch 

f ′ (x (k) ) ≈ f(x(k) ) − f(x (k−1) ) 

x (k) − x (k−1) (4.19) 

approximiert werden. Eingesetzt in das Newton-Verfahren ergibt sich 

und damit 

x (k+1) = x (k) − f(x (k) ) · 

x (k) − x (k−1) 

f(x (k) ) − f(x (k−1) ) 

Verfahren (Iterationsschritt des Sekantenverfahrens). 

(4.20) 

x (k+1) = x(k−1) f(x (k) ) − x (k) f(x (k−1) ) 

f(x (k) ) − f(x (k−1) . (4.21) 

) 

Bemerkung (Anmerkungen zum Sekantenverfahren). 

- Das Verfahren ist keine Fixpunktiteration, da x (k) und x (k−1) zur 

Berechnung von x (k+1) verwendet werden (→ Mehrschrittverfahren). 


Sei f ∈ C 2 ([a, b]) und x ∗ ∈ (a, b) eine Nullstelle mit f ′ (x ∗ ) ≠ 0. 

Dann konvergiert in einer Umgebung von x ∗ das Sekantenverfahren 

lokal superlinear mit der Ordnung α = 1/2(1 + √ 5) ≈ 1.618. 

- Vorteil: Aufwand 

Die Berechnung von f(x), bzw. f ′ (x) ist im Allgemeinen sehr teuer. 

Das Sekantenverfahren benötigt nur eine Funktionsauswertung. 

Zwei Schritte dieses Verfahrens sind also so aufwendig wie ein 

Newton-Schritt. Damit kann man zeigen, dass bei gleichem Arbeitsaufwand 

das Sekantenverfahren lokal schneller konvergiert, als das 

Newton-Verfahren: x (k) → x (k+2) Sekantenverfahren konvergiert 

mit Ordnung α 2 ≈ 2.618. 

- Nachteil: Stabilität 

Die Sekantenmethode ist im Allgemeinen nicht stabil, denn wenn 

f(x (k) ) ≈ f(x (k+1) ) ist, können Stellenauslöschungen im Nenner 

auftreten. Es gibt jedoch stabilere Verfahren, wie z. B. regula falsi, 

deren Konvergenzordnung dann nicht so hoch sind. 

# 26 Antwort 

Löse z. B. x − e −1/2x = 0. 

1. Mit Banachscher Fixpunktiteration: 

x = e −1/2x : x (10) = 0.70347017 auf 4 Stellen genau. 

2. Mit Newton-Verfahren: 

Setze x (0) = 0.8: x (3) = 0.70347017 auf 4 Stellen genau, x (4) bis 

auf Maschinengenauigkeit exakt. 

3. Mit Sekantenverfahren: 

x (0) = 0.8, x (1) = 0.7 (man benötigt beide Werte): x (3) = 

0.7034674 bist auf 7 Stellen exakt, x (6) bis auf Maschinengenauigkeit 

exakt.


✗ Newtonverfahren im n-dimensionalen? 


✗ Abbruchkriterien?

# 27 Antwort 

Wie im eindimensionalen wird f : Ω ⊂ R n → R n linearisiert 

f(x) ≈ f(˜x) + Df(˜x)(x − ˜x), (4.22) 

⎛ ∂f 1 

∂f 

(˜x) · · · 1 

⎞ 

(˜x) 

∂x 1 ∂x n Df(˜x) = ⎜ 

⎝ 

. 

⎟ 

. ⎠ . (4.23) 

∂f n 

∂f 

(˜x) · · · n 

(˜x) 

∂x 1 ∂x n 

Falls die Jacobi-Matrix Df(˜x) invertierbar ist, dann sei 

Verfahren (Iterationsschritt des Newton-Verfahrens). 

[ 

−1 

x (k+1) = x (k) − Df(x )] (k) · f(x (k) ). (4.24) 

Verfahren (Aufteilung des Iterationsschritts). Ein Newton- 

Iterationsschritt im Mehrdimensionalen wird aufgeteilt in die Berechnung 

der sogenannten Newton-Korrektur ∆x (k) 

und dem Korrekturschritt 

Df(x (k) )∆x (k) = −f(x (k) ), (4.25) 

x (k+1) = x (k) + ∆x (k) . (4.26) 

Bemerkung (Anmerkungen zum Newton-Verfahren im Mehrdimensionalen). 

- Aufwand pro Iteration 

n eindimensionale (nichtlineare) Funktionsauswertungen für f, 

n 2 eindimensionale (nichtlineare) Funktionsauswertungen für Df. 

O(n 3 ) flops in der Regel für das Lösen eines Gleichungssystems. 


Sei Ω ⊆ R n offen und f : Ω → R n in C 2 (Ω). Sei x ∗ ∈ Ω 

eine Nullstelle von f, d. h. f(x ∗ ) = 0 mit einer invertierbaren 

Jacobi-Matrix Df(x ∗ ). Dann existiert eine Umgebung B ε(x ∗ ) = 

{x ∈ Ω : ‖x − x ∗ ‖ 2 < ε}, sodass das Newton-Verfahren für jeden 

Startwert x (0) ∈ B ε(x ∗ ) quadratisch gegen x ∗ konvergiert. 

- Vorteil: Affine-Invarianz 

Das Newton-Verfahren ist affin-invariant, d. h. die Folge {x (k) } ist 

zu gegebenem x (0) unabhängig davon, ob 

f(x) = 0 oder ˜f(x) = A · f(x) = 0 (4.27) 

mit regulärem A ∈ R n×n gelöst wird, da 

∆x (k) = [D ˜f(x)] −1 ˜f(x) = [ADf(x)] −1 Af(x) = 

= [Df(x)] −1 f(x). (4.28) 

# 28 Antwort 

In der Numerik ist eine Abbruchbedingung eine Bedingung, die erfüllt 

sein muss, damit ein Vorgang beendet wird. Mögliche Gründe für die 

Implementierung eines Abbruchkriteriums sind: 

- Limitiere die Anzahl der Iterationen, z. B. unter anderem auch, um 

eine Endlosschleife durch fehlerhafte Programmierung zu vermeiden. 

- Breche ab, wenn das Verfahren nicht konvergiert, also x (k) nicht 

im Konvergenzgebiet liegt. 

- Breche ab, wenn das Ergebnis genau genug ist, also wenn der Fehler 

e (k) := ‖x ∗ − x (k) ‖ klein genug ist. 

Verfahren (Monotonietest). Das Verfahren konvergiert, falls die 

Newton-Iteration mit einem Wert x (0) in einem D ⊆ R n startet, sodass 

die Funktion g eine Kontraktion auf D ist. Es sollte also für alle k 

gelten 

mit κ < 1. 

‖∆x (k) ‖ = ‖x (k+1) − x (k) ‖ ≤ κ‖x (k) − x (k−1) ‖ = 

= κ‖∆x (k−1) ‖, (4.29) 

Man nennt dies den natürlichen Monotonietest. Falls die Bedingung nicht 

erfüllt ist, sollte das Verfahren abgebrochen werden, und mit neuem x (0) 

begonnen werden. 

Um eine vielleicht unnötige teure Berechnung von x (k+1) (von Df(x (k) )) 

zu vermeiden, kann ∆x (k) approximiert werden mit 

∆¯x (k) = [Df(x (k−1) )] −1 f(x (k) ). (4.30) 

Für Df(x (k−1) ) liegt bereits eine Zerlegung aus der Berechnung von 

∆x (k−1) vor, ebenso ist f(x (k) ) bekannt. Die Lösung von der Approximation 

benötigt also nur O(n 2 ) Operationen, für z. B. Vorwärts-, bzw. 

Rückwärtssubstitutionen. 

Bemerkung (Sinnvolle Abbruchkriterien). 

- Kriterium für mögliche Divergenz: 

Als Kriterium kann 

‖∆¯x (k+1) ‖ > 1 2 ‖∆x(k) ‖ (4.31) 

gewählt werden. In dem Falle soll das Newton-Verfahren abgebrochen 

werden. 

- Kriterium für erreichte Konvergenz: 

Ein Kriterium für erreichte Konvergenz ist 

- Nachteil: Wahl der Toleranzgrenze 

Alleine ist das residuumbasierte Kriterium 

‖∆¯x (k) ‖ ≤ Tol. (4.32) 

‖f(x)‖ ≤ Tol (4.33) 

nur bedingt anwendbar, denn betrachte {x (k) } für f(x) und αf(x) 

und kleinem α. Dann bricht für αf(x) das Newton-Verfahren viel 

eher ab als für f(x), obwohl ‖x (k) − x ∗ ‖ genauso groß ist. Affininvariant 

ist dagegen der Ansatz 

‖[Df(x (k) )] −1 f(x (k) )‖ = ‖∆x (k) ‖ = ‖x (k+1) − x (k) ‖ ≤ Tol, 

(4.34) 

wobei für ein konvergentes Verfahren, ‖x (k+1) − x (k) ‖ auch als Approximation 

von e (k) = ‖x (k) − x ∗ ‖ gesehen werden kann. Auch 

hier kann statt ∆x (k) auch ∆¯x (k) genutzt werden, um den Rechenaufwand 

zu reduzieren.


✗ Vereinfachtes Newtonverfahren? 


✗ Gedämpftes Newtonverfahren?

# 29 Antwort 

Df(x (k) ) steht immer analystisch zur Verfügung. Diese exakte Jacobimatrix 

wird häufig approximiert, beim vereinfachten Newtonverfahren z. B. 

durch Df(x (0) ). 

Verfahren (Iterationsschritt des vereinfachten Newton-Verfahrens). In 

diesem Fall lautet der Iterationsschritt dann 

x (k+1) = x (k) − [Df(x (0) )] −1 f(x (k) ). (4.35) 

Dieses Verfahren konvergiert nur noch lokal linear, der Aufwand je Iteration 

ist jedoch erheblich geringer. 

# 30 Antwort 

Das Newton-Verfahren konvergiert lokal quadratisch, d. h. für einen 

schlecht gewählten Startwert kann das Newton-Verfahren divergieren. 

Finde ein Verfahren, das lokal quadratisch, aber global linear konvergiert. 

Verfahren (Abstiegsverfahren und Liniensuche). Betrachte 

min x∈R n φ(x), mit φ : R n → R Minimierung im R n . Dann funktioniert 

das Abstiegsverfahren wie folgt. 

Gegeben sei x (k) , dann sei x (k+1) so, dass 

φ(x (k+1) ) < φ(x (k) ). (4.36) 

Führe obiges Problem auf eine Folge von Minimierungsproblemen im R 

zurück, indem eine Abstiegsrichtung d (k) bestimmt wird, 

und damit 

φ(x (k) + µd (k) ) < φ(x (k) ), ∀µ ∈ (0, 1] (4.37) 

min 

µ∈R φ(x(k) + µd (k) ) (4.38) 

betrachtet wird. Eine Liniensuche wird mit einer Suchrichtung, z. B. einer 

Abstiegsrichtung durchgeführt, d. h. eine geeignete Schnittlänge µ (k) 

wird bestimmt und dann 

x (k+1) = x (k) + µ (k) d (k) (4.39) 

gesetzt. Eine mögliche Wahl ist µ (k) = µ (k) 

min , welches jedoch im Allgemeinen 

nicht einfach zu bestimmen ist. 

Verfahren (Newton-Verfahren als Liniensuche). Minimiere 

min 1 2 f t (x)f(x) mit Liniensuche und interpretiere die Newtonrichtung 

als Suchrichtung 

min µ φ(x (k) + µd (k) ). Anstelle von µ (k) 

min garantiere einen echten Abstieg, 

d. h. die Monotoniebedingung 

‖f(x (k+1) )‖ = ‖f(x (k) + µ (k) d (k) ‖ < ‖f(x (k) )‖, (4.41) 

für alle k. Die Newton-Korrektur ∆x (k) = d (k) wird möglicherweise 

gedämpft mit dem Dämpfungsfaktor (der Schnittlänge) µ (k) ∈ (0, 1]. 

Verfahren (Gedämpfter Newtonschritt). Bestimme Dämpfungsfaktor 

µ (k) ∈ (0, 1] 

Bemerkung (Monotoniekriterium). 

- Dämpfungsstrategie: 

Wähle µ (k) , sodass 

x (k+1) = x (k) + µ (k) ∆x (k) . (4.42) 

‖f(x (k+1) )‖ ≤ (1 − µ (k) q)‖f(x (k) )‖, (4.43) 

mit q ∈ (0, 1) unabhängig von k, z. B. q = 1/2. Der 

Dämpfungsfaktor µ (k) soll möglichst groß sein. Insbesondere ist 

µ (k) = 1 wünschenswert, um die (lokal) quadratische Konvergenz 

des Newton-Verfahrens zu erreichen. 

- Affin-invarianter Monotonietest: 

Statt des obigen Monotoniekriteriums bietet sich auch wieder der 

affin-invariante natürliche Monotonietest an, d. h. mit 

gelte 

∆¯x (k+1) (µ (k) ) = −[Df(x (k) )] −1 f(x (k) + µ (k) ∆x (k) ), (4.44) 

‖∆¯x (k+1) (µ (k) )‖ ≤ (1 − µ (k) q)‖∆x (k) ‖. (4.45) 

d (k) = ∆x (k) = −[Df(x (k) )] −1 f(x (k) ), (4.40)

5. Eigenwertberechnung # 31 

✗ Singulärwertzerlegung? 


✗ Gerschgorin-Kreise?

# 31 Antwort 

Eine Singulärwertzerlegung einer Matrix bezeichnet deren Darstellung als 

Produkt dreier spezieller Matrizen. Daraus kann man die Singulärwerte 

der Matrix ablesen. Diese charakterisieren, ähnlich den Eigenwerten, Eigenschaften 

der Matrix. Singulärwertzerlegungen existieren für jede Matrix, 

auch für nicht-quadratische Matrizen. 

Definition (Singulärwertzerlegung). Sei A ∈ R m×n . Eine Zerlegung der 

Form 

A = UΣV t , (5.1) 

mit orthogonalen Matrizen U ∈ R m×m und V ∈ R n×n und einer Diagonalmatrix 

Σ ∈ R m×n heißt Singulärwertzerlegung von A. Die Aussage 

lässt sich geometrisch so interpretieren, dass sich A in zwei geeignet 

gewählten Orthonormalbasen U, V für Urbild- und Bildraum als reine 

Streckung Σ schreiben lässt. 

Bemerkung (Anmerkungen zur Singulärwertzerlegung). Es gilt 

σ i = √ λ i für i = 1, . . . , r, (5.2) 

wobei λ i die positiven Eigenwerte von AA ∗ , sowie von A ∗ A sind. Die 

Spalten U sind die Eigenvektoren von AA ∗ und die Spalten von V sind 

die Eigenvektoren von A ∗ A. Für reelle Matrizen A sind somit U, V auch 

reellwertig. Dann folgt 

‖Ax‖ 2 

σ 1 = max = ‖A‖ 2 (5.3) 

x≠0 ‖x‖ 2 

und σ n = min x≠0 

‖Ax‖ 2/‖x‖ 2 , sowie für m = n und reguläre A 

1 ‖x‖ 2 ‖A −1 y‖ 2 

= max = max = ‖A −1 ‖ 2 . (5.4) 

σ n x≠0 ‖Ax‖ 2 y≠0 ‖y‖ 2 

Also folgt für reguläre A 

cond 2 (A) = σ 1 

σ n 

. (5.5) 

Der kleinste Singulärwert σ n einer quadratischen Matrix A gibt den Abstand 

zur nächsten singulären Matrix an. 

# 32 Antwort 

Gerschgorin-Kreise dienen in der numerischen linearen Algebra, einem 

Teilgebiet der Mathematik, zur Abschätzung von Eigenwerten. Mit ihrer 

Hilfe können einfach Gebiete angegeben werden, in welchen sich die Eigenwerte 

einer Matrix befinden und unter besonderen Bedingungen sogar 

wie viele Eigenwerte in diesen enthalten sind. 

deren Radien durch 

r i := 

n∑ 

|a ik | 

k=1 

k≠i 

Satz (Gerschgorin). Die Eigenwerte λ einer Matrix A = (a ij ) ij ∈ C n×n 

liegen in der Vereinigung aller Gerschgorin-Kreise 

K i = {z ∈ C : |z − a ii | ≤ r i } , (5.6) 

gegeben sind. Obige Aussage lässt sich verschärfen durch die Betrachtung 

von A t oder D −1 AD, etc. Je weniger sich A von einer Diagonalmatrix 

unterscheidet, desto schärfer ist die Abschätzung. 

Bilden k Gerschgorin-Kreise eine einfach zusammenhängende Menge G, 

die zu den restlichen K i disjunkt ist, dann liegen in G genau k Eigenwerte 

der Matrix A.


✗ Potenzmethode? Vektoriteration? 


✗ QR-Zerlegung zur Bestimmung der Eigenwerte?

# 33 Antwort 

Die Potenzmethode, oder Vektoriteration ist ein numerisches Verfahren 

zur Berechnung des betragsgrößten Eigenwertes und des dazugehörigen 

Eigenvektors einer Matrix. Der Name kommt daher, dass Matrixpotenzen 

A k x gebildet werden, wesentlicher Aufwand sind also Matrix-Vektor- 

Produkte. Deswegen ist das Verfahren insbesondere für dünnbesetzte Matrizen 

geeignet. 

Verfahren (Vektoriteration). Sei A ∈ C n×n eine diagonalisierbare Matrix 

und sei der dominante Eigenwert λ 1 einfach, d. h. |λ 1 | > |λ 2 | ≥ . . . ≥ 

|λ n| mit dem normierten Eigenvektor v 1 . Weiterhin sei der Startvektor 

x (0) nicht senkrecht zu v 1 . 

Die Vektoriteration ist gegeben durch 

x (k+1) = Ax (k) für k ≥ 0. (5.7) 

Verfahren (Berechnung des betragsmäßig größten Eigenwertes). Da 

A diagonalisierbar ist, gibt es eine Basis aus normierten Eigenvektoren 

{v 1 , . . . , v n} und es gilt 

x (0) = ∑ 〉 

α i v i mit α i = 

〈x (0) , v i . (5.8) 

Da x (0) ̸⊥v 1 ist, gilt α 1 ≠ 0 und für die Iterierten x (k) ∈ R n gilt 

( 

n∑ 

n∑ 

( ) ) 

x (k) = A k x (0) = α i λ k i v i = α 1 λ k α k i λi 

1 v 1 + 

v i (5.9) 

α 

i=1 

i=2 1 λ 1 

n∑ 

( ) 

x (k) = α 1 λ k 1(v 1 + r (k) ) mit r (k) α k i λi 

= 

v i . (5.10) 

α 

i=2 1 λ 1 

Da |λ i/λ 1 | ≤ |λ 2/λ 1 | < 1 ist, gilt daher 

〈 

∣ 

‖r (k) ‖ 2 2 = r (k) , r (k)〉 ≤ 

λ 2 ∣∣∣ 2k ∑ n ∣ ∣ ∣ α i ∣∣∣ ∣∣∣ α j ∣∣∣ 

∣ λ ∣ | 〈v i , v j 〉 |, 

1 α 

i,j=2 1 α 1 

( 

‖r (k) ‖ 2 = O |λ 2/λ 1 | k) k→∞ 

−−−−→ 0. (5.11) 

Für große k verhält sich daher x (k) wie α 1 λ k 1 v 1 und konvergiert gegen 

ein Vielfaches des Eigenvektors v 1 , anders ausgedrückt 

α 1 v 1 + α 1 r (k) 

setzen also 

x(k) 

λ k 1 

k→∞ 

−−−−→ α 1 v 1 . Es ist zweckmäßig, x (k) zu normieren, wir 

v (k) := 

x(k) 

‖x (k) ‖ 2 

∈ R n . (5.12) 

Weiter ist mit λ 1 ∈ R auch sign(λ 1 ) = |λ 1 |/λ 1 und damit folgt 

sign(λ 1 ) k v (k) = α 1 v 1 + r (k) 

( 

|α 1 | ‖v 1 + r (k) ‖ = sign(α 1)v 1 + O |λ 2/λ 1 | k) . (5.13) 

Sei nun λ (k) := v (k)t Av (k) so folgt 

( 

λ (k) = 

(sign(α 1 λ 1 ) k v1 t + O |λ 2/λ 1 | k)) Av (k) = 

( 

= v1 t Av 1 + O |λ 2/λ 1 | k) ( 

= λ 1 + O |λ 2/λ 1 | k) . (5.14) 

Bemerkung (Anmerkungen zur Vektoriteration). 

- Vorteil: Konvergenz; Die Vektoriteration approximiert den dominanten 

Eigenwert λ 1 ∈ R und einen zugehörigen normierten Eigenvektor 

v 1 ∈ R. Weiterhin gilt 

( 

|λ (k) − λ 1 | = O |λ 2/λ 1 | k) ( 

, | sign(λ 1 ) k v (k) − v 1 | = O |λ 2/λ 1 | k) . 

Die Effizienz hängt also von |λ 2/λ 1 | ab und die Folgen sind linear 

konvergent. 

- Mehrfache Eigenwerte; Für einen mehrfachen Eigenwert λ 1 = 

. . . = λ m gilt die Approximation weiterhin und v (k) approximiert 

einen Eigenvektor. 

- Nachteil: Größter Eigenwert; Es kann nur der betragsmäßig größte 

Eigenwert mit dem Eigenvektor erhalten werden. 

- Nachteil: Konvergenzgeschwindigkeit; Falls |λ 2 | ≈ |λ 1 | ist, ist die 

Konvergenzgeschwindigkeit langsam. 

= 

# 34 Antwort 

Im Folgenden sei A ∈ R n×n und symmetrisch, d h. es existiert eine Orthonormalbasis 

aus reellen Eigenvektoren v i und Eigenwerte λ i ∈ R. 

Av i = λ i v i ⇔ Q t AQ = Λ, 

mit Q orthogonal (die Eigenvektoren v i sind die Spalten der Matrix Q). 

Dies würde alle Eigenwerte liefern. Mit Householder-Transformationen 

Q i ist es im Allgemeinen nicht möglich Λ zu konstruieren, jedoch gilt: 

Lemma. Sei A ∈ R n×n symmetrisch. Dann existiert eine orthogonale 

Matrix P , welche das Produkt von (n − 2) Householder-Reflexionen 

⎛ 

ist, 

⎞ 

∗ ∗ 0 

. ∗ .. . .. 

sodass P AP t Tridiagonalgestalt hat, d. h. P AP t = 

. .. . .. 

⎜ 

∗ 

⎟ 

⎝ 

⎠ 

0 ∗ ∗ 

Da die Eigenwerte bei Ähnlichkeitstransformationen erhalten bleiben, ist 

die Berechnung von Eigenwerten symmetrischer Matrizen jetzt auf symmetrische 

Tridiagonalmatrizen zurückgeführt. 

Definiere eine Folge von Matrizen A (k+1) = Q (k)t A (k) Q (k) durch 

A (k) = Q (k) R (k) , A (k+1) = R (k) Q (k) . (5.15) 

Die Matrizen A (k) sind alle ähnlich zu A und da A symmetrisch ist, sind 

auch alle A (k) symmetrisch. Die Tridiagonalgestalt von A vererbt sich 

auf A (k) . Es folgt A (k+1) = Q (k)t · . . . · Q (1)t AQ (1) · . . . · Q (k) , 

⇔ A (k) = Q (1) · . . . · Q (k) A (k−1) Q (k)t · . . . · Q (1)t . (5.16) 

Satz. Sei A ∈ R n×n symmetrisch mit n verschiedenen Eigenwerten 

|λ 1 | > . . . > |λ n| > 0 und A (k) , Q (k) , R (k) wie im oben genannten 

Algorithmus. Dann gilt 

lim 

k→∞ Q(k) = E n, 

lim 

k→∞ R(k) = Λ, 

⇒ lim 

k→∞ A(k) = Λ. 

Verfahren (QR-Algorithmus zur Bestimmung der Eigenwerte einer Matrix). 

1. Reduziere das Problem auf Tridiagonalgestalt A → A 1 = P AP t 

mit orthogonaler Matrix P und A 1 einer symmetrischen, tridiagonalen 

Matrix, meist mittels Householder-Transformationen. 

2. Approximiere die Eigenwerte mit der QR-Iteration mittels Givens- 

Rotation angewandt auf A 1 : A (s+1) = Q (s)t · . . . · Q (1)t A (1) Q (1) · 

. . . · Q (s) = QA 1 Q t ≈ Λ. Also ist A ≈ P t Q t ΛQP , wobei die Matrix 

Q t das Produkt aller Givens-Rotationen ist. 

3. Die Spalten von QP approximieren die Eigenvektoren von A: 

QP ≈ (v 1 , . . . , v n). 

Bemerkung (Allgemeines zum QR-Algorithmus zur Bestimmung der 

Eigenwerte einer Matrix). 

- Vorteil: Konvergenzgeschwindigkeit 

Es kann gezeigt werden, dass a (k) 

ij = O(|λ i/λ j | k ) für i > j gilt. Dies 

gibt somit die Geschwindigkeit von R(k) gegen Λ an. 

- Vorteil: Mehrere Eigenwerte 

Für mehrere Eigenwerte konvergiert das Verfahren ebenfalls. Falls 

λ i = −λ i+1 ist, bleiben jedoch 2 × 2-Blöcke stehen, deren Eigenwerte 

gegen λ i , λ i+1 konvergieren. 

- Aufwand: Für den ersten der angesprochenen Punkte benötigt man 

ungefähr 4/3 · n 3 Multiplikationen für die Householder-Reflexionen. 

Für den zweiten Punkt O(n 2 ) Multiplikationen je Iteration. Für 

große n überwiegt der Aufwand für die Reduktion auf Tridiagonalgestalt. 

Von der Größenordnung ist der Algorithmus mit der 

inversen Vektoriteration vergleichbar, für die Konvergenzgeschwindigkeit 

für den größen, bzw. den kleinsten Eigenwert gilt Entsprechendes. 

- Spezialfall für nicht-symmetrische Matrizen: 

Nicht symmetrische Matrizen werden zuerst mittels einer orthogonalen 

Ähnlichkeitstransformation auf Hessenberggestalt gebracht. 

Anschließend wird mit der QR-Iteration iterativ die Schursche Normalform 

approximiert.

6. Interpolation # 35 

✗ Lagrangesche Interpolationsformel? Lagrangepolynome? 


✗ Lemma von Aitken?

# 35 Antwort 

Satz (Eindeutigkeit und Existens des Interpolationspolynoms). Zu beliebigen 

(n + 1) Stützpunkten (x i , f i ), i = 0, . . . , n mit x i ≠ x k für i ≠ k 

gibt es genau ein p ∈ P n mit p(x i ) = f i für i = 0, . . . , n. Das Polynom 

p = p(f|x 0 , . . . , x n) heißt Interpolationspolynom von f zu x 0 , . . . , x n. 

Der Beweis des Satzes führt auf die Lagrangesche Interpolationsformel 

und verwendet die Lagrange-Polynome 

gegeben durch 

L i (x k ) = δ ik , (6.1) 

L i (x) := (x − x 0) · · · (x − x i−1 )(x − x i+1 ) · · · (x − x n) 

(x i − x 0 ) · · · (x i − x i−1 )(x i − x i+1 ) · · · (x i − x n) 

(6.2) 

Damit lautet die Lagrangesche Interpolationsformel 

und diese bestimmt dann p. 

p(x) = 

n∑ 

f i L i (x) (6.3) 

i=0 

Bemerkung. Aus der Lagrangeschen Interpolationsformel geht hervor, 

dass p linear von den Stützwerten f i abhängt und die Lagrange-Polynome 

eine Basis bilden. Die Interpolationsformel ist, wenn auch für viele theoretische 

Fragen günstig, für praktische Zwecke zu rechenaufwendig. 

# 36 Antwort 

Zur Auswertung des Interpolationspolynoms p(f|x 0 , . . . , x n) an einer festen 

Stelle ¯x, d. h. zur Berechnung des Wertes p(¯x) beachte das folgende 

Lemma. 

Lemma (Lemma von Aitken). Für das Interpolationspolynom 

p(f|x 0 , . . . , x n) gilt die Rekursionsformel 

p(f|x 0 , . . . , x n)(¯x) = (x 0 − ¯x)p(f|x 1 , . . . , x n)(¯x) 

x 0 − x n 

− 

− (xn − ¯x)p(f|x 0, . . . , x n−1 )(¯x) 

x 0 − x n 

. (6.4)


✗ Wie berechnet man jetzt das Polynom genau? 


✗ Newtonsche Interpolationsformel?

# 37 Antwort 

Mit dem Lemma von Aitken gilt weiter 

p(f|x i )(x) = f i , ∀x. (6.5) 

Definiere nun für ein festes ¯x 

P ik = p(f|x i−k , . . . , x i )(¯x). (6.6) 

Dann lässt sich der Wert p(f|x 0 , . . . , x n)(¯x) = p(¯x) = P nn wie folgt 

berechnen: 

Verfahren (Schema von Neville). Setze P i0 := f i für i = 0, . . . , n und 

P ik = P i,k−1 + 

¯x − x i 

x i − x i−k 

(P i,k−1 − P i−1,k−1 ), (6.7) 

für n ≥ i ≥ k ≥ 1. Die Berechnung benötigt weniger Multiplikationen als 

die im Lemma von Aitken und ist deutlich billiger als die Lagrangesche 

Interpolation. Pro Auswertung an einer Stelle ¯x sind n(n+1)/2 Multplikationen 

und Divisionen notwendig. Soll das Interpolationspolynom an 

mehreren Stellen ausgewertet werden, ist das Schema von Neville jedoch 

zu teuer. 

# 38 Antwort 

Die praktisch bedeutendste Alternative zur Potenzform bietet die 

Newton-Darstellung, die insbesondere - wie die Lagrange-Darstellung 

- die Notwendigkeit vermeidet, Gleichungssysteme zu lösen. Die Darstellung 

in der Newtonschen Basis beruht auf folgender Idee: Hat man 

P (f|x 0 , . . . , x n−1 ) bereits bestimmt, so sucht man nach einem Korrekturterm, 

durch dessen Ergänzung man P (f|x 0 , . . . , x n) erhält, also eine 

weitere Stützstelle einbezieht. 

Lemma. Für alle Lagrange-Interpolationspolynome P n−1 = 

P (f|x 0 , . . . , x n−1 ) ∈ P n−1 und P n = P (f|x 0 , . . . , x n) ∈ P n gilt 

P n(x) = P n−1 (x) + δ n(x − x 0 ) · . . . · (x − x n−1 ), (6.8) 

δ n = 

f(x n) − P n−1 (x n) 

∈ R. (6.9) 

(x n − x 0 ) · . . . · (x n − x n−1 ) 

Der Koeffizient δ n hängt offensichtlich von f und den Stützstellen x i 

ab. Man schreibt daher auch δ n := [x 0 , . . . , x n]f. Dieses [x 0 , . . . , x n]f 

ist offensichtlich der führende Koeffizient des Interpolationspolynoms 

P (f|x 0 , . . . , x n)(x), d. h. der Koeffizient der Potenz x n . 

Verfahren (Newtonsche Interpolationsformel). Wendet man dieselbe 

Argumentation auf P n−1 (x) = P (f|x 0 , . . . , x n−1 )(x) an, so ergibt sich 

induktiv 

P (f|x 0 , . . . , x n)(x) = [x 0 ]f + (x − x 0 )[x 0 , x 1 ]f+ (6.10) 

+ (x − x 0 )(x − x 1 )[x 0 , x 1 , x 2 ]f + . . . + (x − x 0 ) · · · (x − x n−1 )[x 0 , . . . , x n]f. 

Diese Darstellung ist eindeutig und legt damit die Koeffizienten 

[x 0 , . . . , x k ]f fest, da die Knotenpolynome - die sogenannten Newton- 

Polynome - ω 0 (x) := 1, ω k (x) := (x − x 0 ) · . . . · (x − x k−1 ), k = 1, . . . , n, 

wie man leicht sieht eine Basis - die sogenannte Newton-Basis - von P n 

bilden. 

Die sukzessive Verwendung wird sehr schnell umständlich, weshalb wir 

einen systematischen Weg suchen, die Korrekturkoeffizienten δ k zu bestimmen. 

δ 0 = [x 0 ]f = f(x 0 ) ist schon vom Rekursionsanfang her bekannt. 

Für n = 1 zeigt man sofort, dass [x 0 , x 1 ]f = f(x 1)−f(x 0 ) 

gilt. 

x 1 −x 0 

Dies deutet schon folgende allgemeine Gesetzmäßigkeit an. 

Lemma. Seien die x i paarweise verschieden. Dann gilt 

[x 0 , . . . , x n]f = [x 1, . . . , x n]f − [x 0 , . . . , x n−1 ]f 

x n − x 0 

. (6.11) 

Aufgrund dieser Gleichung heißen die Koeffizienten [x 0 , . . . , x n]f auch 

dividierte Differenzen der Ordnung n von f. 

Beispiel (Auswertung der Newton-Darstellung). Liegt die Newton- 

Darstellung vor, d. h. hat man die dividierten Differenzen berechnet, kann 

man zur Auswertung aufgrund der Produktstruktur der Newton-Basis 

wieder ein Horner-artiges Schema der geschachtelten Multiplikationen 

verwenden. Wir deuten dies an folgendem Beispiel an: 

P (f|x 0 , x 1 , x 2 )(x) = d 0 + d 1 (x − x 0 ) + d 2 (x − x 0 )(x − x 1 ) = 

= d 0 + (x − x 0 )[d 1 + d 2 (x − x 1 )]. (6.12) 

Eine offensichtliche Verallgemeinerung liefert folgenden Algorithmus zur 

Berechnung des Wertes P (f|x 0 , . . . , x n)(x). 

Verfahren (Auswertung der Newton-Darstellung). Gegeben seien die 

dividierten Differenzen d k = [x 0 , . . . , x k ]f, k = 0, . . . , n. Setze p := d n. 

Für k = n − 1, n − 2, . . . , 0 berechne 

was p = P (f|x 0 , . . . , x n)(x) ergibt. 

p(x − x k ) + d k → p, (6.13) 

Rechnung (Aufwand der Newton-Interpolation). 

1. Der Rechenaufwand zur Berechnung der Koeffizienten in der Newtonschen 

Interpolationsformel mit dem Schema der dividierten Differenzen 

beträgt etwa n+n − 1+. . .+2+1 = 1/2·n(n+1) ≈ 1/2·n 2 

Divisionen und n(n + 1) Additionen. 

2. Für die Auswertung sind nur n Multiplikationen und 2n Additionen 

erforderlich. 

3. Der Gesamtaufwand kann mit dem Neville-Aitken-Schema konkurrieren.


✗ Fehlerabschätzung bei Interpolation? 

7. Numerische Integration, Quadratur # 40 

✗ Einfache Quadraturformeln?

# 39 Antwort 

Die Fehler f(x) − p(x) kann nicht abgeschätzt werden, falls nicht mehr 

als die Funktionswerte f i von f bekannt sind. 

Satz (Restglieddarstellung bei der Polynominterpolation). Sei f (n+1)- 

mal stetig differenzierbar, so gibt es zu jedem ¯x eine Zahl ξ(¯x) aus dem 

kleinsten Intervall I , welches alle x 0 , . . . , x m und ¯x enthält, sodass 

f(¯x) − p(f|t 0 , . . . , t n)(¯x) = f (n+1) (ξ) 

w n+1 (¯x). (6.14) 

(n + 1)! 

# 40 Antwort 

Die Riemannsche-Integralfunktion I : C([a, b]) → R ist eine positive Linearform, 

d. h. I ist linear und falls f ≥ 0 gilt I(f) ≥ 0. Weiterhin gilt 

∫ b ∫ c ∫ c 

f(t) dt + f(t) dt = f(t) dt. (7.1) 

a 

b 

a 

Diese Eigenschaften sollten bei den Quadraturformeln möglichst beibehalten 

werden. 

Verfahren (Mittelpunktsregel). Wir teilen die Fläche unter der Kurve 

auf in kleine Rechtecke der Fläche 

( ) 

xi+1 − x i 

f 

(x i+1 − x i ). (7.2) 

2 

Zerlege [a, b] in Teilintervalle [x i , x i+1 ] für i = 0, . . . , n − 1 der Länge 

h = b−a/n (äquidistantes Gitter), d. h. 

n−1 ∑ 

Î M (f) = h f 

i=0 

( xi+1 + x i 

2 

) 

. (7.3) 

Verfahren (Trapezsumme). Wir interpolieren stückweise linear. Mit der 

Formel für den Flächeninhalt eines Trapezes gilt 

(x i+1 − x i ) f(x i+1) + f(x i ) 

2 

(7.4) 

⇒ ÎT (f) = 1 n−1 ∑ 

(x i+1 − x i )(f(x i+1 ) + f(x i )), 

2 

i=0 

(7.5) 

und für äquidistante Punkte ergibt sich für die Trapezsumme 

( ( n−1 

) ) 

1 ∑ 

Î T (f) = h 

2 f(x 0) + f(x i ) + 1 2 f(xn) . (7.6) 

i=1


✗ Interpolarische Integration? 


✗ Iterative Anwendung der Newton-Cotes-Formel?

# 41 Antwort 

Die Idee ist, f polynomial auf [a, b] an paarweise verschiedenen 

Stützstellen a = x 0 < . . . < x n = b zu interpolieren und dann das 

Integral zu berechnen, d. h. 

Î(f) = I(p(f|x 0 , . . . , x n)), (7.7) 

n 

⇒ Î(f) = ∑ 

∫ b 

f(x i ) L i (t) dt, (7.8) 

i=0 a 

=: ∑ w i f(x i ) (7.9) 

∫ b 

w i = L i (t) dt. (7.10) 

a 

Die w i werden Gewichte genannt. Offensichtlich sind diese Quadraturformeln 

exakt für Polynome vom Grad ≤ n. Es gilt sogar das folgende 

Lemma. 

Beispiel (Trapezregel als spezielle Newton-Cotes-Formel). Sei [t k−1 , t k ] 

ein typisches Teilintervall, das wir im Folgenden der Einfachheit halber 

mit [c, d] bezeichnen wollen. Seien x 1 , . . . , x m ∈ [c, d] verschiedene 

Punkte. Als Näherung für f verwendet man das Interpolationspolynom 

P (f|x 0 , . . . , x m) zu den Stützstellen x j . Als Näherung für ∫ d 

c f(x) dx 

erhält man dann die Quadraturformel 

∫ d 

I m(f) = P (f|x 0 , . . . , x m)(x) dx, (7.11) 

c 

wobei das Integral eines Polynoms einfach zu berechnen ist. Wählt man 

m = 1, x 0 = c und x 1 = d, so erhält man die Trapezregel als Newton- 

Cotes-Formel. 

Lemma. Zu (n+1) paarweise verschiedenen Knoten x 0 < . . . < x n gibt 

es genau eine einzige Quadraturformel Î(f) = ∑ n 

i=1 w if(x i ), welche für 

alle Polynome p ∈ P n exakt ist. 

Verfahren (Newton-Cotes-Quadraturformel). Für h = b−a/2 und x i = 

a + ih gilt für w durch Substitution z := t−a/h: 

∫ n 

w i = h 

0 

n∏ 

j=0 

i≠j 

z − j 

dz, (7.12) 

i − j 

d. h. sie werden nicht für jedes [a, b] neu berechnet. Die Umformulierung 

Î n(f) = 

n∑ 

i=0 

w i f(x i ) = b − a 

n − s 

n∑ 

σ i f(x i ) (7.13) 

führt das mit geeigneten s ∈ N auf einen ganzzahligen Koeffizienten σ i 

zurück, die tabellarisch vorliegen. 

Bemerkung (Allgemeines zu den Newton-Cotes-Formeln). Für große 

Werte n treten leider negative Gewichte w i auf. Für positive f kann sich 

ein Î(f) negativ ergeben. Diese sind daher unbrauchbar. 

Definition (Abgeschlossene und offene Quadraturformel). Î heißt abgeschlossene 

Quadraturformel, . Entsprechend heißt Î offen, falls a < x 0 

und x n 

Definition (Newton-Cotes-Formeln). Abgeschlossene, d. h. falls a = 

x 0 und b = x n, interpolatorische Quadraturformeln mit äquidistanter 

Stützstellenverteilung x 0 , . . . , x n heißen Newton-Cotes-Formeln der Ordnung 

n. 

Satz. Sei În(f) die abgeschlossene Newton-Cotes-Formel der Ordnung 

n. Dann gilt: 

1. ∑ n 

i=0 w i = b − a, 

2. w i = w n−i , 

3. Ist n gerade, so ist În exakt für Polynome bis zum Grad (n + 1). 

i=0 

# 42 Antwort 

Betrachte die Intervallunterteilung a = t 0 < . . . < t N = b. Dann approximiere 

∫ t 

l+1 

∫ b 

N−1 ∑ 

N−1 ∑ 

I(f) = f(t) dt = 

f(t) dt = I (l) (f) (7.14) 

a 

l=0 

t l l=0 

durch wiederholtes anwenden einer Newton-Cotes-Formel În(f) auf die 

Teilintervalle [t l , t l+1 ](Î(l) n (f)), d. h. 

N−1 ∑ 

Î(f) = 

l=0 

Î n (l) 

N−1 ∑ 

(f) = 

l=0 

t l+1 − t l 

ns 

n∑ 

σ i f(t l + i˜k l ) (7.15) 

i=0 

mit ˜k l = t l+1 −t l/n. 

Für äquidistante Knoten t i = a+ih mit h = b−a/N ergibt die Anwendung 

der Trapezregel (n = 2), die Trapezsumme ÎT (f). 

Lemma (Ordnung des Trapezsummenverfahrens). Sei f ∈ C 2 ([a, b]), 

dann existiert ein τ ∈ [a, b], sodass 

Î T (f) − I(f) = b − a 

12 h2 f ′′ (τ). (7.16) 

Die Trapezsumme ist also ein Quadraturverfahren zweiter Ordnung, d. h. 

Polynome vom Grad < 2 werden exakt integriert, und der Integrationsfehler 

konvergiert mit der Ordnung 2 - wegen h 2 - gegen 0 für N → ∞.


✗ Was ist bei der Gaußquadratur anders? 


✗ Was ist Extrapolation? Romberg-Quadratur?

# 43 Antwort 

Bei der Konstruktion der Newton-Cotes-Formeln sind (n + 1) Knoten 

t i fest vorgegeben. Die Gewichte w i sind dann so bestimmt, dass 

Î n(f) = ∑ n 

i=0 w if(t i ) zumindest für alle p ∈ P n exakt ist. Für die Gauß- 

Quadratur werden sowohl die (n + 1) Knoten t i , als auch die (n + 1) 

Gewichte w i so bestimmt, dass În das Integral I mit möglichst hoher 

Ordnung approximiert. (2n + 2) Parameter sind frei, also ist maximal 

eine Ordnung (2n + 2) zu erwarten, d. h. În ist maximal für p ∈ P 2n+1 

exakt. Die t i gehen nicht linear in die Quadraturformel ein, daher ist 

auch nicht offensichtlich, dass dies auch erreicht wird. Der Ansatz für die 

Gauß-Quadratur ist noch allgemeiner: 

Betrachtet werden gewichtete Integrale 

∫ b 

I(f) := w(t)f(t) dt, (7.17) 

a 

wobei a und b auch −∞ oder ∞ sein können und die Gewichtsfunktion 

w einige Eigenschaften erfüllen muss, unter anderem nicht negativ 

und messbar sein muss. Das L 2 -Skalarprodukt ∫ b 

a f(t)g(t) dt wird zum 

gewichteten Skalarprodukt 

∫ b 

(f, g) := w(t)f(t)g(t) dt (7.18) 

a 

erweitert. Zu gegebenem n sind nun die Knoten t i , wie auch die Gewichte 

w i gesucht und variieren mit n. 

# 44 Antwort 

Die Romberg-Quadratur basiert auf der asymptotischen Fehlerentwicklung 

der Trapezsumme. 

Im Gegensatz zu den Gauß-Formeln kann man bei der Extrapolation progressiv 

vorgehen, d. h. bei einer Steigerung kann man vorher berechnete 

Funktionswerte wiederverwenden. Im Zusammenhang mit der numerischen 

Integration lässt sich dieses Prinzip z. B. im Zusammenhang mit 

der Trapezregel verwenden. Zu berechnen sei das Integral ∫ b 

a f(x) dx. Die 

Trapezsumme T (h) := ÎT (f) liefert eine Approximation der Ordnung h 2 . 

Die wesentliche Grundlage für den Erfolg von Extrapolationsrechnicken 

bildet eine sogenannte asymptotische Entwicklung des Diskretisierungsfehlers. 

Im Falle der Trapezsumme (Romberg-Quadratur) kann man diesen 

Fehler genau in folgender Reihenentwicklung beschreiben, wenn f 

genügend glatt ist: Für f ∈ C 2p+2 ([a, b]) gilt 

T (h) − I(f) = c 1 h 2 + c 2 h 4 + c 3 h 6 + . . . + c ph 2p + O(h 2p+2 ). (7.19) 

Wichtig für die folgende Argumentation ist keinesfalls die Kenntnis der 

Koeffizienten c k , sondern lediglich die Tatsache, dass die Koeffizienten 

c k nicht von h abhängen. Dann ergibt sich nämlich 

T (1/2 · h) − I(f) = c 1 

1 

4 h2 + ĉ 2 h 4 + . . . + ĉ ph 2p + O(h 2p+2 ). (7.20) 

Multipliziert man die zweite Gleichung mit 4/3 und subtrahiert dann 

1/3-mal die erste (der Faktor 1/3 ist für die korrekte Fehlerabschätzung 

wichtig, damit 4/3 · I − 1/3 · I = I ist), so erhält man 

[ 4 

3 T ( 1/2 · h) − 1 3 T (h) ] 

− I = ˜c 1 h 4 + . . . + ˜c ph 2p + O(h 2p+2 ). (7.21) 

Man kann also die Trapezsumme auf einem Gitter der Schrittweite 1/2 · h 

mit einer Trapezsumme der Schrittweite h kombinieren, um eine Genauigkeit 

der Ordnung h 4 zu erreichen. Da in der Trapezsumme bei Halbierung 

der Schrittweite die Anzahl der Funktionsauswertungen nur verdoppelt 

wird, ist die dadurch erreichte quadratische Fehlerreduktion eine 

sehr effiziente Genauigkeitssteigerung. Man kann diese Idee systematisch 

weitertreiben.

Karteikartein zur Numerik

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?