kann man das Vorlesungsskript als pdf-file herunterladen.

Einführung in die stetige 

Optimierung 

Martin Gugat ∗ 

10. Juli 2007 

∗ Dieses Skript basiert auf dem Buch von C.T. Kelley: Iterative Methods for Optimization, 

SIAM Frontiers in Applied Mathematics, 1999.

Inhaltsverzeichnis 

I. Optimierung glatter Funktionen 7 

1. Grundlagen 9 

1.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

1.2. Schreibweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

1.3. Notwendige Optimalitätsbedingungen . . . . . . . . . . . . . . . . . . . . 11 

1.4. Hinreichende Optimalitätsbedingungen . . . . . . . . . . . . . . . . . . . 12 

1.5. Quadratische Zielfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . 13 

1.5.1. Positiv denite Hessematrizen . . . . . . . . . . . . . . . . . . . . 13 

1.5.2. Indenite Hessematrizen . . . . . . . . . . . . . . . . . . . . . . . 16 

1.6. Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

1.6.1. Diskrete optimale Steuerung . . . . . . . . . . . . . . . . . . . . . 16 

1.6.2. Parameteridentizierung . . . . . . . . . . . . . . . . . . . . . . . 18 

1.6.3. Konvexe 2×2 Probleme . . . . . . . . . . . . . . . . . . . . . . . . 19 

1.7. Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2. Lokale Konvergenz des Newtonverfahrens 27 

2.1. Konvergenzarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

2.2. Standardvoraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.3. Das Newtonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.4. Inexakte Newtonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

2.4.1. Konvergenzraten . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

2.4.2. Implementierung von Newtoncg . . . . . . . . . . . . . . . . . . 33 

2.5. Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

3. Globale Konvergenz 37 

3.1. Das Verfahren des steilsten Abstiegs . . . . . . . . . . . . . . . . . . . . . 37 

3.2. Liniensuchverfahren und die Armijoregel . . . . . . . . . . . . . . . . . . 38 

3.2.1. Schrittweitensteuerung mit polynomialen Modellen . . . . . . . . 42 

3.2.2. Langsame Konvergenz beim steilsten Abstieg . . . . . . . . . . . . 44 

3.3. Trust Region Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

3.3.1. Änderung der Vertrauenskugel . . . . . . . . . . . . . . . . . . . . 47 

3.3.2. Globale Konvergenz des Trust Region Verfahrens . . . . . . . . . 49 

3.3.3. Ein unidirektionaler Trust Region Algorithmus . . . . . . . . . . . 52 

3.3.4. Die exakte Lösung des Trust Region Problems . . . . . . . . . . . 53 

3


3.4. Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 

4. Das BFGS Verfahren 63 

4.1. Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

4.1.1. Lokale Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

4.1.2. Globale Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 

4.2. Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 

4.2.1. Speicherung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 

4.2.2. Ein BFGSArmijo Verfahren . . . . . . . . . . . . . . . . . . . . . 74 

4.3. Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

5. Intervallrestriktionen 79 


5.2. Notwendige Optimalitätsbedingungen . . . . . . . . . . . . . . . . . . . . 79 

5.3. Hinreichende Optimalitätsbedingungen . . . . . . . . . . . . . . . . . . . 82 

5.4. Das Gradientenprojektionverfahren . . . . . . . . . . . . . . . . . . . . . 83 

5.4.1. Beendigung der Iteration . . . . . . . . . . . . . . . . . . . . . . . 84 

5.4.2. Konvergenzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 86 

5.4.3. Identizierung der aktiven Indices . . . . . . . . . . . . . . . . . . 88 

5.4.4. Ein Beweis von Satz 24 . . . . . . . . . . . . . . . . . . . . . . . . 88 

5.5. Superlineare Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

5.6. Unendlichdimensionale Probleme . . . . . . . . . . . . . . . . . . . . . . 89 

5.7. Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

II. Optimierung verrauschter Funktionen 93 

6. Grundkonzepte und Ziele 95 


6.2. Der Simplexgradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 

6.2.1. Vorwärtsdierenzensimplexgradient . . . . . . . . . . . . . . . . . 97 

6.2.2. Zentraldierenzensimplexgradient . . . . . . . . . . . . . . . . . . 99 

6.3. Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 

7. Implizite Filter 103 

7.1. Beschreibung und Analyse Impliziter Filter . . . . . . . . . . . . . . . . . 103 

7.2. Quasinewtonverfahren mit implizitem Filter . . . . . . . . . . . . . . . . 105 

7.3. Implementierungsbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . 105 

7.4. Implizite Filter für Probleme mit Schrankenrestriktionen . . . . . . . . . 106 

7.5. Neustart und Minima auf allen Skalen . . . . . . . . . . . . . . . . . . . 106 

8. Direkte Suchverfahren 109 

8.1. Der NelderMead Simplexalgorithmus . . . . . . . . . . . . . . . . . . . . 109 

8.2. Multidirektionale Suchverfahren . . . . . . . . . . . . . . . . . . . . . . . 110 

4


Vorbemerkung Dieses Skript basiert auf dem Buch von C.T. Kelley: Iterative 

Methods for Optimization, SIAM Frontiers in Applied Mathematics, 1999. Matlab Programme 

in http : //www.siam.org/books/fr18/. 

5


6

Teil I. 

Optimierung glatter Funktionen 

7

1. Grundlagen 

1.1. Problemstellung 

Das Problem der unrestringierten Optimierung besteht darin, eine reellwertige Funktion 

f von N Variablen zu minimieren. Dabei suchen wir einen lokalen Minimalpunkt, also 

einen Punkt x ∗ , für den gilt 

f(x ∗ ) ≤ f(x) für alle x in einer Umgebung von x ∗ . (1.1) 

Für dieses Problem nutzen wir die Notation 

min x 

f(x). (1.2) 

Wir sprechen davon, das Problem min f zu lösen. Dabei suchen wir einen lokalen Minimalpunkt. 

Die Funktion f nennt man die Zielfunktion und die Zahl f(x ∗ ) den Minimalwert. 

Falls ein lokaler Minimalpunkt x ∗ existiert, sagen wir: In x ∗ wird ein Minimum 

angenommen. 

Problem (1.2) heiÿt unrestringiert, weil wir für die Entscheidungsvariable x keine 

Zusatzbedingung fordern. Wir setzen voraus, daÿ die Zielfunktion f für alle Punkte 

x ∈ R N deniert ist. 

Das lokale Optimierungsproblem ist nicht zu verwechseln mit dem globalen Optimierungsproblem 

und viel einfacher als dieses. Beim globalen Optimierungsproblem sucht 

man einen globalen Minimalpunkt, das ist ein Punkt x ∗ , für den gilt 

f(x ∗ ) ≤ f(x) für alle x ∈ R N . (1.3) 

Das restringierte Optimierungsproblem besteht darin, eine Funktion f über eine Menge 

U ⊂ R n zu minimieren. Bei diesem Problem ist ein lokaler Minimalpunkt ein Punkt 

x ∗ ∈ U, für den gilt 

f(x ∗ ) ≤ f(x) für alle x ∈ U in einer Umgebung von x ∗ . (1.4) 

Ähnlich wie bei (1.2) schreiben wir dieses Problem als 

min f(x) (1.5) 

x∈U 

und sagen, daÿ wir das Problem min U f lösen wollen. Ein globaler Minimalpunkt ist 

hierbei ein Punkt x ∗ ∈ U, für den gilt 

f(x ∗ ) ≤ f(x) für alle x ∈ U. (1.6) 

9

1. Grundlagen 

Wir betrachten nur die einfachsten restringierten Probleme. Diskussionen komplexerer 

Probleme und Hinweise auf Software ndet man in der Literatur. 

Wenn man ein Optimierungsproblem aufgestellt hat, kann man auf die klassische Weise 

vorgehen und Verfahren benutzen, die die Glattheit von f verlangen. Diesen Zugang 

betrachten wir im ersten Teil. Diese Verfahren können versagen, falls die Zielfunktion 

Unstetigkeiten oder nichtreguläre Punkte aufweist. Solche nichtglatten Eekte sind verbreitet 

und können beispielweise durch numerische Fehler bei der Berechnung von f, 

Rauschen bei probabilistischer Modellierung von f oder die Nutzung von Messdaten 

bei der Berechnung von f verursacht werden. In Teil zwei werden wir eine Klasse von 

Verfahren zur Behandlung solcher Probleme ansprechen. 

1.2. Schreibweisen 

Wenn es nicht anders gesagt wird, betrachten wir Vektoren als Spaltenvektoren. Der 

Vektor x ∗ bezeichnet eine Lösung, x einen Lösungskandidaten und {x k } k≥0 die Folge der 

Iterationspunkte. Den Startpunkt x 0 nennen wir auch Anfangsiterationspunkt oder Anfangsschätzung. 

Die ite Komponente eines Vektors x bezeichnen wir mit (x) i (in runden 

Klammern), und die ite Komponente von x k mit (x k ) i . Allerdings werden wir selten 

mit einzelnen Vektorkomponenten arbeiten. Mit ∂f/∂x i bezeichnen wir die partielle Ableitung 

von f bezüglich (x) i . Mit e = x − x ∗ bezeichnen wir den Fehler, e n = x n − x ∗ 

bezeichnet den Fehler des nten Iterationspunktes und B(r) die Kugel mit Radius r um 

x ∗ , 

B(r) = {x : ‖e‖ < r}. 

Für x ∈ R N bezeichnet ∇f(x) ∈ R N den Gradienten von f 

falls er existiert. 

Es sei ∇ 2 f die Hessematrix von f, 

∇f(x) = (∂f/∂x 1 , ..., ∂f/∂x N ) T , 

(∇ 2 f) ij = ∂ 2 f/∂x i ∂x j , 

falls sie existiert. Die Matrix ∇ 2 f ist also die Jacobimatrix von ∇f, hat aber mehr Struktureigenschaften 

als die Jacobimatrix einer allgemeinen nichtlinearen Funktion. Falls f 

zweimal stetig dierenzierbar ist, ist die Hessematrix symmetrisch, da die partiellen 

Ableitungen vertauschbar sind. 

Wir arbeiten mit der euklidischen Norm 

∑ 

‖x‖ = √ N (x) 2 i 

und mit der induzierten Matrixnorm 

‖A‖ = max 

x≠0 

i=1 

‖Ax‖ 

‖x‖ . 

10

1.3. Notwendige Optimalitätsbedingungen 

Die Denitsheitseigenschaften der Hessematrix spielen bei den hinreichenden und notwendigen 

Optimalitätsbedingungen eine wichtige Rolle, und auch in der Auswahl unserer 

Algorithmen. 

Denition 1 Eine N × N Matrix A ist positiv semidenit, falls für alle x ∈ R N gilt 

x T Ax ≥ 0. Die Matrix A ist positiv denit, falls für alle x ∈ R N , x ≠ 0 gilt x T Ax > 0. 

Falls A sowohl negative als auch positive Eigenwerte besitzt, heiÿt die Matrix A indenit. 

Falls A symmetrisch und positiv denit ist, sagen wir A ist spd. 

Wir verwenden zwei Formen des Fundamentalsatzes der Analysis, eine Form für das 

Paar FunktionGradient und eine zweite für das Paar GradientHessematrix. 

Satz 1 Die Funktion f sei in einer Umgebung einer Verbindungsstrecke zwischen den 

Punkten x ∗ und x = x ∗ + e im R N zweimal stetig dierenzierbar. Dann gilt 

und 

f(x) = f(x ∗ ) + 

∇f(x) = ∇f(x ∗ ) + 

∫ 1 

0 

∫ 1 

Aus Satz 1 folgt folgende Version des Taylorsatzes: 

∇f(x ∗ + te) T e dt 

0 

∇ 2 f(x ∗ + te)e dt. 

Satz 2 Die Funktion f sei in einer Umgebung eines Punktes x ∗ ∈ R N zweimal stetig 

dierenzierbar. Dann gilt für e ∈ R N mit hinreichend kleiner Norm ‖e‖ die Gleichung 

f(x ∗ + e) = f(x ∗ ) + ∇f(x ∗ ) T e + (1/2)e T ∇ 2 f(x ∗ )e + o(‖e‖ 2 ). (1.7) 


Es sei f zwei Mal stetig dierenzierbar. Aus dem Taylorsatz folgt, daÿ in einem lokalen 

Minimalpunkt der Gradient von f verschwindet und die Hessematrix positiv denit ist. 

Dies sind die notwendigen Optimalitätsbedingungen. 

Die notwendigen Optimalitätsbedingungen stellen eine Verbindung zwischen dem Optimierungsproblem 

(1.1) und einer nichtlinearen Gleichung her und ermöglichen es, 

schnelle Algorithmen für nichtlineare Gleichungen zu benutzen, um Minimalpunkte zu 

berechenen. Daher sind die notwendigen Optimalitätsbedingungen in der Diskussion 

der lokalen Konvergenzeigenschaften unserer Algorithmen wesentlich. Die Formulierung 

notwendiger Optimalitätsbedingungen ist der kritische erste Schritt in der Entwicklung 

eines Verfahrens für ein neues Optimierungsproblem. Natürlich verschwindet der Gradient 

auch in einem Maximalpunkt, daher ist der Nutzen der Bedingungen auf eine 

Umgebung eines Minimalpunktes beschränkt. 

Satz 3 Es sei f zweimal stetig dierenzierbar und x ∗ ein lokaler Minimalpunkt. Dann 

gilt die Gleichung 

∇f(x ∗ ) = 0. 

Auÿerdem ist die Hessematrix ∇ 2 f(x ∗ ) positiv semidenit. 

11

1. Grundlagen 

Beweis. Es sei ein Vektor u ∈ R N gegeben. Der Taylorsatz sagt aus, daÿ für hinreichend 

kleine t gilt 

f(x ∗ + tu) = f(x ∗ ) + t∇f(x ∗ ) T u + t2 2 uT ∇ 2 f(x ∗ )u + o(t 2 ). 

Da x ∗ ein lokaler Minimalpunkt ist, gilt für alle hinreichend kleinen t die Ungleichung 

0 ≤ f(x ∗ + tu) − f(x ∗ ) und daher auch 

0 ≤ ∇f(x ∗ ) T u + t 2 uT ∇ 2 f(x ∗ )u + o(t) (1.8) 

für alle u ∈ R N und alle hinreichend kleinen t ≠ 0. Wir setzen u = −∇f(x ∗ ) und 

erhalten die Ungleichung 

0 ≤ −‖∇f(x ∗ )‖ 2 + t 2 ∇f(x∗ ) T ∇ 2 f(x ∗ )∇f(x ∗ ) + o(t). 

Also folgt, indem wir t gegen Null gehen lassen, die Gleichung 

‖∇f(x ∗ )‖ 2 = 0. 

Nun dividieren wir (1.8) durch t ≠ 0 und erhalten 

0 ≤ 1 2 uT ∇ 2 f(x ∗ )u + o(t)/t. 

Indem wir wieder den Grenzwert für t gegen Null betrachten, folgt 

0 ≤ 1 2 uT ∇ 2 f(x ∗ )u 

für alle u ∈ R N . 

Die Bedingung ∇f(x ∗ ) = 0 heiÿt die notwendige Optimalitätsbedingung erster Ordnung 

und ein Punkt der diese Bedingung erfüllt heiÿt kritischer Punkt oder stationärer 

Punkt. 

1.4. Hinreichende Optimalitätsbedingungen 

Ein kritischer Punkt muÿ nicht unbedingt ein Minimalpunkt sein. Als Beispiel betrachten 

wir die Funktion φ(t) = −t 4 , die im Nullpunkt die notwendigen Optimalitätsbedingungen 

erfüllt, für die aber die Null kein Minimalpunkt ist. Um einen Minimalpunkt 

zu erhalten, müssen wir zusätzlich fordern, daÿ die zweite Ableitung nichtnegativ ist. 

Das allein ist noch nicht ausreichend (Bsp. φ(t) = t 3 ) und nur wenn die zweite Ableitung 

strikt positiv ist, können wir ganz sicher sein. Dies sind die hinreichenden Optimalitätsbedingungen. 

Satz 4 Die Funktion f sei zweimal stetig dierenzierbar in einer Umgebung von x ∗ . 

Falls gilt ∇f(x ∗ ) = 0 und die Hessematrix ∇ 2 f(x ∗ ) positiv denit ist, ist x ∗ ein lokaler 

Minimalpunkt von f. 

12

1.5. Quadratische Zielfunktionen 

Beweis. Es sei 0 ≠ u ∈ R N . Dann gilt für hinreichend kleine t die Gleichung 

f(x ∗ + tu) = f(x ∗ ) + t∇f(x ∗ ) T u + t2 2 uT ∇ 2 f(x ∗ )u + o(t 2 ) 

( 

) 

= f(x ∗ ) + t2 u T ∇ 2 f(x ∗ )u + o(t2 ) 

. 

2 

t 2 

Da ∇ 2 f(x ∗ ) positiv denit ist, gilt u T ∇ 2 f(x ∗ )u ≥ λ‖u‖ 2 , wobei λ > 0 der kleinste 

Eigenwert der Hessematrix ist. Also folgt, daÿ x ∗ ein lokaler Minimalpunkt ist. 


Die einfachsten Optimierungsprobleme haben quadratische Zielfunktionen, d.h. 

f(x) = −x T b + 1 2 xT Hx. (1.9) 

Ohne Beschränkung der Allgemeinheit können wir voraussetzen, daÿ die Matrix H symmetrisch 

ist, denn es gilt 

( ) H + H 

x T Hx = x T T 

x. (1.10) 

2 

Die meisten Algorithm basieren auf quadratischen Funktionen, wobei die Zielfunktion 

f durch ein quadratisches Modell approximiert wird, welches dann minimiert wird. In 

diesem Abschnitt diskutieren wir einige grundlegende Fragen der quadratischen Optimierung. 

Es gilt 

∇ 2 f(x) = H 

für alle x ∈ R N . Aus der Symmetrie von H folgt 

∇f(x) = −b + Hx. 

Denition 2 Die quadratische Funktion f in (1.9) ist konvex, falls H positiv semide- 

nit ist. 

1.5.1. Positiv denite Hessematrizen 

Falls für eine quadratischen Funktion f ein Minimalpunkt x ∗ existiert, folgt aus den 

notwendigen Optimalitätsbedingungen, daÿ die Matrix H positiv semidenit ist und 

folgende Gleichung gilt: 

Hx ∗ = b. (1.11) 

In diesem Abschnitt setzen wir voraus, daÿ die Matrix H spd (und daher nichtsingulär) 

ist. 

13

1. Grundlagen 

Falls H dichtbesetzt und N nicht zu groÿ ist, ist es vernünftig, das Gleichungssystem 

(1.11) mit der Choleskyzerlegung von H, 

H = LL T , 

zu lösen, wobei L eine nichtsinguläre untere Dreiecksmatrix mit strikt positiven Diagonaleinträgen 

ist. Falls die Matrix H indenit ist, wird die Choleskyzerlegung nicht 

existieren und somit ihre Berechnung unmöglich. 

Falls N sehr groÿ, H dünn besetzt oder eine Matrixdarstellung von H nicht verfügbar 

ist, ist das Verfahren der konjugierten Gradienten ezienter. Diese Iteration erfordert nur 

die Berechnung von MatrixVektor Produkten. In unserer Formulierung des Verfahrens 

benutzen wir x sowohl als Eingabe als auch als Ausgabevariable. Beim Start enthält 

x den Startpunkt x 0 und beim Ende die berechnete Näherungslösung. Wir brechen die 

Iteration ab falls das relative Residuum hinreichend klein ist, d.h. falls gilt 

‖b − Hx‖ ≤ ε‖b‖ 

oder falls die Anzahl der Iterationen zu groÿ wird. 

Algorithmus 1 (cg(x, b, H, ε, kmax)) 

1. r = b − Hx 0 , ρ 0 = ‖r‖ 2 , k = 1. 

2. Do while √ ρ k−1 > ε‖b‖ and k < kmax 

(a) if k = 1 then p = r 

else 

β = ρ k−1 /ρ k−2 and p = r + βp 

(b) w = Hp 

(c) α = ρ k−1 /p T w 

(d) x = x + αp 

(e) r = r − αw 

(f) ρ k = r T r 

(g) k = k + 1 

Falls H nicht spd ist, kann der Nenner α = ρ k−1 /p T w verschwinden, was zu einem 

Zusammenbruch des Verfahrens führt. 

Das Verfahren der konjugierten Gradienten (cgVerfahren) minimiert f auf einer ansteigenden 

Folge von Teilräumen des R N . Es gilt 

f(x k ) ≤ f(x) für alle x ∈ x 0 + K k , 

wobei für k ≥ 1 der Raum K k der Krylovunterraum ist: 

K k = span(r 0 , Hr 0 , ..., H k−1 r 0 ). 

14


Einen Beweis dazu ndet man in [21]. 

Das cgVerfahren berechnet in N Iterationsschritten die Lösung. Allerdings sind bei 

groÿen Problemen N Schritte viel zu viele. Betrachtet man das cgVerfahren als Iterationsmethode, 

so hängt die Geschwindigkeit von b und dem Spektrum der Matrix H ab. 

Eine allgemeine Fehlerabschätzung, die hier genügen soll, ist 

⎡√ 

⎤ 

κ(H) − 1 

‖x k − x ∗ ‖ H ≤ 2‖x 0 − x ∗ ‖ H 

⎣ √ ⎦ 

κ(H) + 1 

In (1.12) ist die HNorm eines Vektors zu verstehen als 

‖u‖ 2 H = u T Hu 

für eine spd Matrix H. Die Zahl κ(H) ist die Konditionszahl 

Für spd H gilt 

κ(H) = ‖H‖ ‖H −1 ‖. 

κ(H) = λ max /λ min , 

k 

. (1.12) 

wobei λ max der gröÿte und λ min der kleinste Eigenwert von H sind. Geometrisch gesehen, 

wird κ(H) groÿ, falls die ellipsenförmigen Niveaulinien von f sehr weit weg von einer 

Kreisform sind. 

Das cgVerfahren funktioniert gut, falls κ(H) nahe bei 1 liegt und kann sehr langsam 

werden falls κ(H) groÿ ist. Man kann das Verhalten des Verfahrens durch Präkonditionierung 

verbessern, durch die (1.11) in eine Gleichung mit einer Matrix mit Eigenwerten 

nahe bei 1 transformiert wird. Angenommen, M ist spd und eine hinreichend gute Approximation 

von H −1 , so daÿ die Zahl 

κ(M 1/2 HM 1/2 ) 

wesentlich kleiner als κ(H) ist. Aus (1.12) folgt, daÿ möglicherweise weniger Iterationsschritte 

nötig sind, wenn man das cgVerfahren auf die Gleichung 

M 1/2 HM 1/2 z = M 1/2 b (1.13) 

anwendet statt auf (1.11). Die Lösung x ∗ von (1.11) erhält man aus der Lösung von 

(1.13) als 

x = M 1/2 z. (1.14) 

Tatächlich ist es nicht nötig, die Quadratwurzel der Präkonditionierungsmatrix M zu 

berechnen, wenn man folgenden Algorithmus benutzt: 

Algorithmus 2 (pcg(x, b, H, M, ε, kmax)) 

1. r = b − Hx 0 , ρ 0 = ‖r‖ 2 , k = 1. 

15

1. Grundlagen 

2. Do while √ ρ k−1 > ε‖b‖ and k < kmax 

(a) z = Mr 

(b) τ k−1 = z T r 

(c) if k = 1 then β = 0 and p = z 

else 

β = τ k−1 /τ k−2 and p = z + βp 

(d) w = Hp 

(e) α = τ k−1 /p T w 

(f) x = x + αp 

(g) r = r − αw 

(h) ρ k = r T r 

(i) k = k + 1 

In dem Algorithmus werden nur Produkte der Matrix M mit Vektoren im R N gebraucht 

und es muÿ keine Matrixdarstellung von M gespeichert werden. In der Literatur 

ndet man umfangreiche Diskussionen über Präkonditionierer und ihre Konstruktion. 

1.5.2. Indenite Hessematrizen 

Falls die Matrix H einen negativen Eigenwert besitzt, folgt aus Satz 3, daÿ kein Minimalpunkt 

existiert. Für die Konstruktion von Algorithmen ist es aber wichtig, die Eigenschaften 

quadratischer Optimierungsprobleme mit indeniten Hessematrizen zu verstehen, 

weil Iterationspunkte sehr weit entfernt von Minimalpunkten sein können. Falls 

gilt 

u T Hu < 0, 

nennen wir u eine Richtung negativer Krümmung. Falls u eine Richtung negativer Krümmung 

ist, so konvergiert f(x + tu) gegen −∞ für t → ∞. 

1.6. Beispiele 

In diesem Abschnitt werden einige Beispiele präsentiert, die bei der Entwicklung unserer 

Algorithmen nützlich sein werden. Mit den Beispielen kann man mit den Algorithmen 

experimentieren und mit den MATLABRoutinen spielen. Die Beispiele sind von einfacher 

Art und bilden keine vollständige Sammlung von Testproblemen. 

1.6.1. Diskrete optimale Steuerung 

Dies ist das klassische Beispiel für ein Problem, bei dem die Auswertungen von Gradienten 

wenig mehr als Funktionsauswertungen kosten. 

Wir beginnen mit einem stetigen Optimalsteuerungsproblem, diskutieren, wie Gradienten 

berechnet werden und fahren dann mit den Diskretisierungen fort. Wir werden 

uns hier nicht länger mit den Fragen der Denition von Gradienten von Abbildungen, 

16

1.6. Beispiele 

die auf Funktionenräumen deniert sind beschäftigen können, obwohl diese Fragen bei 

Problemen der optimalen Steuerung sehr wichtig sind. Ausführliche Darstellungen der 

Funktionenräume und sorgfältige Diskussionen dieser Fragen ndet man in der Literatur. 

Das unendlichdimensionale Problem, von dem wir ausgehen ist 

mit der Zielfunktion 

f(u) = 

∫ T 

0 

min u 

f, (1.15) 

L(y(t), u(t), t) dt. (1.16) 

Wir suchen eine Lösungsfunktion u ∈ L ∞ [0, T ], die wir Steuerungsfunktion oder auch 

nur Steuerung nennen. Die Funktion L ist gegeben und y, die Zustandsvariable, löst das 

Anfangswertproblem 

dy/dt = φ(y(t), u(t), t), y(0) = y 0 . (1.17) 

Man kann das Optimierungsproblem (1.15), (1.16), (1.17) als restringiertes Optimierungsproblem 

betrachten oder als unrestringiertes Problem, bei dem die Auswertung von f 

die Lösung des Anfangswertproblems (1.17) erfordert, bevor das Integral auf der rechten 

Seite von (1.16) ausgewertet werden kann. Man nennt das Anfangswertproblem (1.17) 

die Zustandsgleichung. 

Der Gradient ∇f(u) bezüglich dem L 2 Skalarprodukt ist, falls er existiert, eindeutig 

bestimmt durch die Gleichung 

Falls ∇f(u) existiert, gilt 

f(u + w) − f(u) − 

∫ T 

0 

∫ T 

[(∇f(u))(t)] T w(t) dt = 

0 

[(∇f(u))(t)] T w(t) dt = o(‖w‖). (1.18) 

df(u + ξw) 

| ξ=0 . 

dξ 

Falls L und φ stetig dierenzierbar sind, ist ∇f(u) als eine Funktion von t gegeben durch 

∇f(u)(t) = p(t)φ u (y(t), u(t), t) + L u (y(t), u(t), t). (1.19) 

In Gleichung (1.19) ist die adjungierte Variable p die Lösung des Endwertproblems auf 

[0, T ] 

− dp/dt(t) = p(t)φ y (y(t), u(t), t) + L y (y(t), u(t), t), p(T ) = 0. (1.20) 

Zur Berechnung des Gradienten braucht man also u und y, also eine Lösung der Zustandsgleichung, 

und p, was eine Lösung von (1.20) erfordert, einem Endwertproblem 

mit der adjungierten Gleichung. Im Allgemeinen ist (1.17) nichtlinear, aber (1.20) ist 

ein lineares Problem für p, das einfacher zu lösen sein sollte. Dies ist die Begründung 

für unsere Behauptung, daÿ eine Gradientenauswertung wenig mehr als eine Funktionsauswertung 

kostet. 

Das entsprechende diskretisierte Problem erhält man aus (1.17) durch numerische Integration 

des Anfangswertproblems. Zu diesem diskretisierten Problem kann man eine 

17

1. Grundlagen 

adjungierte Variable einführen und Gradienten mit einer diskretisierten Form von (1.19) 

berechnen. Allerdings hat Hager 1976 [19] gezeigt, daÿ die Gleichung für die ajungierte 

Variable zu dem diskretisierten Problem im Allgemeinen keine Diskretisierung von 

(1.20) ist. Für das EulerVorwärtsverfahren ist allerdings die adjungierte Gleichung zu 

dem diskretisierten Problem gleichzeitig die Diskretisierung der adjungierten Gleichung; 

deshalb verwenden wir dieses Verfahren hier. 

Das vollständig diskretisierte Problem ist min u f, mit u ∈ R N mit den Komponenten 

(u) 0 , (u) 1 ,...,(u) N−1 und 

f(u) = 

N−1 ∑ 

j=0 

h L((y) j , (u) j , j h), 

wobei die Zustandskomponenten (y) j mit dem gegebenen Anfangszustand y 0 und der 

Eulerrekursion y j+1 = y j + hφ(y j , u j , j h) für j = 0,...,N − 1 berechnet werden. Dabei ist 

die Schrittweite h = T/N. Dann gilt 

mit (p) N−1 = 0 und 

für j = N − 1,...,0. 

(∇f(u)) k = hL u ((y) k , (u) k , k h) + h(p) k φ u ((y) k , (u) k , k h) 

(p) j−1 = (p) j + h [(p) j φ y ((y) j , (u) j , j h) + L y ((y) j , (u) j , j h)] 

1.6.2. Parameteridentizierung 

Dieses Beispiel stammt aus einer Arbeit von Banks und Tran. Das Problem ist klein 

mit N = 2. Gesucht sind ein Dämpfungsfaktor c und eine Federkonstante k einer linearen 

Feder, für die der Abstand zwischen einem gegebenen Satz von Messdaten und 

den entsprechenden numerischen Vorhersagen minimiert wird. Das Experiment besteht 

darin, das MasseFeder System aus dem Gleichgewicht auszulenken und die erzeugte 

Bewegung durch Messungen auf einem äquidistanten Zeitgitter zu beobachten. 

Die Bewegung des harmonischen Oszillators wird durch folgendes Anfangswertproblem 

beschrieben: 

u ′′ + cu ′ + ku = 0, u(0) = u 0 , u ′ (0) = 0. (1.21) 

Wir betrachten das Zeitintervall [0, T ]. Es sei x = (c, k) T der Vektor der unbekannten 

Parameter und, wenn die Parameterabhängigkeit explizit sein soll, schreiben wir u(t : x) 

anstelle von u(t) für die Lösung von (1.21). Falls die Auslenkung an den Zeitpunkten 

{t j } M j=1 gemessen wird, mit t j = (j−1)T/(M−1), und die entsprechenden Beobachtungen 

von u durch {u j } M j=1 gegeben sind, ist unsere Zielfunktion 

f(x) = 1 2 

M∑ 

j=1 

|u(t j : x) − u j | 2 . (1.22) 

Dies ist ein Beispiel eines nichlinearen KleinsteQuadrateproblems. 

18

1.7. Übungen 

Die Funktion u ist dierenzierbar von x abhängig falls c 2 − 4k ≠ 0. Dann ist der 

Gradient von f gegeben durch 

∇f(x) = 

( ∑ Mj=1 

∂ c u(t j : x)(u(t j : x) − u j ) 

∑ Mj=1 

∂ k u(t j : x)(u(t j : x) − u j ) 

) 

. (1.23) 

Die Ableitungen von u(t : x) nach den Parametern können wir berechnen, indem wir die 

Sensitivitätsgleichung lösen. Wir dierenzieren (1.21) nach c und k und setzen w 1 = ∂ c u 

und w 2 = ∂ k u. Dann erhalten wir 

w ′′ 

1 + u ′ + cw ′ 1 + kw 1 = 0, w 1 (0) = w ′ 1(0) = 0, 

w ′′ 

2 + cw ′ 2 + u + kw 2 = 0, w 2 (0) = w ′ 2(0) = 0, 

(1.24) 

Falls c groÿ ist, werden die Anfangswertprobleme (1.21) und (1.24) steif und man sollte 

ein Verfahren mit variabler Schrittweite verwenden. Spezielle Verfahren zur Lösung steifer 

Systeme werden in der Literatur beschrieben. Bei den numerischen Beispielen wird 

das MATLAB Programm ode15s verwendet. Auch in dem Optimalsteuerproblem aus 

1.6.1 kann Steigkeit auftreten, aber dies ist in unseren Beispielen nicht der Fall. Bei der 

numerische Lösung gewöhnlicher Dierentialgleichungen ist es wichtig, auf die Grenzen 

der Genauigkeit der berechneten Lösung zu achten, besonders, wenn man damit weiterrechnet, 

zum Beispiel um eine Hessematrix mit niten Dierenzen zu approximieren. 

1.6.3. Konvexe 2×2 Probleme 

Konvexe 2×2 Probleme sind in einem gewissem Sinne die einfachsten Optimierungsprobleme. 

Trotzdem stellen sie eine Herausforderung für ableitungsfreie Verfahren dar und 

können bei klassischen gradientenbasierten Verfahren wie dem Verfahren des steilsten 

Abstiegs grundsätzliche Schwierigkeiten verdeutlichen. In unseren Beispielen wählen wir 

N = 2, b = 0 und 

( ) 

λmax 0 

H = 

0 λ min 

mit 0 < λ min ≤ λ max . Die zu minimierende Zielfunktion ist 

f(x) = x T Hx 

und der Minimpalpunkt ist x ∗ = (0, 0) T . 

Wenn λ max /λ min groÿ wird, werden die Niveaulinien von f zu länglichen Ellipsen. Im 

Falle λ max = λ min , wird min x f zu dem einfachsten Optimierungsproblem. 

1.7. Übungen 

19

1. Grundlagen 

Übung 1 (zum Verfahren der konjugierten Gradienten) 

Denition 3 (Konjugierte Richtungen) Die Vektoren p i ≠ 0 heiÿen konjugiert bezüglich 

der spd Matrix H (oder Hkonjugiert), falls aus i ≠ j folgt 

p T i Hp j = 0. 

1. Gegeben seien x 0 ∈ R N und eine Horthogonale Basis p 1 ,...,p N . 

Berechnen sie für die quadratische Funktion f aus (1.9) die Funktion 

2. Berechnen Sie die Zahl α j , so daÿ gilt 

f(x 0 + 

j∑ 

i=1 

N∑ 

f(x 0 + α i p i ). 

i=1 

j−1 ∑ 

α i p i ) = min f(x 0 + α i p i + β j p j ). 

β j 

3. Für i = 1,...,N sei x i = x i−1 + α i p i und r i = −∇f(x i ) = b − Hx i . Zeigen sie: 

i=1 

r T i p j = 0 für j = 1, ..., i. 

Ausgehend von dem Startpunkt x 0 , wollen wir nun sukzessive x 1 bis x N berechnen. 

Dabei wollen wir die dazu benötigten Horthogonalen p i unter Verwendung von 

r i−1 ebenfalls sukzessive erzeugen. Wir berechnen also x 0 , r 0 , p 1 , x 1 , r 1 , p 2 , x 2 , r 2 , 

p 3 , ... 

Wir beginnen mit der Richtung des steilsten Abstiegs, p 1 = r 0 = b − Hx 0 und 

berechnen x 1 = x 0 + α 1 p 1 , mit α 1 = p T 1 r 0 /(p T 1 Hp 1 ) = r T 0 r 0 /(p T 1 Hp 1 ). 

4. Wir machen nun den Ansatz p 2 = r 1 + β 1 p 1 . 

Berechnen Sie p 2 , so daÿ gilt p T 1 Hp 2 = 0. 

Mit p 2 berechnen wir x 2 = x 1 + α 2 p 2 . 

Für p i+1 machen wir den Ansatz 

Dabei sollen die p i Horthogonal sein. 

i∑ 

p i+1 = r i + β j p j . 

j=1 

5. Zeigen sie: Falls für alle j ≤ i − 1 gilt r j ∈ span{p 1 , ..., p j+1 } und α j ≠ 0, folgt 

0 = β 1 =...= β i−1 . 

6. Berechnen Sie β i ! 

20

1.7. Übungen 

7. Zeigen Sie: 

Lösung 

1. 

rT i r i 

α i = rT i−1r i−1 

, β 

p T i = − . 

i Hp i ri−1r T i−1 

N∑ { } 

f(x) = f(x 0 ) + αi (x T 0 Hp i − p T i b) + (1/2)αi 2 p T i Hp i 

i=1 

2. Indem man die entsprechende Ableitung gleich Null setzt, erhält man 

3. Es gilt 

Wir denieren die Hilfsfunktion 

Dann gilt 

α j = (p T j (b − Hx 0 ) )/(p T j Hp j ). 

f(x i ) = min 

β 1 ,...,β i 

f(x 0 + 

i∑ 

β j p j ). 

j=1 

i∑ 

ϕ(β 1 , ..., β i ) = f(x 0 + β j p j ). 

j=1 

ϕ(α 1 , ..., α i ) = min 

β 1 ,...,β i 

ϕ(β 1 , ..., β i ), 

also folgt aus der notwendigen Optimalitaätsbedingung ∂ βj ϕ(α 1 , ..., α i ) = 0, wobei 

∂ βj die partielle Ableitung nach β j bezeichnet. Wegen ∂ βj ϕ(α 1 , ..., α i ) = ∇f(x i ) T p j = 

−r T i p j , für j ∈ {1, ..., i} folgt die Behauptung. 

4. Es gilt p 2 = r 1 + β 1 p 1 mit 

5. Nach Denition von r j gilt 

also 

Aus Teil 3. folgt also 

β 1 = − rT 0 Hr 1 

r T 0 Hr 0 

. 

r j = b − Hx j = b − Hx j−1 − α j Hp j = r j−1 − α j Hp j , 

α j Hp j = r j−1 − r j . 

α j r T i Hp j = r T i (r j−1 − r j ), 

und wegen (r j−1 − r j ) ∈ span{p 1 , ..., p j+1 } folgt folgt r T i Hp j = 0 für j ≤ i − 1. Also 

gilt 

0 = p T j Hp i+1 = p T j Hr i + β j p T j Hp j = 0 + β j p T j Hp j 

für j ≤ i − 1 und es folgt die Behauptung. 

21

1. Grundlagen 

6. Wie in 4. folgt 

β i = − pT i Hr i 

p T i Hp i 

. 

7. Es gilt p T i r i−1 = p T i (r 0 − ∑ i−1 

j=1 α j Hp j ) = p T i r 0 . Also folgt α i = p T i r 0 /p T i Hp i = 

p T i r i−1 /p T i Hp i . Nach unserem Ansatz gilt p i = r i−1 + ∑ i−1 

j=1 β j p j , somit folgt p T i r i−1 = 

ri−1r T i−1 + ∑ i−1 

j=1 ri−1p T j = ri−1r T i−1 + 0, wobei die letzte Gleichung aus Teil 3. folgt. 

Wie in 5. folgt Hp i = (r i−1 − r i )/α i , also −ri T Hp i = rir t i /α i . Somit gilt 

β i = r T i r i /(α i p T i Hp i ) = r T i r i /r T i−1r i−1 . 

Übung 2 (zum Optimalsteuerungsproblem) 

Stetiges Problem 

Es seien die Funktionen L(Y, U, t) und φ(Y, U, t) zweimal stetig dierenzierbar. Für 

eine Steuerungsfunktion u ∈ L ∞ (0, T ) sei y(u, t) deniert als Lösung des Anfangswertproblems 

y(0) = y 0 , y ′ (t) = φ(y(t), u(t), t). Es sei 

f(u) = 

∫ T 

0 

L(y(u, t), u(t), t) dt. 

Wir interessieren uns für die Richtungsableitungen 

D d f(u) = lim 

ξ→0 

(f(u + ξd) − f(u))/ξ. 

1. Wir setzen voraus, dass die Richtungsableitung 

D d y(u)(t) = lim 

ξ→0 

(y(u + ξd, t) − y(u, t))/ξ 

existiert. Stellen sie ein Anfangswertproblem für D d y(u) auf! 

2. Zeigen Sie: 

D d f(u) = 

∫ T 

0 

L y (y(u, t), u(t), t)D d y(u)(t) + L u (y(u, t), u(t), t) d(t) dt. 

3. Zeigen Sie mit partieller Integration, dass für eine dierenzierbare Funktion p mit 

p(T ) = 0 gilt: 

∫ T 

0 

∫ T 

p(t)(d/dt)D d y(u)(t) dt = − p ′ (t)D d y(u)(t) dt. 

0 

4. Wir denieren nun p als Lösung des Endwertproblems 

p(T ) = 0, p ′ (t) = −L y (y(u, t), u(t), t) − p(t)φ y (y(u, t), u(t), t). 

Zeigen sie, dass dann unter Verwendung der bisherigen Ergebnisse folgt: 

22

1.7. Übungen 

D d f(u) = 

∫ T 

0 

L u (y(u, t), u(t), t)d(t) + p(t)φ u (y(u, t), u(t), t)d(t) dt. 

Diskretisiertes Problem 

Wir betrachten nun das diskretisierte Problem, mit u ∈ R N , u = (u 0 , ..., u N−1 ) T 

und der Schrittweite h = T/N. 

Wir setzen y j+1 = y j + hφ(y j , u j , jh), j = 0, ..., N − 1 und 

f(u) = 

N−1 ∑ 

j=0 

h L(y j , u j , jh). 

5. Zeigen Sie, dass für die partiellen Ableitungen (df/du k ) gilt 

N−1 

df 

∑ 

(u) = h∂ u L(y k , u k , kh) + h∂ y L(y j , u j , jh) dy j 

. 

du k du k 

6. Stellen Sie ein diskretes Anfangswertproblem (eine Rekursion) für die partiellen 

Ableitungen (d/du k )y j = ∂ k y j auf! 

7. Zeigen Sie, dass für p = (p 1 , ..., p N−1 ) mit p N−1 = 0 gilt 

N−1 ∑ 

j=0 

p j (∂ k y j+1 − ∂ k y j ) = 

j=0 

N−1 ∑ 

j=1 

(p j−1 − p j )∂ k y j . 

8. Wir denieren nun p folgendermaÿen: 

p N−1 = 0, p j−1 = p j + hp j ∂ y φ(y j , u j , jh) + hL y (y j , u j , jh). 

Zeigen Sie unter Verwendung der bisherigen Ergebnisse: 

Lösung 

∂ k f(u) = h∂ u L(y k , u k , kh) + hp k ∂ u φ(y k , u k , kh). 

1. Anfangsbedingung: D d y(u)(0) = 0. Dierentialgleichung: 

2. Dies folgt mit der Kettenregel. 

[D d y(u)(t)] ′ = φ y D d y(u)(t) + φ u (y(u, t), u(t), t)d(t). 

3. Dies folgt mit partieller Integration, da das Produkt p(t) D d y(u)(t) and den Randpunkten 

0 und T wegen D d y(u)(0) = 0 = p(T ) verschwindet. 

23

1. Grundlagen 

4. 

= 

= 

= 

= 

= 

D d f(u) 

∫ T 

0 

∫ T 

0 

∫ T 

0 

∫ T 

0 

L y (y(u, t), u(t), t)D d y(u)(t) + L u (y(u, t), u(t), t) d(t) dt 

−p ′ (t)D d y(u)(t) − p(t)φ y (y(u, t), u(t), t)D d y(u)(t) + L u (y(u, t), u(t), t) d(t) dt 

p(t)(d/dt)D d y(u)(t) − p(t)φ y (y(u, t), u(t), t)D d y(u)(t) + L u (y(u, t), u(t), t) d(t) dt 

p(t)[φ y (y(u, t), u(t), t)D d y(u)(t) + φ u (y(u, t), u(t), t)d(t)] 

−p(t)φ y (y(u, t), u(t), t)D d y(u)(t) + L u (y(u, t), u(t), t) d(t) dt 

∫ T 

0 

d(t)[L u (y(u, t), u(t), t) + p(t)φ u (y(u, t), u(t), t)] dt 

5. Die Behauptung folgt mit der Kettenregel, da für k ≠ j folgt 

und für k = j gilt du j 

du k 

= δ j k = 1. 

du j 

du k 

= δ j k = 0 

6. ∂ k y 0 = 0, 

∂ k y j+1 = ∂ k y j + hφ u (y j , u j , hj)δ j k + hφ y(y j , u j , hj)∂ k y j . 

7. Die Behauptung folgt wegen ∂ k y 0 = 0. 

8. 

∂ k f(u) 

= h∂ u L(y k , u k , kh) + 

= h∂ u L(y k , u k , kh) + 

= h∂ u L(y k , u k , kh) + 

= ∂ u L(y k , u k , kh) + 

N−1 ∑ 

j=0 

N−1 ∑ 

j=1 

N−1 ∑ 

j=0 

N−1 ∑ 

j=0 

h∂ y L(y j , u j , jh) dy j 

du k 

(p j−1 − p j − hp j φ y (y j , u j , jh)) dy j 

du k 

( dy j+1 

du k 

= ∂ u L(y k , u k , kh) + hp k ∂ u φ(y k , u k , kh) 

− dy j 

du k 

)p j − hp j φ y (y j , u j , jh) dy j 

du k 

p j [hφ u (y j , u j , hj)δ j k + hφ y(y j , u j , hj)∂ k y j ] − hp j φ y (y j , u j , jh))∂ k y j 

24

Übung 3 

1. Die Funktion u(t, k, c) sei die Lösung des Anfangswertproblems 

u ′′ + cu ′ + ku = 0; u(0) = u 0 , u ′ (0) = 0. 

1.7. Übungen 

Zeigen Sie: Die partiellen Ableitungen ∂ c u und ∂ k u existieren und sind stetig, falls 

4k ≠ c 2 . 

Erfüllen die partiellen Ableitungen die Sensitivitätsgleichungen? 

Lösung Man kann u analytisch berechnen. In der Lösung tritt der Ausdruck 

√ 

c2 − 4k auf; alle anderen Ausdrücke sind glatt. Falls gilt 4k ≠ c 2 , so ist die 

Lösung also glatt und erfüllt die Sensitivitätsgleichungen. 

2. Beweisen Sie: 

Falls gilt: f ist zweimal stetig dierenzierbar, ∇f(x ∗ ) = 0 und ∇ 2 f(x ∗ ) ist positiv 

denit, so gibt es eine Zahl δ > 0, so daÿ für alle x ∈ B(δ) gilt: 

a) 

‖∇ 2 f(x)‖ ≤ 2 ‖∇ 2 f(x ∗ )‖, 

b) 

‖(∇ 2 f(x)) −1 ‖ ≤ 2 ‖(∇ 2 f(x ∗ )) −1 ‖, 

c) 

1 

‖(∇ 2 f(x ∗ )) −1 ‖ 

Lösung a) Aus der Dreiecksungleichung folgt 

‖e‖ 

2 ≤ ‖∇f(x)‖ ≤ 2 ‖∇2 f(x ∗ )‖ ‖e‖. 

‖∇ 2 f(x)‖ ≤ ‖∇ 2 f(x) − ∇ 2 f(x ∗ )‖ + ‖∇ 2 f(x ∗ )‖. 

Wegen ‖∇ 2 f(x ∗ )‖ > 0 kann man aufgrund der Stetigkeit von ∇ 2 f eine Zahl δ > 0 

nden, so daÿ für alle x ∈ B(δ) gilt ‖∇ 2 f(x) − ∇ 2 f(x ∗ )‖ ≤ ‖∇ 2 f(x ∗ )‖. 

3. Es seien N = 2, d ∈ R N und f(x) = x T d + x T x. Gegeben ist ein Startpunkt 

x 0 ∈ R N . Führen Sie das Verfahren der konjugierten Gradienten durch! 

Lösung Es gilt −∇f(x) = −d − 2x. Damit erhalten wir 

r 0 = −d − 2x 0 = p 1 , 

α 1 = (r T 0 r 0 )/(p T 1 p 1 ) = 1, 

x 1 = x 0 + α 1 p 1 = −d − x 0 , 

r 1 = −r 0 , 

β 1 = −(r T 1 r 1 )/(r T 0 r 0 ) = −1, 

p 2 = r 1 + β 1 p 1 = r 1 − r 0 = −2r 0 , 

α 2 = (r T 1 r 1 )/(p T 2 p 2 ) = 1/4, 

x 2 = x 1 + α 2 p 2 = −d/2, r 2 = −d − 2x 2 = 0. 

Wird die Voraussetzung N = 2 benötigt? 

25

1. Grundlagen 

26

2. Lokale Konvergenz des 

Newtonverfahrens 

Mit einem lokal konvergenten Verfahren bezeichnen wir einen Algorithmus, bei dem der 

Startpunkt x 0 hinreichend nahe bei einem lokalen Minimalpunkt x ∗ liegen muÿ, in dem 

die hinreichenden Optimalitaätsbedingungen erfüllt sind. 

2.1. Konvergenzarten 

Wir beginnen mit der Standardklassizierung von Konvergenzraten. 

Denition 4 Es sei {x n } ⊂ R N und x ∗ ∈ R N . Die Folge {x n } konvergiert gegen x ∗ 

• q-quadratisch, falls {x n } gegen x ∗ konvergiert und es K > 0 gibt mit 

‖x n+1 − x ∗ ‖ ≤ K‖x n − x ∗ ‖ 2 . 

• q-superlinear mit qOrdnung α > 1, falls {x n } gegen x ∗ konvergiert und es K > 0 

gibt mit 

‖x n+1 − x ∗ ‖ ≤ K‖x n − x ∗ ‖ α . 

• q-superlinear, falls gilt 

‖x n+1 − x ∗ ‖ 

lim 

n→∞ ‖x n − x ∗ ‖ = 0. 

• q-linear mit q-Faktor σ ∈ (0, 1), falls für hinreichend groÿe n gilt 

‖x n+1 − x ∗ ‖ ≤ σ‖x n − x ∗ ‖. 

Denition 5 Ein Iterationsverfahren zur Berechnung von x ∗ heiÿt lokal (qquadratisch, 

qsuperlinear, qlinear, etc.) konvergent, falls die Iterationspunkte gegen x ∗ (qquadratisch, 

qsuperlinear, qlinear, etc.) konvergieren, wenn der Startpunkt hinreichend gut ist. 

Eine qsuperlinear konvergente Folge ist auch qlinear konvergent mit qFaktor σ 

für alle σ > 0. Eine qquadratisch konvergente Folge ist qsuperlinear konvergent mit 

qOrdnung 2. 

Oft ist es sinnvoll die Auswertung der Zielfunktion und ihres Gradienten bei fortschreidender 

Iteration mit zunehmender Genauigkeit durchzuführen. Um die Konvergenz der 

entsprechenden Iterationsfolge zu beschreiben, verwenden wir den Begri der Konvergenz 

vom rTyp. 

27

2. Lokale Konvergenz des Newtonverfahrens 

Denition 6 Es sei {x n } ⊂ R N und x ∗ ∈ R N . Die Folge {x n } konvergiert gegen x ∗ 

rquadratisch (rsuperlinear, rlinear), falls es eine reelle Zahlenfolge {ξ n } gibt die q 

quadratisch (qsuperlinear, qlinear) gegen Null konvergiert und für die gilt 

‖x n − x ∗ ‖ ≤ ξ n . 

Wir sagen, die Folge {x n } konvergiert rsuperlinear mit rOrdnung α > 1, falls die 

Folge {ξ n } qsuperlinear mit qOrdnung α > 1 gegen 0 konvergiert. 

2.2. Standardvoraussetzungen 

Wir werden für lokale Minimalpunkte Standardvoraussetzungen einführen, die gewährleisten, 

daÿ das Newtonverfahren lokal qquadratisch gegen x ∗ konvergiert. Die Standardvoraussetzungen 

sind die gleichen wie bei nichtlinearen Gleichungssystemen. 

Wir setzen im folgenden voraus, daÿ f und x ∗ die Voraussetzung 1) erfüllen. 

Voraussetzung 1 

1. f ist zweimal stetig dierenzierbar und es gibt γ > 0, so daÿ für alle x, y gilt 

2. ∇f(x ∗ ) = 0. 

3. ∇ 2 f(x ∗ ) ist positiv denit. 

‖∇ 2 f(x) − ∇ 2 f(y)‖ ≤ γ‖x − y‖. (2.1) 

Wir setzen also mit Teil 1 der Standardvoraussetzungen voraus, daÿ f zweimal Lipschitz 

stetig dierenzierbar mit der Lipschitzkonstante γ ist. 

Wenn die Standardvoraussetzungen erfüllt sind, folgt aus Satz 4, daÿ x ∗ ein lokaler 

Minimalpunkt von f ist. Auÿerdem gelten für das nichtlineare Gleichungssystem 

∇f(x ∗ ) = 0 die Standardvoraussetzungen für die qquadratische Konvergenz des Newtonverfahrens. 

Es können also alle lokalen Konvergenzergebnisse für nichtlineare Gleichungssysteme 

auf unrestringierte Optimierungsprobleme angewendet werden. Die Ergebnisse 

müssen aber auch im Optimierungskontext interpretiert werden. Wir werden 

zum Beispiel die Tatsache ausnutzen, daÿ die Hessematrix (die Jacobimatrix von ∇f) in 

x ∗ positiv denit ist, wenn wir das lineare Gleichungssystem beim Newtonschritt lösen. 

2.3. Das Newtonverfahren 

Wir werden iterative Verfahren durch die Übergangsvorschrift von einem aktuellen Iterationspunkt 

x c (current iteration) zu einem neuen Iterationspunkt x + beschreiben. Für 

ein nichtlineares Gleichungssystem F (x) = 0 ist zum Beispiel x + die Nullstelle des lokalen 

linearen Modells M c von F um x c 

M c (x) = F (x c ) + F ′ (x c )(x − x c ). 

28

2.3. Das Newtonverfahren 

Durch das Auösen der Gleichung M c (x + ) = 0 nach x + erhält man die Standardformel 

für die Newtoniteration, 

x + = x c − F ′ (x c ) −1 F (x c ). (2.2) 

Man könnte nun sagen: Das Newtonverfahren in der unrestringierten Optimierung ist also 

nicht anderes als das Newtonverfahren für das nichtlineare Gleichungssystem ∇f(x) = 

0. Es ist jedoch Vorsicht geboten, wenn x c in der Nähe eines Maximalpunktes ist. Daher 

interpretieren wir x + als Minimalpunkt des lokalen quadratischen Modells von f um x c , 

m c (x) = f(x c ) + ∇f(x c ) T (x − x c ) + 1 2 (x − x c) T ∇ 2 f(x c )(x − x c ). 

Falls ∇ 2 f(x c ) positiv denit ist, ist der Minimalpunkt x + von m c die eindeutige Lösung 

der Gleichung ∇m c (x) = 0. Daher gilt 

x + = x c − (∇ 2 f(x c )) −1 ∇f(x c ), (2.3) 

also Gleichung (2.2) mit F ersetzt durch ∇f und F ′ durch ∇ 2 f. Natürlich wird bei 

der Berechnung von x + keine Matrix invertiert. Stattdessen löst man das lineare Gleichungssystem 

(∇ 2 f(x c ))s = −∇f(x c ), (2.4) 

und erhält den Schritt s. Dann folgt mit (2.3) die Gleichung x + = x c + s. 

Falls x c weit weg von jedem lokalen Minimalpunkt liegt, könnte ∇ 2 f(x c ) negative 

Eigenwerte haben; dann hat auch das quadratische Modell keine lokalen Minimalpunkte, 

und M c , das lokale lineare Modell von ∇f um x c , könnte Nullstellen haben, die zu 

lokalen Maxima oder Sattelpunkten von m c gehören. Daher ist die Verbindung zwischen 

dem Newtonverfahren für die Optimierung und dem Newtonverfahren für nichtlineare 

Gleichungssysteme nur in der Nähe eines lokalen Minimalpunktes f sinnvoll. 

Lemma 1 Wir setzen voraus, daÿ Voraussetzung 1 gilt. Dann gibt es δ > 0, so daÿ für 

alle x ∈ B(δ) gilt 

mit e = x − x ∗ . 

‖∇ 2 f(x)‖ ≤ 2‖∇ 2 f(x ∗ )‖, (2.5) 

‖(∇ 2 f(x)) −1 ‖ ≤ 2‖(∇ 2 f(x ∗ )) −1 ‖, (2.6) 

‖(∇ 2 f(x ∗ )) −1 ‖ −1 ‖e‖/2 ≤ ‖∇f(x)‖ ≤ 2 ‖∇ 2 f(x ∗ )‖ ‖e‖, (2.7) 

Nun beweisen wir die lokale Konvergenz des Newtonverfahrens. 

Satz 5 Voraussetzung 1 sei erfüllt. Dann gibt es K > 0 und δ > 0, so daÿ für x c ∈ B(δ), 

der durch (2.3) denierte Newtoniterationspunkt x + folgende Ungleichung erfüllt: 

‖e + ‖ ≤ K‖e c ‖ 2 . (2.8) 

29


Beweis. Wir wählen δ so klein, daÿ die Aussagen aus Lemma 1 gelten. Aus Satz 1 

folgt 

∫ 1 ( 

e + = e c − ∇ 2 f(x c ) −1 ∇f(x c ) = ∇ 2 f(x c ) −1 ∇ 2 f(x c ) − ∇ 2 f(x ∗ + te c ) ) e c dt. 

Aus Lemma 1 und der Lipschitzstetigkeit von ∇ 2 f folgt 

‖e + ‖ ≤ (2‖∇ 2 f(x ∗ )) −1 ‖)γ‖e c ‖ 2 /2. 

Wir erhalten die gewünschte Ungleichung mit K = γ‖∇ 2 f(x ∗ )) −1 ‖. 

Wie bei den nichtlinearen Gleichungssystemen folgt aus Satz 5 die lokale quadratische 

Konvergenz des Verfahrens. 

Satz 6 Voraussetzung 1 sei erfüllt. Dann gibt es δ > 0, so daÿ für alle x 0 ∈ B(δ), die 

Newtoniteration 

x n+1 = x n − (∇ 2 f(x n )) −1 ∇f(x n ) 

qquadratisch gegen x ∗ konvergiert. 

Beweis. Wir wählen δ so klein, daÿ die Aussagen aus Satz 5 gelten und zusätzlich gilt 

Kδ = η < 1. Für n > 0 und x n ∈ B(δ) folgt aus Satz 5 

0 

‖e n+1 ‖ ≤ K‖e n ‖ 2 ≤ η‖e n ‖ < ‖e n ‖, (2.9) 

also gilt x n+1 ∈ B(ηδ) ⊂ B(δ). Da x 0 in B(δ) ist, bleibt also die gesamte Folge {x n } in 

B(δ). Nun folgt aus (2.9) die qquadratische Konvergenz. 

Die positive Denitheit von ∇ 2 f beim Newtonverfahren für Optimierung ermöglicht 

eine Implementierung unter Verwendung der Choleskyzerlegung 

∇ 2 f(u) = LL T , (2.10) 

wobei L eine untere Dreiecksmatrix mit positiven Diagonalelementen ist. 

Wir beenden die Iteration, wenn die Norm von ∇f hinreichend klein ist. Ein natürliches 

Abbruchkriterium ist es, eine relative Verkleinerung in ∇f zu fordern und 

abzubrechen, wenn gilt 

‖∇f(x n )‖ ≤ τ r ‖∇f(x 0 )‖, (2.11) 

wobei τ r ∈ (0, 1) die gewünschte Verkleinerung in der Gradientennorm ist. Falls ‖∇f(x 0 )‖ 

sehr klein ist, wird unter Umständen Bedingung (2.11) in Gleitpunktarithmetik nicht zu 

erfüllen sein, so daÿ der Algorithmus nicht abbricht. Damit das nicht passiert, verändert 

man das Abbruchkriterium mit dem relativen Fehler, indem man eine Kombination aus 

absolutem und relativen Maÿ für ∇f hernimmt, und abbricht falls gilt 

‖∇f(x n )‖ ≤ τ r ‖∇f(x 0 )‖ + τ a . (2.12) 

Die Zahl τ a in (2.12) ist eine absolute Fehlertoleranz. Auch im folgenden werden die 

Abbruchkriterien einiger Algorithmen von einem Paar τ = (τ r , τ a ) aus relativer und 

absoluter Fehlertoleranz abhängen. 

30

2.4. Inexakte Newtonverfahren 

Algorithmus 3 (newton(x, f, τ)) 

1. r 0 = ‖∇f(x)‖ 

2. Do while ‖∇f(x)‖ > τ r r 0 + τ a 

(a) Compute ∇ 2 f(x) 

(b) Factor ∇ 2 f(x) = LL T 

(c) Solve LL T s = −∇f(x) 

(d) x = x + s 

(e) Compute ∇f(x) 

Der hier formulierte Algorithmus newton ist noch nicht ganz überzeugend, weil der 

Wert der Zielfunktion f nicht benutzt wird und Schritt 2.(b) nicht funktioniert, wenn 

∇ 2 f(x) nicht positiv denit ist. Solch ein Fehler könnte als Indikator dafür verwendet 

werden, daÿ der aktuelle Punkt zu weit weg von jedem Minimalpunkt liegt, um das 

Newtonverfahren zu verwenden. Wenn wir aber nahe genug bei einem Minimalpunkt 

sind, wie wir es in diesem Kapitel voraussetzen, funktioniert das Newtonverfahren wie 

bei nichtlinearen Gleichungen. 


Ein inexaktes Newtonverfahren verwendet einen approximativen Newtonschritt s = x + − 

x c , bei dem nur verlangt wird, daÿ gilt 

‖∇ 2 f(x c )s + ∇f(x c )‖ ≤ η c ‖∇f(x c )‖, (2.13) 

das heiÿt, das lineare Residuum soll klein sein. Für ein gegebenes η c < 1 bezeichnen 

wir jeden Vektor s, der die Ungleichung (2.13) erfüllt als inexakten Newtonschritt. Wir 

bezeichnen den Parameter η c auf der rechten Seite von (2.13) als Zwangsterm. Wir betrachten 

hier newtoniterative Verfahren. Das sind die Verfahren, bei denen die lineare 

Gleichung (2.4) beim Newtonschritt auch durch ein iteratives Verfahren gelöst wird und 

zwar mit dem Abbruchkriterium (2.13) für diese lineare Iteration. Man nennt die Folge 

der Newtonschritte die äuÿere Iteration und die Schritte für die lineare Gleichung die 

innere Iteration. Die Konvention ist, daÿ zum Beispiel Newtoncg das newtoniterative 

Verfahren bezeichnet, bei dem die innere Iteration mit dem Verfahren der konjugierten 

Gradienten durchgeführt wird. Newtoncg ist für Optimierungsprobleme besonders 

geeignet, weil die Hessematrizen positiv denit sind, wenn wir nahe genug bei einem 

Minimalpunkt sind. 

2.4.1. Konvergenzraten 

Satz 7 Voraussetzung 1 sei erfüllt. Dann gibt es δ > 0 und K I , so daÿ für alle x c ∈ B(δ) 

und s, η c , die (2.13) erfüllen und x + = x c + s gilt 

‖e + ‖ ≤ K I (‖e c ‖ + η c )‖e c ‖. (2.14) 

31


Beweis. Wir wählen δ > 0 so klein, daÿ die Aussagen von Lemma 1 und Satz 5 gelten. 

Wir setzen 

r = −∇ 2 f(x c )s − ∇f(x c ), 

r ist also das lineare Residuum. Dann gelten die Gleichungen 

und 

Aus Satz 5 folgt die Ungleichung 

s + ∇ 2 f(x c ) −1 ∇f(x c ) = −(∇ 2 f(x c )) −1 r 

e + = e c + s = e c − ∇ 2 f(x c ) −1 ∇f(x c ) − (∇ 2 f(x c )) −1 r. (2.15) 

‖e c − ∇ 2 f(x c ) −1 ∇f(x c )‖ ≤ K‖e c ‖ 2 . 

Aus Lemma 1 und (2.13) folgt die Ungleichung 

Also gilt 

‖(∇ 2 f(x c )) −1 r‖ ≤ 4η c κ(∇ 2 f(x ∗ ))‖e c ‖. 

‖e + ‖ ≤ K‖e c ‖ 2 + 4η c κ(∇ 2 f(x ∗ ))‖e c ‖. 

Mit K I = K + 4κ(∇ 2 f(x ∗ )) folgt die Behauptung. 

Satz 8 Voraussetzung 1 sei erfüllt. Dann gibt es δ > 0 und η, so daÿ für alle x 0 ∈ B(δ) 

und {η n } ⊂ [0, η] die inexakte Newtoniteration 

mit 

x n+1 = x n + s n 

‖∇ 2 f(x n )s n + ∇f(x n )‖ ≤ η n ‖∇f(x n )‖ 

qlinear gegen x ∗ konvergiert. 

Auÿerdem gilt: Falls die Folge {η n } gegen Null konvergiert, ist die Konvergenz der 

Folge {x n } superlinear und falls gilt η n ≤ K η ‖∇f(x n )‖ p für ein K η > 0 und p ∈ (0, 1], 

ist die Konvergenz qsuperlinear mit qOrdnung 1 + p. 

Der folgende Satz 9 besagt, daÿ jede Verkleinerung des relativen linearen Residuums 

hinreichend für lineare Konvergenz ist bezüglich der durch die Hessematrix induzierten 

Norm. Daraus folgt, daÿ die Folge der Gradientennormen ‖∇f(x n )‖ qlinear gegen Null 

konvergiert, oder anders gesagt, daÿ die Iterationsfolge {x n } qlinear gegen x ∗ konvergiert 

bezüglich der Norm ‖ · ‖ ∗ , deniert durch 

‖x‖ ∗ = ‖∇ 2 f(x ∗ )x‖. 

Satz 9 Voraussetzung 1 sei erfüllt. Es seien η ∈ (0, 1) und η ∈ (0, η) gegeben. Dann gibt 

es δ > 0, so daÿ für alle x c ∈ B(δ) und s, η c ∈ (0, η], die (2.13) erfüllen und x + = x c + s 

gilt 

‖e + ‖ ∗ ≤ η‖e c ‖ ∗ . (2.16) 

32


Damit erhält man folgende Konvergenzaussage. 

Satz 10 Voraussetzung 1 sei erfüllt. Es seien η ∈ (0, 1) und η ∈ (0, η) gegeben. 

Dann gibt es δ > 0, so daÿ für alle x 0 ∈ B(δ) und {η n } ⊂ [0, η] die inexakte Newtoniteration 

x n+1 = x n + s n 

mit 

‖∇ 2 f(x n )s n + ∇f(x n )‖ ≤ η n ‖∇f(x n )‖ 

qlinear bezüglich ‖ · ‖ ∗ gegen x ∗ konvergiert. 

Die qlineare Konvergenz der Iterationsfolge {x n } gegen einen lokalen Minimalpunkt 

x ∗ bezüglich der dazugehörigen Norm ‖ · ‖ ∗ ist äquivalend zur qlinearen Konvergenz 

der Gradientenfolge {∇f(x n )} gegen Null. Die Konvergenzrate der Gradientenfolge kann 

daher bei numerischen Experimenten verwendet werden, um verschiedene Verfahren zu 

vergleichen. 

2.4.2. Implementierung von Newtoncg 

Unsere Implementierung des Newtoncg Verfahrens löst das lineare Gleichungssystem 

für den Newtonschritt approximativ mit dem cgVerfahren. Die Theorie garantiert, daÿ 

falls x 0 nahe genug bei einem lokalen Minimalpunkt liegt, die Hessematrizen ∇ 2 f(x n ) 

während der Iteration positiv denit bleiben und die Konvergenz schnell erfolgt. Daher 

bricht der Algorithmus nicht ab, wenn die Zielfunktionswerte ansteigen oder eine inde- 

nite Hessematrix auftritt. Sowohl der Zwangsterm η als auch der Präkonditionierer M 

können sich währen der Iteration ändern. 

Algorithmus 4 (newtcg(x, f, τ, η)) 

1. r 0 = ‖∇f(x)‖ 

2. Do while ‖∇f(x)‖ > τ r r 0 + τ a 

(a) Select η and a preconditioner M. 

(b) pcg(s, −∇f(x), ∇ 2 f(x), M, η, kmax) 

(c) x = x + s 

(d) Evaluate f(x), ∇f(x), ∇ 2 f(x) 

Falls ∇ 2 f(x) nicht positiv denit ist, stop. 

33


2.5. Übungen 

Übung 4 Beweisen Sie Satz 9: 

Voraussetzung 1 sei erfüllt. Es seien η ∈ (0, 1) und η ∈ (0, η) gegeben. 

Dann gibt es δ > 0, so daÿ für alle x c ∈ B(δ) und s, η c ∈ (0, η], die die Ungleichung 

erfüllen und x + = x c + s gilt 

Lösung 

1. Zeigen Sie zunächst die Ungleichung 

und folgern Sie daraus 

2. Zeigen Sie 

‖∇ 2 f(x c )s + ∇f(x c )‖ ≤ η c ‖∇f(x c )‖ 

‖∇ 2 f(x ∗ )e + ‖ ≤ η‖∇ 2 f(x ∗ )e c ‖. 

‖∇f(x) − ∇ 2 f(x ∗ )e‖ ≤ (γ/2)‖e‖ 2 

‖∇ 2 f(x ∗ )e‖ ≤ ‖∇f(x)‖ + (γ/2)‖2‖ 2 , 

‖∇f(x)‖ ≤ ‖∇ 2 f(x ∗ )e‖ + (γ/2)‖e‖ 2 . 

‖∇f(x + )‖ ≤ ‖∇ 2 f(x c )s + ∇f(x c )‖ + (γ/2)‖s‖ 2 ≤ η c ‖∇f(x c )‖ + (γ/2)‖s‖ 2 . 

3. Folgern Sie nun die Ungleichung 

‖∇ 2 f(x ∗ )e + ‖ ≤ η c ‖∇ 2 f(x ∗ )e c ‖ + (η c γ/2)‖e c ‖ 2 + (γ/2)(‖e + ‖ 2 + ‖s‖ 2 ). 

4. Zeigen Sie, ‖e + ‖ ≤ ‖e c ‖ + ‖s‖ und es gibt C 1 > 0 mit ‖s‖ ≤ C 1 ‖e c ‖. 

5. Überlegen Sie, wie daraus die Behauptung folgt! 

Übung 5 Leiten Sie die Iterationsvorschrift für das Newtonverfahren zur Minimierung 

der Funktion 

f(x) = exp(x 2 ) 

her! 

Was kann man über die Konvergenz der erzeugten Folge aussagen? 

Leiten Sie eine Rekursionsformel für das inexakte Newtonverfahren zur Minimierung 

der Funktion f her! Verwenden Sie dabei die Darstellung 

f ′′ (x n )s n = −f ′ (x n )(1 + η n ). 

Was kann man über die Konvergenz der erzeugten Folge aussagen, falls die Folge (η n ) n∈N 

beschränkt ist? 

Was kann man über die Konvergenz der erzeugten Folge aussagen, falls die Folge 

(η n ) n∈N gegen Null konvergiert? 

34

2.5. Übungen 

Lösung Exaktes Newtonverfahren: 

2x 2 n 

x n+1 = x n 

1 + 2x 2 n 

Falls x n ≠ 0, gilt 

|x n+1 | 

= 2x2 n 

< 1. 

|x n | 1 + 2x 2 n 

Das Newtonverfahren Konvergiert hier also von jedem Startpunkt aus. Falls x 0 ≠ 0 gilt 

|x n+1 | 

lim 

n→∞ |x 3 n| 

= 2. 

Die Konvergenz ist also qsuperlinear mit der qOrdnung 3 (kubisch). 

Inexaktes Newtonverfahren: 

x n+1 = x n 

2x 2 n − η n 

1 + 2x 2 n 

Falls die Folge |η n | beschränkt ist mit lim sup n→∞ |η n | < 1, folgt: 

Die Folge (x n ) n konvergiert qlinear gegen Null. 

Falls gilt lim n η n = 0 folgt: 

Die Folge (x n ) n konvergiert qsuperlinear gegen Null. 

Falls gilt lim sup n |η n /x n | < ∞ folgt: 

Die Folge (x n ) n konvergiert qquadratisch gegen Null. 

Falls gilt lim sup n |η n /x 2 n| < ∞ folgt: 

Die Folge (x n ) n konvergiert qkubisch gegen Null. 

Übung 6 Gegeben sind b ∈ R N und die symmetrische N × N Matrix A, die einen 

negativen Eigenwert besitzt. Zeigen Sie: Die Funktion 

hat keinen Minimalpunkt. 

f(x) = x T Ax + x T b 

Lösung Es gelte Ae = λe mit λ < 0. Dann folgt für alle x 

lim f(x + te) = f(x) + lim 

t→∞ t→∞ t(2xT Ae + e T b) + t 2 λe T e = −∞. 

Übung 7 Im Fall N = 1 kann man das lokale quadratische Modell leicht durch ein 

lokales Modell vierter Ordnung ersetzen. (Warum wäre ein kubisches Modell nicht sinnvoll?) 

Welche Konvergenzrate würde man bei einem Verfahren erwarten, das auf der Minimierung 

des lokalen Modells vierter Ordnung basiert? Könnte man dies auf den Fall 

N > 1 erweitern? 

35


36

3. Globale Konvergenz 

Die bisher diskutierten lokal konvergenten Algorithmen funktionieren nicht unbedingt, 

wenn der Anfanspunkt nicht nahe bei einem Minimalpunkt liegt. Der Grund dafür ist die 

Tatsache, daÿ die Newtonrichtung dann nicht unbedingt eine Abstiegsrichtung für die 

Zielfunktion sein muÿ und daÿ selbst wenn sie eine Abstiegsrichtung ist, die Schrittweite 

zu groÿ sein kann. Daher kann ein Newtonschritt zu einem Anstieg des Funktionswertes 

führen und es kommt vor, daÿ die Iterationspunkte divergieren. Die global konvergenten 

Algorithmen, die wir nun betrachten, lösen dieses Problem, indem sie entweder einen lokalen 

Minimalpunkt nden oder nach Überprüfung einiger weniger, leicht verizierbarer 

Abbruchkriterien abbrechen. 

Dies sind jedoch keine Verfahren zur globalen Optimierung. Wenn diese Methoden auf 

Probleme mit vielen lokalen Minimalpunkten angewendet werden, hängt das Ergebnis 

der Iteration in komplexer Weise vom Anfangspunkt ab. 

3.1. Das Verfahren des steilsten Abstiegs 

Die Richtung des steilsten Abstiegs von x aus ist d = −∇f(x). Das Verfahren des steilsten 

Abstiegs (Cauchy 1847, [7]) geht von dem aktuellen Iterationspunkt x c zu 

x + = x c − λ∇f(x c ). (3.1) 

Wenn wir einfach λ = 1 wählen, ist nicht garantiert, daÿ x + näher an einer Lösung 

liegt als x c , sogar wenn x c sehr nahe bei einer Lösung liegt, die Voraussetzung 1 erfüllt. 

Als Grund dafür kann man ansehen, daÿ die Richtung des steilsten Abstiegs im 

Gegensatz zur Newtonrichtung von der Skalierung von f abhängt. Die Newtonrichtung 

ist dagegen die gleiche für f wie für γf für alle γ ≠ 0 , ist aber dafür nicht immer eine 

Abstiegsrichtung für f. 

Damit das Verfahren des steilsten Abstiegs funktioniert, ist die Wahl der Schrittweite 

λ wichtig. Eine Möglichkeit ist die Wahl λ = β m , mit β ∈ (0, 1), wobei m ≥ 0 die kleinste 

nichtnegative ganze Zahl ist, für die f hinreichend verkleinert wird. Für das Verfahren 

des steilsten Abstiegs heiÿt das 

f(x c − λ∇f(x c )) − f(x c ) < −αλ‖∇f(x c )‖ 2 , (3.2) 

mit einem Parameter α ∈ (0, 1). Diese Strategie wurde 1966 von Armijo in [1] eingeführt 

und heiÿt daher Armijoregel. Sie ist ein Beipsiel für eine Liniensuche, bei der auf 

einem Strahl gesucht wird, der von x c aus in eine Richtung geht, wo f lokal absteigt. 

Die Strategie, wiederholt zu prüfen ob eine hinreichende Verkleinerung vorliegt und die 

Schrittweite zu verkleinern, wenn das nicht der Fall ist heiÿt auf neudeutsch backtracking. 

37


Um Bedingung (3.2) zu motivieren, betrachten wir ein lineares Modell m c für f, 

m c (x) = f(x c ) + ∇f(x c ) T (x − x c ). 

Die Verkleinerung für das Modell (d.h. die vohergesagte Reduktion in f) ist 

pred = m c (x c ) − m c (x + ) = λ‖∇f(x c )‖ 2 . 

Bedingung (3.2) sagt aus, daÿ die tatsächliche Reduktion in f 

ared = f(x c ) − f(x + ) 

relativ zur vorhergesagten Reduktion mindestens so groÿ ist, wie durch den Parameter 

α vorgegeben ist. Typischerweise wählt man α = 10 −4 . 

Der Grund dafür, daÿ wir eine hinreichende Verkleinerung anstelle einer einfachen 

Verkleinerung (d.h. f(x + ) < f(x c ) oder α = 0) fordern, besteht in den Konvergenzresultaten: 

In dem Beweis sorgt α > 0 dafür, daÿ die Iteration nicht stagniert, bevor sie 

zu einem lokalen Minimalpunkt geführt hat. 

Algorithmus 5 (steep(x, f, kmax)) 

1. Für k = 1,...,kmax 

(a) Berechne f und ∇f. Ist die Abbruchbedingung erfüllt? 

(b) Finde die kleinste ganze Zahl m ≥ 0, für die (3.2) mit λ = β m erfüllt ist. 

(c) x = x + λd. 

2. Falls k = kmax und die Abbruchbedingung nicht erfüllt ist, 

gib eine Fehlermeldung. 

Die Abbruchbedingung könnte zum Beispiel (2.12) sein. 

3.2. Liniensuchverfahren und die Armijoregel 

Wir führen einige neue Begrie ein, so daÿ unser Konvergenzbeweis für Algorithmus 

steep auch auf eine wesentlich allgemeinere Klasse von Algorithmen anwendbar ist. 

Denition 7 Ein Vektor d ∈ R N heiÿt Abstiegsrichtung für f in x, falls gilt 

d 

dt f(x + td)| t=0 = ∇f(x) T d < 0. 

38


Die Richtung des steilsten Abstiegs d = −∇f(x) ist natürlich eine Abstiegsrichtung falls 

∇f(x) ≠ 0. Bei einem Liniensuchverfahren wird versucht, in eine Abstiegsrichtung zu 

laufen und dadurch eine Verkleinerung von f zu erreichen, wobei zur Schrittweitensteuerung 

die Armjoregel benutzt wird, wenn nicht gilt ∇f(x) = 0. 

Wir untersuchen Abstiegsrichtungen, die auf quadratischen Modellen m von f basieren, 

m(x) = f(x c ) + ∇f(x c ) T (x − x c ) + 1 2 (x − x c) T H c (x − x c ), 

wobei die Matrix H c , die Modellhessematrix, spd ist. Es sei d = x − x c so, daÿ m(x) 

minimiert wird. Dann gilt 


∇m(x) = ∇f(x c ) + H c (x − x c ) = 0, 

d = −H −1 

c ∇f(x c ). (3.3) 

Die Richtung des steilsten Abstiegs erfüllt (3.3) mit H c = I. Die Newtonrichtung 

d = −∇ 2 f(x) −1 ∇f(x) muÿ dagegen nicht immer eine Abstiegsrichtung sein. (Nahe bei 

einem lokalen Minimalpunkt, wo ∇ 2 f(x) spd ist, ist sie allerdings immer eine Abstiegsrichtung.) 

Das ist der Grund dafür, daÿ das Newtonverfahren im allgemeinen kein gutes 

globales Verfahren ist, auch nicht mit einer Liniensuche. Daher wurden Modizierungen 

eingeführt, bei denen dafür gesorgt wird, daÿ die Modellhessematrizen spd bleiben. 

Der Algorithmus, den wir nun untersuchen, ist eine Erweiterung von Algorithmus 

steep, in dem beliebige Abstiegsrichtungen zugelassen werden, die (3.3) mit einer spd 

Matrix H erfüllen. In diesem Rahmen ist die allgemeine Bedingung der hinreichenden 

Verkleinerung 

f(x c + λd) − f(x c ) < αλ∇f(x c ) T d. (3.4) 

Wie in (3.2) ist α ein algorithmischer Parameter, oftmals wird α = 10 −4 gewählt. 

Das Verfahren zur Schrittweitenverkleinerung in Algorithmus steep ist grob, denn 

wenn β zu groÿ ist, werden zu viele Verkleinerungsschritte gebraucht, bevor eine Schrittweite 

akzeptiert wird. Wenn β zu klein ist, wird der Fortschritt der Gesamtiteration 

verzögert. Wir gehen dieses Problem auf zwei Arten an: Zunächst konstruieren wir polynomiale 

Modelle von f entlang der Abstiegsrichtung und benutzen sie, um einen Faktor 

bei der Schrittweitenverkleinerung zu bestimmen. Eine weitere Möglichkeit besteht darin, 

von der Schrittweite der vorigen Iteration auszugehen. 

In unseren Beweisen verwenden wir die folgende allgemeien Strategie bei der Liniensuche. 

Falls eine Schrittweite λ c zurückgewiesen wird (d.h. Bedingung (3.4) ist mit 

λ = λ c nicht erfüllt) konstruieren wir 

λ + ∈ [β u λ c , β o λ c ], (3.5) 

mit 0 < β u ≤ β o < 1. Die Wahl β = β u = β o ist die einfache Regel in Algorithmus steep. 

Eine exakte Liniensuche, bei der λ das exakte Minimum von f(x c + λd) ist, lohnt sich 

nicht und kann sogar die Leistung des Algorithmus verschlechtern. 

39


Algorithmus 6 (optarm(x, f, kmax)) 

1. Für k = 1,...,kmax 


(b) Konstruiere eine spd Matrix H und berechne eine Abstiegsrichtung d, 

die (3.3) erfüllt. 

(c) Beginnend mit λ = 1, verkleinere λ so daÿ λ + (3.5) erfüllt, bis (3.4) gilt. 

(d) x = x + λd. 



Unter der Voraussetzung, daÿ die Folge der spd Modellhessematrizen gleichmässig 

beschränkt bleibt und die Folge der Funktionswerte {f(x k )} nach unten beschränkt ist, 

werden wir beweisen, daÿ jeder Häufungspunkt x ∗ der Folge {x k }, die durch Algorithmus 

optarm erzeugt wird, die notwendigen Optimalitätsbedingungen erfüllt. 

Wir beginnen mit einer einfachen Abschätzung, die direkt aus dem Spektralsatz für 

spd Matrizen folgt. 

Lemma 2 Die Matrix H sei spd mit dem kleinsten Eigenwert λ min und dem gröÿten 

Eigenwert λ max . Dann gilt für alle z ∈ R N die Ungleichung 

λ −1 

max‖z‖ 2 ≤ z T H −1 z ≤ λ −1 

min‖z‖ 2 . 

Aus Lemma 2 erhalten wir eine obere Schranke für die Schrittweite. 

Lemma 3 Es sei ∇f Lipschitzstetig mit der Lipschitzkonstante L. Es seien α ∈ (0, 1), 

x ∈ R N und H eine spd Matrix. Es gelte ∇f(x) ≠ 0. Es seien λ min > 0 der kleinste und 

λ max der gröÿte Eigenwert von H. Die Richtung d sei durch (3.3) gegeben. Dann ist für 

jede Zahl λ mit 

0 < λ ≤ 2λ min (1 − α)/L (3.6) 

die Bedingung der hinreichenden Verkleinerung (3.4) erfüllt. 

Beweis. Setze d = −H −1 ∇f(x). Es gilt 

Daher gilt 

f(x + λd) − f(x) = 

∫ 1 

0 

∇f(x + tλd) T λd dt. 

∫ 1 

f(x + λd) = f(x) + λ∇f(x) T d + λ (∇f(x + tλd) − ∇f(x)) T d dt. (3.7) 

0 

40


Daraus folgt 

f(x + λd) = f(x − λH −1 ∇f(x)) ≤ f(x) + λ∇f(x) T d + λ 2 L‖d‖ 2 /2. 

Setze g = ∇f(x). Mit Lemma 2 erhalten wir die Abschätzung 

‖d‖ 2 = g T H −1/2 H −1 H −1/2 g ≤ (1/λ min )g T H −1 g = −∇f(x) T d/λ min . 

Also ist (3.4) erfüllt, falls gilt 

λ∇f(x) T d − λ 2 L∇f(x) T d/(2λ min ) ≤ αλ∇f(x) T d. 

Da d eine Abstiegsrichtung ist, ist dies äquivalent zu der Ungleichung 

also λ ≤ 2λ min (1 − α)/L, und es folgt (3.6). 

α ≤ 1 − λL/(2λ min ), 

Lemma 4 Es sei ∇f Lipschitzstetig mit der Lipschitzkonstante L. Es sei {x n } die durch 

den Algorithmus optarm erzeugte Iterationsfolge mit spd Matrizen H n , für die die kleinsten 

Eigenwerte λ min,n gröÿer als ε > 0 sind, 

Es sei 

λ min,n ≥ ε > 0. (3.8) 

λ = 2β u ε(1 − α)/L. 

Dann gilt für die akzeptierten Schrittweiten λ n die Ungleichung 

und höchstens 

Schrittweitenverkleinerungen sind erforderlich. 

λ n ≥ λ (3.9) 

m = log(2ε(1 − α)/L)/ log(β o ), (3.10) 

Beweis. Die Schrittweitenverkleinerung in Algorithmus optarm wird abgebrochen, falls 

λ die Bedingung des hinreichenden Abstiegs (3.4) erfüllt. Nach Lemma 3 ist das der 

Fall, wenn λ die Ungleichung (3.6) erfüllt. Wegen (3.5) kann man die obere Schranke 

höchstens um den Faktor β u verfehlen, und daraus folgt (3.9). Die Liniensuche erfordert 

höchsten m Schrittweitenverkleinerungen, wobei m die kleinste natürliche Zahl ist mit 

β m o 

< 2ε(1 − α)/L. 

Daraus folgt die Schranke (3.10) für die Anzahl der Verkleinerungen. 

Der folgende Konvergenzsatz für Algorithmus optarm enthält hinreichende Bedingungen 

an die Modellhessematrizen, die gewährleisten, daÿ wenn die Folge der Funktionswerte 

beschränkt ist, jeder Häufungspunkt ein stationärer Punkt ist. Wenn die Folge der 

Iterationspunkte beschränkt ist, existiert ein solcher Häufungspunkt. Seine Eindeutigkeit 

kann man allerdings nicht gewährleisten. 

41


Satz 11 Es sei ∇f Lipschitzstetig mit der Lipschitzkonstante L. Es sei {x n } die durch 

den Algorithmus optarm erzeugte Iterationsfolge mit spd Matrizen H n , für die die kleinsten 

Eigenwerte gröÿer als ε > 0 und die gröÿten Eigenwerte kleiner als λ max sind. 

Falls die Folge der Funktionswerte {f(x n )} beschränkt ist, gilt 

lim ∇f(x n) = 0. (3.11) 

n→∞ 

Daher ist jeder Häufungspunkt der Folge {x n } ein stationärer Punkt. Für jede konvergente 

Teilfolge ist also der Grenzpunkt stationär. 

Beweis. Die Folge der Funktionswerte {f(x n )} fällt monoton, wenn sie also beschränkt 

ist, ist sie auch konvergent. Dann gilt 

Aus (3.4) und Lemma 4 folgt 

lim f(x n+1) − f(x n ) = 0. (3.12) 

n→∞ 

f(x n+1 ) − f(x n ) < −αλ n ∇f(x n ) T Hn −1 ∇f(x n ) 

≤ −αλλ −1 

max‖∇f(x n )‖ 2 ≤ 0. 

Mit (3.12) folgt die Behauptung. 

Analoge Untersuchungen kann man für andere Liniensuchverfahren durchführen. Die 

wesentlichen Punkte sind, daÿ nach endlich vielen Schritten eine hinreichende Verkleinerung 

erreicht wird und daÿ die Schrittweiten nicht beliebig klein werden können. 

3.2.1. Schrittweitensteuerung mit polynomialen Modellen 

Hat man eine Abstiegsrichtung d in einem Punkt x c berechnet, so muss man sich für ein 

Verfahren zur Schrittweitenverkleinerung für Iterationen entscheiden, in denen (3.4) mit 

λ = 1 nicht erfüllt ist. Häug wird dazu die Funktion 

ξ(λ) = f(x c + λd) 

durch ein kubisches Polynom als Modellfunktion ersetzt. Die Daten, die man dazu anfangs 

zur Hand hat, sind 

ξ(0) = f(x c ), ξ ′ (0) = ∇f(x c ) T d < 0, ξ(1) = f(x + d), 

also genug, um ein quadratisches Modell von ξ zu bestimmen. Falls also (3.4) nicht mit 

λ = λ 0 = 1 gilt, d.h. 

ξ(1) = f(x c + d) ≥ f(x c ) + α∇f(x c ) T d = ξ(0) + αξ ′ (0), 

approximieren wir ξ durch das quadratische Polynom 

q(λ) = ξ(0) + ξ ′ (0)λ + (ξ(1) − ξ(0) − ξ ′ (0))λ 2 

42


und denieren λ t als den Minimalpunkt von q auf dem Intervall [β u , β o ] ⊂ (0, 1). Den 

Wert λ t kann man direkt bestimmen, da aus α ∈ (0, 1) und der Verletztheit von (3.4) 

folgt 

q ′′ (λ) = 2(ξ(1) − ξ(0) − ξ ′ (0)) ≥ 2(α − 1)ξ ′ (0) > 0. 

Daher ist der globale Minimalpunkt von q 

Wir setzen daher 

λ t = −ξ ′ (0)/[2(ξ(1) − ξ(0) − ξ ′ (0))]. 

⎧ 

⎪⎨ β u , λ t ≤ β u , 

λ + = λ t , β u < λ t < β o , 

⎪⎩ 

β o , λ t ≥ β o . 

(3.13) 

Falls der erste verkleinerte Wert von λ Bedingung (3.4) nicht erfüllt, berechnen wir 

weitere Verkleinerungen mit den Daten 

ξ(0) = f(x c ), ξ ′ (0) = ∇f(x c ) T d, ξ(λ − ), ξ(λ c ) 

wobei λ c < λ − der aktuelle und der vorletzte Wert von λ sind, für die (3.4) verletzt ist. 

Diese Daten bestimmen ein kubisches Modell für f 

q(λ) = ξ(0) + ξ ′ (0)λ + c 2 λ 2 + c 3 λ 3 , 

wobei c 2 und c 3 durch folgende Gleichungen bestimmt sind: 

q(λ c ) = ξ(λ c ) = f(x c + λ c d) 

q(λ − ) = ξ(λ − ) = f(x c + λ − d). 

Daraus erhält man das lineare Gleichungssystem 

λ 2 cc 2 + λ 3 cc 3 = ξ(λ c ) − ξ(0) − ξ ′ (0)λ c (3.14) 

λ 2 −c 2 + λ 3 −c 3 = ξ(λ − ) − ξ(0) − ξ ′ (0)λ − . 

Wir suchen wieder ein lokales Minimum λ t > 0 von q; falls eine solches existiert, so gilt 

{ √ 

√ 

} 

λ t ∈ (−c 2 + c 2 2 − 3c 3 ξ ′ (0))/(3c 3 ), (−c 2 − c 2 2 − 3c 3 ξ ′ (0))/(3c 3 ) . (3.15) 

Es kann nur existieren, falls gilt c 2 2 − 3c 3 ξ ′ (0) > 0 und q ′′ (λ t ) = 2c 2 + 6c 3 λ t > 0. Hat man 

solch einen Minimalpunkt λ t > 0, so berechnet man λ + ähnlich wie in (3.13): 

⎧ 

⎪⎨ β u λ c , λ t ≤ β u λ c , 

λ + = λ t , β u λ c < λ t < λ c β o , 

⎪⎩ 

β o λ c , λ t ≥ β o λ c . 

Die Anwendung dieser Projektionstechnik nennt man safeguarding. Sie ist wichtig für die 

Theorie, wie man im Beweis von Satz 11 sieht. Für die Praxis ist sie ebenfalls wichtig, 

denn wenn das kubische Modell schlecht ist, kann das Modell ansonsten Schrittweitenverkleinerungen 

verursachen, die so klein sind, daÿ die Iteration stagniert oder so gross 

(d.h. so nahe bei 1), daÿ zu viele Verkleinerungen gebraucht werden bis (4.3) gilt. 

43


3.2.2. Langsame Konvergenz beim steilsten Abstieg 

Leider haben Verfahren des steilsten Abstiegs keine guten lokalen Konvergenzeigenschaften, 

sogar bei sehr einfachen Funktionen. Um dies zu zeigen betrachten wir den speziellen 

Fall konvexer quadratischer Zielfunktionen, 

f(x) = (1/2)x T Ax − b T x + a, 

mit einer symmetrischen positiv deniten Matrix A, b ∈ R n und a ∈ R. Wir werden 

ein sehr einfaches Beispiel betracheten, wo wir das Verfahren des steilsten Abstiegs mit 

H k = I (also λ max = λ min = 1) verwenden und zeigen, wie die Konvergenzgeschwindigkeit 

von der Kondition und der Skalierung abhängt. 

Lemma 5 Es sei f eine konvexe quadratische Funktion und H k = I für alle k. Dann 

konvergiert die Folge {x k }, die durch Algorithmus optarm erzeugt wird, zu dem eindeutigen 

Minimalpunkt von f. 

Beweis. Die Funktion f ist nach unten beschränkt (vgl. 3.4) und es gilt ∇f(x) = Ax −b. 

Daher verschwindet der Gradient nur in x ∗ = A −1 b. Da die Hessematrix ∇ 2 f(x ∗ ) = A 

positiv denit ist, sind die hinreichenden Optimalitätsbedingungen zweiter Ordnung 

erfüllt und x ∗ ist der eindeutige Minimalpunkt von f. 

Aus Satz 11 folgt 

lim ∇f(x k) = Ax k − b = A(x k − x ∗ ) = 0, 

k→∞ 

also konvergiert die Folge {x k } gegen x ∗ . 

Da das Verfahren des steilsten Abstiegs von jedem Startpunkt aus gegen den eindeutig 

bestimmten Minimalpunkt konvergiert, können wir die Konvergenzrate ohne Berücksichtigung 

des Anfangswertes untersuchen. Dabei verwenden wir die ANorm. Die Probleme 

können mit dem einfachsten Fall a = 0 und b = 0 verdeutlicht werden. 

Proposition 1 Es sei f(x) = x T Ax/2 und {x k } die durch Algorithmus optarm erzeugte 

Folge mit H k = I für alle k. Es sei C = 4α(1 − α)β u . Dann gilt für die Folge {x k } 

‖x k+1 ‖ 2 A ≤ [1 − Cλ min /(κ(A))] ‖x k ‖ 2 A. (3.16) 

Beweis. Aus der Bedingung des hinreichenden Abstiegs (3.4) folgt, dass für alle k gilt 

x T k+1Ax k+1 − x T k Ax k = 2(f(x k+1 ) − f(x k )) 

≤ 2α∇f(x k ) T (x k+1 − x k ) (3.17) 

= 2αλ k ∇f(x k ) T d = 2αλ k (Ax k ) T (Ax k ). 

Die Lipschitzkonstante von ∇f is ‖A‖ = λ max . Daher folgt aus (3.9) 

λ n ≥ λ = 2β u (1 − α)λ min /λ max = 2β u (1 − α)/κ(A). (3.18) 

44


Unter Verwendung der ANorm können wir (3.18) schreiben als 

wobei wir folgende Ungleichung verwenden: 

Somit erhalten wir 

‖x k+1 ‖ 2 A − ‖x k ‖ 2 A ≤ −2αλλ min ‖x k ‖ 2 A, 

‖Az‖ 2 = (Az) T (Az) ≥ λ min z T Az = λ min ‖z‖ 2 A. 

‖x k+1 ‖ 2 A ≤ (1 − 2αλλ min ) ‖x k ‖ 2 A = (1 − 4α(1 − α)β u λ min /κ(A)) ‖x k ‖ 2 A. 

Daraus folgt die Behauptung. 

Nun betrachten wir zwei konkrete Beispiele. Es seien N = 1 und 

f(x) = ωx 2 /2, 

mit 

ω < 2(1 − α). (3.19) 

In diesem Fall ist x ∗ = 0 und ∇f(x) = f ′ (x) = ωx und daher gilt für alle x ∈ R 

f(x − ∇f(x)) − f(x) = (ωx 2 /2) ((1 − ω) 2 − 1) 

= (ω 2 x 2 /2)(ω − 2) 

< −α|f ′ (x)| 2 = −αω 2 x 2 

da aus (3.19) folgt (ω − 2)/2 < −α. Daher gilt (3.4) mit d = −∇f(x) und λ = 1 für alle 

x ∈ R. Die Konvergenzrate kann man direkt bestimmen, da 

x + = (1 − ω)x c 

für alle x c . Die Konvergenz ist also qlinear mit qFaktor 1 − ω. Falls ω sehr klein ist, 

wird die Konvergenz sehr langsam. 

Nun betrachten wir den Fall, dass ω groÿ ist. Dann gilt 

nur wenn 

f(x − λ∇f(x)) − f(x) = (ω 2 x 2 /2)λ(λω − 2) < −αλω 2 x 2 

λ < 2(1 − α)/ω. 

Falls ω sehr groÿ ist, braucht man also viele Schrittweitenverkleinerungen in jeder Iteration 

und die Liniensuche wird sehr inezient. 

Dies sind Beispiele schlechter Skalierung, bei der eine Multiplikation von f durch 

einen Skalierungsfaktor die Ezienz der Liniensuche oder die Konvergenzgeschwindigkeit 

dramatisch verbessern kann. Für ω = 1 sind das Verfahren des steilsten Abstiegs und 

das Newtonverfahren identisch und es wird nur eine einzige Iteration gebraucht. 

Schlechte Skalierung von f beeinuÿt das Newtonverfahren nicht. Es konvergiert 

schnell wenn der Startpunkt nahe bei einer Lösung liegt und eine Liniensuche ist nicht 

45


nötig. Ist man aber weit weg von jeder Lösung, so ist die Newtonrichtung keine Abstiegsrichtung 

und eine Liniensuche kann nicht durchgeführt werden. Die Hauptschwierigkeit 

bei der Entwicklung von Liniensuchverfahren ist der Übergang von der Richtung des 

steilsten Abstiegs, die vorteilhaft ist wenn man sich weit weg von jeder Lösung bendet, 

zum Newtonverfahren oder einem anderen superlinear konvergenten Algorithmus wenn 

man einer Lösung näherkommt. Die oben diskutierten Skalierungsprobleme müssen dabei 

auch berücksichtigt werden. 

3.3. Trust Region Verfahren 

Trust Region Verfahren lösen das Problem, das bei Liniensuchverfahren auftritt, falls 

die Approximation der Hessematrix nicht positiv denit ist. Insbesondere erlaubt eine 

Newton Trust Region Strategie die Verwendung der vollständigen Information, die die 

Hessematrix enthält, sogar in Gebieten, wo die Hessematrix negative Eigenwerte besitzt. 

In dem Buch [9], werden diese Verfahren ausführlich dargestellt. Die speziellen Trust Region 

Verfahren, die wir vorstellen, erlauben einen glatten Übergang von der Richtung des 

steilsten Abstiegs zu der Newton Richtung. Dabei erhalten wir die globalen Konvergenzeigenschaften 

des Verfahrens des steilsten Abstiegs und die schnelle lokale Konvergenz 

des Newtonverfahrens. 

Die Grundidee ist sehr einfach. Es sei ∆ der Radius der Kugel um x c , in der wir darauf 

vertrauen, daÿ das quadratische Modell 

m c (x) = f(x c ) + ∇f(x c ) T (x − x c ) + (x − x c ) T H c (x − x c )/2 

eine brauchbare Approximation der Funktion f ist. Die Zahl ∆ heiÿt der Trust Region 

Radius und die Kugel 

T (∆) = {x : ‖x − x c ‖ ≤ ∆} 

heiÿt die Trust Region, oder anders gesagt, die Vertrauenskugel. 

Wir berechnen den neuen Punkt x + , indem wir (approximativ) die Funktion m c über 

T (∆) minimieren. Dieses Trust Region Problem wird üblicherweise so formuliert, daÿ 

die Dierenz s t zwischen x c und dem Minimalpunkt von m c in der Trust Region gesucht 

wird: 

min m c(x c + s). (3.20) 

‖s‖≤∆ 

Wir werden von Fall zu Fall den Schritt s t oder den Punkt x t = x c + s t als die Lösung 

des Trust Region Problems bezeichnen. 

Wenn man das Trust Region Problem gelöst hat, muÿ man entscheiden, ob man den 

berechneten Schritt akzeptiert oder den Trust Region Radius verändert. Die Trust Region 

Verfahren, die wir diskutieren, approximieren die Lösung des Trust Region Problems 

mit dem Minimalpunkt des quadratischen Modells entlang eines stückweise linearen 

Pfades, der in der Trust Region enthalten ist. Bevor wir diese spezischen Verfahren 

diskutieren, geben wir noch einen Spezialfall eines globalen Konvergenzergebnisses von 

Powell (Mathematical Programming 29, 1984) an. 

46


Als Prototyp für ein Trust Region Verfahren präsentieren wir zunächst Algorithmus 

7. 

Algorithmus 7 (trbasic(x, f)) 

1. Initialisiere den Trust Region Radius ∆. 

2. Wiederhole bis die Abbruchkriterien erfüllt sind: 

(a) Bestimme eine approximative Lösung des Trust Region Problems. 

(b) Teste diesen Punkt und den Trust Region Radius und entscheide, ob der Mittelpunkt 

der Vertrauenskugel, der Trust Region Radius, oder beide akzeptiert werden 

sollen. Mindestens einer von beiden wird in dieser Phase des Verfahrens geändert. 

Die meisten konkreten Trust Region Verfahren unterscheiden sich nur in der Durchführung 

von Schritt 2(a) in Algorithmus trbasic. Es gibt auch verschiedene Arten, Schritt 

2(b) zu implementieren, aber diese unterscheiden sich nur in unwesentlichen Details und 

die Herangehensweise, die wir im nächsten Abschnitt 3.3.1 präsentieren, ist repräsentativ. 

3.3.1. Änderung der Vertrauenskugel 

Der Trust Region Radius und der neue Punkt werden gewöhnlich gleichzeitig getestet. 

Dabei ist eine hinreichende Abstiegsbedingung wichtig, aber der Kernpunkt des Tests 

ist die Frage, wie gut das quadratische Modell die Funktion innerhalb der Trust Region 

approximiert. Wir messen dies durch den Vergleich der tatsächlichen Verkleinerung in f 

ared = f(x c ) − f(x t ) 

mit der vorausgesagten Verkleinerung, d.h. dem Abstieg in dem quadratischen Modell 

pred = m c (x c ) − m c (x t ) = −∇f(x c ) T s t − s T t H c s t /2. 

Falls ∇f(x c ) ≠ 0 gilt pred > 0 für alle Trust Region Verfahren, die wir diskutieren. Wir 

werden drei Steuerungsparameter einführen, 

µ 0 ≤ µ low < µ high , 

die benutzt werden, um zu bestimmen, welche Schritte verworfen werden (ared/pred < 

µ 0 ), und/oder ob der Trust Region Radius verkleinert werden sollte (ared/pred < µ low ), 

vergröÿert (ared/pred > µ high ) oder unverändert gelassen wird. Typische Werte sind 

1/4 für µ low und 3/4 für µ high . Sowohl die Wahl µ 0 = 10 −4 als auch µ 0 = µ low werden 

verwendet. Man kann auch die Bedingung des hinreichenden Abstiegs (3.4) verwenden, 

um zu entscheiden, ob der Versuchsschritt akzeptiert wird. 

Wir werden die Vertrauenskugel vergröÿern oder verkleinern, indem wir den Radius 

∆ mit Konstanten 

0 < ω down < 1 < ω up 

47


multiplizieren. Typische Werte sind ω down = 1/2 und ω up = 2. Es gibt noch viele andere 

Möglichkeiten, ein Trust Region Verfahren zu implementieren, aus denen auch lokale 

Konvergenz folgt. Zum Beispiel kann an Stelle des Quotienten ared/pred der relative 

Fehler |pred − ared|/‖∇f‖ verwendet werden. Schlieÿlich begrenzen wir die Anzahl der 

Vergröÿerungen des Trust Region Radius durch die Bedingung 

∆ ≤ C T ‖∇f(x c )‖, (3.21) 

mit einer Konstante C T > 1, die von x c abhängen kann. Damit schlieÿen wir die Möglichkeit 

einer unendlichen Expansion aus, was in den Beweisen gebraucht wird. 

Die Möglichkeit einer Expansion ist wichtig für die Ezienz des Verfahrens falls f 

schlecht skaliert ist. Die Konvergenztheorie, die wir hier präsentieren, verwendet ebenfalls 

die Expansionsmöglichkeit im Konvergenzbeweis, aber das ist hier nicht wesentlich. 

Wir werden den Algorithmus zum Test der aktuellen Vertrauensregion in der Art präsentieren, 

daÿ er nur dann zurückkehrt, wenn ein neuer Iterationspunkt akzeptiert worden 

ist. Dies ist etwas anders, als man es sonst in der Literatur ndet. 

Algorithmus 8 (trtest(x c , x t , x + , f, ∆)) 

1. z = x c . 

2. Wiederhole, solange z = x c und ∆ ≤ C T ‖∇f(x c )‖: 

(a) ared = f(x c ) − f(x t ), s t = x t − x c , pred = −∇f(x c ) T s t − s T t H c s t /2. 

(b) Falls ared/pred < µ 0 , setze z = x c , ∆ = ω down ∆, und löse das Trust Region 

Problem mit dem neuen Radius um einen neuen Versuchspunkt zu erhalten. 

Falls der Trust Region Radius gerade vergröÿert wurde, setze z = x alt 

t . 

(c) Falls µ 0 ≤ ared/pred < µ low , setze z = x t und ∆ = ω down ∆. 

(d) Falls µ low ≤ ared/pred ≤ µ high , setze z = x t . 

(e) Falls µ high < ared/pred und ‖s t ‖ = ∆ ≤ C T ‖∇f(x c )‖, setze z = x c , ∆ = ω up ∆, 

und löse das Trust Region Problem mit dem neuen Radius, um einen neuen Versuchspunkt 

zu erhalten. 

Speichere den alten Versuchspunkt als x alt 

t , für den Fall daÿ die Expansion fehlschlägt. 

3. x + = z. 

Die Schleife in Algorithmus trtest erfüllt den gleichen Zweck wie die Schleife in einem 

Liniensuchverfahren wie Algorithmus steep. Die Lösung des Trustregionproblems muÿ 

so erfolgen, daÿ die Schleife nach endlich vielen Iterationen abbricht. Eine allgemeines 

Verfahren, dies zu erreichen, ist das Thema des nächsten Abschnittes. 

Wir fügen Algorithmus trtest in den Rahmen eines allgemeinen Trust Region Verfahrens 

ein, das wir im Rest des Abschnittes benutzen. 

Algorithmus 9 (trgen(x, f)) 

48


1. Initialisiere den Trust Region Radius ∆. 

2. Wiederhole für immer: 

(a) Setze x c = x. Berechne den Gradienten ∇f(x c ) und einen approximative Hessematrix 

H c . 

(b) Bestimme eine approximative Lösung des Tust Region Problems, um einen 

Versuchspunkt x t zu erhalten. 

(c) Teste diesen Punkt mit trtest(x c , x t , x, f, ∆). 

Hessematrizen und Gradienten werden nur in Schritt 2(a) von Algorithmust trgen 

berechnet. 

3.3.2. Globale Konvergenz des Trust Region Verfahrens 

Im Prinzip kann man das Trustregionproblem exakt lösen, aber es ist einfacher und 

ezienter, das Problem nur approximativ zu lösen. Es ist erstaunlich, daÿ man das 

Trustregionproblem nicht sehr genau lösen muÿ, um globale und lokal sogar superlineare 

Konvergenz zu erhalten. 

Unsere Ansprüche an die Lösungen des Trustregionproblems und an unser lokales quadratisches 

Modell sind bescheiden und können schnell überprüft werden. In der Analyse 

werden der Parameter σ in Voraussetzung 2 und er Parameter C T aus (3.21) verwendet, 

aber sie spielen in der Implementierung keine Rolle. In später zu diskutierenden 

Algorithmen kann man σ berechnen. Teil 2 der Voraussetzung folgt für gut konditionierte 

und beschränkte Modellhessematrizen, falls Algorithmus trtest zur Steuerung der 

Vertrauenskugel verwendet wird. 

Voraussetzung 2 

1. Es gibt eine Zahl σ > 0, für die gilt 

pred = f(x c ) − m c (x t ) ≥ σ‖∇f(x c )‖ min{‖s t ‖, ‖∇f(x c )‖}. (3.22) 

2. Es gibt eine Zahl M > 0, so daÿ entweder gilt ‖s t ‖ ≥ ‖∇f(x c )‖/M oder ‖s t ‖ = ∆ c . 

Das globale Konvergenzresultat, das man mit dieser Voraussetzung erhält, sollte man 

mit dem entsprechenden Resultat für Liniensuchverfahren vergleichen, d.h. mit Satz 11. 

Satz 12 Die Funktion ∇f sei Lipschitzstetig mit der Lipschitzkonstante L. Die Folge 

{x k } sei durch den Algorithmus trgen erzeugt, wobei die Lösungen der Trust Region 

Probleme Voraussetzung 2 erfüllen. Die Matrizenfolge {H k } sei beschränkt. Dann folgt: 

Die Funktion f ist nach unten unbeschränkt, oder ∇f(x k ) = 0 für ein k, oder es gilt 

lim ∇f(x k) = 0. (3.23) 

k→∞ 

49


Beweis. Wir setzen voraus, daÿ f nach unten beschränkt ist und ∇f(x k ) ≠ 0 für alle 

k. Wir werden zeigen, daÿ eine Zahl M T > 0 existiert, so daÿ wenn einmal eine Iteration 

durchgeführt ist (d.h. der Schritt ist akzeptiert und der Trust Region Radius ist nicht 

länger ein Kandidat für die Vergröÿerung), folgende Ungleichung gilt: 

‖s k ‖ ≥ M T ‖∇f(x k )‖. (3.24) 

Da s k ein zulässiger Schritt ist, folgt aus Algorithmus trtest und Teil 1 von Voraussetzung 

2 die Ungleichung 

ared k ≥ µ 0 pred k ≥ µ 0 ‖∇f(x k )‖ σ min{‖s k ‖, ‖∇f(x k )‖ }. 

Wenn nun (3.24) gilt, so folgt daraus 

ared k ≥ µ 0 σ min{1, M T } ‖∇f(x k )‖ 2 . (3.25) 

Da die Folge der Funktionswerte f(x k ) monoton fällt und f nach unten beschränkt ist, 

folgt lim k→∞ ared k = 0. Wir sehen also, daÿ aus der Ungleichung (3.24) mit (3.25) die 

Behauptung (3.23) folgt. 

Wir zeigen nun also (3.24). Falls ‖s k ‖ < ∆ k , folgt aus Teil 2 von Voraussetzung 2 die 

Ungleichung 

‖s k ‖ ≥ ‖∇f(x k )‖/M. 

Daher brauchen wir nur den Fall zu betrachten, daÿ gilt 

‖s k ‖ = ∆ k und ‖s k ‖ < ‖∇f(x k )‖, (3.26) 

denn wenn (3.26) nicht gilt, so folgt (3.24) mit M T = min{1, 1/M}. Wir führen den 

Beweis, indem wir zeigen, daÿ wenn (3.26) gilt, und der Schritt s k akzeptiert wird, 

folgende Aussage gilt: 

‖s k ‖ = ∆ k ≥ 2σ ‖∇f(x k )‖ min{1 − µ high , (1 − µ 0 )ω −2 

up } /(M + L). (3.27) 

Damit folgt nämlich (3.24) mit 

M T = min { 1, 1/M, 2σ min{1 − µ high , (1 − µ 0 )ω −2 

up } /(M + L) } . 

Wir vergröÿern die Konstante M > 0 aus Teil 1 von Voraussetzung 2 bis gilt 

‖H k ‖ ≤ M für alle k. (3.28) 

Wir beweisen (3.27), indem wir zeigen, daÿ wenn für einen Versuchsschritt s t (3.26) gilt 

und (3.27) nicht gilt, der Trust Region Radius vergröÿert wird und der Schritt, der zu 

dem vergröÿerten Radius gehört, akzeptiert wird. Es sei s t ein Versuchsschritt für den 

gilt ‖s t ‖ < ‖∇f(x k )‖ und 

‖s t ‖ = ∆ t < 2σ ‖∇f(x k )‖ min{1 − µ high , (1 − µ 0 )ω −2 

up } /(M + L). (3.29) 

50


Aus der Lipschitzstetigkeit von ∇f und (3.28) folgt 

ared t = −∇f(x k ) T s t − 

∫ 1 

= pred t + s T t H k s t /2 − 

0 

(∇f(x k + ts t ) − ∇f(x k )) T s t dt 

∫ 1 

≥ pred t − (M + L) ‖s t ‖ 2 /2. 

Mit (3.22) aus Voraussetzung 2 folgt daraus 

≥ 1 − 

0 

ared t 

pred t 

≥ 1 − (M + L) ‖s t‖ 2 

2 pred t 

Gemäÿ (3.26) gilt ‖s t ‖ < ‖∇f(x k )‖, also folgt 

(∇f(x k + ts t ) − ∇f(x k )) T s t dt 

(M + L)‖s t ‖ 2 

2σ‖∇f(x k )‖ min{‖∇f(x k )‖, ‖s t ‖} . (3.30) 

min{‖∇f(x k )‖, ‖s t ‖} = ‖s t ‖, 

und somit 

ared t 

≥ 1 − (M + L) ‖s t‖ 

pred t 2 σ‖∇f(x k )‖ > µ high (3.31) 

wegen (3.29). Daher wird ein Expansionsschritt durchgeführt, bei dem ∆ t durch ∆ + t = 

ω up ∆ t ersetzt wird und s t durch s + t , dem Minimalpunkt des quadratischen Modells in 

der neuen Vertrauenskugel. 

Nach dem Expansionsschritt gilt 

‖s + t ‖ ≤ ω up ‖s t ‖ < ω up ‖∇f(x k )‖. 

Daher folgt 

min{‖∇f(x k )‖, ‖s + t ‖} > ‖s + t ‖/ω up . 

Also gilt analog zu (3.30) 

ared + t 

pred + t 

≥ 1 − 

(M + L)‖s + t ‖ 2 

2σ‖∇f(x k )‖ min{‖∇f(x k )‖, ‖s + t ‖} . 

≥ 1 − (M + L) ω up ‖s + t ‖ 

2 σ‖∇f(x k )‖ 

≥ 1 − (M + L) ω2 up ‖s t ‖ 

2 σ‖∇f(x k )‖ 

≥ µ 0 

wegen (3.29). Wenn also ein Schritt akzeptiert wird und (3.26) erfüllt, so gilt entweder 

auch (3.27) oder ‖s t ‖ = ∆ t > C T ‖∇f(x c )‖. Damit haben wir die Behauptung gezeigt. 

51


3.3.3. Ein unidirektionaler Trust Region Algorithmus 

Der direkteste Weg, einen Versuchspunkt zu berechnen, der Voraussetzung 2 erfüllt, ist 

die Liniensuche nachzuahmen und einfach das quadratische Modell in die Richtung des 

steilsten Abstiegs zu minimieren und dabei die Trust Region Schranken zu berücksichtigen. 

In diesem Algorithmus ist für einen gegebenen Punkt x c und einen gegebenen Radius 

∆ c unser Versuchspunkt der Minimalpunkt von 

unter der Nebenbedingung, daÿ gilt 

ψ c (λ) = m c (x c − λ∇f(x c )) 

x(λ) = x c − λ∇f(x c ) ∈ T (x c ). 

Die Lösung ist x(ˆλ), mit 

{ 

∆c /‖∇f(x c )‖ falls ∇f(x c ) 

ˆλ T H c ∇f(x c ) ≤ 0, 

= 

∆ 

min{ c 

, ‖∇f(x ‖∇f(x c)‖ c)‖ 2 /[∇f(x c ) T H c ∇f(x c )]} falls ∇f(x c ) T H c ∇f(x c ) > 0. 

(3.32) 

Man nennt x(ˆλ), also den Minimalpunkt des quadratischen Modells in der Richtung 

des steilsten Abstiegs in der Vertrauenskugel, den Cauchypunkt. Wir bezeichnen den 

Cauchypunkt mit x CP . 

Mit x CP als Versuchspunkt folgt aus Satz 12 ein globales Konvergenzresultat für den 

unidirektionalen Trust Region Algorithmus. 

Satz 13 Die Funktion ∇f sei Lipschitzstetig mit der Lipschitzkonstante L. Die Folge 

{x k } sei durch den Algorithmus trgen erzeugt, mit den Versuchspunkten x t = x CP aus 

(3.32). Die Matrizenfolge {H k } sei beschränkt. Dann folgt: Die Funktion f ist nach 

unten unbeschränkt, oder ∇f(x k ) = 0 für ein k, oder es gilt 

lim ∇f(x k) = 0. 

k→∞ 

Beweis. Wir zeigen, daÿ x t Teil 2 von Voraussetzung 2 erfüllt. Falls ‖s t ‖ = ∆ c , ist dies 

erfüllt. Falls ‖s t ‖ < ∆ c , folgt aus der Denition von x CP die Gleichung 

Wenn nun gilt ‖H c ‖ ≤ M, folgt 

s t = − ‖∇f(x c)‖ 2 ∇f(x c ) 

∇f(x c ) T H c ∇f(x c ) . 

‖s t ‖ ≥ ‖∇f(x c )‖/M, 

wie behauptet. 

Es bleibt zu zeigen, daÿ x t auch Teil 1 erfüllt. Diesen Beweis lassen wir als Übung. 

Unter schwächeren Voraussetzungen kann man zeigen, daÿ gilt 

an Stelle der Aussage ∇f(x k ) → 0. 

lim inf 

k→∞ ‖∇f(x k)‖ = 0, 

52

3.3.4. Die exakte Lösung des Trust Region Problems 


Die Theorie der restringierten Optimierung liefert eine Charakterisierung der Lösungen 

des Trust Region Problems. In diesem Abschnitt leiten wir diese Charakterisierung auf 

elementarem Wege her. In diesem Buch konzentrieren wir uns auf Näherungslösungen, 

aber der Leser sollte wissen, dass die exakte Lösung berechnet werden kann. 

Satz 14 Es seien g ∈ R N , A eine symmetrische N × N Matrix und 

Falls der Vektor s eine Lösung von 

ist, so existiert eine Zahl ν ≥ 0 mit 

m(s) = g T s + s T As/2. 

min m(s) (3.33) 

‖s‖≤∆ 

(A + νI)s = −g 

und es gilt entweder ν = 0 und ‖s‖ ≤ ∆ oder ‖s‖ = ∆. 

Falls die Matrix A positiv denit ist, so gilt auch die Rückrichtung. 

Beweis. Es sei s eine Lösung von (3.33). 

Falls ‖s‖ < ∆, gilt ∇m(s) = g + As = 0, und die Behauptung folgt mit ν = 0. 

Nun betrachten wir den Fall ‖s‖ = ∆. 

Dazu sei d eine Abstiegsrichtung für m in s, d.h. d T ∇m(s) < 0. Wir betrachten nun 

h(λ) = ‖s + λd‖ 2 . 

Da s Minimalpunkt von m in der Menge {x : x T x ≤ ∆ 2 } ist und für alle hinreichend 

kleinen λ > 0 gilt m(s + λd) < m(s), folgt für diese λ > 0 die Ungleichung h(λ) > ∆ 2 . 

Also gilt wegen h(0) = ∆ 2 die Ungleichung h ′ (0) = 2s T d > 0. 

Wir haben also gezeigt: Aus d T ∇m(s) < 0 folgt s T d > 0. Somit folgt aus s T d ≤ 

0 die Ungleichung s T ∇m(s) ≥ 0. Also gilt für alle d mit s T d = 0 die Ungleichung 

d T ∇m(s) ≥ 0. Angenommen, d T ∇m(s) > 0, dann folgt (−d) T ∇m(s) < 0 und somit 

(−d) T s > 0, ein Widerspruch. Also gilt d T ∇m(s) = 0, und es folgt die Existenz einer 

Zahl µ mit ∇m(s) = µs, d.h. (A − µI)s = −g. Mit der Wahl d = −∇m(s) erhalten wir 

d T ∇m(s) < 0, also s T d = −µs T s > 0, und es folgt µ < 0 und mit ν = −µ > 0 folgt die 

Behauptung. 

Nun beweisen wir, dass unter der Voraussetzung, dass A positiv denit ist, auch die 

Rückrichtung gilt. Es seien also s mit ‖s‖ ≤ ∆ und ν ≥ 0 gegeben mit (A + νI)s = −g 

und ν = 0 oder ‖s‖ = ∆. Falls ν = 0, folgt ∇m(s) = 0, und da die Hessematrix 

∇ 2 m(s) = A positiv denit ist, folgt die Behauptung. 

Es sei nun F = {x : x T x − ∆ 2 ≤ 0} und 

J(x) = m(x) + (ν/2)(x T x − ∆ 2 ). 

53


Dann gilt für alle x ∈ F die Ungleichung J(x) ≤ m(x). Also gilt 

min 

x∈R 

x∈F 

N 

J(x) ≤ min 

J(x) ≤ min 

x∈F m(x). 

Es gilt ∇J(x) = ∇m(x) + νx = g + (A + νI)x, also ∇J(s) = 0. Da A positiv denit ist, 

ist J konvex, daher gilt: s ∈ F ist der Minimalpunkt von J auf R N , also auch auf F, 

und wegen J(s) = m(s) folgt m(s) = min x∈F m(x), d.h. s löst (3.33). 

3.4. Übungen 

Übung 8 Es sei F eine Funktion vom R N in den R N . Wir denieren 

f(x) = ‖F (x)‖ 2 /2. 

Berechnen Sie den Gradient ∇f! In welchen Fällen ist der Newtonschritt d für die 

nichtlineare Gleichung F (x) = 0, 

eine Abstiegsrichtung für f in x? 

d = −F ′ (x) −1 F (x), 

Lösung Es gilt ∇f(x) T = F (x) T F ′ (x). Mit der Taylorentwicklung folgt 

f(x + λd) = f(x) + λ∇f(x) T d + o(λ) = f(x) − λ(‖F (x)‖ 2 + o(λ)/λ). 

Also ist d eine Abstiegsrichtung für f in x falls gilt F (x) ≠ 0. 

Übung 9 Beweisen Sie: 

Es sei H eine symmetrische positiv denite Matrix mit dem kleinsten Eigenwert λ min > 

0 und dem gröÿten Eigenwert λ max . Dann gilt für alle z ∈ R N die Ungleichung 

1 

z T z ≤ z T H −1 z ≤ 1 z T z. 

λ max λ min 

Übung 10 Es sei H eine symmetrische positiv denite Matrix, b ∈ R N und 

f(x) = 1 2 xT Hx − x T b. 

Zeigen Sie: Die Funktion f ist nach unten beschränkt. 

Lösung Es gilt f(x) ≥ (1/2)λ min ‖x‖ 2 − ‖b‖ ‖x‖ = ‖x‖((λ min /2)‖x‖ − ‖b‖). Aus 

‖x‖ ≥ 2‖b‖/λ min folgt also f(x) ≥ 0. Das Polynom p(t) = (1/2)λ min t 2 − ‖b‖ t ist nach 

unten beschränkt. Also ist f nach unten beschränkt. 

54

3.4. Übungen 

Übung 11 Gegeben sei die Rosenbrockfunktion, 

f(x) = 100(x 2 − x 2 1) 2 + (1 − x 1 ) 2 . 

Berechnen Sie ∇f und ∇ 2 f! 

Zeigen Sie: 

Aus f(x) < 0.0025 folgt det[∇ 2 f(x)] > 0 und die Hessematrix ∇ 2 f(x) ist positiv denit. 

Es gilt det[∇ 2 f(x)] = 0 genau dann, wenn x 2 − x 2 1 = 0.005. 

Lösung 

∇f(x) T = (−400(x 1 x 2 − x 3 1) + 2x 1 − 2, 200x 2 − 200x 2 1). 

∇ 2 f(x) = 

( 

−400(x2 − 3x 2 1) + 2 −400x 1 

−400x 1 200 

) 

. 

det ∇ 2 f(x) = 80000(x 2 1 − x 2 ) + 400. In dem Minimalpunkt (1, 1) T ist die Hessematrix 

positiv denit, also auch für alle (x 1 , x 2 ) T mit x 2 − x 2 1 < 0.005. 

Übung 12 Es sei f : R N → R dierenzierbar. Es sei p : R → R N eine dierenzierbare 

Parametrisierung einer Niveaulinie, d.h. f(p(s)) = α ∈ R für alle s ∈ R. Man sagt: 

"Die Gradienten von f stehen senkrecht auf der Niveaulinie." 

Man formuliere eine entsprechende mathematisch exakte Behauptung und verdeutliche 

sich den Sachverhalt durch eine Skizze. 

Übung 13 a)Man betrachte die Methode des steilsten Abstiegs 

x k+1 = x k − λ k ∇f(x k ) 

mit der Schrittweite λ k = arg min γ≥0 f(x k −γ∇f(x k )). Es sei f(x) = x 2 1+2x 2 2+4x 1 +4x 2 . 

Man zeige: Aus x 0 = 0 folgt 

x k = (2/3 k − 2, (−1/3) k − 1) T . 

Lösung Es gilt f(x) = (x 1 + 2) 2 + 2(x 2 + 1) 2 − 6. Wir setzen z 0 = (−2, −1) T 

z = x − z 0 . Dann gilt 

f(x) = f(z + z 0 ) = z1 2 + 2z2 2 − 6 

und 

∇f(x) = ∇f(z + z 0 ) = (2z 1 , 4z 2 ) T . 

Wir setzen h(γ) = f(z − γ∇f(z + z 0 ) + z 0 ) = (1 − 2γ) 2 z 2 1 + 2(1 − 4γ) 2 z 2 2 − 6. Dann gilt 

und 

γ(z) = arg min h(γ) = z2 1 + 4z 2 2 

2(z 2 1 + 8z 2 2) . 55


Für einen Startpunkt s 0 betrachte die Folge z k+1 = z k − γ(z k )∇f(z k + z 0 ). Dann gilt 

für die erste Komponente z 1,k+1 = z 1,k (1 − 2γ(z k )), und für die zweite Komponente 

z 2,k+1 = (1 − 4γ(z k )). 

Es gelte nun z1,k 2 = 4z2,k. 2 Dann folgt γ(z k ) = 1/3 und z 1,k+1 = (1/3)z 1,k , z 2,k+1 = 

(−1/3)z 2,k , insbesondere also z1,k+1 2 = 4z2,k+1. 2 Also erhält man für alle k + j die Schrittweite 

1/3, und es folgt z 1,k+j = (1/3) j z 1,k , z 2,k+j = (−1/3) j z 2,k . Daraus folgt die Behauptung. 

b) Es sei 

f(x) = x 2 1 + 4x 1 + x 2 2 + 2x 2 . 

Zeigen Sie: Eine Schrittweite λ > 0 erfüllt (3.2) genau dann, wenn gilt λ < 1 − α. 

Übung 14 Es seien ξ(λ) = f(x c + λd) stetig dierenzierbar und α ∈ (0, 1). 

Betrachten Sie das kubische Interpolationsproblem 

q(λ) = ξ(0) + ξ ′ (0)λ + c 2 λ 2 + c 3 λ 3 

mit q(λ c ) = ξ(λ c ), q(λ − ) = ξ(λ − ), 0 < λ c < λ − , ξ ′ (0) < 0 und 

ξ(λ c ) − ξ(0) ≥ αλ c ξ ′ (0) 

ξ(λ − ) − ξ(0) ≥ αλ − ξ ′ (0). 

Beweisen oder widerlegen Sie: 

Das kubische Polynom q hat im Inneren des Intervalles [0, λ c ] mindestens einen Minimalpunkt, 

in dem die Ableitung verschwindet. 

Können es auch mehr sein? Muÿ überhaupt ein lokaler Minimalpunkt von q existieren? 

Lösung Wähle λ − = 1, λ c = 1/2, α = 1/2 und ξ(0), ξ ′ (0), ξ(λ c ), ξ(λ − ) so, daÿ gilt 

q(λ) = −λ + (3/2)λ 2 − λ 3 . 

Dann sind alle Voraussetzungen erfüllt, aber es gilt q ′ (λ) < 0 für alle λ ∈ R, also gibt 

es keinen Punkt, in dem die Ableitung verschwindet. Es existiert also hier kein lokaler 

Minimalpunkt. Im Allgemeinen kann es höchstens einen Minimalpunkt geben. 

Bei der Implementierung einer polynomialen Liniensuche muÿ man diesen Sachverhalt 

berücksichtigen, indem man abfragt, ob die Gleichung q ′ (λ) = 0 eine Lösung besitzt und 

falls ja, ob dies nicht ein Sattelpunkt ist. 

Übung 15 (Penaltymethode) Idee: 

Reduziere Problem mit Restriktionen auf unrestringiertes Problem! 

Optimalwert ω 

(P ) : min f(x) s.t. g i (x) ≤ 0, i ∈ {1, ..., m}. 

(H(λ)) : min f(x) + λφ(x). 

56

3.4. Übungen 

Optimalwert v(λ) 

mit φ(x) = 0 falls x ∈ S = {x : g i (x) ≤ 0, i ∈ {1, ..., m}} und φ(x) > 0 falls x ∉ S. 

Aufgabe Finde Beispiele für φ! 

Gegeben sei eine Folge (λ k ) k mit λ k → ∞, λ k > 0 (die sogenannten Penaltyparameter). 

Die Lösungsmengen von (H(λ k )) bezeichnen wir mit ψ(λ k ). 

Aufgabe Voraussetzung: f, g seien stetig und es gibt x ∗ ∈ S mit f(x ∗ ) = ω. 

a) Zeige: Für alle λ ∈ (0, ∞) gilt v(λ) ≤ ω. 

b) Zeige: Falls inf x∈R n f(x) > −∞ folgt 

lim 

sup 

λ→∞ x∈ψ(λ) 

φ(x) = 0. 

Falls φ stetig ist, folgt aus b): Falls x k ∈ ψ(λ k ) gegen ¯x konvergieren, folgt φ(¯x) = 0, 

also ¯x ∈ S. Die Häufungspunkte der durch die Penaltymethode erzeugten Folge sind also 

zulässig. 

c) Zeige: Falls f nach unten beschränkt ist und φ stetig ist und falls x k ∈ ψ(λ k ) gegen 

¯x konvergieren, folgt 

lim 

k→∞ v(λ k) = ω, 

also f(¯x) = ω und ¯x löst (P ). Die Häufungspunkte der durch die Penaltymethode erzeugten 

Folge sind also Lösungen von (P ). 

Lösung Ein Beispiel für eine nichtdierenzierbare Penaltyfunktion ist 

φ(x) = max{max{g i (x), 0}, i ∈ {1, ..., m}}. 

Ein Beispiel für eine dierenzierbare Penaltyfunktion ist 

m∑ 

φ(x) = {max{g i (x), 0} 2 . 

i=1 

a) Es gilt v(λ) ≤ f(x ∗ ) + λφ(x ∗ ) = ω. 

b) Für x ∈ ψ(λ) gilt f(x) + λφ(x) = v(λ) ≤ ω, also λφ(x) ≤ ω − f(x) ≤ ω − inf x f(x). 

Also folgt 

0 ≤ lim sup φ(x) ≤ lim (ω − inf f(x))/λ = 0. 

λ→∞ 

λ→∞ x 

x∈ψ(λ) 

c) Es gilt f(¯x) = lim k→∞ f(x k ) ≤ lim k→∞ v(λ k ) = lim k→∞ f(x k ) + λ k φ(x k ) ≤ ω. Da ¯x 

nach b) in der Menge S liegt, gilt auch f(¯x) ≥ ω. 

Übung 16 Es sei m c (x) = f(x c )+∇f(x c ) T (x−x c )+(x−x c ) T H c (x−x c )/2. Betrachten 

Sie das Problem 

min 

λ 

m c (x c − λ∇f(x c )) s.t. ‖λ∇f(x c )‖ ≤ ∆. 

Berechnen Sie die Lösung! 

Hinweis: 

Unterscheiden Sie die Fälle ∇f(x c ) T H c ∇f(x c ) > 0 und ∇f(x c ) T H c ∇f(x c ) ≤ 0. 

57


Lösung Setze h(λ) = m c (x c − λ∇f(x c )). Dann gilt 

h ′ (λ) = −∇f(x c ) T ∇f(x c ) + λ∇f(x c ) T H c ∇f(x c ). 

Falls gilt ∇f(x c ) T H c ∇f(x c ) ≠ 0, so ist die Nullstelle von h ′ 

λ 0 = ∇f(x c ) T ∇f(x c )/[∇f(x c ) T H c ∇f(x c )]. 

Falls ∇f(x c ) T H c ∇f(x c ) = 0, gilt h ′ (λ) = −∇f(x c ) T ∇f(x c ) ≤ 0, also wird das Minimum 

an dem maximalen zulässigen Wert von λ angenommen, d.h. für λ = ∆/‖∇f(x c )‖. 

Falls ∇f(x c ) T H c ∇f(x c ) > 0, folgt λ 0 > 0 und h is konvex. Falls gilt ‖λ 0 ∇f(x c )‖ ≤ ∆, 

so ist der Minimalpunkt λ 0 . Falls ‖λ 0 ∇f(x c )‖ > ∆, so wird das Minimum in λ = 

∆/‖∇f(x c )‖ angenommen. 

Falls ∇f(x c ) T H c ∇f(x c ) < 0, folgt λ 0 < 0 und h ist konkav. In diesem Fall wird das 

Minimum in λ = ∆/‖∇f(x c )‖ angenommen. 

Zusammenfassend kann man sagen: Falls ∇f(x c ) T H c ∇f(x c ) > 0 und ‖λ 0 ∇f(x c )‖ ≤ 

∆, so ist der Minimalpunkt λ 0 ; sonst λ = ∆/‖∇f(x c )‖. 

Übung 17 Betrachten Sie das Problem 

min x s.t. − x ≤ 0, x − 1 ≤ 0 

und dazu die logarithmische Barrierefunktion P µ (x) = x − µ log(x) − µ log(1 − x) für 

µ > 0: 

min x 

P µ (x). 

Berechnen Sie einen lokalen Minimalpunkt von P µ . 

Ist die zweite Ableitung P µ ′′ dort positiv denit? 

Was kann man über die Konvergenz des Verfahrens für µ → 0 aussagen? 

Lösung Es gilt 

Der Minimalpunkt ist 

P µ(x) ′ = x2 − (1 + 2µ)x + µ 

. 

x(x − 1) 

x(µ) = 

Übung 18 Betrachten Sie das Problem 

2µ 

1 + 2µ + √ 1 + 4µ 2 . 

min −x 1 x 2 x 3 s.t. 72 − x 1 − 2x 2 − 2x 3 = 0 

und dazu das Penaltyverfahren mit H µ (x) = −x 1 x 2 x 3 + (µ/2)(72 − x 1 − 2x 2 − 2x 3 ) 2 und 

µ > 0: 

min x 

H µ (x). 

Berechnen Sie einen lokalen Minimalpunkt von H µ . 

Ist die Hessematrix ∇ 2 H µ dort positiv denit? 

Was kann man über die Konvergenz des Verfahrens für µ → ∞ aussagen? 

58

3.4. Übungen 

Lösung Aus ∇H µ (x) = 0 folgt x 3 = x 2 und x 1 = 2x 2 . Für den lokalen Minimalpunkt 

√ 

gilt x 2 = 24/(1 + (1 − 8/µ)). 

Übung 19 Gegeben ist eine Folge positiver Zahlen (r k ) k die für k → ∞ gegen unendlich 

strebt. Es seien f : R N → R und g : R N → R M stetig. Deniere 

∑ M 

f k (x) = f(x) + (1/2)r k g j (x) 2 . 

Wir setzen voraus, daÿ die Menge U = {x ∈ R N : g k (x) = 0 für alle k ∈ {1, ..., M}} 

nicht leer ist und lim ‖x‖→∞ f(x) = ∞. 

Wir betrachten eine Folge x k mit x k ∈ Arg min f k (x). 

Man zeige: 

Jeder Häufungspunkt von (x k ) k∈N ist Minimalpunkt von f auf der Menge U. 

j=1 

Nun seien f und g stetig dierenzierbar. 

Zeigen Sie: Für jeden Häufungspunkt x ∗ von (x k ) k , für den die Gradienten 

∇g 1 (x ∗ ), ..., ∇g M (x ∗ ) linear unabhängig sind, gibt es λ ∈ R M mit 

M∑ 

∇f(x ∗ ) + λ j ∇g j (x ∗ ) = 0. 

j=1 

Übung 20 Zeigen Sie, dass unter den Voraussetzungen von Satz 13 auch Teil 1. der 

Voraussetzung 2 erfüllt ist. 

Unterscheiden Sie dabei folgende Fälle: 

1. s T t H c s t ≤ 0 Dann gilt s t = −‖s t ‖/‖∇f(x c )‖∇f(x c ). 

2. s T t H c s t > 0 und s t = −‖∇f(x c )‖ 2 /[∇f(x c ) T H c ∇f(x c )]∇f(x c ) 

3. s T t H c s t > 0 und s t = −‖s t ‖/‖∇f(x c )‖∇f(x c ). 

In diesem Fall gilt ‖∇f(x c )‖ 3 /(∇f(x c ) T H c ∇f(x c )) ≥ ∆ = ‖s t ‖. 

Eine mögliche Wahl ist σ = min{1/2, 1/(2M)}. 

Lösung Zu zeigen: Es gibt σ > 0 mit 

pred = f(x c ) − m c (x t ) ≥ σ‖∇f(x c )‖ min{‖s t ‖, ‖∇f(x c )‖}. 

Es gilt pred = −∇f(x c ) T s t − s T t H c s t /2. 

1. Fall: pred = ‖s t ‖ ‖∇f(x c )‖ − s t H c s t /2 ≥ ‖s t ‖ ‖∇f(x c )‖ 

2. Fall: pred = (1/2)‖∇f(x c )‖ 4 /(∇f(x c ) T H c ∇f(x c )) ≥ (1/2M)‖∇f(x c )‖ 2 

3. Fall: 

pred = ‖s t ‖ ‖∇f(x c )‖ − (1/2)‖s t ‖ 2 ‖∇f(x c )‖ 3 /‖∇f(x c )‖ 2 

≥ 

‖s t ‖ ‖∇f(x c )‖ − (1/2)‖s t ‖ ‖∇f(x c )‖ 

= (1/2)‖s t ‖ ‖∇f(x c )‖. 

59


Übung 21 Die Sekantengleichung ist die Gleichung 

H + (x + − x c ) = ∇f(x + ) − ∇f(x c ). 

Zeigen Sie, dass im Fall N = 1 das Verfahren mit 

das bekannte Sekantenverfahren ist. 

x ++ = x + − (H + ) −1 ∇f(x + ) 

Übung 22 Zeigen Sie: 

Für eine symmetrische positiv denite Matrix A gilt die Ungleichung 

(z T As) 2 ≤ (s T As)(z T Az) 

für alle Vektoren z und s. Dabei tritt Gleichheit nur auf, falls z und s linear abhängig 

sind. 

Lï¾ 1 ung Falls s = 0, so gilt die Behauptung. Wir setzen also voraus, dass gilt s ≠ 0. 

2 

Wir denieren die Funktionen f(v) = (v T As) 2 und h(v) = v T Av − 1. Wir betrachten 

das Optimierungsproblem 

max f(v) s.t. h(v) = 0. 

Eine Lösung (die ja existiert) nennen wir v ∗ . Nach dem Satz von Lagrange gibt es einen 

Lagrangemultiplikator λ mit 

∇f(v ∗ ) + λ∇h(v ∗ ) = 0. 

Es gilt ∇f(v) T = 2(v T As)s T A und ∇h(v) T = 2v T A. Es folgt 

2((v ∗ ) T As)s T A + 2λ(v ∗ ) T A = 0, 


((v ∗ ) T As)s + λv ∗ = 0. 

Es gilt f(v) ≥ 0 und aus v T As = 0 folgt f(v) = 0. Es gilt f(s/(s T As) 1/2 ) = s T As > 0, 

also gilt auch im Maximalpunkt v ∗ die Ungleichung s T Av ∗ ≠ 0. Die Vektoren s und v ∗ 

sind also linear abhängig. Aus h(v ∗ ) = 0 folgt daher v ∗ ∈ {v 1 , v 2 } mit v 1 = s/(s T As) 1/2 , 

v 2 = −s/(s T As) 1/2 . Es gilt f(v 1 ) = f(v 2 ) = s T As. Somit folgt für alle z ≠ 0 die 

Ungleichung (( 

z T ) ) 

Az ≤ f(v ∗ ) = s T As 

(z T Az) 1/2 

und Gleichheit gilt genau dann, wenn die Vektoren z und s linear abhängig sind. 

Übung 23 Der zentrale nite Dierenzengradient ∇ h f(x) hat die Komponenten 

[f(x + he i ) − f(x − he i )]/(2h). 

Der Vorwärtsdierenzengradient hat die Komponenten 

[f(x + he i ) − f(x)]/h. 

Berechnen Sie Beide Dierenzengradienten für die Funktionen f 1 (x) = x T Ax (A symmetrisch), 

f 2 (x) = exp(x 2 ). 

60

3.4. Übungen 

Lösung Mit dem zentralen Dierenzengradienten gilt ∇ h f 1 (x) = 2Ax. 

Mit dem Vorwärtsdierenzengradienten gilt ∇ h f 1 (x) = 2Ax + h(a ii ) N i=1. 

Mit dem zentralen Dierenzengradienten gilt 

∇ h f 2 (x) = exp(x 2 )2x exp(h 2 ) sinh(2hx)/(2hx) 

= exp(x 2 )2x exp(h 2 )(1 + O(h 2 )) 

= f ′ 2(x)(1 + O(h 4 )). 

Mit dem Vorwärtsdierenzengradienten gilt 

∇ h f 2 (x) = f ′ 2(x)[exp(2hx + h 2 ) − 1]/(2hx)] 

= f ′ 2(x)(1 + O(h)). 

61


62

4. Das BFGS Verfahren 

Quasinewtonverfahren erzeugen im Laufe der Iteration eine Folge von Approximationen 

der Matrix ∇ 2 f(x ∗ ). Im allgemeinen erfolgt der Übergang von den aktuellen Approximationen 

x c und H c von x ∗ und ∇ 2 f(x ∗ ) zu den neuen Approximationen x + und H + 

(mit einer Liniensuche) gemäÿ folgenden Schritten: 

1. Berechne eine Suchrichtung d = −H −1 

c ∇f(x c ). 

2. Berechne x + = x c + λd mit einer Liniensuche, die einen hinreichenden Abstieg 

garantiert. 

3. Benutze x c , x + und H c , um H c zu aktualisieren und durch H + zu ersetzen. 

Die Methode wird dadurch bestimmt, wie H + berechnet wird. Das konkrete Verfahren 

nennen wir ein Quasinewtonupdate. 

Das BFGS (Broyden, Fletcher, Goldfarb, Shanno) [5], [14], [17], [24] Verfahren, auf 

das wir den Schwerpunkt legen, heiÿt Sekantenverfahren, weil bei diesem Verfahren die 

Sekantengleichung 

H + s = y (4.1) 

erfüllt ist. In (4.1) ist s = x + − x c und y = ∇f(x + ) − ∇f(x c ). Im Fall N = 1 erhält man 

aus der Sekantengleichung das klassische Sekantenverfahren für die (eine) nichtlineare 

Gleichung f ′ (x) = 0, d.h. 

x + = x c − λ f ′ (x c )(x c − x − ) 

f ′ (x c ) − f ′ (x − ) , (4.2) 

wobei x − der Vorgänger von x c ist. 

Für nichtlineare Gleichungen ist das Standardquasinewtonupdate das Verfahren von 

Broyden [4], ein Rangeinsupdate, nämlich 

H + = H c + (y − H cs)s T 

. (4.3) 

s T s 

Das Verfahren von Broyden erhält nicht die Struktureigenschaften, die man bei Liniensuchverfahren 

in der Optimierung braucht, nämlich Symmetrie und positive Denitheit. 

Deshalb sind die Quasinewtonverfahren, die man in der Optimierung braucht, 

komplexer als die bei nichtlinearen Gleichungen. Daher sind auch die Konvergenzanalyse 

und die Implementierung komplizierter. 

Wir konzentrieren uns hier auf das BFGSVerfahren, den Rangzweiupdate 

H + = H c + yyT 

y T s − (H cs)(H c s) T 

. (4.4) 

s T H c s 

63


4.1. Analyse 

Wir beginnen diesen Abschnitt mit einigen einfachen Beobachtungen, die die Regularität 

und Positivität des BFGSupdates betreen. 

Sowohl für die Theorie, als auch für die Praxis ist es sehr nützlich, die Gleichung (4.4) 

mittels inverse Matrizen auszudrücken. 

Lemma 6 Die Matrix H c sei spd, y T s ≠ 0 und H + wie in (4.4). Dann ist H + regulär, 

und für die inverse Matrix gilt 

H −1 

+ = 

( 

I − syT 

y T s 

) 

H −1 

c 

( 

I − ysT 

y T s 

) 

+ ssT 

y T s . (4.5) 

Lemma 7 Die Matrix H c sei spd, y T s > 0 und H + wie in (4.4). Dann ist H + spd. 

Beweis. Aus der positiven Denitheit von H c folgt wegen unserer Voraussetzung y T s > 0 

für alle z ≠ 0 die Gleichung 

z T H + z = (zT y) 2 

y T s + zT H c z − (zT H c s) 2 

s T H c s . 

Da H c symmetrisch und positiv denit ist, gilt 

(z T H c s) 2 ≤ (s T H c s)(z T H c z). 

Dabei tritt Gleichheit nur auf, falls z und s linear abhängig sind. 

Nach Voraussetzung gilt in unserem Fall z ≠ 0, s ≠ 0 und y T s > 0, also folgt falls z 

und s linear unabhängig sind 

und falls z und s linear abhängig sind gilt 

z T H + z > (z T y) 2 /(y T s) ≥ 0, 

z T H + z = (z T y) 2 /(y T s) > 0. 

Daher ist die Matrix H + positiv denit. 

Falls im Algorithmus gilt y T s ≤ 0, ist es nicht sinnvoll, das BFGSupdate zu verwenden. 

4.1.1. Lokale Theorie 

In der lokalen Konvergenztheorie wird vorausgesetzt, daÿ gute Startnäherungen für x ∗ 

und ∇ 2 f(x ∗ ) gegeben sind. 

Satz 15 Voraussetzung 1 sei erfüllt. Dann gibt es δ > 0, so daÿ aus 

‖x 0 − x ∗ ‖ ≤ δ und ‖H 0 − ∇ 2 f(x ∗ )‖ ≤ δ 

folgt, daÿ die BFGS QuasiNewton Iterierten der Form 

x n+1 = x n − H −1 

n ∇f(x n ) 

wohldeniert sind und qsuperlinear gegen den lokalen Minimalpunkt x ∗ konvergieren. 

64

4.1. Analyse 

Weil der Beweis von Satz 15 kompliziert ist, teilen wir ihn in einige Einzelschritte 

auf. Ähnlich wie es in anderen Beiträgen zu diesem Thema geschieht, beginnen wir 

mit der Beobachtung, daÿ wir für die Konvergenzanalyse voraussetzen können, daÿ gilt 

∇ 2 f(x ∗ ) = I. 

Lemma 8 Voraussetzung 1 sei erfüllt. Betrachte die Funktion 

ˆf(y) = f(Ay), 

mit A = (∇ 2 f(x ∗ )) −1/2 . Es seien x c und H c gegeben und ˆx c = A −1 x c und Ĥc = AH c A. 

Dann erfüllen die BFGS updates (x + , H + ) für f und (ˆx + , Ĥ+) für ˆf die Relationen 

ˆx + = A −1 x + and Ĥ+ = AH + A. 

Insbesondere existiert die BFGSsequenz für f (d.h. H n ist für alle n spd) genau dann, 

wenn die BFGSsequenz für ˆf existiert und die Konvergenz der Folge {x n } ist genau dann 

qsuperlinear, wenn dies für die Folge {ˆx n } der Fall ist. 

Der Beweis ist eine einfache Übung. 

Im folgenden können wir also ohne Beschränkung der Allgemeinheit voraussetzen, daÿ 

∇ 2 f(x ∗ ) die Einheitsmatrix ist, denn indem wir f durch die transformierte Funktion ˆf 

ersetzen, können wir das immer erreichen. 

Mit dieser Voraussetzung ∇ 2 f(x ∗ ) = I bezeichnen wir die Fehler in den inversen 

Hessematrizen als 

E = H −1 − ∇ 2 f(x ∗ ) −1 = H −1 − I. 

Diese Fehler erfüllen eine einfache Rekursionsformel. 

Lemma 9 Voraussetzung 1 sei erfüllt. Die Matrix H c sei spd und 

x + = x c − H −1 

c ∇f(x c ). 

Dann gibt es Zahlen δ 0 > 0 und K > 0, so daÿ aus 

0 < ‖x c − x ∗ ‖ ≤ δ 0 und ‖E c ‖ ≤ δ 0 

folgt y T s > 0. Für den Fehler E + des BFGS updates H + von H c gilt 

E + = (I − ww T )E c (I − ww T ) + ∆, (4.6) 

mit w = s/‖s‖ und 

‖∆‖ ≤ K(‖e + ‖ + ‖e c ‖) ≤ 5K‖s‖. (4.7) 

Beweis. Wir wählen δ 0 so klein, daÿ aus x c ≠ x ∗ und x c ∈ B(δ 0 ) folgt, ∇f(x c ) ≠ 0. Aus 

Satz 1 folgt 

∇f(x c ) = 

∫ 1 

0 

∇ 2 f(x ∗ + te c )e c dt = e c + ∆ 1 e c , 

65


wobei die Matrix ∆ 1 durch folgende Gleichung gegeben ist: 

Es gilt 

und 

Daher gilt 

und daher 

falls 

∆ 1 = 

∫ 1 

0 

(∇ 2 f(x ∗ + te c ) − I) dt. 

‖∆ 1 ‖ ≤ γ‖e c ‖/2 

s = −H −1 

c ∇f(x c ) = −(I + E c )(I + ∆ 1 )e c . 

‖e c ‖(1 − δ 0 )(1 − γδ 0 /2) ≤ ‖s‖ ≤ ‖e c ‖(1 + δ 0 )(1 + γδ 0 /2) 

0 < ‖e c ‖/2 ≤ ‖s‖ ≤ 2‖e c ‖ (4.8) 

δ 0 ≤ min{1/4, 1/(2γ)}. (4.9) 

Im Rest dieses Abschnittes setzen wir voraus, daÿ (4.9) gilt. 

Mit unserer Voraussetzung ∇ 2 f(x ∗ ) = I und dem Fundamentalsatz der Analysis 

schlieÿen wir 

∫ 1 

y = ∇f(x + ) − ∇f(x c ) = ∇ 2 f(x c + ts) s dt 

= s + 

∫ 1 

mit der Matrix ∆ 2 , die durch die Gleichung 

0 

∆ 2 = 

0 

(∇ 2 f(x c + ts) − I)s dt = s + ∆ 2 s, (4.10) 

∫ 1 

0 

(∇ 2 f(x c + ts) − I) dt 

gegeben ist. Mit unserer Standardvoraussetzung Voraussetzung 1 folgt die Abschätzung 

‖∆ 2 ‖ ≤ γ(‖e + ‖ + ‖e c ‖)/2 ≤ 5γ‖s‖/2. Wegen (4.9) gilt δ 0 ≤ 2/(2 + γ) und daher 

[∫ 1 

] 

‖e + ‖ = ‖ − E c e c + Hc 

−1 

0 

I − ∇ 2 f(x ∗ + te c ) e c dt‖ 

≤ ‖e c ‖ ( ‖E c ‖ + ‖Hc 

−1 ‖ ‖e c ‖γ/2 ) ≤ 2‖e c ‖. 

Daraus erhält man mit (4.8) die Ungleichung 

Also gilt 

falls δ 0 < 2γ/3. Es gilt 

(∆ 2 s) T s ≤ 3γ‖e c ‖‖s‖ 2 /2 ≤ (3γδ 0 /2) ‖s‖ 2 . 

y T s = s T s + (∆ 2 s) T s ≥ ‖s‖ 2 (1 − 3γδ 0 /2) > 0, (4.11) 

sy T 

y T s = ssT + s(∆ 2 s) T 

s T s + (∆ 2 s) T s = ssT 

s T s − ∆ 3 = ww T − ∆ 3 , (4.12) 

66

4.1. Analyse 

wobei gilt 

‖∆ 3 ‖ ≤ γ(‖e + ‖ + ‖e c ‖)/(1 − 3γδ 0 /2). (4.13) 

Wir ziehen nun von Gleichung (4.5) die Einheitsmatrix (∇ 2 f(x ∗ )) −1 ab und erhalten aus 

(4.12) 

E + = (I − ww T + ∆ 3 )Hc 

−1 (I − ww T + ∆ T 3 ) + ss T /(y T s) − I 

= (I − ww T )(E c + I)(I − ww T ) + (s T s/y T s)ww T − I + ∆ 

= (I − ww T )E c (I − ww T ) + [(s T s/y T s) − 1]ww T + ∆, 

wobei die Matrix ∆ durch folgende Gleichung gegeben ist: 

∆ = ∆ 3 Hc 

−1 (I − ww T + ∆ T 3 ) + (I − ww T )Hc −1 ∆ T 3 . 

Aus (4.9) folgt 1 + δ 0 ≤ 3/2 und damit 

Wegen 

‖∆‖ ≤ ‖∆ 3 ‖(1 + δ 0 )(2 + ‖∆ 3 ‖) + 2(1 + δ 0 )‖∆ 3 ‖ 

≤ 

‖∆ 3 ‖(1 + δ 0 )(4 + ‖∆ 3 ‖). 

‖ [(s T s/y T s) − 1]ww T ‖ ≤ ‖∆ 2 ‖/(1 − ‖∆ 2 ‖) 

folgt die Behauptung mit (4.13). 

Lemma 9 sagt aus, daÿ die Approximationen der Hessematrizen sich nicht zu weit 

von der exakten Hessematrix entfernen, wenn die Startnäherungen gut sind. Aus dieser 

Eigenschaft der beschränkten Verschlechterung (bounded deterioration) folgt direkt die 

lokale qlineare Konvergenz. 

Folgerung 1 Die Voraussetzungen von Lemma 9 seien erfüllt. Dann gilt 

‖E + ‖ ≤ ‖E c ‖ + K(‖e c ‖ + ‖e + ‖) (4.14) 

Beweis. Die Behauptung folgt mit Lemma 9 und der Gleichung ‖I − ww T ‖ = 1, die gilt, 

weil I − ww T eine Orthogonalprojektion ist. 

Wir sind jetzt dazu bereit, die lokale qlineare Konvergenz zu beweisen. Das ist auch 

ein wesentlicher Schritt bei dem Beweis der superlinearen Konvergenz. Die Abschätzungen 

im Beweis sind für die Fehler der inversen Matrizen formuliert, E = H −1 − I. 

Stattdessen könnte man auch mit der Norm von H−I arbeiten, denn aus ‖E‖ ≤ δ l < 1/2 

folgt ‖H −1 ‖ < 3/2 und mit dem Banachlemma folgt ‖H‖ ≤ 2. Daher gilt 

‖H n − I‖ = ‖H n (H −1 

n 

− I)‖ ≤ 2‖H −1 

n 

− I‖ 

und 

‖H −1 

n 

− I‖ = ‖Hn 

−1 (H n − I)‖ ≤ 3/2‖H n − I‖. 

67


Satz 16 Voraussetzung 1 sei erfüllt. Für alle σ ∈ (0, 1) gibt es eine Zahl δ l > 0 so daÿ 

aus 

‖x 0 − x ∗ ‖ ≤ δ l und ‖H0 −1 − ∇ 2 f(x ∗ ) −1 ‖ ≤ δ l (4.15) 

folgt, daÿ die BFGS Iterierten wohldeniert sind und qlinear gegen x ∗ konvergieren, 

wobei der qFaktor höchstens σ ist. 

Beweis. Es sei σ ∈ (0, 1) gegeben. Wähle ˆδ > 0 hinreichend klein, so daÿ gilt ˆδ < δ 0 mit 

δ 0 aus Lemma 9 und ˆδ[1 + γ(1 + ˆδ)/2] ≤ σ. Dann impliziert Voraussetzung 1 für x c und 

H c mit 

‖x c − x ∗ ‖ ≤ ˆδ und ‖E c ‖ = ‖Hc −1 − I‖ ≤ ˆδ (4.16) 

die Abschätzung 

‖e + ‖ ≤ ‖e c ‖ [‖E c ‖ + (1 + ‖E c ‖)γ‖e c ‖/2] ≤ ‖e c ‖ˆδ[1 + γ(1 + ˆδ)/2] ≤ σ‖e c ‖. (4.17) 

Wir wollen nun δ l so klein wählen, daÿ falls die Startwerte (4.15) erfüllen, (4.16) während 

der gesamten Iteration erfüllt ist. 

Dazu setzen wir 

ˆδ 

δ l = 

2[1 + K(1 + σ)/(1 − σ)] . (4.18) 

Dann gilt 

⎡ 

⎤ 

∞∑ 

δ l 

⎣1 + K(1 + σ) σ j ⎦ = ˆδ/2. 

j=0 

Wir führen nun denn Beweis mit vollständiger Induktion. Falls E 0 und e 0 (4.15) erfüllen, 

folgt mit (4.17) ‖e 1 ‖ ≤ σ‖e 0 ‖ < σδ l und mit (4.14) die Ungleichung 

‖E 1 ‖ ≤ ‖E 0 ‖ + K(1 + σ)‖e 0 ‖ ≤ δ l [1 + K(1 + σ)] < ˆδ. 

Angenommen, es gilt ‖e n ‖ ≤ σ n ‖e 0 ‖ < σ n δ l und die Ungleichung 

⎡ 

⎤ 

n−1 ∑ 

‖E n ‖ ≤ δ l 

⎣1 + K(1 + σ) σ j ⎦ < ˆδ. 

Dann folgt mit (4.17) ‖e n+1 ‖ ≤ σ n+1 ‖e 0 ‖ < σ n+1 δ l und mit (4.14) 

j=0 

‖E n+1 ‖ ≤ ‖E n ‖ + K(‖e n+1 ‖ + ‖e n ‖) 

⎡ 

⎤ 

n−1 ∑ 

≤ δ l 

⎣1 + K(1 + σ) σ j ⎦ + K(1 + σ)σ n δ l 

j=0 

⎡ 

⎤ 

n∑ 

≤ δ l 

⎣1 + K(1 + σ) σ j ⎦ < ˆδ. 

j=0 

Damit folgt die Behauptung, da (4.16), und somit auch (4.17) während der gesamten 

Iteration erfüllt sind. 

68

4.1. Analyse 

Wir kommen nun zum Beweis von Satz 15. Dabei spielt die DennisMoré [10] Bedingung 

eine wesentliche Rolle. Sie ist eine hinreichende und notwendige Bedingung 

für die superlineare Konvergenz von Quasinewtonmethoden. In unserer Notation ist die 

Bedingung 

‖E n s n ‖ 

lim = 0, (4.19) 

n→∞ ‖s n ‖ 

wobei {s n } die Folge der Schritte ist und {E n } die Folge der Fehler in den Approximationen 

der Inversen der Hessematrix. Wir werden hier nur den Spezialfall der hinreichenden 

Bedingung betrachten, den wir für den Beweis von Satz 15 brauchen, und verweisen für 

allgemeinere Ergebnisse auf die Literatur. 

Satz 17 Voraussetzung 1 sei erfüllt. Es sei {H n } eine Folge regulärer N × N Matrizen 

und M > 0 eine Zahl, so daÿ für alle n gilt 

‖H n ‖ ≤ M. (4.20) 

Es sei x 0 ∈ R N gegeben und die Folge {x n } ∞ n=1 rekursiv durch die Vorschrift 

x n+1 = x n − H −1 

n ∇f(x n ) 

deniert. Falls die Folge {x n } qlinear gegen x ∗ konvergiert, und für alle n gilt x n ≠ 

x ∗ , und die DennisMoré Bedingung (4.19) erfüllt ist, so konvergiert die Folge {x n } 

superlinear gegen x ∗ . 

Beweis. Aus der qlinearen Konvergenz mit qFaktor σ ∈ (0, 1) folgt für hinreichend 

groÿe n die Ungleichung 

und nach (4.10) gilt 

(1 − σ)‖e n ‖ ≤ ‖s n ‖ = ‖e n+1 − e n ‖ ≤ (1 + σ)‖e n ‖. (4.21) 

s n = x n+1 − x n = y n − ∆ n 2s n , 

mit ‖∆ n 2‖ ≤ γ(‖e n+1 ‖ + ‖e n ‖)/2 ≤ γ‖e n ‖. Wegen −Hn 

−1 ∇f(x n ) = s n folgt die Gleichung 

Es gilt 

E n s n = (H −1 

n 

= H −1 

n 

= H −1 

n 

= H −1 

n 

− I)s n 

y n − Hn 

−1 ∆ n 2s n − s n 

(∇f(x n+1 ) − ∇f(x n )) − H −1 

n 

∇f(x n+1 ) − H −1 

n ∆ n 2s n . 

∆ n 2s n − s n 

∇f(x n+1 ) = ∇f(x n+1 ) − ∇f(x ∗ ) 

= 

∫ 1 

0 

= e n+1 + 

∇ 2 f(x ∗ + te n+1 )e n+1 dt 

∫ 1 

0 

[∇ 2 f(x ∗ + te n+1 ) − ∇ 2 f(x ∗ )]e n+1 dt, 

69


also folgt 

‖∇f(x n+1 )‖ ≥ ‖e n+1 ‖ − γ‖e n+1 ‖ 2 /2. (4.22) 

Wir erhalten die Abschätzung 

‖e n+1 ‖ 

‖e n ‖ 

≤ ‖∇f(x n+1)‖ + γ‖e n+1 ‖ 2 /2 

‖e n ‖ 

≤ 

≤ 

M‖H−1 n 

∇f(x n+1 ) − Hn −1 ∆ n 2s n ‖ + ‖∆ n 2s n ‖ + γ‖e n+1 ‖ 2 

‖e n ‖ 

(1 + σ)M‖E ns n ‖ 

‖s n ‖ 

+ γ(1 + σ)‖e n‖ 2 + γσ‖e n ‖ 2 

. 

‖e n ‖ 

Also folgt aus (4.19) und ‖e n ‖ → 0, daÿ gilt ‖e n+1 ‖/‖e n ‖ → 0, und somit die q 

superlineare Konvergenz. 

Im Rest des Abschnittes setzen wir voraus, daÿ (4.15) gilt und daÿ δ l so klein ist, daÿ 

die Aussagen von Satz 16 für ein σ ∈ (0, 1) gelten. Dann gilt auch 

∞∑ 

n=0 

Die Frobeniusnorm einer Matrix A ist deniert als 

Für jeden Einheitsvektor v ∈ R N gilt 

‖A‖ 2 F = 

‖s n ‖ < ∞. (4.23) 

N∑ 

i,j=1 

((A) ij ) 2 . (4.24) 

‖A(I − vv T )‖ 2 F ≤ ‖A‖ 2 F − ‖Av‖ 2 und ‖(I − vv T )A‖ 2 F ≤ ‖A‖ 2 F . (4.25) 

Aus (4.6), (4.7), (4.21) und (4.25) folgt 

‖E n+1 ‖ 2 F ≤ ‖E n ‖ 2 F − ‖E n w n ‖ 2 + O(‖s n ‖) = (1 − θ 2 n)‖E n ‖ 2 F + O(‖s n ‖), (4.26) 

mit w n = s n /‖s n ‖ und θ n = ‖E n w n ‖/‖E n ‖ F falls E n ≠ 0 und θ n = 1 falls E n = 0. Mit 

(4.23) folgt für alle k ≥ 0 

k∑ 

θn‖E 2 n ‖ 2 F 

n=0 

k∑ 

≤ ‖E n ‖ 2 F − ‖E n+1 ‖ 2 F + O(1) 

n=0 

= ‖E 0 ‖ 2 F − ‖E k+1 ‖ 2 F + O(1) < ∞. 

Also konvergiert die Folge {θ n ‖E n ‖ F } gegen 0. 

Falls E n ≠ 0, gilt θ n ‖E n ‖ F = ‖E n w n ‖. Falls E n = 0, gilt ebenfalls θ n ‖E n ‖ F = ‖E n w n ‖. 

Wir haben also gezeigt, daÿ die Folge {‖E n w n ‖} = {‖E n s n ‖/‖s n ‖} gegen Null konvergiert. 

Damit ist (4.19) erfüllt und Satz 15 bewiesen. 

70

4.1.2. Globale Theorie 

4.2. Implementierung 

Wenn man mit den BFGS Modellhessematrizen in Algorithmus optarm arbeitet, ist Satz 

11 anwendbar, falls die Matrizen {H k } beschränkt und wohlkonditioniert bleiben. Aber 

sogar wenn ein Häufungspunkt der Iteration ein Minimalpunkt x ∗ ist, der die Standardvoraussetzungen 

erfüllt, garantiert Satz 11 nicht, daÿ die Gesamtiteration gegen diesen 

Punkt konvergiert. Eine Situation, bei der x nahe bei x ∗ liegt aber H nicht nahe bei 

∇ 2 f(x ∗ ) liegt, ist aus der Sicht der lokalen Theorie, nicht besser als eine Situation bei 

der auch x weit weg von x ∗ ist. In der Praxis beobachtet man allerdings Konvergenz (oft 

superlineare). Das Ergebnis in diesem Abschnitt bietet dafür unter gewissen Voraussetzungen 

eine Erklärung. 

Unsere Beschreibung der globalen Theorie, bei der wir die Armijo Liniensuche aus 

Kapitel 3 verwenden, basiert auf einer Arbeit von Byrd und Nocedal [6]. Ältere Resultate 

verwenden andere Zugänge zur Liniensuche. Ergebnisse dieser Art erfordern starke 

Voraussetzungen an f und den Startpunkt x 0 , aber dafür erhält man globale und q 

superlineare Konvergenz der BFGSArmijoiteration. 

Voraussetzung 3 Die Menge 

D = {x : f(x) ≤ f(x 0 )} 

ist konvex und f ist zweimal Lipschitz stetig dierenzierbar in D. Auÿerdem gibt es 

λ + ≥ λ − > 0, so daÿ für alle x ∈ D gilt 

σ(∇ 2 f(x)) ⊂ [λ − , λ + ], 

wobei σ die Menge der Eigenwerte der Hessematrix beschreibt. 

Aus Voraussetzung 3 folgt, daÿ f in D genau einen Minimalpunkt hat und daÿ Voraussetzung 

1 bei x ∗ erfüllt ist. 

Satz 18 Voraussetzung 3 sei erfüllt und die Matrix H 0 sei spd. Dann konvergiert die 

BFGSArmijoiteration qsuperlinear gegen x ∗ . 

Einen Beweis unter der stärkeren Voraussetzung, daÿ f dreimal stetig dierenzierbar 

ist, ndet man in [25], p. 143. 

Die Resultate für lokale und globale Konvergenz passen nicht ganz zusammen. Eine 

Implementierung muÿ berücksichtigen, daÿ Voraussetzung 3 sogar in der Nähe eines 

Minimalpunktes verletzt sein kann, und daÿ auch der Fall y T s ≤ 0 möglich ist, wenn 

man noch weit entfernt von einem Minimalpunkt ist. 


Bei einer Implementierung müssen wir uns zwei Problemen stellen: Welche Daten müssen 

gespeichert werden, um die updates zu erhalten, und was machen wir, falls y T s ≤ 0? 

71


Die Frage der Speicherung behandeln wir in 4.2.1. Zur zweiten Frage ist zu sagen dass, 

falls y T s nicht hinreichend positiv ist, wir das BFGSupdate mit der Einheitsmatrix 

neu starten. Wir präsentieren die Details in 4.2.2. Unser Globalisierungsansatz ist der 

einfachste überhaupr, nämlich die Armijoregel, wie sie in Kapitel 3 beschrieben wird. 

Wir wählen die Armijoregel, um die Darstellung so einfach wie möglich zu halten. 

Die Armijoregel ist robust und reicht bei den meisten Problemen aus, allerdings gibt es 

komplexere Liniensuchverfahren, die in der Literatur diskutiert werden. 

4.2.1. Speicherung 

Wir setzen im Moment voraus, dass gilt y T s > 0. Wir werden eine Methode entwickeln, 

den BFGSschritt zu berechnen, die mit wenig Speicherplatz auskommt und an Stelle 

einer vollen Matrixspeicherung die Iterationsgeschichte verwendet. 

Die Implementierung, die wir hier empfehlen, ist eine von vielen, die die Iterationsgeschichte 

speichern und diese Information rekursiv verwenden, um das Bild eines Vektors 

unter Hk 

−1 zu berechnen. Alle diese Implementierungen speichern die Iterationsgeschichte 

in den Paaren {s k , y k } und wir geben ein konkretes Beispiel in Algorithmus bfgsrec. 

Eine bessere, aber weniger direkte Methode kommt mit der Speicherung eines einzigen 

Vektors bei jeder Iteration aus [11]. Wir setzen voraus, dass wir das Bild eines Vektors 

unter H0 −1 ezient berechnen können, zum Beispiel, indem wir H 0 am Beginn der 

Iteration faktorisieren oder mit H 0 = I. Wir verwenden die BFGSformel aus Lemma 6. 

Eine Art, den Algorithmus zu implementieren bestehr darin, die Iterationsgeschichte 

in Vektorfolgen {y k } und {s k } zu speichern mit 

s k = x k+1 − x k , y k = ∇f(x k+1 ) − ∇f(x k ). 

Wenn man dies for k = 0, 1, ..., n − 1 durchgeführt hat, kann man die neue Suchrichtung 

d n = −H −1 

n ∇f(x n ) 

mit einem rekursiven Algorithmus, der (4.5) verwendet, berechnen. 

Der Algorithmus bfgsrec überschreibt einen gegebenen Vektor d mit Hn 

−1 d. Es müssen 

also ein Vektor d und 2n Vektoren für die Folgen {s k , y k } n−1 

k=0 gespeichert werden. Desweiteren 

wird eine Methode zur Berechnung des Produktes von H0 −1 und einem Vektor 

benötigt. 

Algorithmus 10 (bfgsrec(n, {s k }, {y k }, H −1 

0 , d)) 

1. Falls n = 0, setze d = H −1 

0 d; return. 

2. α = s T n−1d/(y T n−1s); d = d − αy n−1 

3. Rufe bfgsrec(n − 1, {s k }, {y k }, H −1 

0 , d) auf. 

4. d = d + (α − (y T n−1d/(y T n−1s n−1 ))s n−1 

72


Der Algorithmus bfgsrec hat den Vorteil, dass er in einer Sprache, die Rekursion 

eektiv unterstützt, sehr einfach ist. 

Die Kosten für die Speicherung zweier Vektoren pro Iteration können gewaltig sein, 

und wenn der verfügbare Speicher voll ist kann man die Iterationsgeschichte ablegen 

und mit H 0 neu starten. Dieser Zugang, den wir in den verbleibenden Algorithmen dieses 

Abschnitts implementieren, nutzt aus, dass −H0 −1 ∇f(x) eine Abstiegsrichtung ist, 

falls H 0 positiv denit ist, und daher eine Liniensuche in diese Richtung nützlich ist. 

Ein anderer Zugang mit dem Namen limited memory BFGS behält alle Informationen, 

ausser dem letzten Paar (s, y) und fährt mit dem update fort. Keiner dieser Zugänge zur 

Berschränkung des benötigten Speicherplatzes hat dies superlinearen Konvergenzeigenschaften 

des Algorithmus mit voller Speicherung, aber für grosse Probleme sind diese 

Zugänge wesentlich. 

Wenn wir eine komplexere Formulierung in Kauf nehmen, können wir mit der Speicherung 

eines einzigen Vektors pro Iteration auskommen. Die Methode, um dies zu erreichen, 

beginnt mit einer Entwicklung von (4.5) als 

H+ −1 = Hc 

−1 

+ α 0 s c s T c + β 0 ((Hc 

−1 y c )s T c + s c (Hc −1 y c ) T ), 

mit α 0 = (yc R s c + yc T Hc −1 y c )/(yc T s c ) 2 und β 0 = −1/(yc T s c ). 

Wegen s c = λ c d c = λ c (−Hc 

−1 )∇f(x c ) gilt 

Wir erhalten 

H −1 

c 

H −1 

+ = H −1 

c 

y c = H −1 

c 

mit α 1 = α 0 + 2β 0 /λ c . Desweiteren gilt 

∇f(x + ) − Hc 

−1 ∇f(x c ) = Hc −1 ∇f(x + ) + s c /λ c . 

+ α 1 s c s T c + β 0 (s c (Hc 

−1 ∇f(x + )) T + (Hc −1 ∇f(x + ))s T c ), (4.27) 

mit 

d + = −H −1 

+ ∇f(x + ) = A c s c + B c H −1 

c ∇f(x + ), (4.28) 

A c = y T c /(y T c s c )H −1 

c (I − y c s T c /(y T c s c ))∇f(x + ) + (−1 + 1/λ)s T c ∇f(x + )/(y T c s c ), (4.29) 

B c = −1 + s T c ∇f(x + )/(y T c s c ). (4.30) 

Nun können wir d + , also auch λ + und s + berechnen indem wir nur Hc 

−1 ∇f(x + ) verwenden. 

Wir brauchen dabei H + gar nicht! Wir können nun H + mit den neuen Daten 

berechnen; dabei brauchen wir die Vektoren {y k } nicht zu speichern; dies sieht man 

folgendermassen. 

Wegen B c ≠ 0 (Verizieren Sie dies!) gilt 

H −1 

c ∇f(x + ) = 1/(B c λ + )s + − A c /B c s c . 

Kombiniert man diese Gleichung mit (4.27), so erhält man 

H −1 

+ = H −1 

c + α c s c s T c + β c (s c s T + + s + s T c ), (4.31) 

73


mit 

Damit erhält man die Entwicklung 

α c = α 1 − 2β 0 A c /B c und β c = β 0 /(λ + B c ) (4.32) 

H 1− 

n+1 = H −1 

0 + 

n∑ 

k=0 

α k s k s T k + β k (s k s T k+1 + s T k+1s k ). (4.33) 

Der Leser wird sehen, dass dies ein vollständiger Algorithmus ist. Mit (4.28) und Hn 

−1 

können wir d n+1 berechnen. Dann können wir λ n+1 und s n+1 berechnen und mit (4.32) 

verwenden, um α n und β n zu berechnen. Mit diesen neuen Daten kann die Matrix Hn+1 

−1 

aus (4.33) berechnet werden, womit wir wiederum d n+1 berechnen können um die Iteration 

fortzusetzen. 

Auf diese Weise müssen nur die Schritte {s k } und die Koezienten {α k } und {β k } 

gespeichert werden. Algorithmus bfgsopt ist eine Implementierung dieser Ideen. 

Algorithmus 11 (bfgsopt(x, f, ε)) 

1. g = −∇f(x), n = 0. 

2. Solange ‖g‖ > ε (a) Falls n = 0, d n = −H −1 

0 g, sonst berechne A, B und d n mit 

(4.28), (4.29) und (4.30). 

(b) Berechne λ n , s n und x = x n+1 mit der Armijoregel. 

(c) Falls n > 0 berechne α n+1 und β n−1 mit (4.32). 

(d) g = −∇f(x), n = n + 1. 

4.2.2. Ein BFGSArmijo Verfahren 

In diesem Abschnitt stellen wir eine einfache Implementierung dar, die zeigt, wie die 

theoretischen Ergebnisse in der Gestaltung von Algorithmen verwendet werden können. 

BF GS 

Es sei H+ das BFGSupdate von H c . Wir denieren zwei modizierte BFGS (MBFGS) 

updates als 

{ 

H 

BF GS 

+ falls y 

H + = 

T s > 0, 

(4.34) 

I falls y T s ≤ 0 

und 

H + = 

{ 

H 

BF GS 

+ falls y T s > 0, 

H c falls y T s ≤ 0. 

(4.35) 

In der MBFGS1methode (4.34) wird die Modellhessematrix als Einheitsmatrix reinitialisiert 

falls y T s ≤ 0. In der Anfangsphase dieser Iteration, wenn ∇ 2 f möglicherweise 

negative Eigenwerte hat, kann der Fall y T s ≤ 0 auftreten und die Suchrichtung könnte 

während mehrerer Iterationen die Richtung des steilsten Abstiegs sein. 

Der MBFGS2schritt (4.35) bhält die Iterationsgeschichte sogar wenn y T s ≤ 0. Dieser 

Ansatz behält also soviel Information wie möglich. Eine andere Sichweise ist dass, wenn 

y T s einmal negativ ist, die Iterationsgeschichte suspekt ist und verworfen werden sollte. 

Beide Formen MBFGS1 und MBFGS2 werden in der Praxis verwendet. 

74

4.3. Übungen 

4.3. Übungen 

Übung 24 Ein Rangm update einer (N × N)Matrix A (m ≤ N) kann in der Form 

Ā = A + RSL T 

mit (N × m)Matrizen R und L und einer m × m Matrix S geschrieben werden. 

a) Zeigen Sie, dass für das update der inversen Matrix dann gilt 

Ā −1 = A −1 − A −1 RU −1 L T A −1 

(ShermanMorrison Formel) Dabei gilt U = S −1 + L T A −1 R. 

b) Beweisen Sie Lemma 6 der Vorlesung, d.h. für das BFGSupdate 

gilt 

Ā = H + (y T s) −1 yy T − (s T Hs) −1 (Hs)(Hs) T 

Ā −1 = [ I − (y T s) −1 sy T ] H −1 [ I − (y T s) −1 ys T ] + (y T s) −1 ss T . 

Die Sekantengleichung Ās = y ist hilfreich. Zeige: Ā−1 y = s. Betrachte dann den Fall 

von Vektoren z mit s T Hz = 0. Auf welchen Punkt wird z durch Ā abgebildet? Betrachte 

nun eine Basis z 1 ,...,z N mit z 1 = s und zi T Hz 1 = 0 für i > 1. Zeige, dass die Vektoren 

Āz i durch den Kandidaten M für Ā−1 wieder auf z i abgebildet werden. Folgere daraus: 

M = Ā−1 . 

Lösung 

a) Setze M = A −1 − A −1 RU −1 L T A −1 . Dann gilt 

MĀ = I − A−1 RU −1 L T + A −1 RSL T − A −1 RU −1 L T A −1 RSL T 

= I + A −1 R[SL T − U −1 (S −1 S)L T − U −1 L T A −1 RSL T ] 

= I + A −1 R[I − U −1 (S −1 + L T A −1 R)]SL T = I. 

Übung 25 Beweisen Sie Lemma 8 der Vorlesung: 

Für die Funktion ˆf(y) = f(Ay) mit A = (∇ 2 f(x ∗ )) −1/2 gelten mit ˆx c = A −1 x c und 

Ĥ c = AH c A die Relation ˆx + = A −1 x + und Ĥ+ = AH + A. 

Was ist ŷ = ∇ ˆf(ˆx + ) − ∇ ˆf(ˆx c )? 

Was ist ŝ = ˆx + − ˆx c ? 

Ist die Sekantengleichung mit Ĥc erfüllt? 

Berechnen Sie ∇ 2 ˆf(ˆx ∗ )! 

Lösung 

ˆx + = ˆx c −Ĥ−1 c 

Nach der Kettenregel gilt 

∇ ˆf(ˆx c ) = A −1 x c −A −1 Hc 

−1 A −1 A∇f(x c ) = A −1 (x c −Hc −1 ∇f(x c )) = A −1 x + 

ŷ = A(∇f(x + ) − ∇f(x c )) = Ay. 

75


ŝ = ˆx + − ˆx c = A −1 (x + − x c ) = A −1 s. 

Also folgt ŷ T ŝ = y T s und ŝ T Ĥŝ = s T Hs und somit 

H + = Ĥc + ŷŷT 

ŷ T ŝ − (Ĥcŝ)(Ĥcŝ) T 

ŝ T Ĥŝ 

= AH + A 

Übung 26 Es sei H eine quadratische reguläre Matrix und I die Einheitsmatrix. Es sei 

E = H −1 − I. Zeigen Sie: Aus ‖E‖ ≤ 1/2 folgt ‖H −1 ‖ ≤ 3/2 und ‖H‖ ≤ 2. 

Lösung 

also folgt ‖H‖ ≤ 2. 

‖H −1 ‖ = ‖E + I‖ ≤ ‖E‖ + ‖I‖ ≤ 3/2. 

‖H‖ = ‖H(H −1 − E)‖ = ‖I − HE‖ ≤ 1 + ‖H‖/2, 

Übung 27 Es seien v ein Vektor und A eine quadratische Matrix mit ‖A‖ ≤ C‖v‖ und 

‖v‖ < 1/C. 

Es sei 

∆ 3 = vvT 

v T v − vvT + v(Av) T 

v T v + (Av) T v . 

Dann gilt die Ungleichung 

‖∆ 3 ‖ ≤ 2C‖v‖/(1 − C‖v‖). 

Übung 28 Es gelte w T w = 1. Zeigen Sie: 

Die lineare Abbildung mit der Matrix A = I − ww T ist eine Orthogonalprojektion. 

Lösung: Für einen Vektor z gilt Az = z − (w T z)w, also w T (Az) = 0 und z = Az + 

(w T z)w, weiterhin ‖z‖ 2 = ‖Az‖ 2 + (w T z) 2 . Daher ist die zu A gehörige Abbildung die 

Projektion auf den Orthogonalraum von w. 

Übung 29 Für eine Matrix M denieren wir die Frobeniusnorm 

‖M‖ 2 F = ∑ ij 

m 2 ij. 

Es gelte w T w = 1. Zeigen Sie folgende Gleichungen: 

a) 

‖(I − ww T )A‖ 2 F = ‖A‖ 2 F − ‖w T A‖ 2 

b) 

‖A(I − ww T )‖ 2 F = ‖A‖ 2 F − ‖Aw‖ 2 

Lösung: a) Es seien a 1 ,...,a N die Spalten von A. Dann gilt ‖(I − ww T )a i ‖ 2 = ‖a i ‖ 2 − 

(w T a i ) 2 . Es folgt ‖(I − ww T )A‖ 2 F = ∑ N 

i=1 ‖a i ‖ 2 − (w T a i ) 2 = ‖A‖ 2 F − ‖w T A‖ 2 . 

b) Es seien z 1 ,...,z N die Zeilen von A. Dann gilt ‖z i (I − ww T )‖ 2 = ‖z i ‖ 2 − (z i w) 2 . Es 

folgt ‖A(I − ww T )‖ 2 F = ∑ N 

i=1 ‖z i ‖ 2 − (z i w) 2 = ‖A‖ 2 F − ‖Aw‖ 2 . 

76

4.3. Übungen 

Übung 30 Die Funktion f sei zweimal stetig dierenzierbar mit positiv deniten Hessematrizen. 

Zeigen Sie: Die Ungleichung 

ist für alle Punkte x k ≠ x k+1 erfüllt. 

Lösung: 

s T k y k > 0 

s T k y k = s T k (∇f(x k+1 )−∇f(x k )) = s T k 

∫ 1 

0 

∇ 2 f(x k +ts k ) T s k dt = 

∫ 1 

0 

s T k ∇ 2 f(x k +ts k )s k dt > 0. 

Übung 31 Für konvexe quadratische Probleme ist das BFGSverfahren mit exakter Liniensuche 

identisch mit dem CGVerfahren [8]. 

Gegeben seien der Startpunkt x 0 und H 0 = I. Berechnen Sie für eine quadratische 

Zielfunktion 

f(x) = −x T b + (1/2)x T Ax 

die ersten beiden Suchrichtungen p 0 und p 1 des Liniensuchverfahrens mit der BFGSsuchrichtung 

bei exakter Liniensuche. 

Verwenden Sie die Notation 

s i = x i+1 − x i , y i = ∇f(x i+1 ) − ∇f(x i ), 

H i+1 = H i + 1/(y T i s i )y i y T i − 1/(s T i H i s i )(H i s i )(H i s i ) T , 

s i = −α i H −1 

i ∇f(x i ) = α i p i . 

Verwenden Sie die Gleichung As i = y i und die Sekantengleichung H i+1 s i = y i , um zu 

zeigen: s T 1 As 0 = 0. Zeigen Sie, dass daraus folgt: H 2 s 0 = y 0 . 

Lösung Wir zeigen hier nur s T 1 As 0 = 0. Wegen der exakten Liniensuche gilt 

0 = −∇f(x 1 ) T s 0 = s T 0 H 1 s 1 = s T 1 (H 1 s 0 ) = s T 1 y 0 = s T 1 As 0 . 

Übung 32 Es sei I = [a, b] ein kompaktes Intervall und f eine zweimal stetig dierenzierbare, 

auf I denierte reelle Funktion. Die Funktion f sei strikt konvex. Es sei (x k ) k 

eine Folge von Punkten aus I mit (a) f(x k+1 ) ≤ f(x k ) und (b) 

lim f ′ (x k )(x k − x k+1 ) = 0. 

k→∞ 

(i) Zeigen Sie: Die Folge (x k − x k+1 ) k konvergiert gegen Null. 

(ii) Man zeige, dass in (i) auf die Bedingung (b) nicht verzichtet werden kann. 

(iii) Man zeige an einem Beispiel, dass ein Grenzwert der Folge (x k ) k nicht unbedingt 

ein Minimalpunkt von f sein muss. 

(iv) Man zeige, dass in (i) auf die Bedingung (a) nicht verzichtet werden kann. 

77


Lösung 

(i) Da f strikt konvex ist, gibt es eine Zahl m > 0, so dass für alle ξ ∈ I gilt f ′′ (ξ) ≥ m. 

Aus der Taylorentwicklung von f folgt die Gleichung 

(x k+1 − x k ) 2 /2 = [f(x k+1 ) − f(x k ) − f ′ (x k )(x k+1 − x k )]/f ′′ (ξ k ). 

Wegen f(x k+1 ) − f(x k ) ≤ 0 und f ′ (x k )(x k − x k+1 ) ≥ f(x k ) − f(x k+1 ) ≥ 0 erhält man 

die Ungleichung 

lim sup(x k+1 − x k ) 2 /2 ≤ lim f ′ (x k )(x k − x k+1 )/m = 0, 

k→∞ 

k→∞ 

also folgt lim k→∞ x k+1 − x k = 0. 

(ii) Wir wählen die Funktion f(x) = x 2 und das Intervall I = [−1, 1] und betrachten 

die Folge x k = (−1) k . Dann gelten für alle k die Gleichungen f(x k ) = 1 und f ′ (x k )(x k − 

x k+1 ) = 4 und |x k − x k+1 | = 2. Hier ist (a) erfüllt, aber (b) und die Behauptung aus (i) 

nicht. 

(iii) Wir wählen die Funktion f(x) = x 2 und I = [−2, 2] und betrachten die Folge 

x k = 1 + 1/k. Dann gilt für alle k f(x k+1 ) ≤ f(x k ) und lim k→∞ f ′ (x k )(x k − x k+1 ) = 0, 

(a) und (b) sind also erfüllt, aber lim k→∞ x k = 1 ist kein Minimalpunkt von f in I. 

(iv) Wir wählen die Funktion f(x) = x 2 und I = [−1, 1] und betrachten die Folge 

1, 0, 1, 1/2, 0, 1, 2/3, 1/3, 0, 1, 3/4, 2/4, 1/4, 0, 1, 4/5, ... 

Dann ist (b) erfüllt, aber (a) und die Behauptung aus (i) gelten nicht. 

Übung 33 Betrachten Sie in Abhängigkeit von U > 0 das Optimierungsproblem 

min f(x) = sin(x) s.t. 0 ≤ x ≤ U. 

Beobachten Sie, wie sich die aktiven Restriktionen in Abhängigkeit von U verändern. 

Was kann man über die Eindeutigkeit der Lösung sagen? Gibt es lokale Minimalpunkte? 

Übung 34 Betrachten Sie in Abhängigkeit von den reellen Zahlen α < β und γ das 

Optimierungsproblem 

min f(x) = γx 2 s.t. α ≤ x ≤ β. 

Beobachten Sie, wie sich die aktiven Restriktionen in Abhängigkeit von α, β und γ verändern. 

Gibt es lokale Minimalpunkte? Wie sieht es mit der Eindeutigkeit der Lösung 

aus? 

Übung 35 Betrachten Sie in Abhängigkeit von reellen Zahlen α und β das Optimierungsproblem 

min f(x) = (x 1 − α) 2 + (x 2 − β) 2 s.t. 0 ≤ x 1 ≤ 1, 0 ≤ x 2 ≤ 1. 

Beobachten Sie, wie sich die aktiven Restriktionen in Abhängigkeit von α und β verändern. 

Ist die Lösung eindeutig? 

78

5. Intervallrestriktionen 


In diesem Abschnitt wollen wir zeigen, wie wir die Techniken, die wir kennengelernt 

haben, bei der Lösung von einfachen restringierten Optimierungsproblemen anwenden 

können. 

Für i ∈ {1, ..., N} seien L i und U i reelle Zahlen mit 

− ∞ < L i 

Das Optimierungsproblem mit Intervallrestriktionen besteht darin, einen lokalen Minimalpunkt 

x ∗ einer Funktion f von N Variablen unter der Restriktion zu nden, daÿ 

gilt 

x ∗ ∈ Ω = {x ∈ R N : L i ≤ (x) i ≤ U i }. (5.2) 

Für den Punkt x ∗ soll also gelten 

Die Standardnotation für dieses Problem ist 

f(x ∗ ) ≤ f(x) für alle x ∈ Ω lokal um x ∗ . (5.3) 

min f(x) (5.4) 

x∈Ω 

oder min Ω f. Die Menge Ω heiÿt die zulässige Menge und eine Punkt aus Ω heiÿt zulässiger 

Punkt. 

Da die Menge Ω kompakt ist, existiert nach dem Satz von Weierstrass immer eine 

Lösung unseres Optimierungsproblems. Die Ungleichungen L i ≤ (x) i ≤ U i heiÿen Intervallrestriktionen 

und sind ein einfacher Fall allgemeiner Ungleichungsrestriktionen. 

Die ite Restriktion heiÿt aktiv in x, wenn entweder gilt (x) i = L i oder (x i ) = U i . 

Wenn die ite Restriktion nicht aktiv ist, nennen wir sie inaktiv. Die Menge der Indices i, 

für die die entsprechende Restriktion aktiv ist, nennen wir die Menge der aktiven Indices 

in x; wir verwenden die Schreibweise A(x) für diese Menge. Entsprechend denieren wir 

die Menge der inaktiven Indices I(x). 


Die notwendigen Optimalitätsbedingungen für eine stetig dierenzierbare Funktion f 

einer Variable ohne Restriktionen sind f ′ (x ∗ ) = 0 und, falls f zweimal stetig dierenzierbar 

ist f ′′ (x ∗ ) ≥ 0. Ein intervallrestringiertes Problem in einer Variable beschränkt 

79


die zulässige Menge auf ein Intervall [a, b], und die notwendigen Optimalitätsbedingungen 

müssen angepaÿt werden, um die Möglichkeit eines Minimums in den Randpunkten 

des Intervalls zuzulassen. Falls x ∗ = a ein lokaler Minimalpunkt ist, folgt nicht daraus 

daÿ gilt f ′ (a) = 0. Für alle x ≥ a, die nahe bei a liegen gilt aber f(x) ≥ f(a). Daraus 

folgt f ′ (a) ≥ 0. Über den Wert von f ′′ (a) können wir allerdings nichts sagen. Analog 

folgt, falls b ein lokaler Minimalpunkt ist, die Ungleichung f ′ (b) ≤ 0. Falls f auf [a, b] differenzierbar 

ist, kann man die notwendigen Optimalitätsbedingungen für alle drei Fälle 

x ∗ = a, x ∗ ∈ (a, b), x ∗ = b in folgendem Satz zusammenfassen: 

Satz 19 Es sei f eine stetig dierenzierbare Funktion einer Variable auf dem Intervall 

[a, b]. Es sei x ∗ ein lokaler Minimalpunkt von f auf [a, b]. Dann gilt 

und, falls f zweimal stetig dierenzierbar ist, 

f ′ (x ∗ )(x − x ∗ ) ≥ 0 für alle x ∈ [a, b] (5.5) 

f ′′ (x ∗ )(x ∗ − a)(b − x ∗ ) ≥ 0. (5.6) 

In Verallgemeinerung von (5.5) denieren wir stationäre Punkte. 

Denition 8 Ein Punkt x ∗ ∈ Ω heiÿt stationär für Problem (5.4), falls für alle x ∈ Ω 

gilt 

∇f(x ∗ ) T (x − x ∗ ) ≥ 0. (5.7) 

Wie im unrestringierten Fall sagen wir, daÿ stationäre Punkte die notwendigen Optimalitätsbedingungen 

erster Ordnung erfüllen. 

Die Tatsache, daÿ lokale Minimalpunkte stationär sind, beweisen wir wie im unrestringierten 

Fall mit dem Taylorsatz. 

Satz 20 Es sei f stetig dierenzierbar auf Ω und x ∗ eine Lösung des Problems (5.4). 

Dann ist x ∗ ein stationärer Punkt für Problem (5.4). 

Beweis. Es sei x ∗ eine Lösung von Problem (5.4) und y ∈ Ω. Da die Menge Ω konvex 

ist, enthält sie die Verbindungslinie zwischen x ∗ und y. Daher ist die Funktion 

φ(t) = f(x ∗ + t(y − x ∗ )) 

für alle t ∈ [0, 1] deniert und hat ein lokales Minimum in t = 0. Also folgt aus Satz 19, 

daÿ gilt 

0 ≤ φ ′ (0) = ∇f(x ∗ ) T (y − x ∗ ). 

Die Rolle der zweiten Ableitung kann man leider nicht so einfach auf den Fall einer 

Funktion einer einzigen Variablen zurückführen. Wir erhalten aber ein vollständiges Bild, 

wenn wir Funktionen zweier Variablen betrachten. Es sei also N = 2 und f zweimal 

Lipschitz stetig dierenzierbar auf Ω = [0, 1] × [0, 1]. Falls x ∗ eine Lösung von (5.4) ist 

und keine Restriktion aktiv ist, dann folgt wie im unrestringierten Fall, daÿ ∇ 2 f(x ∗ ) 

80


positiv semidenit ist. Wenn eine oder mehr Restriktionen aktiv sind, kann man wie im 

Fall N = 1 keine Aussagen über die Denitheit von ∇ 2 f(x ∗ ) machen. Angenommen der 

Minimalpunkt ist bei x ∗ = (ξ, 0) mit 0 < ξ < 1. Obwohl man nichts über ∂ 2 f(x ∗ )/∂x 2 2 

sagen kann, muÿ für die Funktion φ(t) = f(t, 0), die auf dem Intervall [0, 1] deniert ist, 

gelten 

φ ′′ (ξ) = ∂ 2 f(x ∗ )/∂x 2 1 ≥ 0. 

Die zweiten partiellen Ableitungen in Richtungen, die inaktiven Restriktionen entsprechen, 

müssen also positiv sein, und über die anderen Richtungen, die zu aktiven Restriktionen 

gehören, kann man nichts aussagen. 

Um diese Idee zu präzisieren, denieren wir die reduzierte Hessematrix. 

Denition 9 Die Funktion f sei zweimal stetig dierenzierbar in x ∈ Ω. Die reduzierte 

Hessematrix ist die Matrix mit den Einträgen 

{ 

(∇ 2 δij falls i ∈ A(x) oder j ∈ A(x), 

Rf(x)) ij = 

(5.8) 

(∇ 2 f(x)) ij sonst. 

Nun können wir die notwendigen Optimalitätsbedingungen zweiter Ordnung formulieren. 

Satz 21 Die Funktion f sei zweimal stetig dierenzierbar und x ∗ eine Lösung von (5.4). 

Dann ist die reduzierte Hessematrix ∇ 2 Rf(x ∗ ) positiv semidenit. 

Beweis. Es gebe M inaktive Indices und N − M aktive Indices. Wir partitionieren 

x ∈ Ω, indem wir falls nötig die Variablen umordnen, in x(ξ, η), wobei ξ den inaktiven 

Variablen entspricht und η den aktiven. Die Funktion 

φ(ξ) = f(ξ, η ∗ ) 

hat einen unrestringierten lokalen Minimalpunkt in ξ ∗ ∈ R M . Daher ist ∇ 2 φ positiv 

semidenit. Durch unsere Partition der Variablen können wir die reduzierte Hessematrix 

in folgender Form schreiben: 

( 

∇ 

∇ 2 Rf(x ∗ ) = 

2 φ(x ∗ ) 

) 0 

. 

0 I 

Damit folgt die Behauptung. 

Es sei P die Projektion auf die Menge Ω, d.h. die Abbildung, die x auf den nächsten 

Punkt in Ω bezüglich der euklidischen Norm abbildet. Es gilt 

⎧ 

⎪⎨ 

P(x) i = 

⎪⎩ 

L i falls (x) i ≤ L i , 

(x) i falls L i < (x) i 

U i falls (x) i ≥ U i . 

Satz 22 enthält eine notwendige Optimalitätsbedingung, die wir später beweisen. 

(5.9) 

Satz 22 Es sei f stetig dierenzierbar. Ein Punkt x ∗ ∈ Ω ist genau dann stationär für 

Problem (5.4), wenn gilt 

x ∗ = P(x ∗ − λ∇f(x ∗ )) für alle λ ≥ 0. (5.10) 

81


5.3. Hinreichende Optimalitätsbedingungen 

Mit der reduzierten Hessematrix kann man leicht hinreichende Optimalitätsbedingungen 

formulieren. Wir beginnen mit einer Verschärfung des Begries eines stationären 

Punktes. Falls der Punkt x ∗ stationär ist, i ∈ I(x ∗ ) und e i ein Einheitsvektor in die ite 

Koordinatenrichtung ist, dann gilt für hinreichend kleine t die Inklusion x ∗ + te i ∈ Ω. 

Wegen 

df(x ∗ + te i ) 

= + ∇f(x ∗ ) T e i ≥ 0 

dt 

folgt also 

(∇f(x ∗ )) i = 0 für alle i ∈ I(x ∗ ). 

Bei unserer Formulierung hinreichender Optimalitätsbedingungen werden wir den Begri 

eines nichtdegenerierten stationären Punktes bzw. die strikte Komplementarität 

verwenden. 

Denition 10 Ein Punkt x ∗ ∈ Ω ist ein nichtdegenerierter stationärer Punkt für Problem 

(5.4), falls x ∗ ein stationärer Punkt ist und 

(∇f(x ∗ )) i ≠ 0 für alle i ∈ A(x ∗ ). (5.11) 

Falls x ∗ auch eine Lösung von Problem (5.4) ist, sagen wir, daÿ x ∗ ein nichtdegenerierter 

lokaler Minimalpunkt ist. 

Unsere Bedingung der Nichtdegeneriertheit bezeichnet man auch als strikte Komplementarität. 

Für eine Indexmenge S ⊂ {1, ..., N} denieren wir 

(P S x) i = 

{ 

(x)i , i ∈ S, 

0, i ∉ S. 

Nichtdegeneriertheit ist nicht nur bei der Formulierung hinreichender Optimalitätsbedingungen 

wichtig, sondern auch bei der Entwicklung von Abbruchkriterien. Der erste 

Schritt bei der Verwendung der Nichtdegeneriertheit ist Lemma 10. 

Lemma 10 Es sei x ∗ ein nichtdegenerierter stationärer Punkt. Wir setzen voraus, daÿ 

die Menge der aktiven Indices A = A(x ∗ ) nicht leer ist. Dann gibt es eine Zahl σ > 0, 

so daÿ für alle x ∈ Ω gilt 

∇f(x ∗ ) T (x − x ∗ ) = ∇f(x ∗ ) T P A (x − x ∗ ) ≥ σ ‖P A (x − x ∗ )‖. 

Beweis. Für i ∈ A folgt aus der Nichtdegeneriertheit und Stationarität von x ∗ , daÿ es 

eine Zahl σ > 0 gibt, für die entweder gilt (x ∗ ) i = L i und (∇f(x ∗ )) i ≥ σ oder (x ∗ ) i = U i 

und (∇f(x ∗ )) i ≤ −σ. Für x ∈ Ω gilt für alle i ∈ A die Ungleichung 

(∇f(x ∗ )) i (x − x ∗ ) i ≥ σ|(x − x ∗ ) i |. 

82

Wegen ‖x‖ 2 ≤ ‖x‖ 1 folgt also die gewünschte Ungleichung 

∇f(x ∗ ) T P A (x − x ∗ ) ≥ σ ‖P A (x − x ∗ )‖. 

5.4. Das Gradientenprojektionverfahren 

Für nichtdegenerierte stationäre Punkte sehen die hinreichenden Optimalitätsbedingungen 

ganz ähnlich aus wie im unrestringierten Fall. 

Satz 23 Es sei x ∗ ∈ Ω ein nichtdegenerierter stationärer Punkt für Problem (5.4). 

Die Funktion f sei in einer Umgegung von x ∗ zweimal stetig dierenzierbar und die 

reduzierte Hessematrix sei in x ∗ positiv denit. Dann ist x ∗ ein nichtdegenerierter lokaler 

Minimalpunkt für (5.4), also eine Lösung des Problems. 

Beweis. Für x ∈ Ω, x ≠ x ∗ denieren wir die Funktion φ(t) = f(x ∗ + t(x − x ∗ )). 

Wir zeigen, daÿ entweder gilt (i) φ ′ (0) > 0 oder (ii) φ ′ (0) = 0, φ ′′ (0) > 0. Wir setzen 

e = x − x ∗ . Dann gilt φ ′ (0) = ∇f(x ∗ ) T e = ∇f(x ∗ ) T (P A e + P I e). Aus der Stationarität 

folgt ∇f(x ∗ ) T P I e = 0. Falls P A e ≠ 0, folgt aus der Nichtdegeneriertheit die Ungleichung 

∇f(x ∗ ) T P A e > 0, und daher gilt (i). Falls aber P A e = 0, so gilt 

φ ′′ (0) = (P I (x − x ∗ )) T ∇ 2 f(x ∗ )P I (x − x ∗ ) = (x − x ∗ ) T ∇ 2 Rf(x ∗ )(x − x ∗ ) > 0, 

und es folgt (ii). 


Das Gradientenprojektionsverfahren ist die natürliche Erweiterung des Verfahrens des 

steilsten Abstiegs auf Probleme mit Intervallrestriktionen. Es hat alle Vor und Nachteile 

dieses Verfahrens. Für einen aktuellen Iterationspunkt x c ist der neue Punkt der Iteration 

x + = P(x c − λ∇f(x c )), 

wobei der Schrittweitenparameter λ mit der Armijoregel oder einer anderen Schrittweitensteuerung 

bestimmt wird. In diesem Abschnitt werden wir uns auf die einfachste 

Form der Armijoregel beschränken. Um die Liniensuche zu implementieren, müssen wir 

denieren, was wir mit einem hinreichendenden Abstieg meinen. Für λ > 0 denieren 

wir 

x(λ) = P(x − λ∇f(x)). (5.12) 

Für Probleme mit Intervallrestriktionen werden wir die Bedingung des hinreichenden 

Abstiegs (vergleiche (3.4)) denieren als 

f(x(λ)) − f(x) ≤ −α 

λ ‖x − x(λ)‖2 . (5.13) 

Wie in (3.4) ist α ein Parameter, für den oft der Wert 10 −4 gewählt wird. 

Wir betrachten folgenden Algorithmus. 

83


Algorithmus 12 (gradproj(x, f, kmax)) 

1. Für k = 1,...,kmax 


(b) Finde die kleinste ganze Zahl m ≥ 0, für die (5.13) mit λ = β m erfüllt ist. 

(c) x = x(λ). 



Der nächste Schritt besteht darin, das Abbruchkriterium auszuarbeiten. 

5.4.1. Beendigung der Iteration 

Um die Intervallrestriktionen zu berücksichtigen, muÿ das Abbruchkriterium an unser 

Problem angepaÿt werden. In der Lösung muÿ der Gradient ∇f nicht Null sein, aber ein 

natürlicher Ersatz besteht darin, die Iteration zu beenden, wenn der Abstand zwischen 

x und x(1) klein ist. Wie im unrestringierten Fall oder bei nichtlinearen Gleichungen, 

müssen wir die hinreichenden Bedingungen verwenden, um zu zeigen, daÿ ein Abbruchkriterium 

tatsächlich den Fehler miÿt. 

Wie üblich setzen wir e = x−x ∗ . Das folgende Lemma stellt eine Verbindung zwischen 

der aktiven und inaktiven Indexmengen in einem nichdegenerierten Minimalpunkt und 

den Punkten in der Umgebung her. 

Lemma 11 Die Funktion f sei auf der Menge Ω zweimal stetig dierenzierbar und x ∗ 

sei ein nichtdegenerierter stationärer Punkt für Problem (5.4). Es sei λ ∈ (0, 1]. Dann 

gilt für alle x in einer Umgebung von x ∗ 

1. A(x) ⊂ A(x ∗ ) und (x) i = (x ∗ ) i für alle i ∈ A(x). 

2. A(x(λ)) = A(x ∗ ) und (x(λ)) i = (x ∗ ) i für alle i ∈ A(x ∗ ). 

Beweis. Es sei A ∗ = A(x ∗ ), I ∗ = I(x ∗ ), A = A(x), I = I(x). Wir setzen 

δ 1 = min 

i∈I ∗{U i − (x ∗ ) i , (x ∗ ) i − L i , (U i − L i )/2}. 

Für i ∈ I ∗ und ‖e‖ ≤ δ 1 gilt L i < (x) i 

Wegen ‖e‖ < δ 1 ≤ (U i − L i )/2 folgt für alle i ∈ A die Gleichung (x) i = (x ∗ ) i . 

Es seien nun A λ und I λ die aktive und die inaktive Menge für x(λ) = P(x −λ∇f(x)). 

Es sei i ∈ A ∗ . Aus dem Beweis von Lemma 10 und der Stetigkeit von ∇f folgt die 

Existenz einer Zahl δ 2 > 0, so daÿ aus ‖e‖ ≤ δ 2 folgt 

(∇f(x ∗ + e)) i (x − x ∗ ) i > σ|(x − x ∗ ) i |/2. 

84


Daher gibt es eine Zahl δ 3 ∈ (0, min{σ/2, δ 2 }), so daÿ aus ‖e‖ < δ 3 und (x − x ∗ ) i ≠ 0 

folgt 

σ/2 < |(∇f(x)) i |, 

und daher (x(λ)) i = (x ∗ ) i . Es folgt A ∗ ⊂ A λ . 

Nun zeigen wir, daÿ auch die Inklusion A λ ⊂ A ∗ gilt. Nach Punkt 1. des Lemmas ist 

dafür hinreichend, daÿ x(λ) in x ∗ stetig ist, d.h. x(λ) liegt in einer vorgegebenen Umgebung 

von x ∗ , falls ‖e‖ hinreichend klein ist. Dies folgt aus der Stetigkeit der Projektion 

P und von ∇f. 

Satz 24 Die Funktion f sei auf der Menge Ω zweimal stetig dierenzierbar und x ∗ sei 

ein nichtdegenerierter stationärer Punkt für Problem (5.4). Die hinreichenden Optimalitätsbedingungen 

seien in x ∗ erfüllt. Dann gibt es Zahlen δ > 0 und M > 0, so daÿ aus 

‖e‖ < δ und A(x) = A(x ∗ ) folgende Ungleichung folgt: 

‖e‖/M ≤ ‖x − x(1)‖ ≤ M‖e‖. (5.14) 

Beweis. Aus der Stetigkeit von ∇ 2 f folgt daÿ ∇f Lipschiztstetig ist. Es sei L die 

Lipschitzkonstante von ∇f in Ω und wieder seien A ∗ = A(x ∗ ), I ∗ = I(x ∗ ), A = A(x), 

I = I(x). Aus der Denition der Projektion P folgt 

für alle x, y ∈ R n . 

Aus der Stationarität von x ∗ folgt 

‖P(x) − P(y)‖ ≤ ‖x − y‖ 

‖x − x(1)‖ = ‖e − [x(1) − x ∗ (1)] ‖ 

≤ 

≤ 

‖e‖ + ‖P(x − ∇f(x)) − P(x ∗ − ∇f(x ∗ )) ‖ 

2‖e‖ + ‖∇f(x) − ∇f(x ∗ )‖ ≤ (2 + L)‖e‖. 

Daher gilt die rechte Ungleichung in (5.14). 

Um die andere Ungleichung in (5.14) zu zeigen, verwenden wir Lemma 11. Es sei 

δ 1 > 0 so daÿ aus ‖e‖ < δ 1 die Aussagen des Lemmas 11 mit λ = 1 gelten. 

Aus dem Lemma und unserer Voraussetzung A(x) = A(x ∗ ) folgt 

(x − x(1)) i = (∇f(x)) i , i ∈ I ∗ = I, (x − x(1)) i = (e) i = 0, i ∈ A ∗ . (5.15) 

Also gilt ‖x−x(1)‖ = ‖P I ∗(x−x(1))‖. Aus den hinreichenden Optimalitätsbedingungen 

folgt, daÿ es eine Zahl µ > 0 gibt, so daÿ für alle u ∈ R N gilt 

(P I ∗u) T ∇ 2 f(x ∗ )P I ∗u ≥ µ‖P I ∗u‖ 2 . 

Daher gibt es δ 2 > 0 so daÿ aus ‖e‖ < δ 2 für alle u ∈ R N folgt 

(P I ∗u) T ∇ 2 f(x)P I ∗u ≥ (µ/2)‖P I ∗u‖ 2 . 

85


Wegen e = P I e folgt 

‖P I (x − x(1))‖ 2 = ‖P I (∇f(x))‖ 2 

= ‖ 

∫ 1 

0 

P I ∗(∇ 2 f(x ∗ + te) e) dt‖ 2 

[∫ 1 

2 

= e T (∇ 2 f(x ∗ + te)) dt] 

e 

0 

≥ (µ 2 /4)‖e‖ 2 . 

Somit folgt die Behauptung. 

Analog zum unrestringierten Fall formulieren wir ein Abbruchkriterium, das auf der 

relativen und absoluten Verkleinerung des Maÿes für Stationarität ‖x − x(1)‖ basiert. 

Für gegebenes r 0 = ‖x 0 − x 0 (1)‖ und mit relativen und absoluten Toleranzen τ r und τ a , 

ist unser Abbruchkriterium für Algorithmus gradproj die Ungleichung 

5.4.2. Konvergenzanalyse 

‖x − x(1)‖ ≤ τ a + τ r r 0 . (5.16) 

Die Konvergenzanalyse ist komplizierter als für das Verfahren des steilsten Abstiegs, da 

nun auch die Restriktionen beachtet werden müssen. Wir beginnen mit einigen Lemmata. 

Lemma 12 Für alle Punkte x, y ∈ Ω gilt folgende Ungleichung: 

(y − x(λ)) T (x(λ) − x + λ∇f(x)) ≥ 0. (5.17) 

Beweis. Aus der Denition der Projektion P folgt für alle y ∈ Ω die Ungleichung 

Also hat die Funktion 

‖x(λ) − x + λ∇f(x)‖ ≤ ‖y − x + λ∇f(x)‖. 

φ(t) = ‖(1 − t)x(λ) + ty − x + λ∇f(x)‖ 2 /2 

ein lokales Minimum in t = 0 bezüglich des Intervalles [0, 1]. Daher gilt die Ungleichung 

0 ≤ φ ′ (0) = (x(λ) − x + λ∇f(x)) T (y − x(λ)), 

also die Aussage des Lemmas. 

Wir verwenden (5.17) meistens in der äquivalenten Form 

Wir setzen in (5.18) y = x und erhalten: 

(x − x(λ)) T (y − x(λ)) ≤ λ∇f(x) T (y − x(λ)). (5.18) 

Folgerung 2 Für alle x ∈ Ω und λ ≥ 0 gilt die Ungleichung 

‖x − x(λ)‖ 2 ≤ λ∇f(x) T (x − x(λ)). (5.19) 

86


In der Analyse jeder Liniensuche ist ein wichtiges Ergebnis, daÿ die Schrittweiten von 

der Null weg beschränkt bleiben. 

Satz 25 Die Gradientenfunktion ∇f sei Lipschitzstetig mit der Lipschitzkonstanten L. 

Es sei x ∈ Ω. Dann ist die Bedingung des hinreichenden Abstiegs (5.13) für alle λ erfüllt, 

für die gilt 

0 < λ ≤ 2(1 − α)/L. (5.20) 

Beweis. Nach dem Fundamentalsatz der Analysis gilt für y = x − x(λ) die Gleichung 

Daraus folgt die Gleichung 

∫ 1 

f(x − y) − f(x) = f(x(λ)) − f(x) = − ∇f(x − ty) T y dt. 

0 

f(x(λ)) = f(x) + ∇f(x) T (x(λ) − x) − 

Indem wir die Terme in Gleichung (5.21) umordnen, erhalten wir 

∫ 1 

0 

(∇f(x − ty) − ∇f(x)) T y dt. (5.21) 

λ(f(x) − f(x(λ)) = λ∇f(x) T (x − x(λ)) + λE, (5.22) 

mit E = ∫ 1 

0 (∇f(x − ty) − ∇f(x))T y dt. Für E gilt also die Abschätzung 

Daher folgt die Ungleichung 

‖E‖ ≤ L‖x − x(λ)‖ 2 /2. 

λ(f(x) − f(x(λ)) ≥ λ∇f(x) T (x − x(λ)) − λL‖x − x(λ)‖ 2 /2. (5.23) 

Mit Folgerung 2 erhalten wir daraus die Ungleichung 

λ(f(x) − f(x(λ)) ≥ (1 − λL/2)‖x − x(λ)‖ 2 , 

aus der die Behauptung folgt. 

Für die Armijoregel hat der Satz die Konsequenz, daÿ die Liniensuche spätestens 

beendet wird, wenn gilt 

β m 2(1 − α) 

≤ ≤ β m−1 . 

L 

Daher ist eine untere Schranke für die Schrittweite gegeben durch 

λ = 

2β(1 − α) 

L 

≤ β m−1 (5.24) 

Satz 26 Die Gradientenfunktion ∇f sei Lipschitzstetig mit der Lipschitzkonstanten L. 

Es sei {x n } eine durch die Gradientenprojektionsmethode erzeugte Folge. Dann ist jeder 

Häufungspunkt der Folge ein stationärer Punkt. 

87


Beweis. Da die Folge der Funktionswerte {f(x n )} monoton fällt und f auf der Menge 

Ω nach unten beschränkt ist, hat die Folge der Funktionswerte einen Grenzwert f ∗ . 

Aus der Bedingung für den hinreichenden Abstieg und (5.24) folgt wie im Beweis von 

Satz 11 

‖x n − x n+1 ‖ 2 ≤ λ(f(x n ) − f(x n+1 ))/α ≤ (f(x n ) − f(x n+1 ))/α → 0 

für n → ∞. Es sei nun y ein Punkt aus der Menge Ω und n > 0. Aus (5.18) folgt 

∇f(x n ) T (x n − y) = ∇f(x n ) T (x n+1 − y) + ∇f(x n ) T (x n − x n+1 ) 

Mit (5.24) folgt daraus 

≤ 

λ −1 

n (x n − x n+1 ) T (x n+1 − y) + ∇f(x n ) T (x n − x n+1 ). 

∇f(x n ) T (x n − y) ≤ ‖x n − x n+1 ‖(λ −1 ‖x n+1 − y‖ + ‖∇f(x n )‖) (5.25) 

Für eine konvergente Teilfolge von {x n } können wir einen Grenzübergang durchführen 

und es folgt, daÿ für den entsprechenden Häufungspunkt Ungleichung (5.7) erfüllt ist, 

also der Häufungspunkt ein stationärer Punkt ist. Damit ist die Behauptung bewiesen. 

5.4.3. Identizierung der aktiven Indices 

Das Gradientenprojektionsverfahren hat die bemerkenswerte Eigenschaft, daÿ, falls es 

gegen einen nichtdegenerierten lokalen Minimalpunkt konvergiert, die aktive Menge nach 

endlich vielen Schritten exakt bestimmt wird. 

Satz 27 Die Gradientenfunktion ∇f sei Lipschitzstetig und die Folge der Iterationspunkte 

{x n } des Gradientenprojektionsverfahrens konvergiere gegen einen nichtdegenerierten 

lokalen Minimalpunkt x ∗ . Dann gibt es n 0 , so daÿ für alle n > n 0 gilt A(x n ) = 

A(x ∗ ). 

Beweis. Es sei λ die untere Schranke für die Schrittweite. Es sei δ > 0 so, daÿ die 

Aussagen aus Lemma 11 für λ = λ gelten, und somit auch für alle λ ≥ λ. Wir wählen 

eine Zahl n 0 , so daÿ für alle n > n 0 gilt ‖e n ‖ < δ, und die Behauptung folgt. 

5.4.4. Ein Beweis von Satz 24 

In diesem Abschnitt beweisen wir Satz 24. Wir denieren die nichtglatte Funktion 

Mit der Schreibweise aus (5.12) gilt F (x) = x − x(1). 

Beweis. Nach Folgerung 2 gilt 

F (x) = x − P(x − ∇f(x)). (5.26) 

‖x ∗ − x ∗ (λ)‖ 2 ≤ λ∇f(x ∗ ) T (x ∗ − x ∗ (λ)). 

88

5.5. Superlineare Konvergenz 

Aus (5.7) in der Denition eines stationären Punktes folgt mit x = x ∗ (λ) die Ungleichung 

∇f(x ∗ ) T (x ∗ − x ∗ (λ)) ≤ 0, 

also gilt x ∗ = x ∗ (λ). 

Nun beweisen wir die andere Richtung. Es gelte also x ∗ = x ∗ (λ) für alle λ > 0. 

Somit ist der Punkt x ∗ ein Fixpunkt des Gradientenprojektionsverfahrens und daher ein 

stationärer Punkt. 

Indem wir λ = 1 setzen, erhalten wir ein einfaches Korolar von Satz 22. 

Folgerung 3 Es sei f eine Lipschitz stetig dierenzierbare Funktion auf Ω. Falls x ∗ ein 

stationärer Punkt ist, gilt F (x ∗ ) = 0. 

5.5. Superlineare Konvergenz 

Wenn die Iteration des Gradientenprojektionsverfahrens einmal die aktiven Restriktionen 

identiziert hat, so ist P A(x ∗ )x ∗ bekannt. Von dieser Iteration an ist das Minimierungsproblem 

für P I x ∗ unrestringiert und im Prinzip kann zu seiner Lösung jede superlinear 

konvergente Methode zur unrestringierten Optimierung verwendet werden. 

Das Problem bei dieser Idee ist, dass man erst entscheiden kann, wann man die aktive 

Menge identiziert hat, nachdem man das Problem gelöst hat und ein Fehler in der 

Bestimmung der aktiven Menge kann verheerende Auswirkungen auf die Konvergenz 

haben. In diesem Abschnitt diskutieren wir zwei Zugänge: Der erste basiert auf dem 

Newtonverfahren und wird nur als lokale Methode präsentiert. Der zweite ist das BFGS 

Armijo Verfahren, das Algorithmus bfgsopt ähnelt. 

Wir beginnen mit der Entwicklung der lokalen Konvergenztheorie für das projizierte 

Newtonverfahren [2]. Diese Analyse illustriert das wichtige Problem der Bestimmung der 

aktiven Menge. Wie bei der unrestringierten Optimierung verhindert die Möglichkeit des 

Auftretens negativer Krümmung eine einfache Globalisierung. 

5.6. Unendlichdimensionale Probleme 

Die Ergebnisse aus diesem Kapitel kann man nicht direkt auf den Fall unendlichdimensionaler 

Problem verallgemeinern. Ein Grund dafür ist, dass unendlichdimensionale 

Probleme oft abzählbar viele Restriktionen oder sogar ein Kontinuum von Restriktionen 

haben. Daher ist die Menge ω in der Normtopologie des Banachraumes, in dem das Problem 

gestellt ist, nicht kompakt und dies macht es erforderlich, mit verschiedenen Arten 

schwacher Konvergenz zu arbeiten (vgl. [16]. Ausserdem ist die Identizierung der aktiven 

Indices in endlich vielen Schritten nicht immer möglich. Eine genauere Behandlung 

dieser Sachverhalte ndet man in [26]. 

Dies sind nicht die einzigen Komplikationen, die in unendlichdimensionalen Räumen 

auftreten. Sogar das projizierte Gradientenverfahren hält Herausforderungen bereit, besonders 

wenn die Nichtdegeneriertheit der Minimalpunkte nicht gewährleistet ist [12]. 

89


Das Konvergenzverhalten der diskretisierten Probleme kann sich von dem für das kontinuierliche 

Problem unterscheiden ([13]). Die Tatsache, dass verschiedene Normen nicht 

äquivalent sind erschwert die Formulierung von Konvergenzresultaten für Liniensuch 

und TrustRegion Verfahren (vgl. z. Bsp. [20]). 

Die funktionalanalytische Struktur vieler Steuerungsprobleme kann man mit schnellen 

Mehrgitterverfahren ausnutzen. Sowohl Mehrgitterverfahren zweiter Art [18] als auch 

Varianten des AtkinsonBrakhage Verfahrens sind auf Fixpunktformulierungen parabolischer 

Steuerungsprobleme mit einer Raumdimension angewendet worden. 

5.7. Übungen 

Übung 36 a) Es sei f(x) = x 1 + x 2 2. Betrachten Sie das Problem 

min f(x) s.t. − 1 ≤ x 1 ≤ 1, −1 ≤ x 2 ≤ 1. 

Ist die Hessematrix im Minimalpunkt positiv denit? Bestimmen Sie die Menge der 

aktiven Indices. Ist die reduzierte Hessematrix im Minimalpunkt positiv denit? 

b) Es sei f(x) = x 1 + x 2 . Betrachten Sie das Problem 

min f(x) s.t. − 1 ≤ x 1 ≤ 1, −1 ≤ x 2 ≤ 1. 

Untersuchen sie, ob die (reduzierte) Hessematrix im Minimalpunkt positiv denit ist. 

Wie sieht es bei c) und d) aus? 

c) Es sei f(x) = x 2 1 + x 2 2. Betrachten Sie das Problem 

min f(x) s.t. − 1 ≤ x 1 ≤ 1, −1 ≤ x 2 ≤ 1. 

d) Es sei f(x) = x 1 x 2 . Betrachten Sie das Problem 

min f(x) s.t. 0 ≤ x 1 ≤ 1, 0 ≤ x 2 ≤ 1. 

Übung 37 Es sei die Projektion P wie in (5.9) deniert, und 

x(λ) = P(x c − λ∇f(x c )). 

Das Gradientenprojektionsverfahren mit exakter Liniensuche ist folgendermassen deniert: 

x + = x(λ), wobei die Schrittweite λ ≥ 0 so bestimmt wird, dass f(x(λ)) minimal 

wird. 

Bestimmen Sie für die folgende Funktion die entsprechende Iteration, die recht schnell 

stationär wird (vgl. Übung 13). 

f(x) = x 2 1 + 2x 2 2 + 4x 1 + 4x 2 

Startpunkt x 0 = (0, 0) T . 

−1/2 ≤ x 1 ≤ 1, −8 ≤ x 2 ≤ 1. 

90

Lösung Es gilt ∇f(x 0 ) = (4, 4) T und 

5.7. Übungen 

⎧ 

⎪⎨ −λ(4, 4) T falls λ < 1/8, 

x(λ) = P(x 0 − λ∇f(x 0 )) = P(−λ(4, 4) T ) = (−1/2, −4λ) T falls 1/8 ≤ λ < 2, 

⎪⎩ 

(−1/2, −8) T falls λ ≥ 2. 

Es folgt 

⎧ 

⎪⎨ 16(3λ 2 − 2λ) falls λ ≤ 1/8, 

f(x(λ)) = −7/4 + 16(2λ 2 − λ) falls λ ∈ (1/8, 2), 

⎪⎩ 

94 + 1/4 falls λ ≥ 2. 

Wir erhalten die Schrittweite λ = 1/4 und x + = x(1/4) = (−1/2, −1) T . Es gilt 

∇f(x + ) = (3, 0) T , also erfüllt x + Gleichung (5.10), ist also stationär. Der Punkt x + 

ist der gesuchte Minimalpunkt, der hier nach einem Schritt erreicht wird. 

Übung 38 Gegeben ist ein Wagen, untersucht werden sollen Bremsvorgänge. Gesteuert 

wird die Beschleunigung des Wagens, 

x ′′ (t) = u(t), t ∈ [0, T ] 

dabei ist u die Steuerungsfunktion, die Steuerungsrestriktionen der Form 

−1 ≤ u(t) ≤ 1, t ∈ [0, T ] 

erfüllen soll. Gegeben ist der Anfangszustand x(0) = 0, x ′ (0) = a > 0. 

Die Zielfunktion setzt sich aus verschiedenen Zielen zusammen: Das Quadrat der 

Endgeschwindigkeit x ′ (T ) 2 soll minimiert werden, dabei soll möglichst wenig Energie 

∫ T 

0 u(t)2 dt verbraucht werden und der Bremsweg soll möglichst kurz sein. 

Die Zielfunktion hat also die Form 

J(u) = αx ′ (T ) 2 + β 

∫ T 

0 

u 2 (t) dt + γF (u), 

wobei F die Minimierung des Bremsweges modelliert. 

a) Diskutieren Sie eine sinnvolle Wahl von F! 

Wir erzeugen ein diskretisiertes Problem, indem das Zeitintervall [0, T ] durch das 

endliche Gitter t j = jh, j = {0, ..., N} ersetzen; dabei ist die Schrittweite h = T/N, 

Als (vereinfachte) Approximation der Dierentialgleichung für x ′ (t) verwenden wir 

x S (t j+1 ) = x S (t j ) + hu(t j ), j ∈ {1, ..., N} 

mit x S (t 0 ) = a. 

b) Wie groÿ muÿ die Steuerzeit T sein, damit das Fahrzeug auf die Geschwindigkeit 0 

abgebremst werden kann? Untersuchen sie die Frage sowohl für das kontinuierliche als 

auch für das diskretisierte System. 

c) Was ist der minimale Bremsweg für das kontinuierliche System? Für das diskretisierte 

System wird in der Zielfunktion das Integral ∫ T 

0 u2 (t) dt durch ∑ N 

i=1 hu 2 i ersetzt, 

mit u i = u(t i ). 

91


d) Stellen Sie die Optimalitärsbedingungen für das diskretisierte Problem auf (mit 

γ = 0)! Sind die entsprechenden Hessematrizen positiv denit? Wie sieht es mit den 

reduzierten Hessematrizen aus? 

Verwenden Sie dabei bei Bedarf für x(t j ) die Approximation 

mit x(t 0 ) = 0. 

x(t j+1 ) = x(t j ) + hx S (t j ), j ∈ {1, ..., N} 

Lösung a) Die Wahl F (u) = x(T ) bietet sich an, ist aber nur in Verbindung mit 

der zusätzlichen Zustandsrestriktion x ′ (T ) ≥ 0 sinnvoll, da sonst unter Umständen der 

Wagen dazu gebracht wird, rückwärts zu fahren. 

b) Wegen der Restriktionen für u gilt x ′ (T ) = a + ∫ T 

0 u(τ) dτ ≥ a − t. Aus x′ (t 0 ) = 

0 ≥ a − t 0 folgt also t 0 ≥ a, und mit u(t) = −1 wird x ′ (a) = 0. Für das kontinuierliche 

System ist die Mindestzeit also t 0 = a. 

92

Teil II. 

Optimierung verrauschter 

Funktionen 

93

6. Grundkonzepte und Ziele 

Die Algorithmen aus Teil I können nicht angewendet werden, wenn der Gradient der 

Funktion f nicht zur Verfügung steht, entweder analytisch oder durch nite Dierenzen. 

Sogar wenn man auf die Gradienten zugreifen kann, sind diese Algorithmen nicht nützlich, 

wenn f viele lokale Minima hat, die nicht von Interesse sind. Wir beschränken uns 

hier auf deterministische Abtastalgorithmen, die allgemein anwendbar und mehr oder 

weniger einfach zu implementieren sind. 

Optimierungsverfahren, die keine Gradienten erfordern, bilden ein aktives Forschungsgebiet, 

auch bei glatten Problemen. Obwohl einige der Verfahren, wie der NelderMead 

und HookeJeeves Algorithmus klassisch sind, wurde der gröÿte Teil der Konvergenzanalyse 

für solche Vefahren nach 1990 durchgeführt. 

Wir präsentieren hier die Algorithmen und theoretischen Ergebnisse für Funktionen, 

die Störungen einfacher, glatter Funktionen sind. 

Wir diskutieren nicht die Algorithmen, die die Zielfunktion explizit glätten oder einen 

Filter verwenden. Für allgemeine Probleme müssen diese Verfahren den Raum in irgendeiner 

Weise abtasten, zum Beispiel durch hochdimensionale Integration, und sind daher 

zu teuer. In einigen Spezialfällen kann man diese Integrale aber analytisch berechnen, 

und zum Beispiel für Probleme aus der Chemie wurden eindrucksvolle Ergebnisse speziell 

auf diese Probleme zugeschnittener Verfahren berichtet. 

Wir werden ebenfalls nicht stochastische Verfahren oder radikalere globale Optimierungsverfahren 

wie simulated Annealing, Intervallmethoden oder genetische Algorithmen 

diskutieren, deren Ergebnisse ganz oder zum Teil vom Zufall abhängen. Auf diese probablilistischen 

Verfahren sollte man allerdings zurückgreifen, wenn die konservativeren 

Verfahren, die wir hier betrachten, versagen. 


Wir betrachten eine Zielfunktion f, die durch die Störung einer glatten Funktion f s 

durch eine kleine Funktion φ entsteht, 

f(x) = f s (x) + φ(x). (6.1) 

Durch kleine Oszillationen in φ werden lokale Minima von f erzeugt, die die Iterationsfolge 

jedes konventionellen gradientenbasierten Verfahrens einfangen würden. Die 

Störung φ kann im Allgemeinen zufällig sein oder basiert auf experimentellen Daten; 

daher kann sie möglicherweise verschiedene Werte annehmen, wenn sie zweimal an der 

gleichen Stelle ausgewertet wird. Also muÿ φ noch nicht einmal eine Funktion sein. Um 

95


die Formulierung der Resultate zu vereinfachen, setzen wir voraus, daÿ φ überall deniert 

und beschränkt ist. 

6.2. Der Simplexgradient 

Die meisten Algorithmen in diesem Teil untersuchen in jeder Iteration die Eckpunkte 

eines Simplex im R N und verändern das Simplex, je nachdem wie die Funktionswerte 

sind. In diesem Abschnitt entwickeln wir die Werkzeuge, um diese Algorithmen zu 

beschreiben und zu analysieren. Die Grundidee ist, daÿ viele Abtastalgorithmen genug 

Information brauchen, um den Gradienten durch nite Dierenzen zu approximieren 

und daÿ die Genauigkeit dieser Approximation zur Konvergenzanalyse genutzt werden 

kann. Man muÿ allerdings bei Problemen der Form (6.1) darauf achten, die Schrittweite 

bei den niten Dierenzen nicht so klein zu machen, daÿ man damit das Rauschen zu 

dierenzieren versucht. 

Die Ideen in diesem Abschnitt wurden ursprünglich benutzt, um den NelderMead 

Algorithmus zu analysieren. Die Ideen lassen sich aber auf mehrere Verfahrensklassen 

anwenden. 

Denition 11 Ein Polytop (Simplex) im R N ist die konvexe Hülle von N + 1 Punkten, 

{x j } N+1 

j=1 . Der Punkt x j ist die jte Ecke von S. Es sei V (oder V (S)) die N × N Matrix 

der Simplexrichtungen 

V (S) = (x 2 − x 1 , x 3 − x 1 , ..., x N+1 − x 1 ) = (v 1 , ..., v N ). 

Wir nennen S nichtsingulär, falls V nichtsingulär ist. Der Polytopdurchmesser diam(S) 

ist 

diam(S) = max ‖x i − x j ‖. 

1≤i,j≤N+1 

Wir bezeichnen die l 2 Konditionszahl κ(V ) der Matrix V als die Simplexkondition. 

Es bezeichne δ(f : S) den Vektor der Zielfunktionsdierenzen 

δ(f : S) = (f(x 2 ) − f(x 1 ), f(x 3 ) − f(x 1 ), ..., f(x N+1 ) − f(x 1 )) T . 

Wir werden den Polytopdurchmesser in unseren Abschätzungen oder Algorithmen nicht 

direkt verwenden. Stattdessen benutzen wir zwie orientierte Längen 

σ + (S) = 

Dann folgt die Ungleichung 

max ‖x 1 − x j ‖ und σ − (S) = min ‖x 1 − x j ‖. 

2≤j≤N+1 2≤j≤N+1 

σ + (S) ≤ diam(S) ≤ 2σ + (S). 

96

6.2.1. Vorwärtsdierenzensimplexgradient 


Denition 12 Es sei S ein nichtsinguläres Polytop mit Ecken {x j } N+1 

j=1 . Der Simplexgradient 

D(f : S) ist 

D(f : S) = V −T δ(f : S). 

Die Matrix der Simplexrichtungen und der Vektor der Zielfunktionsdierenzen hängen 

von der Numerierung der Ecken ab. Die meisten der Algorithmen, die wir betrachten, 

verwenden eine Eckenordnung oder tasten auf einer regulären Schablone ab. Auf diese 

Art wird in den Algorithmen der Simplexgradient verwendet. 

Die Denition des Simplexgradienten wird durch die Abschätzung erster Ordnung in 

Lemma 13 motiviert. 

Lemma 13 Es sei S ein Polytop. Es sei ∇f in einer Umgebung von S Lipschitzstetig 

mit der Lipschitzkonstanten 2K f . Dann gibt es eine Zahl K > 0, die nur von K f abhängt, 

so daÿ gilt 

‖∇f(x 1 ) − D(f : S)‖ ≤ Kκ(V )σ + (S). (6.2) 

Beweis. Unsere Glattheitsvoraussetzungen an f und der Taylorsatz implizieren für alle 

j mit 2 ≤ j ≤ N + 1 die Ungleichung 

Also gilt 

und mit K = N 1/2 K f folgt 

|f(x 1 ) − f(x j ) + v T j ∇f(x 1 )| ≤ K f ‖v j ‖ 2 ≤ K f σ + (S) 2 . 

‖δ(f : S) − V T ∇f(x 1 )‖ ≤ N 1/2 K f σ + (S) 2 

‖∇f(x 1 ) − D(f : S)‖ ≤ K‖V −T ‖σ + (S) 2 . 

Die Behauptung folgt aus der Ungleichung σ + (S) ≤ ‖V ‖. 

Suchverfahren sind natürlich nicht für glatte Probleme gedacht. Die Minimierung von 

Zielfunktionen der Form (6.1) ist eine der Anwendungen dieser Verfahren. Eine Abschätzung 

erster Ordnung, die Störungen berücksichtigt, ist unser nächstes Resultat. 

Dabei wird es nötig sein, für jeden Simplex die Störungen zu messen. Dazu denieren 

wir für eine beliebige Menge T 

‖φ‖ T = sup ‖φ(x)‖. 

x∈T 

Lemma 14 Es sei S ein nichtsingulärer Simplex. Die Funktion f erfülle (6.1) und der 

Gradient ∇f s sei Lipschitzstetig in einer Umgebung von S mit der Lipschitzkonstanten 

2K s . Dann gibt es eine Zahl K > 0, die nur von K s abhängt, so daÿ gilt 

‖∇f s (x 1 ) − D(f : S)‖ ≤ K κ(V ) (σ + (S) + ‖φ‖ S /σ + (S)) . (6.3) 

97


Beweis. Wendet man Lemma 13 auf f s an, so folgt 

‖∇f s (x 1 ) − D(f s : S)‖ ≤ K s N 1/2 κ(V )σ + (S). 

Es gilt ‖δ(φ : S)‖ ≤ 2 √ N ‖φ‖ S und σ ′ +(S) ≤ ‖V ‖, also folgt 

‖D(f : S) − S(f s : S)‖ ≤ ‖V −T ‖ ‖δ(f : S) − δ(f s : S)‖ = ‖V −T ‖ ‖δ(φ : S)‖ 

≤ 

2N 1/2 ‖V −T ‖ ‖φ‖ S ≤ 2N 1/2 κ(V )‖φ‖ S /σ + (S). 

Daraus folgt die Behauptung mit K = N 1/2 K s + 2N 1/2 . 

Die Konstanten K in (6.2) und (6.3) hängen von der Menge S nur über die Lipschitzkonstanten 

von f s und ∇f s in einer Umgebung von S ab. Diese Abhängigkeit werden 

wir im Bedarfsfall als K = K(S) ausdrücken. 

Die Algorithmen in diesem Abschnitt sind am protabelsten, falls man sie auf probleme 

der Form (6.1) anwendet, und das Ziel ist soviel Information wie möglich aus dem 

glatten Anteil f s von f herauszuziehen, ohne dabei Energie mit dem vergeblichen Versuch 

zu verschwenden, das Rauschen zu minimieren. Um unser Ziel für die Konvergenz 

klar zu formulieren, studieren wir in Lemma 15 die Konsequenzen eines kleinen Simplexgradienten 

in dem speziellen (nicht ungew¤hnlichen) Fall, daÿ die Rauschamplitude klein 

ist 

Lemma 15 Die Funktion f erfülle (6.1) und der Gradient ∇f s sei stetig dierenzierbar 

in einer kompakten Menge Ω ⊂ R N . Wir setzen voraus, daÿ f s in Ω genau einen 

kritischen Punkt x ∗ besitzt, in dem die Hessematrix positiv denit ist. Dann gibt es eine 

Zahl K Ω > 0, so daÿ für jedes Simplex S ⊂ Ω mit den Ecken {x j } N+1 

j=1 gilt 

‖x 1 − x ∗ ‖ ≤ K Ω [‖D(f : S)‖ + κ(V ) (σ + (S) + ‖φ‖ S /σ + (S))] . 

Beweis. Die Kompaktheit der Menge Ω und unsere Glattheitsvoraussetzung an f s implizieren 

die Existenz einer Zahl β 0 > 0 mit 

‖∇f s (x)‖ ≥ β 0 ‖x − x ∗ ‖ 

für alle x ∈ Ω. Mit (6.3) erhalten wir die Ungleichung 

‖x 1 − x ∗ ‖ ≤ (1/β 0 )‖∇f s (x 1 )‖ 

≤ 

(1/β 0 ) [‖D(f : S)‖ + Kκ(V ) (σ + (S) + ‖φ‖ S /σ + (S))] 

Daraus folgt die Behauptung mit K Ω = (1/β 0 ) max{1, K}. 

Indem sie die Funktion auf eine sinnvolle Art abtasten, versuchen Simplexbasierte Algorithmen 

den Simplexgradienten zu verkleinern, indem die Gröÿe der Simplices, über 

denen f abgetastet wird, geändert wird. Die Bewegung der Simplices und die verschiedenen 

Verfahren, um die Grösse zu verändern (vor allem zu verkleinern) sind charakteristisch 

für die verschiedenen Verfahren. Satz 28, der direkt aus Lemma 15 folgt, macht 

dies deutlich. Wir betrachten eine Folge gleichmäÿig wohlkonditionierter Simplices. Solche 

Simplices werden von mehreren der Algorithmen erzeugt, die wir später betrachten. 

98


Satz 28 Die Funktion f erfülle (6.1) und der Gradient ∇f s sei stetig dierenzierbar in 

einer kompakten Menge Ω ⊂ R N . Wir setzen voraus, daÿ f s in Ω genau einen kritischen 

Punkt x ∗ besitzt, in dem die Hessematrix positiv denit ist. Es sei S k eine Folge von 

Simplizes mit den Eckpunkten {x k j } N+1 

j=1 . Wir setzen voraus, daÿ eine Zahl M existiert 

mit S k ⊂ Ω und κ(V (S k )) ≤ M für alle k. Dann gelten folgende Aussagen: 

1. Es gibt eine Zahl K S > 0, so daÿ aus lim k→∞ σ + (S k ) = 0, lim k→∞ ‖φ‖ S k/σ + (S k ) = 

0 und 

lim sup k→∞ ‖D(f : S k )‖ = ε für ein ε > 0, folgt 

lim sup ‖x ∗ − x k 1‖ ≤ K S ε. 

k→∞ 

2. Es existiert eine Zahl K S > 0, so daÿ für alle ε > 0 aus 

folgt 

lim sup ‖φ‖ S k ≤ ε 2 , lim inf 

k→∞ 

k→∞ 

lim sup 

k→∞ 

σ +(S k ) ≥ ε und lim sup ‖D(f : S k )‖ ≤ ε 

k→∞ 

‖x ∗ − x k 1‖ ≤ K S (ε + lim sup σ + (S k )). 

k→∞ 

6.2.2. Zentraldierenzensimplexgradient 

In diesem Abschnitt denieren wir den Zentraldierenzensimplexgradienten und beweisen 

eine Abschätzung zweiter Ordnung. Dann zeigen wir zwei Varianten von Satz 28, 

eine um zu zeigen wie sich die Rolle des Rauschens φ von der im Fall der einseitigen 

Dierenzen unterscheidet, und eine zweite, um zu quantizieren, wie die berechneten 

Funktionswerte von f in einem Abbruchkriterium benutzt werden können. 

Denition 13 Es sei S ein nichtsingulärer Simplex im R N mit den Ecken {x j } N+1 

j=1 

und den Simplexrichtungen v j = x j+1 − x j . Der gespiegelte Simplex R = R(S) ist der 

Simplex mit den Ecken x 1 und r j = x 1 −v j für j = 1, ..., N. Der zentrale Simplexgradient 

D C (f : S) ist 

D C (f : S) = [D(f : S) + D(f : R)]/2 = [V −T (δ(f : S) − δ(f : R))]/2. 

Falls N = 1 und x 2 = x 1 +h gilt r 2 = x 1 −h. Also gilt D(f : S) = [f(x 1 +h)−f(x 1 )]/h 

und D(f : R) = [f(x 1 − h) − f(x 1 )]/(−h). Daher ist D c (f : S) = D C (f : R) = 

[f(x 1 + h) − f(x 1 − h)]/(2h) der übliche zentrale Dierenzenquotient. 

Lemma 16 und 17 sind die Varianten mit zweiter Ordnung von Lemma 13 und 14. 

Lemma 16 Es sei S ein nichtsingulärer Simplex und ∇ 2 f sei Lipschitzstetig in einer 

Umgebung von S ∪ R(S) mit Lipschitzkonstante 3K C . Dann gibt es K > 0 mit 

‖∇f(x 1 ) − D C (f : S)‖ ≤ Kκ(V )σ + (S) 2 . (6.4) 

99


Beweis. Aus der Lipschitzstetigkeit folgt für alle j ∈ {2, ..., N + 1} die Ungleichung 

|f(x j ) − f(r j ) + 2∇f(x 1 ) T v j | ≤ K C ‖v j ‖ 3 ≤ K C σ + (S) 3 . 

Wie im Beweis von Lemma 13 folgt 

‖V T (δ(f : S) − δ(f : R)) − V T ∇f(x 1 )‖ ≤ N 1/2 K C σ + (S) 3 , 

und das Ergebnis folgt mit K = N 1/2 K C . 

Lemma 17 Es sei S ein nichtsingulärer Simplex und f erfülle (6.1) und ∇ 2 f s sei Lipschitzstetig 

in einer Umgebung von S ∪ R(S) mit Lipschitzkonstante 3K Cs . Dann gibt es 

eine Zahl K > 0, die nur von K Cs abhängt, mit 

‖∇f s (x 1 ) − D C (f : S)‖ ≤ Kκ(V ) ( σ + (S) 2 + ‖φ‖ S /σ + (S) ) . (6.5) 

Beweis. Der Beweis wird dem Leser überlassen, da er sehr dem Beweis von Lemma 14 

ähnelt. 

Die Qualität der Information, die man aus dem zentralen Simplexgradienten erhalten 

kann, ist höher als die Qualität der Information, die man aus dem Vorwärtssimplexgradienten 

erhält. Der Unterschied kann in der Praxis dramatisch sein! Aus Lemma 17 erhält 

man eine Aussage über die Konsequenzen eines kleinen zentralen Simplexgradienten. 

Lemma 18 Die Funktion f erfülle (6.1) und ∇ 2 f s seistetig dierenzierbar in einer 

kompakten Menge Ω ⊂ R N . Wir setzen voraus, dass die Funktion f s in der Menge Ω 

genau einen kritischen Punkt x ∗ besitzt. Dann gibt es eine Zahl K ω > 0 so dass für ein 

Simplex S ⊂ Ω für das das gespiegelte Simplex R(S) auch in Ω enthalten ist, folgende 

Ungleichung gilt: 

‖x 1 − x ∗ ‖ ≤ K Ω 

[ 

‖DC (f : S)‖ + κ(V ) ( σ + (S) 2 + ‖φ‖ S /σ + (S) )] . 

Lemma 18 ist alles, was man braucht, um aus einer Folge kleiner zentraler Simplexgradienten 

auf Konvergenz zu schliessen. 

Satz 29 Die Funktion f erfülle (6.1) und ∇ 2 f s seistetig dierenzierbar in einer kompakten 

Menge Ω ⊂ R N . Wir setzen voraus, dass die Funktion f s in der Menge Ω genau 

einen kritischen Punkt x ∗ besitzt. Es sei (S k ) k eine Folge von Simplices mit den Ecken 

{x k j } j=1 N+1 und S k , R(S k ⊂ Ω. Wir setzen voraus, dass es eine Konstante M gibt mit 

κ(V (S k )) ≤ M für alle k. Dann gilt: 

1. Es gibt eine Konstante K S > 0, so dass für alle ε > 0 aus lim k→∞ σ + (S k ) = 0, 

lim k→∞ ‖φ‖ S k/σ + (S k ) = 0 und lim sup k→∞ ‖D c (f : S k )‖ = ε folgt 

lim sup ‖x ∗ − x k 1‖ ≤ K S ε. 

k→∞ 

100


2. Es gibt eine Konstante K S > 0, so dass für alle ε > 0 aus lim sup k→∞ ‖φ‖ S k ≤ ε 3 , 

lim inf k→infty σ + (S k ) ≥ ε 2 und lim inf k→∞ ‖D c (f : S k )‖ ≤ ε 2 folgt 

lim sup 

k→∞ 

‖x ∗ − x k 1‖ ≤ K S (ε + lim sup σ + (S k )) 2 . 

k→∞ 

Ähnlich wie Satz 28 legt es Satz 29 nahe, die Grösse des Simplexgradienten als Konvergenztest 

zu verwenden. Angenommen es gilt ‖φ‖ ∞ ≤ ε und ein Algorithmus erzeugt 

Folgen von Simplices, deren Ecken einen Minimalpunkt von f s approximieren sollen. 

Falls ein zentraler Simplexgradient verwendet wird, so hat man gnügend viele Funktionswerte 

von f zu Verfügung um ein wichtiges Abbruchktiterium verwenden zu können. 

Um einen zentralen Simplexgradienten zu berechnen, muss man f an den Punkten x 1 

und x 1 + v j , x 1 − v j (1 ≤ j ≤ N) auswerten. Falls gilt f(x 1 ) ≤ f(x + 1 v j ) für alle 

j ∈ {1, ..., N}, kann man sich fragen, ob es sinnvoll ist, den Simplexgradienten als 

Abstiegsrichtung der als Mass für die Stationarität zu verwenden. Wir nennen diese Situation 

Schablonenversagen (stencil failure). Wir werden dies als Abbruchkriterium in 

den meisten folgenden Algorithmen verwenden. Die Grundlage dafür ist ein Ergebnis 

aus [3], bei dem nur Dierenzierbarkeit von f s verlangt wird. 

Satz 30 Es sei S ein nichtsinguläres Simplex, so dass für ein µ − ∈ (0, 1) und ein κ + > 0 

gilt 

κ(V ) ≤ κ + und x T V V T x ≥ µ − σ + (S) 2 ‖x‖ 2 (6.6) 

für alle x. Die Funktion f erfülle 6.1) und ∇f s sei Lipschitzstetig dierenzierbar in einer 

Kugel B mit Radius 2σ + (S) um x 1 . Wir setzen voraus, dass gilt 

Es sei K die Konstante aus Lemma 14. Dann gilt 

f(x 1 ) < min 

j 

{f(x 1 

+ 

vj } (6.7) 

‖∇f s (x 1 )‖ ≤ 8µ −1 

− Kκ + (σ + (S) + ‖φ‖ B /σ + (S)) . (6.8) 

Beweis. Es sei R(S) das gespiegelte Simplex mit den Ecken x 1 und {r j } N j=1. Aus (6.7) 

folgt, dass alle Komponenten von δ(f : S) und δ(f : R) positiv sind. Wegen 

gilt 

V = V (S) = −V (R) 

0 < δ(f : S) T δ(f : R) 

= (V T V −T δ(f : S)) T (V (R) T V (R) −T δ(f : R)) = −D(f : S) T V V T D(f : R). (6.9) 

Wir wenden Lemma 14 auf D(f : S) und D(f : R) an und erhalten 

D(f : S) = ∇f s (x 1 ) + E 1 und D(f : R) = ∇f s (x 1 ) + E 2 , 

wobei wegen κ(V ) = κ(V (R)) ≤ κ + folgende Ungleichung gilt: 

‖E k ‖ ≤ Kκ + (σ + (S) + ‖φ‖ B /σ + (S)) . 

101


Wegen ‖V ‖ ≤ 2σ + (S), folgt aus (6.9) die Ungleichung 

∇f s (x 1 ) T V V T ∇f s (x 1 ) ≤ 4σ + (S) 2 ‖∇f s (x 1 )‖ (‖E 1 ‖ + ‖E 2 ‖) + 4σ + (S) 2 ‖E 1 ‖ ‖E 2 ‖. 

(6.10) 

Aus den Voraussetzungen des Lemmas folgt eine untere Schrankt für die linke Seite von 

(6.10), nämlich 

w T V V T w ≥ µ − σ + (S) 2 ‖w‖ 2 . 

Also gilt 

wobei wir mit (6.10) erhalten 

‖∇f s (x 1 )‖ 2 b‖∇f s (x 1 )‖ + c, 

b = Kκ + (σ + (S) + ‖φ‖ B /σ + (S)) 8µ −1 

− 

und 

c = 4µ −1 

− (Kκ + ) 2 (σ + (S) + ‖φ‖ B /σ + (S)) 2 = µ − b 2 /16. 

Also gilt b 2 − 4c = b 2 (1 − µ − /4), und wir erhalten wie behauptet 

‖∇ 2 f(x 1 )‖ ≤ (b + √ b 2 − 4c)/2 = b(1 + 

√ 

1 − µ − /4)/2 ≤ b. 

6.3. Übungen 

Übung 39 Beweisen Sie Lemma 17. 

102

7. Implizite Filter 

7.1. Beschreibung und Analyse Impliziter Filter 

Der Algorithmis mit implizitem Filter wurde urpsrünglich als eine Implementierung des 

Gradientenprojektionsverfahrens mit Dierenzengradient formuliert, bei der der Dierenzenschritt 

verkleinert wird, während die Iteration voranschreitet. Fast gleichzeitig 

wurde eine andere Formulierung für unrestringierte Probleme mit gewissen Konvexitätseigenschaften 

formuliert ([28]). In diesem Kapitel werden wir unrestringierte Probleme 

betrachten und die Konvergenzresultate herleiten, die die Algorithmen mit implizitem 

Filter mit den Liniensuchverfahren aus Kapitel 8 gemeinsam haben. 

Verwendet man den impliziten Filter, der durch einen approximativen Gradienten 

induziert wird, so hat man die Möglichkeit verbesserter Eigenschaften bei Quasinewtonverfahren 

und kann auch ohne Schwierigkeiten das Verfahren auf Probleme mit Schrankenrestriktionen 

anwenden. Diese Möglichkeiten diskutieren wir in 7.2 und 7.4. 

In seiner einfachsten unrestringierten Form, ist der Algorithmus mit implizitem Filter 

das Verfahren des steilsten Abstiegs mit Dierenzengradienten, wobei die Schrittweite 

variiert während die Iteration voranschreitet. Wiel der Gradient nur approximiert 

wird, ist die berechnete Suchrichtung unter Umständen keine Abstiegsrichtung und die 

Liniensuche kann scheitern. In diesem Fall wird die Schrittweite des nite Dierenzen 

Gradienten verkleinert. 

Für einen gegebenen Punkt x ∈ R N und h > 0 sei S(x, h) das rechte Simplex von x 

mit Kanten der Länge h. 

Die Ecken sind x und x + hv i für i ∈ {1, ..., N} mit V = I. Es gilt also κ(V ) = 1. 

Der Algorithmus mit implizitem Filter durch den zentralen Dierenzengradient ist dem 

entsprechendem Algorithmus mit Vorwärtsdierenzengradient bei weitem überlegen [15], 

[22]. Daher werden wir in unserer Diskussion zentrale Dierenzengradienten verwenden. 

Wir setzen 

∇ h f(x) = D C (f : S(x, )). 

Wir verwenden eine einfache Armijo [1] Liniensuche und verlangen, dass die Bedingung 

des hinreichenden Abstiegs 

f(x − λ∇ h f(x)) − f(x) < −αλ‖∇ h f(x)‖ 2 (7.1) 

mit einem festen Parameter α > 0 erfüllt ist (vergleiche mit (3.2), (3.4)). 

Unser Verfahren des steilesten Abstiegs mit zentralen Dierenzengradienten fdsteep 

bricht ab, falls gilt 

‖∇ h f(x)‖ ≤ τh (7.2) 

103


mit einem Parameter τ > 0 oder falls mehr als pmax Schritte durchgeführt worden sind, 

nach einem stencil failure, oder falls die Liniensuche scheitert, da sie mehr als amax 

Schrittweitenverkleinerungen benötigt. Im Falle eines Scheiterns von fdsteep wird die 

Schrittweite h verkleinert. 

Algorithmus 13 (fdsteep(x, f, pmax, τ, h, amax)) 

For p = 1, ..., pmax 

(a) Berechne f und ∇ h f; brich ab falls (6.7) oder (7.2) gilt. 

(b) Finde die kleinste natürliche Zahl m aus {0, 1, ..., amax} mit der (7.1) für λ = β m 

erfüllt ist. Falls keine solche Zahl m existiert, brich ab. 

(c) x = x − λ∇ h f(x). 

Wegen der Schranken pmax und amax für die Iterationszahl und die Anzahl der Schrittweitenverkleinerungen 

bricht Algorithmus fdsteep nach endlich vielen Iterationen ab. 

Falls die untere Niveaumenge {x : f(x) ≤ f(x 0 )} beschränkt ist, werden die Iterationspunkte 

in dieser Menge bleiben. Der Algorithmus mit implizitem Filter verwendet 

fdsteep mehrmals, wobei die Schrittweite h nach jedem Abbruch von fdsteep verkleinert 

wird. Neben den Parametern für fdsteep braucht man eine Folge von Schrittweiten, die 

man in [15] scales nennt. 

Algorithmus 14 (imlter1(x, f, pmax, τ, {h k }, amax)) 

Für k = 0, 1, ... 

Rufe fdsteep(x, f, pmax, τ, h k , amax). 

Das Konvergenzergebnis folgt aus der Abschätzung zweiter Ordnung (6.5), den Folgen 

eines stencil failure, Satz 30 und den Gleichungen h k = σ + (S k ) und κ(V ) = 1. Ein 

analoges Resultat für Vorwärtsdierenzengradienten erhält man aus (6.3). 

Satz 31 Die Funktion f erfülle (6.1) und ∇f s sei Lipschitzstetig. Es sei {h k } eine 

Nullfolge, {x k } die durch den Algorithmus mit implizitem Filter erzeugte Folge, und 

S k = S(x k , h k ). Wir setzen voraus, dass (7.1) für alle bis auf endlich viele k gilt, (d.h. 

das Liniensuchverfahren bricht nur endlich oft zusammen). Falls gilt 

lim (h k − h −1 

k ‖φ‖ Sk) = 0, (7.3) 

k→∞ 

so ist jeder Häufungspunkt der Folge {x k } ein kritischer Punkt von f s . 

Beweis. Falls entweder (7.1) oder (6.7) für alle bis auf endlich viele k gilt, so folgt 

∇ hk f(x k ) = D C (f : S k ) → 0. 

Mit (7.3) und Lemma 14 folgt die Behauptung ∇f s (x k ) → 0. 

104

7.2. Quasinewtonverfahren mit implizitem Filter 

7.2. Quasinewtonverfahren mit implizitem Filter 

Das Alleinstellungsmerkmal der Verfahren mit implizitem Filter ist die Möglichkeit, bei 

Problemen die um die Minimalpunkte herum hinreichend glatt sind, in der Endphase 

der Iteration schnellere Konvergenz zu erhalten, indem man ein QuasiNewton update 

einer Modellhessematrix verwendet (vgl. [15]). 

Wir beginnen mit einer Quasinewtonform von Algorithmus fdsteep. In diesem Algorithmus 

wird eine Quasinewtonapproximation der Hessematrix beibehalten und die 

Liniensuche basiert auf der Quasinewtonrichtung 

Sie bricht ab falls entweder gilt 

d = −H −1 ∇ h f(x). 

f(x + λd) − f(x) < αλ∇ h f(x) T d (7.4) 

oder falls zu viele Schriitweitenverkleinerungen bei der Liniensuche benötigt werden. 

Falls die Liniensuche scheitert, wird in Algorithmus fdquasi die Approximation H durch 

die Einheitsmatrix ersetzt. 

Algorithmus 15 (fdquasi(x, f, H, pmax, τ, h, amax)) 

For p = 1, ..., pmax 

(a) Berechne f und ∇ h f und die Suchrichtung d = −H −1 ∇ h f; brich ab falls (7.2) 

gilt. 

(b) Finde die kleinste natürliche Zahl m aus {0, 1, ..., amax} mit der (7.4) für λ = β m 

erfüllt ist. 

(c) x = x + λd 

(d) Aktualisiere H mit einer Quasinewtonformel. 

Algorithmus 16 (imlter2(x, f, pmax, τ, {h k }, amax)) 

Für k = 0, 1, ... 

Rufe fdquasi(x, f, H, pmax, τ, h k , amax). 

7.3. Implementierungsbetrachtungen 

Die Algorithmen mit implizitem Filter haben mehrere Verfahrensparameter, so dass 

man bei einer Implementierung einige algorithmische Entscheidungen treen muss. Die 

Parameter pmax, amax und β spielen die gleiche Rolle wie in jedem anderen Liniensuchverfahren. 

Wir schlagen folgende Werte vor: pmax = 200N, amax = 10 und β = 1/2. 

Das Verhalten von Algorithmen mit implizitem Filter kann empndlich von dem Wert 

von τ abhängen, wobei kleine Werte von τ zur Stagnation führen und zu groÿe Werte von 

τ zu einem verfrühten Abbruch von Algorithmus fdquasi. Die Verwendung von stencil 

failures als Abbruchkriterium verkleinert die Sensitivität bei zu kleinen Werten von τ 

und wir schlagen den Wert τ = 0.1 vor. 

105


Die Skalenfolge ist im besten Fall eine Schätzung der Stärke des Rauschens in dem 

Problem. Falls mehrere der Skalen kleiner als das Niveau des Rauschens sind, wird die 

Liniensuche sofort versagen und die Arbeit auf diesen Skalen wird verschwendet sein. 

Dies kann in einer Implementierung dadurch vermieden werden, dass die Optimierung 

abgebrochen wird wenn x auf drei aufeinanderfolgenden Skalen unverändert bleibt. 

Der Simplexgradient ist unter Umständen eine sehr schlechte Approximation des Gradienten. 

Daher begrenzen wir künstlich die Schrittweite auf 10h: 

{ 

−H 

d = 

−1 ∇ h f(x) falls ‖H −1 ∇ h f(x)‖ ≤ 10h, 

−10H −1 ∇ h f(x)/‖H −1 ∇ h f(x)‖ sonst. 

(7.5) 

7.4. Implizite Filter für Probleme mit 

Schrankenrestriktionen 

Algorithmen mit implizitem Filter wurden ursprünglich für Probleme mit Schrankenrestriktionen 

eingeführt ([15]). Wir geben hiere einen projizierten Quasinewtonalgorithmus. 

In der Literatur ndet man noch andere Zugänge zur Implementierung. 

Wir beginnen mit der Skalierung und dem Dierenzengradienten. Zentrale Dierenzengradienten 

funktionieren besser, aber wir werten f nicht ausserhalb der zulässigen 

Menge aus. Falls bei znetralen niten Dierenzen die Auswertung in einem Punkt ausserhalb 

der zulässigen Menge nötig wäre, verwenden wir in dieser Richtung einseitige 

Dierenzen. Um zu gewährleisten, dass misndestens ein Punkt in jeder Richtung zulässig 

ist, skalieren wir die Variablen, so dass gilt L i = 0, U i = 1 und h 0 ≤ 1/2. 

Die Bedingung für den hinreichenden Abstieg ist 

mit 

f(x(λ)) − f(x) ≤ α∇ h f(x) T (x(λ) − x), (7.6) 

x(λ) = P(x − λ∇ h f(x)). 

Als Abbruchkriterium bei ener gegebenen Schrittweite könnte man analog zu (7.2) die 

Ungleichung 

‖x − x(1)‖ ≤ τh (7.7) 

verwenden oder 

f(x c ) < f(x + r j ) (7.8) 

für alle zulässigen x + r j , das Analogon zu (6.7) für Probleme mit Schrankenrestriktionen. 

7.5. Neustart und Minima auf allen Skalen 

Keiner der Algorithmen in diesem Kapitel ndet garantiert einen lokalen Minimalpunkt, 

erst recht keinen globalen Minimalpunkt. Die Robustheit dieser Algorithmen kann verbessert 

werden, wenn man die Iteration nach einem Durchgang durch die Skalen neu 

106

7.5. Neustart und Minima auf allen Skalen 

startet. Ein Punkt x, der nach einem Aufruf von Algorithmus imfilter1 (bzw. imfilter2 

oder die Form für Probleme mit Schrankenrestriktionen) nicht geändert wird heiÿ ein 

Minimum in allen Skalen. 

Falls die Funktion f (6.1) erfüllt, f s einen eindeutig bestimmten kritischen Punkt besitzt, 

der ein lokaler Minimalpunkt ist und die Standardvoraussetzungen erfüllt (dann 

ist er ein globaler Minimalpunkt von f s ) und noch gewisse (starke!) technische Voraussetzungen 

über die Abnahme von φ in der Nähe des Minimalpunktes gelten, dann gibt 

es nahe bei dem globalen Minimalpunkt von f s ein Minimum in allen Skalen ([15]). Im 

unrestringierten Fall folgt diese Aussage aus den Abbruchkriterien ((7.2) und (6.7) für 

implizite Filter, Lemma 15 (oder 18) und, falls zentralen Dierenzen verwendet werden, 

Satz 30. Die Analyse in [15] für den Fall mit Schrankenrestriktionen ist technischer. 

In der Praxis sind Neustarts teuer und meistens unnötig, aber sinnvoll, um einen 

potentiellen Optimalpunkt zu testen, bevor man ihn in der Praxis verwendet. 

107


108

8. Direkte Suchverfahren 

In diesem Kapitel diskutieren wir die Klasse der direkten Suchverfahren. Diese Verfahren 

verwenden Funktionswerte von f aus einer Menge von Auswertungspunkten und verwenden 

diese Information, um daraus neue Auswertungspunkte zu bestimmen. Wir werden 

uns auf zwei Methoden dieser Art konzentrieren: Den NelderMead Simplexalgorithmus 

[23], und das multidirektionale Suchverfahren [27]. Jeden dieser Algorithmen kann man 

mit der Simplexgradiententechnik aus Kapitel 6 analysieren. 

8.1. Der NelderMead Simplexalgorithmus 

Der NelderMead Simplexalgorithmus arbeitet mit einem Simplex S von Approximationen 

eines Optimalpunktes. In diesem Algorithmus werden die Ecken {x j } N j=1 nach den 

entsprechenden Werten der Zielfunktion geordnet: 

f(x 1 ) ≤ f(x 2 ) ≤ ... ≤ f(x N+1 ). (8.1) 

Der Punkt x 1 heiÿt die beste Ecke und der Punkt x N+1 die schlechteste Ecke. Die beste 

Ecke ist nicht immer eindeutig deniert, aber auf das Verhalten des Algorithmus hat 

diese Tatsache wenig Einuÿ. 

In dem Algorithmus versucht man, die schlechteste Ecke x N+1 durch einen neuen 

Punkt der Form 

x(µ) = (1 + µ)¯x − µx N+1 (8.2) 

zu ersetzen, wobei ¯x der Schwerpunkt der konvexen Hülle von {x i } N i=1 ist, 

Der Wert von µ wird aus den Werten 

¯x = (1/N) 

N∑ 

i=1 

−1 < µ ic < 0 < µ oc < µ r < µ e 

x i . (8.3) 

nach Regeln ausgewählt, die wir im Algorithmus nelder beschreiben. 

Unser Algorithmus bricht ab, wenn f(x N+1 ) − f(x 1 ) hinreichend klein ist oder eine 

vorgegebene Anzahl von Funktionsauswertungen ausgeschöpft ist. 

Algorithmus 17 (nelder(S, f, τ, kmax)) 

1. Werte die Funktion f an den Ecken von S aus und ordne diese Ecken, so dass 

(8.1) erfüllt ist. 

109


2. Setze fcount = N + 1. 

3. Solange f(x N+1 − f(x 1 ) > τ 

(a) Berechne ¯x nach (8.3), x(µ r ) nach (8.2) und f r = f(x(µ r )). f count = f count +1. 

(b) Reektiere: Falls f count = kmax brich ab. Falls f(x 1 ) ≤ f r < f(x N ), ersetze 

x N+1 durch x(µ r ) und gehe zu Schritt 3.(g). 

(c) Expandiere: Falls f count = kmax brich ab. Falls f r < f(x 1 ), berechne f e = 

f(x(µ e )). f count = f count + 1. Falls f e < f r , ersetze x N+1 durch x(µ r ). Gehe zu 

Schritt 3.(g). 

(d) Äussere Kontraktion: Falls f count = kmax brich ab. Falls f(x N ) ≤ f r < 

f(x N+1 , berechne f c = f(x(µ loc )). f count = f count + 1. Falls f c ≤ f r , ersetze x N+1 

mit x(µ oc ) und gehe zu Schritt 3.(g); sonst gehe zu Schritt 3.(f) 

(e) Innere Kontraktion: Falls f count = kmax brich ab. Falls f r ≥ f(x N+1 ), 

berechne f c = f(x(µ ic )). f count = f count +1. Falls f c < f(x N+1 ), ersetze x N+1 durch 

x(µ ic ) und gehe zu Schritt 3.(g); sonst gehe zu Schritt 3.(f). 

(f) Verkleinerung: Falls f count ≥ kmax − N brich ab. Für 2 ≤ i ≤ N + 1: Setze 

x i = x 1 − (x i − x 1 )/2; berechne f(x i ). f count = f count + 1. 

(g) Sortiere: Sortiere die Ecken von S, so dass (8.1) gilt. 

Ein typischer Satz von Kandidaten für die Werte von µ ist 

{µ r , µ e , µ oc , µ ic } = {1, 2, 1/2, −1/2}. 

Sogar in kleinen Dimensionen ist es nicht gewährleistet, dass der NelderMead Algorithmus 

konvergiert. Es ist nämlich möglich, dass er in einem Punkt steckenbleibt, der nicht 

optimal ist. Bei vielen Problemen ist aber das Verhalten des NelderMead Verfahrens 

gut. Der Verkleinerungsschritt tritt in der Praxis selten auf. Falls er nicht auftritt, wird 

bei einer NelderMead Iteration der Durchschnittswert 

verkleinert. 

¯f = 1 N+1 ∑ 

f(x j ) 

N + 1 

j=1 

8.2. Multidirektionale Suchverfahren 

Eine Art, die Schwierigkeit möglicher Schlechtkonditioniertheit im NelderMead Verfahren 

zu umgehen, besteht darin, dafür zu sorgen, dass die Konditionszahlen der Simplices 

beschränkt sind. Die multidirektionale Suche (MDS) erreicht dies, indem jeder neue 

Simplex kongruent zu seinem Vorgänger gemacht wird. Die Ergebnisse in diesem Abschnitt 

zeigen, dass multidirektionale Suche ähnliche Eigenschaften wie die Verfahren 

mit implizitem Filter hat. 

110

8.2. Multidirektionale Suchverfahren 

In dem speziellen Fall gleichseitiger Simplices ist V k ein Vielfaches von V 0 und die 

Konditionszahl ist konstant. Wenn die Simplices nicht gleichseitig sind, kann die Konditionszahl 

κ(V ) variieren, je nachedem welche Ecke x 1 genannt wird, aber (6.6) wird auf 

jeden Fall gelten. 

Ausgehend von einem geordneten Simplex S c mit Ecken x 1 , x 2 und x 3 wird zunächst 

ein Reektionsschritt durchgeführt, der zu einem Simplex mit Ecken x 1 , r 2 , r 3 führt. 

Wenn der beste Funktionswert der Ecken von S r besser als der beste Wert f(x 1 ) in 

S c , wird S r vorläug akzeptiert und Expansion wird versucht. Der Expansionsschritt unterscheidet 

sich von dem im NelderMead Algorithmus weil N neue Punkte gebraucht 

werden, um das neue, grössere Simplex dem alten ähnlich zu machen. Der Expansionssimplex 

S e hat die Ecken x 1 , e 2 , e 3 und ersetzt S r falls der beste Funktionswert der 

Ecken von S e besser ist als der beste in S r . Falls der beste Funktionswert auf den Ecken 

von S r nicht besser ist als der beste Wert in S c , wird das Simplex kontrahiert und das 

neue Simplex hat die Ecken x 1 , c 2 , c 3 . Nachdem das neue Simplex identiziert worden 

ist, werden die Ecken wieder geordnet, um das neue geordnete Simplex S + zu erzeugen. 

Ähnlich wie beim NelderMead Algorithmus gibt es Expansions und Kontraktionsparameter 

µ e und µ c . Typische Werte sind 2 und 1/2. 

Algorithmus 18 (mds(S, f, τ, kmax)) 

1. Berechne die Funktionswerte von f and den Ecken von S und ordne die Ecken von 

S, so dass (8.1) gilt. 

2. Solange f(x N+1 − f(x 1 ) > τ 

(a) Reektiere: Falls fcount = kmax, brich ab. 

Für j = 2, ..., N + 1: r j = x 1 − (x j − x 1 ); Berechne f(r j ); fcount = fcount + 1. 

Falls f(x 1 ) > min j {f(r j )} gehe zu Schritt 3b sonst gehe zu Schritt 3c. 

(b) Expandiere: 

i. Für j = 2, ..., N +1: e j = x 1 −µ e (x j −x 1 ); Berechne f(e j ); fcount = fcount+1. 

ii. Falls min j {f(r j )} > min j {f(e j )} , dann für j = 2, ..., N + 1: x j = e j 

sonst 

für j = 2, ..., N + 1: x j = r j 

iii. Gehe zu Schritt 3d 

(c) Kontrahiere 

Für j = 2, ..., N + 1: x j = x 1 + µ c (x j − x 1 ), berechne f(x j ) 

(d) Sortiere: Sortiere die Ecken von S, so dass (8.1) gilt. 

Wenn die Funktionswerte an den Ecken von S c bekannt sind, so kostet die Berechnung 

von S + 2N zusätzliche Auswertungen. Wie im NelderMead Algorithmus ist der 

Expansionsschritt optional, aber es hat sich gezeigt dass er zu einer Verbesserung führt. 

111


112

Literaturverzeichnis 

[1] L. Armijo. Minimization of functions having lipschitzcontinuous rst partial derivatives. 

Pacic J. Math, 16:13, 1966. 

[2] D.P. Bertsekas. Projected newton methods for optimization problems with simple 

constraints. SIAM J. Control Optim., 20:221246, 1982. 

[3] D.M. Bortz and C.T. Kelley. The simplex gradient and noisy optimization problems. 

In Computational Methods in Optimal Design and Control eds.: J.T. Borggaard, J. 

Burns, E. Cli and S. Schreck, pages 7790. Birkhaeuser, Boston, 1998. 

[4] C.G. Broyden. A class of methods for solving nonlinear simultaneous equations. 

Math. Comp., 19:577593, 1965. 

[5] C.G. Broyden. A new doublerank minimization algorithm. AMS Notices, 16:670, 

1969. 

[6] R. H. Byrd and J. Nocedal. A tool for the analysis of quasinewton methods with 

application to unconstrained minimization. SIAM J. Numer. Analysis, 26:727739, 

1989. 

[7] A. Cauchy. Methode generale pour la resolution des systemes d'equations simultanees. 

Comp. Rend. Acad. Sci., pages 536538, 1847. 

[8] A. Cauchy. Conjugate gradient methods less dependent on conjugacy. SIAM Review, 

28:501512, 1986. 

[9] A. R. Conn, N. I. M. Gould, and P. L. Toint. TrustRegion Methods. SIAM, 

Philadelphia, 2000. 

[10] J.E. Dennis and J.J. More. Quasinewton methods, methods, motivation and theory. 

SIAM Review, 19:4689, 1977. 

[11] P. Deuhard, R.W. Freund, and A. Walter. Fast secant methods for the iterative 

solution of large nonsymmetric linear systems. Impact of Computing in Science and 

Engineering, 2:244276, 1990. 

[12] J.C. Dunn. On the convergence of projected gradient processes to singular critical 

points. J. Optim. Th. Appl., 55:203215, 1987. 

[13] J.C. Dunn and E.W. Sachs. The eect of perturbations on the convergence rates 

of optimization algorithms. Applied Maqth. and Optimization, 10:143147, 1983. 

113

Literaturverzeichnis 

[14] R. Fletcher. A new approach to variable metric methods. Comp. J., 13:317322, 

1970. 

[15] P. Gilmore and C.T. Kelley. An implicit ltering algorithm for optimization of 

functions with many local minima. SIAM J. Optim., 5:269258, 1995. 

[16] R. Glowinski. Numerical Methods for Nonlinear Variational Problems. Springer 

Verlag, New York, 1984. 

[17] D. Goldfarb. A family of variable metric methods derived by variational means. 

Math. Comp., 24:2326, 1970. 

[18] W. Hackbusch. MultiGrid Methods and Applications. SpringerVerlag, New York, 

1985. 

[19] W.W. Hager. Rates of convergence for discrete approximations to unconstrained 

optimal control problems. SIAM J. Numer. Analysis, 13:449472, 1976. 

[20] M. Heinkenschloss, M. Ulbrich, and S. Ulbrich. Superlinear and quadratic convergence 

of ane scaling interiorpoint newton methods for problems with simple 

bounds and without strict complementarity assumption. Mathematical Programming, 

86:615635, 1999. 

[21] R. Bulirsch J. Stoer. Numerische Mathematik. Springer, 2000. 

[22] D.Q. Mayne and E. Polak. Nondierential optimization via adaptive smoothing. J. 

Optim. Theory Appl., 43:601613, 1984. 

[23] J.A. Nelder and R. Mead. A simplex method for function minimization. Comput. 

J., 7:308313, 1965. 

[24] D.F. Shanno. Conditioning of quasinewton methods for function minimization. 

Math. Comp., 24:647657, 1970. 

[25] P. Spellucci. Numerische Verfahren der nichtlinearen Optimierung. Birkhaeuser, 

Basel, 1993. 

[26] T. Tian and J.C. Dunn. On the gradient projection method for optimal control 

problems with nonnegative l2 inputs. SIAM J. Control Optim, 32:516537, 1994. 

[27] V. Torczon. On the convergence of the multidimensional direct search. SIAM J. 

Optim, 1:123145, 1991. 

[28] S. K. Zavriev. On the global optimization properties of nitedierence local descent 

algorithms. J. Global Optimization, 3:6778, 1993. 

114

kann man das Vorlesungsskript als pdf-file herunterladen.

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?