Kapitel 9 Quadratische Optimierung

Kapitel 9 

Quadratische Optimierung 

Ein Grundprinzip bei der numerischen Lösung von nichtlinearen Problemen ist, das Ausgangsproblem 

durch eine Folge von leichter zu handhabenden Problemen zu ersetzen. In 

der freien Optimierung waren dies quadratische Optimierungsprobleme, die relativ einfach 

zu lösen waren (Lineares Gleichungssystem). In der nichtlinearen Optimierung mit Nebenbedingungen 

spielen quadratische Optimierungsprobleme eine ähnliche Rolle, sind aber 

(durch die Ungleichungsrestriktionen) nicht mehr so einfach zu lösen. Wir betrachten das 

folgende quadratische Optimierungsproblem 

(QP ) 

min 

x∈R n q(x) 

a T i x = b i , i ∈ I 1 

a T i x ≤ b i , i ∈ I 2 

mit q(x) := 1 2 xT Gx + d T x, G symmetrische n × n Matrix, d ∈ R n , a i ∈ R n , b i ∈ R, 

i ∈ I 1 ∪ I 2 . Falls zulässige Punkte existieren, erreicht man stets (eventuell durch Streichen 

überflüssiger Gleichungen), dass die Vektoren a i , i ∈ I 1 linear unabhängig sind. 

9.1 Gleichungsrestriktionen 

Es sei I 1 = {1, 2, . . . , m}, I 2 = ∅. Dann wird (QP) zu 

(QP ′ ) 

min q(x) 

x∈R n 

A T x = b 

mit A = (a 1 , . . . , a m ), b = (b 1 , . . . , b m ) T , Rg(A) = m. Wir analysieren zuerst den Zulässigkeitsbereich 

und verwenden die gewonnenen Resultate dann, um ein freies quadratisches 

Optimierungsproblem zu erhalten. 

77

9.1.1 Lösung linearer Gleichungen 

Wir betrachten ein Gleichungssystem 

A T x = b 

wobei A eine n × m Matrix sei, m ≤ n, Rg(A) = m, b ∈ R m , x ∈ R n . 

Aus der linearen Algebra ist bekannt, dass sich jede Lösung eines linearen Gleichungssystems 

durch eine spezielle Lösung und eine Lösung des zugehörigen homogenen Systems 

darstellen lässt. 

1. Lösung des homogenen Systems: Da nach Voraussetzung Rg(A) = m, ist die Lösungsmenge 

N(A T ) := {x ∈ R n | A T x = 0} 

des homogenen Gleichungssystems (Nullraum von A T ) ein n − m dimensionaler 

Teilraum ⇒ es gibt n − m linear unabhängige Vektoren z i ∈ R n mit A T z i = 0, 

i = 1, . . . , n − m (Basis für N(A T )). Für die n × (n − m) Matrix Z := (z 1 , . . . , z n−m ) 

gilt dann 

Rg(Z) = n − m, A T Z = 0, (A T x = 0 ⇐⇒ ∨ 

p∈R n−m x = Zp) 

2. Spezielle Lösung des inhomogenen Systems: Aus Rg(A) = m folgt wiederum, dass 

eine (im allgemeinen nicht eindeutig bestimmte) n × m Matrix S mit A T S = I 

(Rechtsinverse) existiert (z.B. die sogenannte Pseudoinverse S = A(A T A) −1 ). Dann 

ist x 0 := Sb eine Lösung von Ax = b 

3. Allgemeine Lösung des inhomogenen Systems: Sei x ∈ R n , Z und S wie oben bestimmt. 

Dann gilt 

Ax = b ⇐⇒ 

∨ 

x = Sb + Zp 

p∈R n−m 

Da die n×n Matrix (S . Z) regulär ist (Sb+Zp = 0 ⇒ A T (Sb+Zp) = b = 0 ⇒ p = 0) 

ist der Vektor p eindeutig bestimmt. 

Wir diskutieren nun 2 Möglichkeiten, um die Matrizen S und Z tatsächlich auszurechnen: 

1. Direkte Elimination: Da RgA = m existieren m linear unabhängige Spalten 

von A T . O.B.d.A. seien die ersten m Spalten von A T linear unabhängig, d.h. A T = 

(A T 1 . A T 2 ), wobei A T 1 die von den ersten m Spalten von A T gebildete reguläre m × m 

Matrix, A T 2 die durch die ( restlichen ) Spalten gebildete m ×(n −m) Matrix ist. Analog 

x1 

partitionieren wir x = mit x 

x 1 ∈ R m , x 2 ∈ R n−m . Dann gilt A T x = b 

2 

⇐⇒ A T 1 x 1 + A T 2 x 2 = b ⇐⇒ 

78 

( 

x1 

) 

= 

x 2 

( 

A 

−T 

1 b − A −T 

1 A 2 p 

p 

)

Für die direkte Elimination gilt also 

⎛ ⎞ ⎛ 

S = ⎝ A−T 1 

· · · ⎠ , Z = ⎝ −A−T 1 A T 2 

· · · 

0 

I n−m 

⎞ 

⎠ 

2. Orthogonale Faktorisierung: Wir bilden eine Zerlegung von A der Form A = QR, 

wobei Q eine orthogonale n×n Matrix, d.h. Q T Q = I, und R eine n×(n−m) rechte 

obere Dreiecksmatrix ist (z.B. Householderzerlegung). Wir partitionieren Q bzw. R 

in 

Q = 

( m n − m ⎛ 

Q 1 . Q 2 

), R = ⎝ R 1 

wobei R 1 eine reguläre m × m rechte obere Dreiecksmatrix ist. Da Q orthogonal, ist 

Q T 1 Q 1 = I m , Q T 1 Q 2 = 0, Q T 2 Q 1 = 0 und Q T 2 Q 2 = I n−m . Damit folgt 

⎛ ⎞ 

⎛ 

A T Q 2 = R T Q T Q 2 = (R1 

T . 0) ⎝ QT 1 

· · · ⎠ Q 2 = (R T 

Q T 1 . 0) ⎝ 0 

⎞ 

· · · ⎠ = 0 

⎛ ⎞2 

⎛I n−m 

A T Q 1 R1 −T = (R1 

T . 0) ⎝ QT 1 

· · · ⎠ Q 1 R −T 

Q T 1 = (R1 

T . 0) ⎝ I ⎞ 

m 

· · · ⎠ R1 

−T 

2 

0 

= R1 T R1 −T = I m 

Für die orthogonale Faktorisierung gilt also S = Q 1 R −T 

1 , Z = Q 2 . Einige weitere 

Eigenschaften der orthogonalen Faktorisierung: 

(a) S T Z = R1 −1 Q T 1 Q 2 = 0 

(b) Sei x = Sb + Zp die allgemeine Lösung des Gleichungssystems Ax = b. Dann 

gilt 

‖x‖ 2 = ‖Sb‖ 2 + 2 (Sb) T Zp 

} {{ } 

b T S T Zp=0 

+ ‖Zp‖ 2 

} {{ } 

p T Q T 2 Q 

} {{ } 2 

I n−m 

p 

· · · 

0 

⎞ 

⎠ 

= ‖Sb‖ 2 + ‖p‖ 2 

d.h. Sb ist unter allen Lösungen des Gleichungssystems Ax = b diejenige mit 

der kleinsten Norm (bestapproximierende Lösung). Weiters folgt 

A(A T A) −1 = QR(R T Q T Q R) 

} {{ } 

= QR(R1 T R 1 ) −1 

= 

I 

⎛ 

n 

(Q 1 . Q 2 ) ⎝ R ⎞ 

1 

· · · ⎠ R1 −1 R1 −T = Q 1 R1 −T = S 

0 

(d.h. S ist die Pseudoinverse von A T ) 

79

9.1.2 Lösung von (QP’) mit der verallgemeinerten Eliminationsmethode 

Es seien nun S,Z wie im letzten Abschnitt beschrieben, x 0 eine spezielle Lösung von A T x = 

b. Da 

A T x = b ⇐⇒ x = x 0 + Zp, p ∈ R n−m 

folgt 

∧ 

x∈R n 

Ax=b 

q(x) = q(x 0 + Zp) =: ψ 0 (p) 

Wir zeigen nun, daß das freie Optimierungsproblem, die Funktion ψ 0 (p) bezüglich p ∈ R n−m 

zu minimieren, äquivalent mit (QP ′ ) ist. Nach der Kettenregel folgt 

∇ p ψ 0 (p) = Z T ∇ x q(x) = Z T g(x) (reduzierter Gradient), 

∇ 2 pψ 0 (p) = Z T (∇ 2 xq(x))Z = Z T GZ (reduzierte Hessematrix). 

Lemma 9.1 1. ¯x = x 0 + Z ¯p ist genau dann ein stationärer Punkt für (QP ′ ), wenn ¯p 

stationärer Punkt von ψ 0 ist (d.h. ∇ p ψ 0 (¯p) = 0). 

2. ¯x ist genau dann lokales Minimum für (QP ′ ), wenn es auch globales Minimum ist. ¯p 

ist genau dann lokales Minimum von ψ 0 , wenn es auch globales Minimum ist. 

3. ¯x = x 0 + Z ¯p ist genau dann lokales Minimum von (QP ′ ), wenn ¯p lokales Minimum 

von ψ 0 ist. 

Bestimmung von ¯p: Notwendige Bedingung ∇ p ψ 0 (¯p) = Z T g = 0 ⇒ 

Z T (d + G¯x) = Z T (d + G(x 0 + Zp)) = Z T (d + Gx 0 ) + Z T GZ ¯p = 0 ⇒ 

Bestimmung der Lagrangemultiplikatoren ¯λ 

Z T GZ ¯p = −Z T g 0 

A¯λ = −g ⇒ ¯λ = S T A¯λ = −S T g 

Numerische Realisierung im Falle der orthogonalen Faktorisierung: 

Zur Berechnung von 

x 0 = Sb 

¯p 

ist durchzuführen 

x 0 = Q 1 y, wobei y durch Lösen von R1 T y = b gefunden 

wird 

Bestimmen von Z T GZ und Z T g 0 mit Z = Q 2 , Lösen 

des Gleichungssystems 

Z T GZ ¯p = −Z T g 0 

¯x 

¯λ 

durch LDL T –Zerlegung, dabei kann gleichzeitig festgestellt 

werden, ob Z T GZ positiv (semi) definit ist. 

¯x = x 0 + Z ¯p 

Lösen von R 1¯λ = −Q 

T 

1 g 

80

9.1.3 Lösen von (QP’) mit der Lagrange-Methode 

Die Lösung von (QP ′ ) läßt sich durch Lösen der Kuhn–Tuckerbedingungen 1. Ordnung 

direkt bestimmen: L(x, λ) = 1 2 xT Gx + d T x + λ T (A T x − b) ⇒ 

Kuhn-Tuckerbedingungen 1.Ordnung: G¯x + d + A¯λ = 0 

also ( ) ( ) 

G A 

A T = 

0 

¯x¯λ 

( ) 

−d 

b 

A T ¯x − b = 0 

Lemma 9.2 Sei Z eine Matrix, deren Spalten eine Basis für N(A T ) bilden. Dann gilt: 

( ) 

( 

) 

G A 

A T regulär ⇔ Rg(A) = m ∧ Z T GZ regulär 

0 

Bei Regularität ist die Inverse gegeben durch 

( ) −1 ( ) 

G A H U 

A T =: 

0 U T T 

mit 

Damit gilt 

H = Z(Z T GZ) −1 Z T 

U = S − Z(Z T GZ) −1 Z T GS 

T = S T GZ(Z T GZ) −1 Z T GS − S T GS 

¯x = −Hd + Ub 

¯λ = −U T d + T b 

Etwas einfacher wird die Darstellung, wenn ein zulässiger Punkt x 0 , z.B. x 0 = Sb bekannt 

ist. Dann gilt ( ) ( ) ( ) 

G A ¯x − x 

0 −g 

0 

A T = 

0 ¯λ 0 

also 

¯x = x 0 − Hg 0 , ¯λ = −U T g 0 

9.2 Aktive–Indexmengen–Strategie zur Lösung 

von (QP) 

Für eine beliebige Indexmenge A ⊂ I 1 ∪ I 2 definieren wir uns ein quadratisches Optimierungsproblem 

QP (A) mit Gleichungsrestriktionen 

QP (A) 

min q(x) 

81 

a T i x = b i , i ∈ A

Die Idee der aktiven Indexmengenstrategie besteht nun darin, die Lösung von (QP ) mittels 

der Lösung von QP (Ã) mit geeignet gewählter Indexmenge Ã zu bestimmen. 

Satz 9.3 In (QP) seien (a i ) i∈I1 linear unabhängig. Ist ¯x ein stationärer Punkt für (QP), 

dann gibt es eine Indexmenge Ã soadss 

1. I 1 ⊂ Ã ⊂ A(¯x) und (a i) i∈ Ã 

∨ ∧ 

2. λ i = 0, 

λ∈¯Λ i∈I 2 \Ã 

linear unabhängig. 

und somit ist ¯x auch stationärer Punkt für QP (Ã). Ist ¯x lokales Minimum für (QP), so 

gibt es auch eine solche Indexmenge Ã, sodass ¯x auch lokales Minimum von QP (Ã) ist. 

9.2.1 Positiv definite quadratische Optimierung 

Voraussetzung: G sei positiv definit. 

Folgerungen: Die Zielfunktion q ist strikt konvex, jeder stationäre Punkt von (QP ) 

bzw. von QP (A) für beliebiges A ist damit auch globales Minimum für das betreffende 

Problem. Falls der Zulässigkeitsbereich nicht leer ist, besitzen (QP ) und QP (A) eine 

eindeutig bestimmte Lösungen. 

Sei ¯x eine Lösung von (QP). Wir konstruieren schrittweise nun eine Indexmenge Ã 

gemäss Satz 9.3, sodass ¯x auch globale Lösung von QP (Ã). ist 

Wir betrachten den k–ten Iterationsschritt. Sei x k zulässig für (QP) und A k eine Indexmenge 

mit I 1 ⊂ A k ⊂ A(x k ), sodaß die Vektoren (a i ) i∈A k linear unabhängig sind. Wir 

unterscheiden 2 Fälle 

1. x k ist keine Lösung von QP (A k ): Wir konstruieren eine Richtung s k durch 

s k := Z k p k mit Z kT GZ k p k = −Z kT g k 

(Zur Bezeichnung: Die Matrizen S und Z für Problem QP (A k ) werden mit S k und 

Z k bezeichnet). Da G positiv definit, ist auch Z kT GZ k positiv definit und x k + αs k 

mit α = 1 ist Lösung von QP (A k ). Wir werden nun eine Schrittweite α k ≥ 0 so 

bestimmen, daß wir in der Zielfunktion einen möglichst großen Abstieg erhalten und 

der Punkt x k + α k s k zulässig für (QP) ist. Aus der Zulässigkeitsforderung folgt 

∧ 

i∉A k a T i x k + α k a T i s k ≤ b i ⇒ 

∧ 

i∉A k 

a T i sk >0 

α k ≤ b i − a T i x k 

a T i sk 

d.h. 

α k ≤ α k := min{ b i − a T i x k 

a T i sk | a T i s k > 0, i ∈ I 2 \ A k } 

82

Aus der Abstiegsforderung ergibt sich für die obige spezielle Wahl von s k die Forderung 

α k ≤ 1, wir werden also α k := min{α k , 1} setzen. Der Punkt x k+1 := x k + α k s k 

ist dann zulässig für (QP ), als neue aktive Indexmenge werden wir 

{ A 

k 

falls α k = 1, sonst 

A k+1 := 

A k ∪ {j} 

für ein j ∉ A k mit a T j s k > 0 und α k = b j−a T j xk 

a T j sk 

setzen. Es bleibt allerdings noch zu zeigen, dass die Vektoren (a i ) i∈A k+1 wiederum 

linear unabhängig sind. Annahme: Die Vektoren (a i ) i∈A k+1 sind linear abhängig ⇒ 

∨ ∑ 

A k+1 = A k ∪ {j} ∧ 

λ i a i = 0 ⇒ 

i∈A k+1 

λ∈R Ak+1 

λ j ≠0 

0 = ∑ 

λ i a T i s k = λ j a T j s k 

}{{} }{{} 

i∈A k+1 ≠0 >0 

+ ∑ λ i a T i s k ≠ 0 

}{{} 

i∈A k =0 

und dies ist offensichtlich ein Widerspruch. 

Bemerkung: Falls A k ≠ A(x k ) ist unter Umständen möglich, daß α k = 0 ist. In 

diesem Fall ist x k+1 = x k , es ändert sich aber die Indexmenge: A k+1 ≠ A k 

2. x k ist Lösung von QP (A k ): Seien λ k ∈ R Ak die zu x k gehörenden Lagrangemultiplikatoren 

für Problem QP (A k ). Gilt λ k i ≥ 0 für alle i ∈ A k ∩I 2 , ist x k = ¯x und wir sind 

fertig. Andernfalls gibt es jedoch einen Index l ∈ I 2 ∩ A k mit λ k l < 0. Dann ist jedoch 

x k keine Lösung von QP (A k \ {l}) mehr, da auf Grund der linearen Unabhängigkeit 

der Vektoren a i , i ∈ A k die notwendigen Bedingungen 1.Ordnung nicht mehr erfüllbar 

sind. Wir beachten nun noch die folgende Beziehung: Ist s ∈ R n eine beliebige 

Richtung mit a T i s = 0 für alle i ∈ A k \ {l}, dann gilt 

g kT s = − ∑ i∈A k λ k i a T i s = −λ k l a T l s (9.1) 

Setzen wir nun A k := A k \{l}, so sind wir wieder in der Situation von Fall 1. In diesem 

Fall gilt jedoch zwangsläufig dann A k ≠ A(x k ) (l ∈ A(x k ) \ A k !), d.h. α k = 0 wäre 

prinzipiell möglich. Wir zeigen nun, dass dann auf jeden Fall l ∉ A k+1 gilt (Ansonsten 

könnte man immer zwischen den beiden Fällen hin und herspringen, einmal in Fall 

2. den Index l aus der Indexmenge entfernen und im nächsten Schritt unter Fall 1 

wieder dazunehmen). Sei dazu s k die Abstiegsrichtung die wir unter 1. konstruieren. 

Wegen λ k l < 0 folgt aus (9.1), daß a T l sk < 0, d.h. l ist nicht unter den möglichen 

Indizes, die wir bei der Bildung von A k+1 in Betracht ziehen. 

Die Analyse dieser beiden Fälle ist in Algorithmus 9.1 zusammengefaßt. 

Satz 9.4 1. Für die durch Algorithmus 9.1 erzeugten Indexmengen gilt I 1 ⊂ A k ⊂ 

A(x k ) und (a i ) i∈A k linear unabhängig und die erzeugte Folge von Funktionswerten 

(q(x k )) k∈N ist monoton fallend. Weiters gilt α k ≠ 0 ⇔ q(x k+1 ) < q(x k ). 

83

Algorithmus 9.1 (Alg. für (QP) mit positiv definiter Hessematrix G) 

Input: (QP) mit positiv definiter Hessematrix G und linear unabhängigen Gleichungsrestriktionen, 

zulässiger Punkt x 0 , Indexmenge A 0 mit I 1 ⊂ A 0 ⊂ A(x 0 ) und (a i ) i∈A 0 linear 

unabhängig. 

Output: globales Minimum ¯x für (QP) 

{ k := 0, loop = true; 

while loop do 

{ while x k nicht Lösung von QP (A k ) do 

{ Bestimme p k durch Lösen des Gleichungssystems Z kT GZ k p k = −Z kT g k ; 

} 

} 

s k := Z k p k , α k := min{ b i−a T i xk 

| a T a T i sk i s k > 0}; 

α k := min{α k , 1}, x k+1 := x k + α k s k ; 

if α k = 1 then 

A k+1 := A k ; 

else 

{ Bestimme j ∈ I 2 \ A k mit a T j s k > 0 und b j−a T j xk 

= α k ; 

a T j sk 

A k+1 := A k ∪ {j}; 

} 

k := k + 1; 

} 

λ k := −S kT g k ; 

if λ k i ≥ 0, ∀i ∈ A k ∩ I 2 then 

¯x := x k , loop = false; 

else 

Bestimme l ∈ A k ∩ I 2 mit λ k l < 0, A k := A k \ {l}; 

2. Sind in jedem Iterationsschritt die Vektoren (a i ) i∈A(x k ) (Gradienten der aktiven Restriktionen) 

linear unabhängig, liefert Algorithmus 9.1 nach endlich vielen Iterationsschritten 

die exakte Lösung ¯x. 

In der Situation, dass die Gradienten der aktiven Restriktionen linear abhängig sind, spricht 

man von Entartung. Ist x k Lösung von QP (A k ) und ist x k entartet, so entfernen wir 

zunächst einen Index l k von A k und bestimmen dann eine Suchrichtung s k für das resultierende 

Problem. Für s k kann aber die resultierende Schrittweite α k gleich 0 sein, d.h. es kann 

auf Grund der Entartung einen Index j ∈ I 2 \ A k geben, für den a T j s k > 0 und a T j x k = b j 

gilt. Ist dies der Fall, so ist x k = x k+1 , es ändert sich nur die Indexmenge: A k ≠ A k+1 . 

Um auch in dieser Situation Endlichkeit von Algorithmus 9.1 zu garantieren, muss man 

garantieren, dass keine ”Zyklen” auftreten (d.h. es ist unendlich oft hintereinander α k = 0, 

es ändert sich jeweils nur die Indexmenge A k und nach einer gewissen Anzahl von Iterationen 

erreicht man wieder eine Indexmenge, die schon in einem früherene Iterationsschritt 

84

etrachtet wurde). Das Vermeiden von Zyklen kann durch spezielle Auswahlregeln für die 

Indizes, die zur Indexmenge A k hinzugefügt bzw. von ihr entfernt werden, erreicht werden. 

Eine einfache Strategie, die solche Zyklen im Falle von Entartung vermeidet, lautet 

folgendermaßen: 

1. Ist x k Lösung von QP (A k ), so wähle den Index l k , der die Indexmenge A k verlässt, 

gemäß 

l k := min{l ∈ I 2 ∩ A k | λ k l < 0} 

2. Ist x k nicht Lösung von QP (A k ), so wähle den Index j k , um den die Indexmenge A k 

erweitert wird, als 

j k := min{j ∈ I 2 \ A k | a T j s k > 0 ∧ b j − a T j x k 

a T j sk = α k } 

Der Nachweis, dass bei Verwendung dieser Auswahlregel keine Zyklen auftreten können, 

ist relativ kompliziert. 

9.2.2 Allgemeine quadratische Optimierung 

Falls x k nicht Lösung von QP (A k ) war, wurde in Algorithmus 9.1 die Suchrichtung s k = 

Z k p k so gewählt, daß x k +s k globale Lösung von QP (A k ) ist. Im allgemeinen Fall kann nicht 

mehr garantiert werden, dass QP (A k ) eine globale Lösung besitzt (insbesonders ist dies 

der Fall, wenn Z kT GZ k indefinit ist), damit ist die Suchrichtung s k nicht mehr definiert. 

Wir wollen nun Algorithmus 9.1 geeignet modifizieren: 

1. Bestimmung einer geeigneten Suchrichtung, falls x k nicht Lösung von QP (A k ) ist: 

(a) Z kT GZ k ist positiv semidefinit und das Gleichungssystem 

Z kT GZ k p = −Z kT g k (9.2) 

besitzt eine Lösung: Wir wählen s k = Z k p k mit p k Lösung von (9.2). Dann 

ist x k + s k Lösung von QP (A k ), wir sind dann wieder in der Situation von 

Algorithmus 9.1. 

(b) Z kT GZ k ist positiv semidefinit und das Gleichungssystem (9.2) besitzt keine 

Lösung: Wir wählen s k = Z k p k mit p kT Z kT g k = s kT g k < 0 und p kT Z kT GZ k p k = 

s kT Gs k = 0. 

(c) Z kT GZ k ist nicht positiv semidef.: Wir wählen s k = Z k p k mit p kT Z kT g k = 

s kT g k ≤ 0 und p kT Z kT GZ k p k = s kT Gs k < 0 (Richtung negativer Krümmung). 

85

2. Bestimmung einer geigneten Schrittweite α k : Prinzipiell wollen wir α k ≥ 0 so bestimmen, 

dass der Zielfunktionswert entlang der Suchrichtung möglichst weit fällt und 

der Punkt x k + α k s k für (QP) zulässig bleibt. 

Haben wir die Suchrichtung s k gemäß (a) bestimmt, verläuft die Bestimmung von 

α k so wie in Algorithmus 9.1 beschrieben. Bestimmen wir die Suchrichtung jedoch 

gemäß (b) oder (c), ist die Beschränkung α k ≤ 1 nicht sinnvoll, da 

q(x k + αs k ) = q(x k ) + α g kT s 

} {{ } 

k + α2 

2 skT } {{ Gs} 

k −→ −∞ 

≤0 

≤0 

für α −→ ∞ 

(einer der beiden nichtpositiven Terme ist negativ). Gilt in diesem Fall daher a T i s k ≤ 

0, i ∈ I 2 \ A k , besitzt (QP) keine globale Lösung (stationäre Punkte und lokale 

Lösungen können aber existieren), wir werden den Algorithmus daher mit einer Fehlermeldung 

abbrechen lassen. Gibt es jedoch einen Index i ∈ I 2 \ A k mit a T i s k > 0, 

so werden wir α k = α k setzen. 

Mit diesen Modifikationen gelten wieder die Aussagen von Satz 9.4, allerdings mit der 

Einschränkung, dass der Algorithmus (wenn er nicht vorher mit einer Fehlermeldung über 

die Unlösbarkeit abbricht) nur eine Lösung x k von QP (A k ) mit λ k i ≥ 0, i ∈ A k ∩ I 2 

berechnet. Setzt man λ k i = 0 für i ∉ A k , dann erfüllen zwar x k , λ k := (λ k i ) i∈I1 ∪I 2 

die Kuhn– 

Tucker–Bedingungen 1. Ordnung für (QP), es sind aber nur die notwendigen Bedingungen 

2.Ordnung für QP (A k ) erfüllt: 

s T Gs ≥ 0 für alle s mit a T i s = 0, i ∈ A k 

Daraus folgt im allgemeinen aber noch nicht, daß x k lokales Minimum für (QP) ist. 

Gilt jedoch λ k i > 0 für alle i ∈ A k ∩ I 2 , dann ist x k auch lokales Minimum für (QP), 

denn: 

s ∈ C(x k ) =⇒ 0 ≥ g kT s = − ∑ λ k i a T i s − 

∑ 

λ k i a T i s ≥ 0 

}{{} }{{} }{{} 

i∈I 1 =0 i∈A k ∩I 2 >0 ≤0 

=⇒ ∧ 

a T i s = 0 =⇒ s T Gs ≥ 0 

i∈A k 

d.h. die notwendigen Bedingungen 2.Ordnung sind für (QP) erfüllt. Für quadratische Probleme 

sind die notwendigen Bedingungen für ein lokales Minimum auch hinreichend. 

Bei der numerischen Durchführung nutzt man vorteilhaft aus, dass sich die Indexmenge 

A k jeweils nur in einem Schritt ändert. Die für die einzelnen Berechnungsschritte erforderlichen 

Matrizen S k , Z k bzw. eine Choleskyzerlegung von Z kT GZ k muss nicht immer neu 

berechnet werden, sondern können ohne großen Rechenzeitaufwand aus den Vorgängermatrizen 

mittels ”Update-Formeln” bestimmt werden. Im indefiniten bzw. positiv semidefiniten 

Fall trachtet man dabei danach, den Startpunkt x 0 so zu wählen, daß die Matrix 

Z 0T GZ 0 positiv definit ist. Dies ist z.B der Fall, wenn |A 0 | = n gilt, da dann die reduzierte 

86

Hessematrix die Dimension 0 besitzt. Es kann dann leicht gezeigt werden, dass für alle in 

den nachfolgenden Schritten auftretenden reduzierten Hessematrizen eine LDL T -Zerlegung 

existiert, wobei höchstens ein Element von D (und zwar immer das letzte) nicht positiv 

ist. In dieser Konstellation ist die LDL T -Zerlegung numerisch stabil (obwohl sie für nicht 

positiv definite Matrizen im allgemeinen numerisch instabil ist). 

Für den Spezialfall, dass G = 0 ist, also ein lineares Optimierungsproblem vorliegt, 

und für den Startpunkt |A 0 | = n gilt, ist Algorithmus 9.1 äquivalent mit dem sogenannten 

Simplexverfahren der linearen Optimierung. Man kann sich dann leicht überlegen, dass 

für alle nachfolgenden Iterationspunkte |A k | = n gilt. 

9.3 Lösung von (QP) mit Inneren–Punkt–Methoden 

9.3.1 Der zentrale Pfad 

Lemma 9.5 In (QP) sei G positiv semidefinit und es existiere ein x 0 mit 

a T i x 0 { = bi , i ∈ I 1 



Besitzt (QP) eine nichtleere und beschränkte Lösungsmenge, so ist für alle µ > 0 das 

Optimierungsproblem 

QP (µ) 

min 

x∈R n q(x) − µ ∑ i∈I 2 

ln(b i − a T i x) 

a T i x = b i , i ∈ I 1 

a T i x 

konvex und besitzt eine eindeutige Lösung x(µ). Weiters ist q(x(µ)) ≤ ¯q + µ|I 2 |, wobei ¯q 

den optimalen Zielfunktionswert von (QP) bezeichnet. 

Notwendig und hinreichend für die Lösung von QP (µ) ist natürlich, dass die Kuhn-Tucker- 

Bedingungen 1.Ordnung erfüllt sind, d.h. 

Gx + d − µ ∑ i∈I 2 

−a i 

b i − a T i x + ∑ i∈I 1 

λ i a i = 0 

a T i x = b i , i ∈ I 1 

a T i x 

Sind die Vektoren a i , i ∈ I 1 linear unabhängig, so sind die Multiplkatoren λ i , i ∈ I 1 

eindeutig bestimmt. Setzen wir noch λ i = µ/(b i − a T i x) für i ∈ I 2 , so folgt der folgende 

Satz: 

87

Satz 9.6 In (QP) sei G positiv semidefinit, die Vektoren a i , i ∈ I 1 seien linear unabhängig, 

es existiere ein x 0 mit a T i x 0 = b i , i ∈ I 1 und a T i x 0 

von (QP) sei nicht leer und beschränkt. Dann gibt es für alle µ > 0 genau eine Lösung 

(x, λ) ∈ R n × R I 1∪I 2 

des Systems 

Gx + d + 

∑ λ i a i = 0 

i∈I 1 ∪I 2 

a T i x = b⎫ 

i , 

a T i x 

i ∈ I 1 

(9.3) 

λ i > 0, 

λ i (b i − a T ⎭ i ∈ I 2, 

i x) = µ 

die im folgenden mit (x(µ), λ(µ)) bezeichnet wird, wobei x(µ) die eindeutige Lösung von 

QP (µ) ist. Die Kurve µ → (x(µ), λ(µ)) wird auch als zentraler Pfad bezeichnet. 

9.3.2 Ein Prädiktor-Korrektor Algorithmus 

Ignorieren wir kurzfristig die strikten Ungleichungen λ i > 0 bzw. a T i x 

sich bei System 9.3 um ein von einem positiven Parameter µ abhängendes nichtlineares 

Gleichungssystem. 

Zur Lösung von nichtlinearen Gleichungssystemen der Form F (x) = 0, F : R n → R n 

kann das Newtonverfahren herangezogen werden: Ausgehend von einem Iterationspunkt x k 

wird eine Korrektur δx k := −DF (x k ) −1 F (x k ) mit F (x k + δx k ) ≈ F (x k ) + DF (x k )δx k = 0 

gesucht, der neue Iterationspunkt x k+1 ergibt sich dann als x k+1 = x k + δx k (Newtonverfahren). 

Dieses Newtonverfahren besitzt lokal superlineare Konvergenzeigenschaften: 

Ist F stetig differenzierbar und ist ¯x eine Nullstelle von F , in der die Jacobimatrix 

DF (¯x) regulär ist, so existiert eine Umgebung U ∈ U(¯x), sodass für alle Startpunkte x 0 ∈ U 

das Newtonverfahren superlinear gegn ¯x konvergiert. 

Die Konvergenzeigenschaften können durch die Verwendung einer Schrittweite α k ∈ 

(0, 1] und der Iterationsvorschrift x k+1 = x k + α k δx k (”gedämpftes Newtonverfahren”) 

noch verbessert werden. 

In unserer Situation nehmen wir nun an, dass wir für µ > 0 eine Näherung (x, λ) für 

(x(µ), λ(µ)) kennen, die folgende Eigenschaften erfüllt: 

λ i > 0, a T i x − b i < 0, i ∈ I 2 ; a T i x = b i , i ∈ I 1 ; Gx + d + ∑ 

λ i a i = 0. 

i∈I 1 ∪I 2 

Wir suchen nun eine bessere Näherung der Form (x+δx, λ+δλ) für den Punkt (x(µ), λ(µ)) 

auf dem zentralen Pfad (x(µ), λ(µ)). Das Newtonverfahren ergibt als Vorschrift 

Gδx + ∑ 

i∈I 1 ∪I 2 

δλ i a i = 0 

a T i δx = 0 

−λ i a T i δx + (b i − a T i x)δλ i = µ − λ i (b i − a T i x), i ∈ I 2 

88

und die Lösung dieses Systems bezeichnen wir mit (δx c , δλ c ) (Newtonkorrektor. Jetzt sind 

wir aber gar nicht so sehr an (x(µ), λ(µ)) interessiert, sondern vielmehr an der Situation 

µ = 0, denn (x(0), λ(0)) ergibt eine Lösung von (QP). Linearisierung ergibt für µ = 0 

Gδx + ∑ 

i∈I 1 ∪I 2 

δλ i a i = 0 

a T i δx = 0 

−λ i a T i δx + (b i − a T i x)δλ i = −λ i (b i − a T i x), i ∈ I 2 

und die Lösung dieses Systems bezeichnen wir mit (δx p , δλ p ). Für einen neuen Wert µ(θ) = 

(1 − θ)µ verwenden wir als Näherung (x(θ), λ(θ)) := (x + θδx p , λ + θδλ p ) für den zentralen 

Pfad (Prädiktor). 

Auf Grund der relativ einfachen Struktur der vorkommenden Systeme kann die Konvergenz 

des Newtonverfahrens sehr genau analysiert werden. Wir definieren für α > 0 die 

folgende Umgebung V α des zentralen Pfads 

V α = 

{ 

(x, λ, µ) ∈ R n × R I 1∪I 2 

× R | 

µ > 0; λ i > 0, b i − a T i x > 0, i ∈ I 2 

a T i x = b i , i ∈ I 1 ; Gx + d + ∑ } 

i∈I 1 ∪I 2 

λ i a i = 0 

∑i∈I 2 

( λ i(b i −a T i x) − 1) 2 ≤ α 2 µ 

Dann weiß man z.B., falls (x, λ, µ) ∈ V α mit α ∈ (0, 1 2 ], dass (x + δxc , λ + δλ c , µ) ∈ V α/ 

√ 

8 

. 

Algorithmus 9.2 (Prädiktor–Korrektorverfahren) 

Input: (QP), µ ∞ > 0, α ∈ (0, 1], 2 (x0 , λ 0 , µ 0 ) ∈ V α 

{ k := 0; 

while µ k > µ ∞ do 

{ (x, λ, µ) := (x k , λ k , µ k ); 

Bestimme (δx c , δλ c ); 

(x, λ) := (x + δx c , λ + δλ c ); 

Bestimme (δx p , δλ p ); 

(x(θ), λ(θ), µ(θ)) := (x + θδx p , λ + θδλ p , (1 − θ)µ) 

Berechne größtes θ p ∈ (0, 1] mit (x(θ, λ(θ), µ(θ)) ∈ V α , ∀θ ∈ [0, θ p ]; 

(x k+1 , λ k+1 , µ k+1 ) := (x(θ p ), λ(θ p ), µ(θ p )), k := k + 1; 

} 

} 

Satz 9.7 Sind für (QP) die Voraussetzungen von Satz 9.6 erfüllt, so stoppt Algorithmus 

9.2 nach höchstens √ 2|I 2 |/α ln(µ 0 /µ ∞ ) Iterationen. Existiert weiters eine strikt komplementäre 

Lösung (¯x, ¯λ) (d.h. ¯λ i > 0 ∨ b i − a T i ¯x > 0, i ∈ I 2 ) und ist µ ∞ = 0, so konvergiert 

die Folge µ k quadratisch gegen 0. 

Für Details und weitere Varianten sei auf die umfangreiche Literatur zu Inneren–Punkt– 

Methoden verwiesen. Insbesonders ergeben sich für lineare Optimierungsprobleme oft bedeutende 

Vereinfachungen (z.B. existiert immer eine strikt komplementäre Lösung). 

Innere–Punkt–Methoden gelten vor allem für große, dünnbesetzte quadratische Probleme 

der aktiven Indexmengenstrategie als überlegen. 

89

Kapitel 10 

Allgemeine Optimierungsprobleme 

10.1 Das Newtonverfahren 

10.1.1 Gleichungsrestriktionen 

Zur Motivation betrachten wir ein Problem, bei dem nur Gleichungsrestriktionen vorkommen 

(I 1 := {1, . . . , m}, I 2 = ∅, c : R n → R m , a i (x) := ∇c i (x)) 

(P1 ′ ) min f(x) 

c(x) = 0 

Für ¯x ∈ R n sei Rg(Ā) = m, wobei Ā = (a i (¯x)) i=1,...,m . Aus Satz 8.5 und Satz 8.14 

folgt, dass ¯x genau dann ein stationärer Punkt für (P1 ′ ) ist, wenn Lagrangemultiplikatoren 

¯λ ∈ R m existieren, sodass die Kuhn–Tuckerbedingungen 1.Ordnung erfüllt sind. Die 

Kuhn–Tuckerbedingungen 1.Ordnung lassen sich aber als nichtlineares Gleichungssystem 

F (x, λ) = 0 formulieren, wobei 

F : R n+m −→ R n+m 

(x, λ) −→ F (x, λ) := 

( ) 

∇x L(x, λ) 

c(x) 

Zur Lösung dieses nichtlinearen Gleichungssystems kann das Newtonverfahren herangezogen 

werden. Dazu sei W k := ∇ 2 xL(x k , λ k ), ¯W := ∇ 

2 

x L(¯x, ¯λ), A k := (a i (x k ) i=1,...,m , usw. ¯Z 

bzw. Z k bezeichnen n×(n−m) Matrizen, deren Spalten eine Basis für N(ĀT ) bzw. N(A kT ) 

bilden. Für die lokale Konvergenz des Newtonverfahrens benötigen wir die Voraussetzung, 

dass DF (¯x, ¯λ) regulär ist: Es gilt 

⎛ 

⎞ 

¯W 

DF (¯x, ¯λ) 

. Ā 

= ⎝ · · · · · · ⎠ 

Ā T . 0 

Nach Lemma 9.2 ist DF (¯x, ¯λ) genau dann regulär, wenn Rg(Ā) = m und ¯Z T ¯W ¯Z regulär 

ist. Analog ergibt sich, dass DF (x k , λ k ) genau dann regulär ist, wenn Rg(A k ) = m und 

Z kT W k Z k regulär ist. 

90

Als nächstes untersuchen wir die Newtonkorrektur. Wegen ∇ x L(x k , λ k ) = g k + A k λ k 

folgt 

( ) 

x 

F (x k , λ k ) + DF (x k , λ k ) 

k+1 − x k 

λ k+1 − λ k = 0 

⇐⇒ 

⎛ 

⎝ ∇ xL(x k , λ k ) 

· · · 

c k 

⎞ ⎛ 

⎠ + ⎝ W ⎞ ⎛ ⎞ 

k . A k 

· · · · · · ⎠ ⎝ xk+1 − x k 

· · · ⎠ = 

A kT . 0 λ k+1 − λ k 

⇐⇒ gk + A k λ k + W k (x k+1 − x k ) + A k (λ k+1 − λ k ) = 0 

c k + A kT (x k+1 − x k ) = 0 

⇐⇒ W k s k + g k +A k λ k+1 = 0 

A kT s k + c k = 0 

⎛ 

⎝ 0 

· · · 

0 

⎞ 

⎠ 

(10.1) 

wobei s k := x k+1 − x k . (10.1) kann nun als Kuhn–Tuckerbedingungen 1.Ordnung für ein 

quadratisches Optimierungsproblem interpretiert werden: s k ist stationärer Punkt mit zugehörigem 

Lagrangemultiplikator λ k+1 für 

(P1 ′k ) min 

1 

2 sT W k s + g kT s 

A kT s + c k = 0 

An Stelle der Newtoniteration könnten wir also einen stationären Punkt s k von (P1 ′k ) bestimmen 

und x k+1 = x k + s k setzen, λ k+1 ergibt sich als zugehöriger Lagrangemultiplikator 

zu s k . Wir betrachten nun (P1 ′k ). Wir sehen, dass wir die Restriktionen einfach durch Linearisierung 

der nichtlinearen Restriktionen erhalten haben. Auf den ersten Blick ist jedoch 

etwas überraschend, dass die Zielfunktion nicht die quadratische Taylorentwicklung von f 

ist, sondern dass die Hessematrix ∇ 2 xf(x k ) durch die Hessematrix der Lagrangefunktion 

∇ 2 xL(x k , λ k ) ersetzt wird. 

Nun sind wir aber nicht so sehr an stationären Punkten interessiert, sondern vielmehr 

an einem Minimum (z.B. ist für (P1 ′ ) ein lokales Maximum ebenfalls ein stationärer 

Punkt). Ist ¯x ein lokales Minimum von (P1 ′ ) mit Rg(Ā) = m, so folgt aus den notwendigen 

Bedingungen 2.Ordnung 

∧ 

∧ 

s T ¯W s ≥ 0 ⇔ 

s∈R n 

Ā T s=0 

p∈R n−m p T ¯ZT ¯W ¯Zp ≥ 0 ⇔ ¯ZT ¯W ¯Z ist positiv semidefinit 

Für die Durchführung des Newtonverfahrens ist andererseits erforderlich, dass ¯Z T ¯W ¯Z regulär 

ist, d.h. für die Anwendung des Newtonverfahrens muss ¯Z T ¯W ¯Z positiv definit sein 

(hinreichende Kuhn–Tuckerbedingungen 2.Ordnung). Für Iterationspunkte (x k , λ k ) hinreichend 

nahe bei (¯x, ¯λ) ist dann auch Z kT W k Z k positiv definit ist ⇒ s k ist Minimum von 

(P1 ′k ). Ist umgekehrt Z kT W k Z k nicht positiv definit, können wir nicht erwarten, dass das 

Newtonverfahren zu einem lokalen Minimum von (P1 ′ ) konvergiert. 

91

10.1.2 Gleichungs– und Ungleichungsrestriktionen 

Die Verallgemeinerung der Überlegungen des vorangehenden Abschnitts ist naheliegend: 

Seien x k , λ k Näherungen für ¯x, ¯λ. Wir bestimmen eine Lösung s k des Problems 

(P1 k ) min 

1 

2 sT W k s + g kT s 

a k i 

T 

s + c 

k 

i = 0, i ∈ I 1 

a k i 

T 

s + c 

k 

i ≤ 0, i ∈ I 2 

und erhalten neue Näherungen x k+1 = x k + s k , λ k+1 als Lagrangemultiplikator zu s k . Dies 

ist das sogenannte Wilson-Verfahren (1963) 

Satz 10.1 Sei f, c ∈ C 3 und ¯x ein lokales Minimum für (P1), in dem die Gradienten der 

aktiven Restriktionen linear unabhängig und die hinreichenden Kuhn-Tucker-Bedingungen 

2.Ordnung erfüllt sind, ¯λ sei der zu ¯x gehörende eindeutige Lagrangemultiplikator. Dann 

gibt es eine Umgebung U ⊂ R n × R I 1∪I 2 

von (¯x, ¯λ), eine Umgebung S ⊂ R n von 0 und eine 

Zahl β > 0, sodass für alle (x k , λ k ) ∈ U gilt: 

1. Das Problem (P1 k ) besitzt mindestens ein lokales Minimum s k ∈ S. 

2. Für jeden stationären Punkt s k ∈ S für (P1 k ) mit zugehörigem Lagrangemultiplikator 

λ k+1 gilt (x k+1 , λ k+1 ) ∈ U (x k+1 := x k + s k ) und 

max{‖x k+1 − ¯x‖, ‖λ k+1 − ¯λ‖} ≤ β‖x k − ¯x‖ max{‖x k − ¯x‖, ‖λ k − ¯λ‖} 

≤ β max{‖x k − ¯x‖, ‖λ k − ¯λ‖} 2 

Satz 10.1 ergibt die lokale quadratische Konvergenz des Wilsonverfahrens, vorausgesetzt 

wir kennen einen Startpunkt (x 0 , λ 0 ) hinreichend nahe bei (¯x, ¯λ) und wir finden die ”richtigen” 

Lösungen (in S) für Problem (P1 k ). Problem (P1 k ) ist normalerweise ein indefinites 

quadratisches Problem und muss keine eindeutige Lösung besitzen, weiters können auch 

Lösungen existieren, die nicht in S liegen. Eine weitere Einschränkung ist, dass nicht nur 

ein Startpunkt x 0 hinreichend nahe bei ¯x bekannt sein muss, sondern auch Lagrangemultiplikatoren 

λ 0 hinreichend nahe bei ¯λ. Diese beiden Schwierigkeiten können allerdings 

zumindest theoretisch relativ leicht umgangen werden. 

Entscheidende Nachteile des Wilsonverfahrens liegen jedoch im 

1. Fehlen von globalen Konvergenzeigenschaften 

2. hohen numerischen Aufwand bei der Bestimmung der Hessematrix der Lagrangefunktion 

In der Praxis wird das Wilson–Verfahren nur mehr für sehr spezielle Probleme verwendet. 

Für allgemeine Probleme ist ein Quasi–Newtonverfahren vorzuziehen, das beide Nachteile 

vermeiden. Bevor wir jedoch zu den Quasi–Newtonverfahren kommen, benötigen wir noch 

andere Methoden. 

92

10.2 Allgemeine Strafmethoden 

Den Strafmethoden (penalty methods) ist gemeinsam, dass Verletzungen in den Nebenbedingungen 

durch einen Zusatzterm zum Zielfunktional bestraft werden. Dadurch sind nur 

mehr freie Optimierungsprobleme zu lösen. 

10.2.1 Straf– und Barrieremethoden 

Wir betrachten für (P1) die Straffunktion 

Φ(x, σ) := f(x) + 1 2 σ ( ∑ 

i∈I 1 

c i (x) 2 + ∑ i∈I 2 

(c + i (x))2 ) 

mit σ > 0. Wir erwarten, dass, wenn wir Φ(x, σ) für großes σ bezüglich x minimieren, das 

Minimum x(σ) in der Nähe einen Minimums für (P1) liegt. Der genaue Sachverhalt wird 

in folgendem Satz präzisiert: 

Satz 10.2 1. Sei f, c i ∈ C 1 , (σ k ) k∈N ↑ ∞, (x k ) k∈N eine Folge von stationären Punkten 

für Φ(x, σ k ) mit lim sup Φ(x k , σ k ) < ∞, 

{ 

λ k σ 

:= 

k c k i für i ∈ I 1 

σ k (c k i ) + für i ∈ I 2 

Dann gilt für jeden Häufungspunkt ¯x der Folge (x k ), wobei (x k j 

) eine gegen ¯x konvergente 

Teilfolge ist: 

(a) ¯x ist zulässig für (P1) und Λ 0 (¯x) ≠ ∅ (d.h. die notwendigen Bedingungen für 

das Vorliegen eines stationären Punktes sind erfüllt). Besitzt die Teilfolge (λ k j 

) 

einen Häufungspunkt ¯λ, so ist ¯λ ∈ Λ(¯x) ≠ ∅ (d.h. ¯x ist stationärer Punkt) 

(b) Ist in ¯x eine der 3 Bedingungen aus Satz 8.5 erfüllt, so ist ¯x stationärer Punkt. 

(c) Ist in ¯x die Mangasarian–Fromovitzbedingung erfüllt, so ist die Teilfolge (λ k j 

) 

beschränkt. 

(d) Sind in ¯x die Mangasarian–Fromovitzbedingung und die starken hinreichenden 

Kuhn-Tucker-Bedingungen 2. Ordnung erfüllt, so gilt 

d((x k j 

, λ k j 

), {¯x} × Λ(¯x)) = O( 1 

σ k j ) 

∑i∈I 1 

|c i (x k j 

| + ∑ i∈I 2 

c + i (xk j 

) = O( 1 

σ k j ) 

2. Sei ¯x ein striktes lokales Minimum für (P1). Dann gibt es für jede Umgebung U von 

¯x ein σ U , sodass für alle σ > σ U die Funktion Φ(x, σ) ein lokales Minimum in U 

besitzt. 

93

Die praktische Durchführung der Strafmethode erfolgt folgendermaßen: Man gibt sich 

eine Folge von Strafparametern (σ k ) ↑ ∞ vor und ermittelt sich jeweils mit einem geeigneten 

Verfahren (z.B Quasi–Newtonverfahren) einen stationären Punkt x k der Funktion 

Φ(x, σ k ). Als Startpunkt nimmt man dabei zweckmäßigerweise den vorangegangenen Punkt 

x k−1 her. Theoretisch muss man überprüfen, dass lim sup Φ(x k , σ k ) < ∞. Ist ein für (P1) 

zulässiger Punkt y bekannt, so kann dies durch Φ(x k , σ k ) ≤ Φ(y, σ k ) = f(y) geschehen. 

(Ist diese Forderung verletzt, wird mit dem Startpunkt y die Funktion Φ(x, σ k ) neu minimiert). 

Ist kein zulässiger Punkt bekannt, kann man z.B. den Abstieg in der Verletzung 

der Nebenbedingungen prüfen. Ein sinnvolles Kriterium wäre z.B 

Φ(x k , σ k ) − f k ≤ µ(Φ(x k−1 , σ k−1 ) − f k−1 ) 

mit 0 < µ < inf{ σk | k ≥ 1}. Das Verfahren wird abgebrochen, wenn die Nebenbedingungen 

hinreichend genau erfüllt sind. 

σ k−1 

Die Funktion Φ(x, σ) ist nicht zweimal stetig differenzierbar für Punkte mit c i (x) = 0 

für ein i ∈ I 2 . Dies ist bei einem Quasi–Newtonverfahren nicht so problematisch, viel 

schwerwiegender ist der Umstand, dass für großes σ die Hessematrix schlecht konditioniert 

ist, d.h. es wird immer schwieriger, die Funktion Φ(x, σ k ) zu minimeren. 

Den Umstand, dass Φ ∉ C 2 , kann man durch sogenannten Barriere–Methoden vermeiden. 

Allerdings muss ein Startpunkt x 0 bekannt sein, der die Ungleichungsrestriktionen strikt 

erfüllt: c i (x 0 ) < 0, i ∈ I 2 . Bei den Barrieremethoden wird nun am Rand des durch die 

Ungleichungen beschriebenen Zulässigkeitsbereichs eine Barriere errichtet, d.h. man fügt 

zum Zielfunktional einen Strafterm hinzu, der unendlich wird, wenn man sich dem Rand 

des Bereichs nähert. Ein Beispiel für Barrierefunktionen (nur für Ungleichungen): 

Φ(x, σ) := f(x) − 1 ∑ 

ln(−c i (x)) 

σ 

i∈I 2 

Dies ist die Barrierefunktion, die wir bereits bei der quadratischen Optimierung bei den 

Inneren–Punkt–Methoden kennengelernt haben. 

10.2.2 Exakte Straffunktionen 

Ein Nachteil bei den Straffunktionen war, dass der Strafparameter σ gegen ∞ gehen muss, 

um Problem (P1) zu lösen (schlechte Kondition). Bei exakten Straffunktionen wird dieser 

Nachteil vermieden, d.h. für hinreichend großes, aber endliches σ ist ein stationärer Punkt 

(Minimum) von (P1) auch stationärer Punkt (Minimum) der Straffunktion. Ein Beispiel 

für eine solche Straffunktion ist 

Φ(x, σ) = f(x) + ( ∑ i∈I 1 

σ i |c i (x)| + ∑ i∈I 2 

σ i c + i (x)), σ ∈ RI 1∪I 2 

Satz 10.3 

1. Sei ¯x zulässig für (P1). Dann gilt 

Λ(¯x) ≠ ∅ ⇐⇒ ∨¯σ≥0 

∧ 

¯x ist stationärer Punkt von Φ(x, σ) 

σ≥¯σ 

94

2. Sei ¯x ∈ Ω ein lokales Minimum von Φ(x, σ) für ein σ > 0. Dann ist ¯x ein lokales 

Minimum für (P1). 

3. Sei ¯x ∈ Ω ein striktes lokales Minimum, in dem Λ(¯x) ≠ ∅ und die hinreichenden 

Bedingungen 2. Ordnung aus Satz 8.19 erfüllt sind. Dann gibt es ein ¯σ ≥ 0, sodass 

¯x ein striktes lokales Minimum von Φ(x, ¯σ) ist. 

Bemerkung: Die Aussage 1. ist für ¯σ i := |λ i | mit λ ∈ Λ(¯x) richtig. 

Wir sehen, dass bei Regularitätsvoraussetzungen an die Nebenbedingungen der Parameter 

σ nicht gegen ∞ gehen muss, allerdings auf Kosten der Differenzierbarkeit der 

Straffunktion. Zur Minimierung von Φ(x, σ) kann nicht so ohne weiteres eines der bekannten 

Verfahren der nichtlinearen freien Optimierung herangezogen werden, allerdings werden 

wir diese Straffunktion später zur Liniensuche verwenden. 

10.2.3 Multiplikator–Methode 

(Engl.: augmented Lagrangian method, multiplier penalty method) Bei der Multiplikator– 

Methode wird ebenfalls eine in einem gewissen Sinne exakte Straffunktion verwendet: 

Φ(x, λ, σ) : = f(x) + 1 ∑ 

σ i (c i (x) + λ i 

) 2 + 1 ∑ 

2 

σ i 2 

i∈I 

⎧ 

1 

1 

⎪⎨ σ 2 ic i (x) 2 für i ∈ I 1 

1 

= L(x, λ) + 2 

⎪⎩ 

σ ic i (x) 2 für i ∈ I 2 und c i (x) ≥ − λ i 

σ i 

−λ i c i (x) − 1 λ 2 i 

2 σ i 

für i ∈ I 2 und c i (x) < − λ i 

σ i 

i∈I 2 

σ i ((c i (x) + λ i 

σ i 

) + ) 2 − 1 2 

∑ λ 2 i 

σ i 

i∈I 1 ∪I 2 

wobei λ ∈ S := {λ ∈ R I 1∪I 2 

| λ i ≥ 0, i ∈ I 2 }, σ ∈ R I 1∪I 2 

+ . Die Funktion Φ ist nun stetig 

differenzierbar bezüglich x und zweimal stetig differenzierbar mit Ausnahme von Punkten 

x mit c i (x) = − λ i 

σ i 

für ein i ∈ I 2 . Es gilt der folgende Satz: 

Satz 10.4 

1. Sei ¯x zulässig für (P1). Dann gilt 

Λ(¯x) ≠ ∅ =⇒ ∧ 

¯x ist stationärer Punkt von Φ(x, ¯λ, σ) 

¯λ∈Λ(¯x) 

σ>0 

2. Sei ¯x ein striktes lokales Minimum für (P1). Dann gibt es für jede beschränkte Menge 

Λ und für jede Umgebung U von ¯x ein ¯σ > 0, sodass für alle λ ∈ Λ ∩ S und alle 

σ > ¯σ die Funktion Φ(x, λ, σ) ein lokales Minimum in U besitzt. 

3. Sei ¯x ein lokales Minimum von (P1), in dem die Mangasarian–Fromovitzbedingung 

und die starken hinreichenden Kuhn-Tucker-Bedingungen 2.Ordnung erfüllt sind. 

Dann gibt es eine (beschränkte) Umgebung U von ¯x, sodass für die Funktion 

ψ : S × R I 1∪I 2 

+ → R, ψ(λ, σ) := min{Φ(x, λ, σ) | x ∈ cl U} (globales Minimum) 

95

und für jede beschränkte Menge Λ ⊂ S mit Λ(¯x) ⊂ Λ gilt: 

∨ ∧ ∧ 

ψ(λ, σ) < ψ(¯λ, σ) = f(¯x) 

¯σ>0 

λ∈Λ\Λ(¯x) 

σ≥¯σ 

¯λ∈Λ(¯x) 

(d.h. für alle ¯λ ∈ Λ(¯x) ist ¯λ globales Maximum der Funktion ψ über Λ ∩ S). Weiters 

ist für alle ¯λ ∈ Λ(¯x) und alle σ ≥ ¯σ ¯x ein striktes globales Minimum der Funktion 

Φ(x, ¯λ, σ) in U. 

Die Grundidee bei der numerischen Durchführung der Multiplikator–Methode beruht 

nun darauf, die Funktion ψ(λ) zu maximieren. Grundlage für einen solchen Algorithmus 

ist der folgende Satz: 

Satz 10.5 Sei ¯x ein lokales Minimum von (P1), in dem die Gradienten der aktiven Restriktionen 

linear unabhängig und die hinreichenden Kuhn-Tucker-Bedingungen 2. Ordnung 

erfüllt sind. Dann gibt es eine Umgebung U von ¯x, eine Konstante β > 0 und für jeden 

Startpunkt λ 0 ∈ S ein ¯σ > 0, sodass für alle σ ≥ ¯σ die Iterationsvorschrift 

x k ∈ U ist stationärer Punkt von Φ(x, λ k , σ) 

λ k+1 

i := 

{ 

λ 

k 

i + σc i (x k ) für i ∈ I 1 

(λ k i + σc i (x k )) + für i ∈ I 2 

wohldefiniert ist, lim x k = ¯x, lim λ k = ¯λ und 

max{‖x k − ¯x‖, ‖λ k+1 − ¯λ‖} ≤ β σ ‖λk − ¯λ‖ 

Bemerkung: Ist in ¯x sogar die strikte Komplentarität erfüllt, so kann man für λ hinreichend 

nahe bei ¯λ und σ hinreichend groß nachweisen, dass Φ(x, λ, σ) in einer Umgebung 

U von ¯x strikt konvex ist. Der in Satz 10.5 gesuchte stationäre Punkt x k ∈ U ist dann 

eindeutig bestimmt. Weiters ergibt sich, dass die Funktion ψ(λ, σ) stetig differenzierbar 

bezüglich λ ist, es gilt 

∂ψ 

∂λ i 

(λ k , σ) = 

{ 

ci (x k ) für i ∈ I 1 

max{c i (x k ), − λk i 

σ i 

} für i ∈ I 2 

Die Iterationsvorschrift bezüglich λ in Satz 10.5 lautet dann 

λ k+1 

i = λ k i + diag(σ)∇ λ ψ(λ k , σ) 

und kann als ”Aufstiegsverfahren” zur Maximierung von ψ interpretiert werden. 

Obwohl mittels der Multiplikatormethode relativ leistungsfähige Algorithmen zur Lösung 

von (P1) entwickelt werden können, wollen wir hier nicht näher ins Detail gehen. 

96

10.3 Quasi–Newtonverfahren 

Die hier vorgestellten Quasi–Newtonverfahren werden auch als ”SQP–Verfahren” (Sequential-Quadratic-Programming) 

bezeichnet. Wir wollen das Wilson–Verfahren so modifizieren, 

dass sowohl globale als auch lokal superlineare Konvergenzeigenschaften vorliegen, 

andererseits der numerische Aufwand möglichst gering ist. Zum Erreichen von globalen 

Konvergenzeigenschaften ist erforderlich, dass wir in jedem Iterationsschritt das quadratische 

Teilproblem lösen können. Dazu ist einmal mindestens erforderlich, dass der Zulässigkeitsbereich 

nicht leer ist, zum anderen sollte die Matrix in der Zielfunktion positiv definit 

sein. In einem Iterationpunkt (x k , λ k ) ersetzen wir daher das Problem (P1) durch das 

Problem 

min 

(s,δ)∈R n ×R 

1 

2 sT B k s + g kT s + ρ k ( 1 2 δ2 + δ) 

(1 − δ)c k i + a k T 

i s = 0, i ∈ I1 

(1 − δ)c k i + a k T 

i s ≤ 0, i ∈ I 

k+ 

2 (10.2) 

c k i + a k T 

i s ≤ 0, i ∈ I 

k0 

2 

0 ≤ δ ≤ 1 

wobei I k+ 

2 := {i ∈ I 2 | c k i ≥ 0}, I k0 := I 2 \ I k+ 

2 , ρ k > 0 und B k positiv definit ist. Da 

s = 0, δ = 1 zulässig, B k positiv definit und ρ k > 0 ist, besitzt 10.2 eine eindeutige Lösung 

(s k , δ k ), die wir mit Algorithmus 9.1 ohne Probleme bestimmen können. Einen zugehörigen 

Lagrangemultiplikator bezeichnen wir mit µ k ∈ R I 1∪I 2 

, η k ∈ R. 

Lemma 10.6 1. Sind die Gradienten der Gleichungsrestriktionen (a k i ) i∈I1 linear unabhängig 

und gibt es eine Richtung ¯s mit 

a k i 

{ 

T = 0, i ∈ I1 

¯s 

< 0, i ∈ I 2 , c k i ≥ 0 

so gibt es eine Konstante ¯ρ k , sodass δ k < 1 für alle ρ k > ¯ρ k gilt 

2. Besitzt das Problem 10.2 einen zulässigen Punkt (s, 0), so gibt es eine Konstante ¯ρ k , 

sodass δ k = 0 für alle ρ k > ¯ρ k gilt. 

Bemerkung: Es ist nicht unbedingt erstrebenswert, dass δ k = 0 gilt. Erstens einmal würde 

ein zu großes ρ k eine schlechte Kondition bewirken, zweitens bedeutet ein großes ρ k , 

dass die Nebenbedingungen Regularitätsvoraussetzungen verletzen und die Lagrangemultiplikatoren 

µ k groß werden. Dagegen ist wichtig, dass δ k < 1 gilt, d.h. dass entlang 

der Suchrichtung zumindest lokal die Verletzung der Nebenbedingungen reduziert wird, 

falls der betrachtete Punkt x k nicht zulässig ist. 

Ein weiterer wichtiger Punkt zur Globalisierung ist die Durchführung einer Liniensuche. 

Dazu benötigen wir eine geeignete Liniensuchfunktion. Eine Möglichkeit ist die Verwendung 

97

einer exakten Straffunktion 

φ k (α) := f(x k + αs k ) + ∑ i∈I 1 

σ k i |c i (x k + αs k )| + ∑ i∈I 2 

σ k i c + i (xk + αs k ) 

Zur Durchführung der Liniensuche ist zu beachten, dass die Straffunktion nicht differenzierbar 

ist. In 1. Näherung gilt für diese Straffunktion 

φ k (α) = f k + αg kT s k + ∑ i∈I 1 

σ k i |c k i + αa k i 

T 

s k | + ∑ i∈I 2 

σ k i (c k i + αa k i 

T 

s k ) + + O(α‖s k ‖) 

=: ˆφk (α) + O(α‖s k ‖) 

Weiters gilt 

B k s k + g k + ∑ 

i∈I 1 ∪I 2 

µ k i a k i = 0 

∧ 

∧ 

µ k i (β i c k i + a k T 

i s k ) = 0 =⇒ 

i∈I 1 ∪I 2 

g kT s k = −s kT B k s k + ∑ 

i∈I 1 ∪I 2 

µ k i β i c k i 

≤ −s kT B k s k + ∑ i∈I 1 

β i |µ k i | |c k i | + ∑ i∈I 2 

µ k i β i (c k i ) + 

wobei 

{ 

1 − δ 

k 

für i ∈ I 

β i := 

1 ∪ I2 

k+ 

1 für i ∈ I2 

k0 

Durch mehrere Fallunterscheidungen überlegt man sich, dass 

Damit ist 

r k : = ˆφ k (1) − ˆφ k (0) 

|c k i + a k i 

T 

s k | − |c k i | = −β i |c k i | 

(c k i + a k T 

i s k ) + − (c k i ) + ≤ −β i (c k i ) + 

= g kT s k + ∑ i ∈ I 1 

σ k i (|c k i + a k i 

T 

s k | − |c k i |) + ∑ i∈I 2 

σ k i (max{c k i + a k i 

T 

s k , 0} − max{c k i , 0}) 

≤ −s kT B k s k − ∑ i∈I 1 

β i (σ k i − |µ k i |)|c k i | − ∑ i∈I 2 

β i (σ k i − |µ k i |) max{c k i , 0} 

≤ −s kT B k s k < 0 

vorausgesetzt, dass x k kein stationärer Punkt ist, der die Kuhn–Tuckerbedingungen 1.Ordnung 

erfüllt (dann wäre s k = 0) und σ k ≥ |µ k | und δ k < 1 (ist δ k < 1 nicht möglich, sind 

die in x k verletzten Nebenbdingungen degeneriert.) 

98

Die Funktion ˆφ k (α) ist konvex bezüglich α, da die Hintereinanderausführung und die 

Summe von konvexen Funktionen wieder konvex ist. Daher ist 

∧ 

ˆφ k (α) ≤ (1 − α) ˆφ k (0) + α ˆφ k (1) = ˆφ k (0) + αr k < ˆφ k (0) = φ k (0) 

0 0 so bestimmen, dass der tatsächliche Abstieg in der Liniensuchfunktion 

von der gleichen Größenordnung wie der zu erwartende Abstieg ist, andererseits aber 

α k nicht zu klein ist. Für den zu erwartenden Abstieg könnte man entweder die Funktion 

ˆφ k (α)− ˆφ k (0) oder aber die etwas gröbere Abschätzung αr k heranziehen. Beide Möglichkeiten 

bieten gewisse Vor- bzw. Nachteile, wir wollen uns hier für unseren Konvergenzbeweis 

auf die letztere Variante festlegen. Die einfachste Methode, um eine geeignete Schrittweite 

α k > 0 zu bestimmen, ist die folgende: Für eine streng monoton gegen 0 fallende Folge 

γ j mit γ 0 = 1, τ 1 ≤ γ j+1 

γ j 

≤ τ 2 , wobei 0 < τ 1 < τ 2 < 1 fest vorgegebene Parameter sind, 

bestimmt man 

α k := max{γ j | φ k (γ j ) ≤ φ k (0) + ξγ j r k } 

wobei ξ < 1. Die Folge γ j könnte man einfach durch γ j := τ j festlegen, andererseits 

könnte man die Folge γ j auch durch Interpolationstechniken während der numerischen 

Durchführung bestimmen. Den neuen Iterationspunkt bestimmen wir dann durch x k+1 := 

x k + α k s k , λ k+1 := λ k + α k (µ k − λ k ). Für die Durchführung des Verfahrens noch kritisch 

ist die Bestimmung der Strafparameter σ k . Einerseits wissen wir, dass σ k > µ k gelten soll, 

damit s k garantiert eine ”Abstiegsrichtung” ist. Für einen Konvergenzbeweis benötigen wir 

aber auch noch, dass σ k eine konvergente Folge bildet. Die folgende Festlegung sichert uns 

(unter gewissen Voraussetzungen) Konvergenz: 

wobei σ 0 > 0, 1 < ζ 1 < ζ 2 . 

{ 

σi k ζ2 |µ 

= 

k i | falls σ k−1 

i < ζ 1 |µ k i | 

sonst 

σ k−1 

i 

Satz 10.7 Seien f, c i ∈ C 1 . Werden für eine beschränkte Folge von Matrizen B k und eine 

Folge von Parametern ρ k und Startpunkte σ 0 , x 1 , λ 1 die Folgen s k , δ k , µ k , σ k , α k , x k 

und λ k wie oben beschrieben erzeugt, sind die Folgen x k , s k und µ k beschränkt und gilt 

δ k ≤ ¯δ < 1 für alle k, so ist jeder Häufungspunkt ¯x der Folge x k ein stationärer Punkt, für 

den Λ(¯x) ≠ ∅. Ist x k i 

eine gegen ¯x konvergente Teilfolge, so ist jeder Häufungspunkt der 

Teilfolge µ k i 

Lagrangemultiplikator zu ¯x. 

Wir überlegen nun eine geeignete Wahl für die Matrix B k unter dem Aspekt der Konvergenzgeschwindigkeit. 

Einerseits sollte B k eine gute Approximation für die Matrix ∇ 2 xL k 

sein, andererseits sollte B k auch positiv definit sein. Von den notwendigen (hinreichenden) 

99

Bedingungen 2.Ordnung wissen wir, dass die Hessematrix der Lagrangefunktion im allgemeinen 

nur auf dem Kegel der kritischen Richtungen positiv (semi-)definit sein wird, aber 

nicht auf dem gesamten R n , d.h. ∇ 2 xL k kann im allgemeinen nicht durch positiv definite 

Matrizen B k approximiert werden. Es kann aber nun gezeigt werden, dass für Erreichen einer 

hohen Konvergenzgeschwindigkeit auch wirklich nur die Approximation auf dem Kegel 

der kritischen Richtungen entscheidend ist. Zur Konstruktion der Matrizen B k kann nun 

eine modifizierte BFGS–Formel herangezogen werden: Mit 

y ′ := ∇ x L(x k+1 , λ k+1 ) − ∇ x L(x k , λ k+1 ), 

η := x k+1 − x k 

wird die Matrix B k+1 folgendermaßen konstruiert: 

{ 1 falls η T y ′ ≥ 0.1η T B k η 

θ := 

sonst 

0.9η T B k η 

η T B k η−η T y ′ 

y := θy ′ + (1 − θ)B k η 

B k+1 := B k + yyT 

y T η − Bk ηη T B k 

η T B k η 

Falls B k positiv definit ist, ist dann sicher auch B k+1 positiv definit, da y T η ≥ 0.1η T B k η > 

0. Mit dieser Konstruktion kann gezeigt werden: Sind f, c i ∈ C 3 , konvergiert die Folge x k 

gegen ein lokales Minimum ¯x, in dem die starken hinreichenden Bedingungen 2. Ordnung 

erfüllt sind und gilt ab einem Iterationsindex stets δ k = 0 und α k = 1, so ist die Konvergenz 

2–Schritt–superlinear, d.h. 

‖x k+1 − ¯x‖ 

‖x k−1 − ¯x‖ → 0 

Für die superlineare Konvergenz ist die Akzeptanz einer Schrittweite α k = 1 von besonderer 

Bedeutung. Nun kann man sich aber überlegen, dass falls x k ”nahezu” zulässig 

ist, durchaus φ k (1) > φ k (0) gelten kann, d.h. die Schrittweite α k = 1 wird von der Liniensuchfunktion 

nicht akzeptiert (”Maratos–Effekt”). Für Möglichkeiten zur Vermeidung 

dieses Effekts sei auf die Literatur verwiesen. 

Die praktische Konvergenzgeschwindigkeit hängt sehr stark von der Wahl der Strafparameter 

σ k ab. Für ein gutes Funktionieren des Algorithmus ist entscheidend, dass σ k nicht 

zu groß wird, d.h. dass x k nicht immer sehr nahe dem Zulässigkeitsbereich sein muss. Bei 

unserer Konstruktion ist die Folge der Strafparameter monoton steigend und immer größer 

als µ k . Insbesonders heißt dies, dass, wenn einmal µ k groß ist (z.B. in den ersten Iterationsschritten), 

die Strafparameter immer groß bleiben und das Verhalten des Algorithmus 

negativ beeinflussen. Insbesonderes Augenmerk ist daher auch einer richtigen Wahl der Parameter 

ρ k zu schenken. Großes ρ k forciert zwar ein kleines δ k , aber im allgemeinen auch 

große Lagrangemultiplikatoren µ k . Deshalb ist es günstig, ρ k zuerst relativ klein zu wählen, 

das quadratische Teilproblem zu lösen und dann, solange δ k = 1, ρ k durch Multiplikation 

mit einem konstanten Faktor zu erhöhen. 

Es sei noch erwähnt, dass neben der exakten Straffunktion auch noch andere Liniensuchfunktionen 

verwendet werden können,z.B. die Straffunktion aus der Multiplikatormethode. 

100

Literaturverzeichnis 

[1] J. F. Bonnans, J. C. Gilbert, C. Lemaréchal, C. A. Sagastizábal, Numerical 

optimization, Springer, Berlin–Heidelberg–New York, 2003. 

[2] R. Fletcher, Practical methods of optimization. Vol I: Unconstrained optimization, 

John Wiley, Chichester–New York–Brisbane–Toronto, 1980. 

[3] R. Fletcher, Practical methods of optimization. Vol II: Constrained optimization, 

John Wiley, Chichester–New York–Brisbane–Toronto, 1981. 

[4] C. Geiger, C. Kanzow, Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben, 

Springer, Berlin–Heidelberg–New York, 1999. 

[5] C. Geiger, C. Kanzow, Theorie und Numerik restringierter Optimierungsaufgaben, 

Springer, Berlin–Heidelberg–New York, 2002. 

[6] P. E. Gill, W. Murray, M. H. Wright, Practical optimization, Academic Press, 

London–New York–Toronto–Sydney–San Francisco, 1981 

101

Inhaltsverzeichnis 

1 Einleitung 1 

1.1 Allgemeine Problemstellung und Beispiele . . . . . . . . . . . . . . . . . . 1 

1.2 Klassifizierung von Optimierungsproblemen . . . . . . . . . . . . . . . . . 4 

1.3 Lösungsbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

1.4 Literatur und Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

1.5 Ergänzende Grundlagen und Bezeichnungen . . . . . . . . . . . . . . . . . 9 

1.5.1 Topologische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . 9 

1.5.2 Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

1.5.3 Verwendung der Symbole O und O . . . . . . . . . . . . . . . . . . 12 

1.5.4 Verwendete Normen . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

1.5.5 Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

I Freie nichtlineare Optimierung 16 

2 Theoretische Grundlagen 18 

2.1 Existenz von Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.2 Notwendige und hinreichende Bedingungen . . . . . . . . . . . . . . . . . . 18 

3 Ein grundlegender Modellalgorithmus 22 

3.1 Der Liniensuchalgorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

3.2 Abstiegsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

3.3 Algorithmen zur Liniensuche . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

4 Das Verfahren des steilsten Abstiegs 30 

102

5 Newtonähnliche Verfahren 32 

5.1 Das Newtonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

5.1.1 Lokale Konvergenzeigenschaften . . . . . . . . . . . . . . . . . . . . 32 

5.1.2 Die modifizierte Choleskyzerlegung . . . . . . . . . . . . . . . . . . 33 

5.1.3 Trust–Region–Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 36 

5.1.4 Levenberg–Marquardt–Methode . . . . . . . . . . . . . . . . . . . . 39 

5.2 Quasi–Newtonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

5.2.1 Konvergenzgeschwindigkeit . . . . . . . . . . . . . . . . . . . . . . . 45 

5.2.2 Globale Konvergenzeigenschaften . . . . . . . . . . . . . . . . . . . 45 

5.2.3 Limited Memory Quasi–Newton Verfahren . . . . . . . . . . . . . . 46 

6 Die Methode der konjugierten Gradienten 48 

6.1 Quadratische Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

6.2 Nichtlineare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

6.2.1 ”Truncated” Newton–Methode . . . . . . . . . . . . . . . . . . . . 53 

6.2.2 Nichtlineares CG–Verfahren . . . . . . . . . . . . . . . . . . . . . . 53 

7 Praktische Hinweise 55 

7.1 Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

7.2 Abbruchkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

II Nichtlineare Optimierung mit Nebenbedingungen 60 

8 Theoretische Grundlagen 61 

8.1 Tangentialkegel, Kegel der Abstiegsrichtungen . . . . . . . . . . . . . . . . 61 

8.2 Theorie der linearen Optimierung . . . . . . . . . . . . . . . . . . . . . . . 64 

8.3 Die Kuhn-Tucker Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . 70 

9 Quadratische Optimierung 77 

9.1 Gleichungsrestriktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

9.1.1 Lösung linearer Gleichungen . . . . . . . . . . . . . . . . . . . . . . 78 

9.1.2 Lösung von (QP’) mit der verallgemeinerten Eliminationsmethode . 80 

9.1.3 Lösen von (QP’) mit der Lagrange-Methode . . . . . . . . . . . . . 81 

9.2 Aktive–Indexmengen–Strategie zur Lösung 

von (QP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

9.2.1 Positiv definite quadratische Optimierung . . . . . . . . . . . . . . 82 

9.2.2 Allgemeine quadratische Optimierung . . . . . . . . . . . . . . . . 85 

9.3 Lösung von (QP) mit Inneren–Punkt–Methoden . . . . . . . . . . . . . . . 87 

9.3.1 Der zentrale Pfad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

9.3.2 Ein Prädiktor-Korrektor Algorithmus . . . . . . . . . . . . . . . . . 88 

103

10 Allgemeine Optimierungsprobleme 90 

10.1 Das Newtonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

10.1.1 Gleichungsrestriktionen . . . . . . . . . . . . . . . . . . . . . . . . . 90 

10.1.2 Gleichungs– und Ungleichungsrestriktionen . . . . . . . . . . . . . . 92 

10.2 Allgemeine Strafmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

10.2.1 Straf– und Barrieremethoden . . . . . . . . . . . . . . . . . . . . . 93 

10.2.2 Exakte Straffunktionen . . . . . . . . . . . . . . . . . . . . . . . . . 94 

10.2.3 Multiplikator–Methode . . . . . . . . . . . . . . . . . . . . . . . . . 95 

10.3 Quasi–Newtonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

Literaturverzeichnis 101 

104

Kapitel 9 Quadratische Optimierung

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?