03.11.2013 Aufrufe

Vorlesungsskript (pdf): Analysis II

Vorlesungsskript (pdf): Analysis II

Vorlesungsskript (pdf): Analysis II

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Analysis</strong> <strong>II</strong><br />

Prof. Dr. D. Müller<br />

SoSe 2010


Inhaltsverzeichnis<br />

1 Integration 5<br />

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

1.2 Das Riemannsche Integral einer Treppenfunktion . . . . . . . . . . . 6<br />

1.3 Erweiterung des Integrals . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

1.4 Integration und Differentiation . . . . . . . . . . . . . . . . . . . . . . 21<br />

1.5 Integration rationaler Funktionen . . . . . . . . . . . . . . . . . . . . 28<br />

1.5.1 Partialbruchzerlegung . . . . . . . . . . . . . . . . . . . . . . 28<br />

1.5.2 Stammfunktionen rationaler Funktionen . . . . . . . . . . . . 31<br />

1.5.3 Integration von R(cos x, sin x). . . . . . . . . . . . . . . . . . . 32<br />

1.6 Taylor-Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

1.7 Das uneigentliche Riemannsche Integral . . . . . . . . . . . . . . . . . 38<br />

1.8 Rektifizierbare Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

2 Normierte Vektorräume 42<br />

2.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

2.2 p-Normen auf K n und die Banachräume l p . . . . . . . . . . . . . . . 43<br />

2.2.1 Die p-Norm auf dem K n . . . . . . . . . . . . . . . . . . . . . 44<br />

2.2.2 Die Räume l p (A) . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />

3 Metrische Räume 50<br />

3.1 Definitionen und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

3.2 Die Topologie eines metrischen Raumes . . . . . . . . . . . . . . . . . 53<br />

3.3 Konvergenz in metrischen Räumen . . . . . . . . . . . . . . . . . . . 58<br />

3.4 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />

3.5 Konvergenz von Funktionenfolgen . . . . . . . . . . . . . . . . . . . . 66<br />

3.6 Die Vervollständigung eines metrischen Raumes* . . . . . . . . . . . 66<br />

4 Stetige lineare Abbildungen zwischen normierten Vektorräumen 70<br />

5 Kompaktheit 75<br />

5.1 Kompakte metrische Räume . . . . . . . . . . . . . . . . . . . . . . . 75<br />

5.2 Äquivalenz der Normen auf dem R n . . . . . . . . . . . . . . . . . . . 81<br />

6 Zusammenhang 82<br />

2


7 Differentialrechnung in mehreren Veränderlichen 84<br />

7.1 Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />

7.2 Totale Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />

7.3 Der Fall E = R n , F = R m . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

7.4 Rechenregeln für die Ableitung . . . . . . . . . . . . . . . . . . . . . 97<br />

7.5 Der verallgemeinerte Mittelwertsatz . . . . . . . . . . . . . . . . . . . 101<br />

7.6 Ableitungen höherer Ordnung und Taylorapproximation . . . . . . . 103<br />

7.7 Die Hesse-Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109<br />

7.7.1 Schmiegequadriken . . . . . . . . . . . . . . . . . . . . . . . . 110<br />

7.8 Lokale Extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

8 Der Banachsche Fixpunktsatz 114<br />

9 Der Satz über implizite Funktionen 116<br />

9.1 Einleitende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />

9.2 Satz über implizite Funktion und Satz über Umkehrfunktionen . . . . 118<br />

Anhang A: Totale Ableitungen höherer Ordnung 126<br />

Anhang B: Die Gruppe der invertierbaren Elemente einer Banach-<br />

Algebra 131<br />

3


Literatur<br />

[F] O. Forster, <strong>Analysis</strong> 2. Vieweg Studium<br />

[B] C. Blatter, <strong>Analysis</strong> <strong>II</strong>, Heidelberger Taschenbuch 151<br />

[AE] A. Amann, J. Escher, <strong>Analysis</strong> <strong>II</strong>, Birkhäuser 1998<br />

[K] K. Königsberger, <strong>Analysis</strong> 2, Springer-Lehrbuch 1992<br />

[C] R. Courant, Vorlesungen über Differential- und Integralrechnung<br />

Bd. 1, Springer 1971<br />

[Br] Th. Bröcker, <strong>Analysis</strong> <strong>II</strong>, BI Wissenschaftsverlag 1992<br />

[R] W. Rudin, <strong>Analysis</strong>, Eddison-Wesley 1968<br />

[L] S. Lang, Real and Functional <strong>Analysis</strong>, Springer Graduate Texts in<br />

Math., 1993<br />

[D] J. Dieudonné, Foundations of modern analysis, Academic Press<br />

1960<br />

[HS] E. Hewitt, K. Stromberg, Real and Abstract <strong>Analysis</strong>, Springer<br />

1969<br />

4


Kapitel 1<br />

Integration<br />

1.1 Motivation<br />

Eines der Probleme, welches zur Einführung des Begriffes des Integrals geführt hat,<br />

ist die Berechnung des Flächeninhalts eines krummlinig berandeten Flächenstückes<br />

der Ebene. Durch Zerlegung in endliche viele Teilstücke läßt sich dieses i.a. auf<br />

folgendes Problem zurückführen:<br />

Es sei I = [a, b] ein kompaktes Intervall und f : I → R + 0 eine geeignete“, z.B.<br />

”<br />

stetige Funktion. Wie läßt sich der Flächeninhalt der Fläche<br />

A := {(x, y) ∈ R 2 : a ≤ x ≤ b, 0 ≤ y ≤ f(x)}<br />

zwischen dem Graphen von f und der x-Achse bestimmen?<br />

In der obigen Form ist die Frage genau genommen noch nicht einmal richtig formuliert.<br />

Sie suggeriert nämlich, daß ein solcher ”<br />

Flächeninhalt“ existieren muß – dies<br />

entspricht zwar unserer Intuition, verschleiert aber die Tatsache, daß die ”<br />

Berechnung“<br />

des Flächeninhalts zunächst einmal eine sinnvolle Definition voraussetzt. Die<br />

obige Frage sollte also genauer die nach der Definition des Flächeninhalts einschließen.<br />

Folgender Weg zur Lösung dieses Problems liegt nahe: Man ”<br />

approximiere“ die<br />

Fläche A durch Flächen A n , welche sich aus endlich vielen achsenparallelen Rechtecken,<br />

deren untere Kanten auf der x-Achse liegen, zusammensetzen, berechne auf<br />

die offenkundige Art und Weise den Flächeninhalt |A n | von A n , und bestimme den<br />

Grenzwert der Folge der |A n | für n → ∞, wobei für n → ∞ die ”<br />

Güte der Approximation“<br />

immer besser werden sollte. Den Grenzwert |A| = lim n→∞ |A n |, vorausgesetzt<br />

er existiert, wird man dann als den Flächeninhalt von A bezeichnen.<br />

5


λ 1<br />

A n<br />

λ 0<br />

a = a 0 a 1 a 2 a 3 a 4 a 5 a 6 b = a 7<br />

Natürlich muß hier noch zusätzlich festgelegt werden, was wir unter einer Approximation<br />

von A durch A n sowie ihrer Güte verstehen wollen.<br />

Die Berechnung der Flächeninhalte der A n ist dagegen unstrittig. Ordnen wir<br />

nämlich die Rechtecke, aus denen A n sich zusammensetzt, von links nach rechts,<br />

so bilden ihre unteren Kanten eine Zerlegung des Intervalls [a, b] in Intervalle<br />

[a 0 , a 1 ], [a 1 , a 2 ], . . .,[a m−1 , a m ],<br />

mit a 0 = a, a m = b (welche strenggenommen noch von n abhängt). Besitzt das<br />

Rechteck mit Basis [a j , a j+1 ] die Höhe λ j , so wird man den Flächeninhalt von A n<br />

als<br />

(1.1) |A n | :=<br />

m−1<br />

∑<br />

j=0<br />

λ j (a j+1 − a j )<br />

definieren. Definiert man die Funktion f n : I → R durch<br />

⎧<br />

λ j , falls x ∈]a j , a j+1 [,<br />

⎪⎨<br />

max{λ j−1 , λ j } falls x = a j , 1 ≤ j ≤ m − 1,<br />

f n (x) :=<br />

λ 0 falls x = a,<br />

⎪⎩<br />

λ m−1 falls x = b,<br />

so ist übrigens<br />

A n = {(x, y) ∈ R 2 : a ≤ x ≤ b, 0 ≤ y ≤ f n (x)}.<br />

Man bezeichnet |A n | daher auch als das ”<br />

Integral der Treppenfunktion“ f n .<br />

1.2 Das Riemannsche Integral einer Treppenfunktion<br />

Es sei daran erinnert, daß für eine gegebene Teilmenge A ⊂ R mit 1 A ∈ R R die<br />

charakteristische Funktion<br />

{<br />

1, falls x ∈ A,<br />

1 A (x) :=<br />

0, falls x ∈ R \ A,<br />

6


ezeichnet wird.<br />

Definitionen. Eine Funktion f ∈ C R heiße Treppenfunktion, wenn es endlich<br />

viele, beschränkte Intervalle I 1 , . . .,I n gibt sowie komplexe Zahlen λ 1 , . . ., λ n ∈ C,<br />

so daß<br />

n∑<br />

f = λ k 1 Ik<br />

k=1<br />

ist. Es bezeichne T die Menge aller Treppenfunktionen auf R. Offenbar bildet die<br />

Menge C R aller komplexwertigen Funktionen auf R einen Vektorraum über dem<br />

Körper der komplexen Zahlen, und T ⊂ C R einen linearen Teilraum, und zwar gerade<br />

denjenigen, welcher von der Menge aller charakteristischen Funktionen endlicher<br />

Intervalle aufgespannt wird.<br />

T bildet wie auch C R sogar eine kommutative Algebra, da mit f und g auch<br />

die Funktionen f + g, λf für alle λ ∈ C sowie fg zu T gehören, und neben den<br />

Vektorraumaxiomen auch noch folgende Rechenregeln gelten für alle f, g, h ∈ T und<br />

λ ∈ C :<br />

(i) (λf)g = f(λg) = λ(fg);<br />

(ii) f(g + h) = fg + fh;<br />

(iii) fg = gf.<br />

Ferner liegt mit f auch die durch<br />

|f|(x) := |f(x)|, x ∈ R,<br />

definierte Funktion |f| in T . Da auch jede einpunktige Menge ein Intervall ist, enthält<br />

T auch die Menge<br />

N := {f : R → C : f(x) ≠ 0 für höchstens endlich viele x ∈ R}.<br />

N ist ein Ideal in T , d.h. N ist eine Unteralgebra von T mit der zusätzlichen<br />

Eigenschaft, daß aus f ∈ T und g ∈ N stets fg ∈ N folgt (N ist sogar ein Ideal in<br />

C R ). Wir schreiben<br />

f ≡ g, falls f − g ∈ N,<br />

und nennen f und g kongruent (modulo N), falls f ≡ g. Offensichtlich ist durch<br />

≡“ eine Äquivalenzrelation auf T definiert.<br />

”<br />

Lemma 1.1 Zu jedem f ∈ T existieren endlich viele Punkte x 0 < x 1 < · · · < x m<br />

in R sowie Zahlen µ 0 , . . .,µ m−1 , so daß<br />

m−1<br />

∑<br />

f ≡ µ j 1 ]xj ,x j+1 [ .<br />

j=0<br />

7


Beweis. Es sei f = ∑ n<br />

k=1 λ k1 Ik , und es bezeichne a k ≤ b k die Endpunkte des Intervalls<br />

I k , d.h. ]a k , b k [⊂ I k ⊂ [a k , b k ]. Wir ordnen die Menge E aller dieser Endpunkte<br />

a k und b k der Größe nach: E = {x 0 , . . .,x m }, wobei x j < x j+1 sei, falls m ≥ 1 und<br />

0 ≤ j ≤ m − 1.<br />

Ist nun etwa a k = x pk , b k = x qk mit p k ≤ q k , so ist offenbar<br />

1 Ik ≡<br />

q k −1<br />

∑<br />

j=p k<br />

1 ]xj ,x j+1 [ .<br />

Berücksichtigen wir, daß aus g i ≡ h i für i = 1, . . ., n stets ∑ n<br />

i=1 α ig i ≡ ∑ n<br />

i=1 α ih i<br />

folgt (wieso?), so ergibt sich aus der letzten Kongruenz und Vertauschung der Reihenfolge<br />

der Summation in k und j:<br />

mit<br />

f ≡<br />

=<br />

n∑<br />

k=1<br />

m−1<br />

∑<br />

j=0<br />

µ j :=<br />

( qk−1<br />

∑<br />

λ k<br />

j=p k<br />

1 ]xj ,x j+1 [<br />

µ j 1 ]xj ,x j+1 [ ,<br />

∑<br />

{k: p k ≤j≤q k −1}<br />

Lemma 1.2 Es sei f = ∑ n<br />

k=1 λ k1 Ik ∈ T . Ist f ≡ 0, so ist<br />

n∑<br />

λ k (b k − a k ) = 0,<br />

k=1<br />

λ k .<br />

wobei a k ≤ b k die Endpunkte des Intervalls I k seien.<br />

)<br />

Q.E.D.<br />

Beweis. Wir wählen x 0 < x 1 < · · · < x m gemäß dem Beweis des vorherigen Lemmas,<br />

so daß<br />

f ≡<br />

m−1<br />

∑<br />

j=0<br />

µ j 1 ]xj ,x j+1 [<br />

ist, mit µ j := ∑ {k:p k ≤j≤q k −1} λ k.<br />

Da f ≡ 0 ist, ist µ j = 0 für j = 0, . . .,m − 1, d.h.<br />

∑<br />

λ k = 0, j = 0, . . .,m − 1.<br />

{k: p k ≤j≤q k −1}<br />

Ferner ist<br />

b k − a k =<br />

q k −1<br />

∑<br />

j=p k<br />

(x j+1 − x j ).<br />

8


Somit folgt<br />

n∑<br />

λ k (b k − a k ) =<br />

k=1<br />

=<br />

n∑<br />

k=1<br />

⎛<br />

m−1<br />

∑<br />

(x j+1 − x j ) ⎝<br />

j=0<br />

(<br />

qk −1<br />

∑<br />

λ k<br />

j=p k<br />

(x j+1 − x j )<br />

∑<br />

{k: p k ≤j≤q k −1}<br />

)<br />

λ k<br />

⎞<br />

⎠ = 0.<br />

Q.E.D.<br />

Bezeichnen wir mit |I| := (b − a) die Länge des endlichen Intervalls I mit den<br />

Endpunkten a ≤ b, so erhalten wir als Konsequenz<br />

Korollar 1.3 Sind f = ∑ n<br />

k=1 λ k1 Ik und g = ∑ m<br />

i=1 µ i1 Ji zwei Treppenfunktionen,<br />

und ist f ≡ g, so ist<br />

n∑ m∑<br />

λ k |I k | = µ i |J i |.<br />

k=1<br />

Beweis. Sei h := f − g = ∑ n<br />

k=1 λ k1 Ik + ∑ m<br />

i=1 (−µ i1 Ji ). Da h ≡ 0 ist, gilt nach<br />

Lemma 1.2 :<br />

n∑ m∑<br />

λ k |I k | + (−µ i )|J i | = 0 .<br />

k=1<br />

Hieraus folgt die behauptete Identität.<br />

i=1<br />

i=1<br />

Q.E.D.<br />

Wir können nun definieren: Ist f = ∑ n<br />

k=1 λ k1 Ik ∈ T , so sei das Integral ∫ f(x) dx<br />

die durch<br />

∫<br />

n∑<br />

f(x) dx := λ k |I k |<br />

definierte komplexe Zahl.<br />

Das Korollar 1.3 garantiert, daß ∫ f(x) dx wohldefiniert ist, d.h. nicht von der Darstellung<br />

f = ∑ n<br />

k=1 λ k1 Ik abhängt. Es zeigt darüberhinaus:<br />

∫<br />

f(x) dx hängt nur von der Kongruenzklasse von f (mod N) ab. Anders formuliert:<br />

Das Integral von f ändert sich nicht, wenn man f an endlich vielen Stellen abändert.<br />

k=1<br />

Insbesondere sehen wir: Ist f ≡ ∑ m−1<br />

j=0 µ j1 ]xj ,x j+1 [, mit x 0 < x 1 < · · · < x m , so ist<br />

(1.2)<br />

in Übereinstimmung mit (1.1).<br />

∫<br />

f(x) dx =<br />

m−1<br />

∑<br />

j=0<br />

9<br />

µ j (x j+1 − x j ),


Wir werden statt ∫ f(x) dx oft kürzer ∫ f dx oder auch nur ∫ f schreiben.<br />

Die Abbildung f ↦→ ∫ f ist offenbar eine Linearform auf dem komplexen Vektorraum<br />

T – dies folgt unmittelbar aus unserer Definition von ∫ f.<br />

Ist f eine komplexwertige Treppenfunktion, so sind ihr Realteil Re f und ihr Imaginärteil<br />

Im f ebenfalls Treppenfunktionen. Aus f = (Ref) + i(Im f) folgt mittels<br />

der Linearität des Integrals:<br />

∫ ∫ ∫<br />

(1.3) f dx = (Re f) dx + i (Im f) dx, f ∈ T .<br />

Aus (1.2) liest man ferner leicht die folgenden Eigenschaften des Integrals ab:<br />

(i) Ist f ∈ T reellwertig, so ist ∫ f dx ∈ R.<br />

(ii) Ist f ∈ T reellwertig, und ist f(x) ≥ 0 für alle x ∈ R, so ist ∫ f dx ≥ 0.<br />

(iii) Das Integral erfüllt die folgende Dreiecksungleichung“:<br />

” ∫<br />

∫<br />

∣ f(x) dx∣ ≤ |f(x)| dx für alle f ∈ T .<br />

Mittels der Linearität des Integrals läßt sich (ii) übrigens wie folgt verallgemeinern:<br />

(ii ′ ) Sind f, g ∈ T reellwertig, und ist f ≥ g (d.h. f(x) ≥ g(x) für alle x ∈ R), so<br />

ist<br />

∫ ∫<br />

f dx ≥ g dx .<br />

Aus f ≥ g folgt nämlich (f − g) ≥ 0, also nach (ii)<br />

∫ ∫ ∫<br />

0 ≤ (f − g) dx = f dx −<br />

g dx .<br />

Definitionen. Ist [a, b] ein kompaktes Intervall, und ist f ∈ T , so ist auch 1 [a,b] f ∈<br />

T , und wir definieren das Integral von f von a nach b durch<br />

∫ b ∫<br />

f(x) dx := 1 [a,b] f dx.<br />

a<br />

Für eine beliebige, nichtleere Menge X bezeichne B(X) die Menge aller beschränkten<br />

Funktionen f : X〉 C. Offenbar bildet B(X) einen linearen Teilraum des Raumes C X .<br />

Für f ∈ B(X) ist dann<br />

wohldefiniert, und es gilt insbesondere<br />

‖f‖ u := sup{|f(x)| : x ∈ X} ∈ R + 0<br />

(1.4) |f(x)| ≤ ‖f‖ u für alle x ∈ X.<br />

10


Lemma 1.4 Für alle f ∈ T gilt<br />

∫ b<br />

∣ f(x) dx<br />

∣ ≤ ‖f‖ u (b − a).<br />

Beweis. Nach (iii) ist<br />

∣<br />

∫ b<br />

a<br />

a<br />

∫<br />

f(x) dx∣ = ∣<br />

∫<br />

1 [a,b] f dx∣ ≤ 1 [a,b] |f| dx.<br />

Ferner ist |f| ≤ ‖f‖ u 1, also nach (ii ′ )<br />

∫ ∫<br />

1 [a,b] |f| dx ≤ 1 [a,b] ‖f‖ u dx = ‖f‖ u (b − a).<br />

Q.E.D.<br />

Bemerkungen 1.5 a) Für ‖ · ‖ u weist man folgende Eigenschaften für alle f, g ∈<br />

B(X) und λ ∈ C nach (Übung), welche denen des Absolutbetrags einer reellen oder<br />

komplexen Zahl ähneln:<br />

(a) ‖f‖ u = 0 ⇔ f = 0;<br />

(b) ‖λf‖ u = |λ| ‖f‖ u ;<br />

(c) ‖f + g‖ u ≤ ‖f‖ u + ‖g‖ u ;<br />

(d) ‖f‖ u = ‖f‖ u ;<br />

(e) ‖fg‖ u ≤ ‖f‖ u ‖g‖ u .<br />

Z.B. folgt aus (1.4)<br />

|f(x) + g(x)| ≤ |f(x)| + |g(x)| ≤ ‖f‖ u + ‖g‖ u ,<br />

und somit aufgrund der Definition des Supremums ‖f + g‖ u ≤ ‖f‖ u + ‖g‖ u . Die<br />

übrigen Eigenschaften folgen ähnlich leicht.<br />

b) Die Eigenschaften (a) bis (c) bedeuten, daß ‖ · ‖ u eine sogenannte Norm auf<br />

dem Vektorraum B(X) ist – auf diesen Begriff werden wir in Kapitel 2 ausführlicher<br />

eingehen. ‖f‖ u bezeichnet man als die Supremumsnorm von f.<br />

c) Mit Hilfe dieser Supremumsnorm läßt sich die gleichmäßige Konvergenz einer<br />

Funktionenfolge (f n ) n in B(X) gegen eine Funktion f ∈ B(X) ähnlich beschreiben<br />

wie die Konvergenz einer Zahlenfolge mit Hilfe des Absolutbetrages:<br />

(f n ) n konvergiert dann und nur dann gleichmäßig gegen f , wenn gilt:<br />

(1.5) lim<br />

n→∞<br />

‖f − f n ‖ u = 0.<br />

11


Für jedes ε > 0 gilt nämlich offenbar<br />

|f n (x) − f(x)| ≤ ε für alle x ∈ X<br />

genau dann, wenn<br />

‖f n − f‖ u ≤ ε.<br />

1.3 Erweiterung des Integrals<br />

Wir wollen nun das Integral auf eine größere Klasse von Funktionen erweitern. Dazu<br />

beobachten wir folgende Konsequenz aus Lemma 1.4:<br />

Lemma 1.6 Es seien a, b ∈ R mit a ≤ b. Ist f ∈ C R der gleichmäßige Limes einer<br />

Folge von Treppenfunktionen (f n ) n∈N , so bildet die Folge der Integrale ( ∫ b<br />

f a n dx)<br />

∫ n∈N<br />

b<br />

eine Cauchy-Folge in C. Insbesondere existiert der Grenzwert I = lim n→∞ f a n dx.<br />

Dieser hängt nur ab von f, nicht jedoch von der approximierenden Folge (f n ) n∈N .<br />

Beweis. Sei nun ε > 0, und es gelte (1.5). Dann gibt es ein n 0 ∈ N, so daß gilt:<br />

‖f − f n ‖ u < ε/2 für alle n ≥ n 0 .<br />

Für n, m ≥ n 0 erhält man somit mittels Bemerkung 1.5<br />

(1.6)<br />

‖f n − f m ‖ u<br />

= ‖(f − f n ) − (f − f m )‖ u<br />

≤ ‖f − f n ‖ u + ‖f − f m ‖ u < ε 2 + ε 2 = ε.<br />

Die Folge (f n ) n bildet also eine gleichmäßige Cauchy-Folge“. Für n, m ≥ n ” 0 folgt<br />

zusammen mit Lemma 1.4 :<br />

∣<br />

∫ b<br />

a<br />

f n dx −<br />

∫ b<br />

a<br />

f m dx∣ =<br />

≤<br />

∣<br />

∫ b<br />

a<br />

(f n − f m ) dx∣<br />

(b − a)‖f n − f m ‖ u < (b − a)ε.<br />

Dies zeigt, daß die Folge ( ∫ b<br />

a f n dx) n∈N eine Cauchy-Folge in C bildet. Sei<br />

I := lim<br />

n→∞<br />

∫ b<br />

a<br />

f n dx.<br />

Sei ferner (g n ) n eine weitere Folge in T , welche gleichmäßig gegen f konvergiert, und<br />

∫ b<br />

sei J = lim g<br />

n→∞ a n dx.<br />

12


Wegen<br />

ist dann offenbar<br />

‖f n − g n ‖ u = ‖(f n − f) + (f − g n )‖ u<br />

≤<br />

‖f n − f‖ u + ‖f − g n ‖ u<br />

lim ‖f n − g n ‖ u = 0.<br />

n→∞<br />

Wieder mittels Lemma 1.4 folgt hieraus:<br />

∫ b<br />

lim<br />

∣ (f n − g n ) dx<br />

∣ = 0,<br />

n→∞<br />

a<br />

∫ b<br />

und somit I = lim f ∫ b<br />

n→∞ a n dx = lim g<br />

n→∞ a n dx = J.<br />

Q.E.D.<br />

Definitionen. Eine Funktion f : R → C, die sich als Limes einer gleichmäßig<br />

konvergenten Folge (f n ) n aus T darstellen läßt, wird als Regelfunktion bezeichnet.<br />

Es sei R die Menge aller solcher Regelfunktionen. Sind (f n ) n bzw. (g n ) n Folgen in<br />

T , welche gleichmäßig gegen f bzw. g aus R konvergieren, so weist man mittels<br />

Bemerkung 1.5 ganz analog wie für konvergente Zahlenfolgen nach, daß die Folge<br />

(f n + g n ) n gleichmäßig gegen f + g, die Folge (f n g n ) n gleichmäßig gegen fg und die<br />

Folge (αf n ) n gleichmäßig gegen αf konvergiert, für jedes α ∈ C. Dies zeigt, daß mit<br />

f und g aus R sowie α ∈ C auch f + g, αf und fg in R liegen, d.h. daß auch R<br />

eine Algebra ist. Ähnlich zeigt man, daß mit f ∈ R auch |f|, Re f und Im f in R<br />

liegen.<br />

Aufgrund von Lemma 1.6 können wir nun definieren:<br />

Sei f ∈ R, und sei (f n ) n eine Folge in T , welche gleichmäßig gegen f konvergiert.<br />

Seien a, b ∈ R mit a ≤ b. Die Zahl<br />

∫ b<br />

a<br />

f(x) dx = lim<br />

n→∞<br />

∫ b<br />

a<br />

f n (x) dx<br />

heißt das Riemannsche Integral der Funktion f über das Intervall [a, b]<br />

(oder ”<br />

von a bis b“).<br />

Satz 1.7 (Eigenschaften des Integrals) (i) Für feste a ≤ b ist die Abbildung<br />

f ↦→ ∫ b<br />

f(x) dx komplex linear von R nach C, d.h. es gilt<br />

a<br />

∫ b<br />

(αf + βg) dx = α<br />

∫ b<br />

f dx + β<br />

∫ b<br />

a<br />

a<br />

a<br />

für alle f, g ∈ R, α, β ∈ C.<br />

g dx<br />

(Linearität)<br />

13


(ii) Ist f ∈ R reellwertig, so ist ∫ b<br />

f dx ∈ R.<br />

a<br />

Ist zusätzlich f ≥ 0, so ist ∫ b<br />

f dx ≥ 0. D.h., aus f, g ∈ R, f ≤ g, folgt<br />

a<br />

Ferner gilt<br />

∫ b<br />

a<br />

f dx ≤<br />

∫ b<br />

a<br />

g dx.<br />

∫ b<br />

1 dx = b − a. (Normierung)<br />

a<br />

(iii) Es gilt die Dreiecksungleichung“<br />

” ∫ b<br />

∫ b<br />

∣ f dx<br />

∣ ≤ |f| dx, f ∈ R .<br />

(iv) Sind a, b, c ∈ R mit a ≤ b ≤ c, so gilt für f ∈ R:<br />

(1.7)<br />

Beweis.<br />

∫ c<br />

a<br />

f dx =<br />

∫ b<br />

a<br />

a<br />

f dx +<br />

∫ c<br />

b<br />

a<br />

f dx.<br />

(Monotonie)<br />

(Bereichsadditivität)<br />

(i) Sind (f n ) n bzw. (g n ) n Folgen in T , welche gleichmäßig gegen f bzw. g konvergieren,<br />

so folgt mittels Bemerkung 1.5:<br />

Somit ist<br />

lim ‖(αf + βg) − (αf n + βg n )‖ u = 0.<br />

n→∞<br />

∫ b<br />

a<br />

(αf + βg) dx = lim<br />

= lim<br />

n→∞<br />

(α<br />

= α lim<br />

= α<br />

∫ b<br />

a<br />

∫ b<br />

n→∞<br />

a<br />

∫ b<br />

a<br />

f dx + β<br />

n→∞<br />

∫ b<br />

f n dx + β<br />

(αf n + βg n ) dx<br />

a<br />

∫ b<br />

a<br />

f n dx + β lim<br />

∫ b<br />

a<br />

g n dx)<br />

n→∞<br />

∫ b<br />

g dx .<br />

a<br />

g n dx<br />

(ii) Ist f ∈ R reellwertig, und ist f der gleichmäßige Limes der Folge (f n ) n aus T ,<br />

so konvergiert wegen ‖f − Re(f n )‖ u := ‖Re(f − f n )‖ u ≤ ‖f − f n ‖ u auch die<br />

Folge (Ref n ) n aus T gleichmäßig gegen f, d.h. man kann o.B.d.A. annehmen,<br />

daß die Folge (f n ) n aus reellwertigen Funktionen besteht. Damit ist<br />

∫ b<br />

a<br />

f dx = lim<br />

n→∞<br />

∫ b<br />

a<br />

f n dx ∈ R.<br />

Ist zusätzlich f ≥ 0, so kann man, indem man f n durch max{0, f n } ersetzt,<br />

zusätzlich f n ≥ 0 für alle n annehmen, so daß ∫ b<br />

f dx ≥ 0 folgt.<br />

a<br />

14


(iii) Ist f der gleichmäßige Limes der Folge (f n ) n aus T , so konvergiert die Folge<br />

(|f n |) n gleichmäßig gegen |f|. Es folgt:<br />

∣<br />

∫ b<br />

a<br />

≤<br />

∣ ∫ b<br />

∣ ∫ b<br />

∣∣ ∣∣ f dx∣ = lim f n dx∣ = lim f n dx∣<br />

n→∞ n→∞<br />

∫ b<br />

lim |f n | dx = lim<br />

n→∞<br />

a<br />

a<br />

n→∞<br />

∫ b<br />

da die Dreiecksungleichung ja für f n ∈ T gilt.<br />

a<br />

a<br />

|f n | dx =<br />

∫ b<br />

a<br />

|f| dx,<br />

(iv) Sei wieder f der gleichmäßige Limes der Folge (f n ) n aus T . Für jedes n ∈ N<br />

gilt:<br />

1 [a,c] f n =1 [a,b] f n +1 [b,c] f n −1 {b} f n (b),<br />

also<br />

∫ c<br />

a<br />

f n dx =<br />

∫ b<br />

a<br />

f n dx +<br />

∫ c<br />

b<br />

f n dx.<br />

Durch Grenzübergang für n → ∞ folgt die Identität (1.7).<br />

Bemerkung 1.8 Für f ∈ R und a > b setzen wir gelegentlich auch<br />

∫ b<br />

a<br />

f dx := −<br />

∫ a<br />

b<br />

f dx.<br />

Q.E.D.<br />

Man prüft leicht nach, daß die Gleichung (1.7) dann für beliebige a, b, c ∈ R gültig<br />

ist.<br />

Welche Funktionen sind in R enthalten?<br />

Definitionen. Wir sagen eine Funktion f : R → C verschwinde im Unendlichen,<br />

falls für jedes ε > 0 die Menge {x ∈ R : |f| ≥ ε} beschränkt ist. Hiermit<br />

äquivalent ist:<br />

Zu jedem ε > 0 existiert ein C ≥ 0 mit |f(x)| < ε für alle x ∈ R mit |x| ≥ C, d.h.<br />

lim |f(x)| = 0.<br />

|x|→∞<br />

f heiße stückweise stetig, wenn es eine streng monoton wachsende ”<br />

Folge“(x k ) k∈Z<br />

von Punkten x k ∈ R gibt mit<br />

x k → −∞ für k → −∞<br />

und x k → +∞ für k → +∞,<br />

sowie Funktionen F k ∈ C( [x k , x k+1 ]), k ∈ Z, so daß<br />

f ∣ = F ∣<br />

]xk ,x k+1 [ k<br />

gilt für alle k ∈ Z.<br />

15<br />

∣<br />

]xk ,x k+1 [


Satz 1.9 R enthält alle stückweise stetigen im Unendlichen verschwindenden Funktionen<br />

auf R.<br />

Der Schlüssel zum Beweis dieses Satzes liegt in der folgenden Definition und dem<br />

anschließenden Satz.<br />

Definition. Es sei A ⊂ R (oder auch A ⊂ C). Die Funktion f : A → C heiße<br />

gleichmäßig stetig, wenn es zu jedem ε > 0 ein δ = δ(ε) > 0 gibt, so daß gilt:<br />

(1.8) |f(x) − f(y)| < ε für alle x, y ∈ A mit |x − y| < δ .<br />

Offenbar ist eine gleichmäßig stetige Funktion f : A → C stetig auf A; die Umkehrung<br />

hiervon ist jedoch falsch.<br />

Beispiel. Die Funktion f(x) = sin 1 ist stetig auf x R+ , jedoch nicht gleichmäßig<br />

stetig. Für x n := 1 , y 2πn n := 1 , n ∈ N, n ≥ 1, gilt nämlich:<br />

2πn+ π 2<br />

und<br />

|f(x n ) − f(y n )| = |0 − 1| = 1,<br />

|x n − y n | =<br />

π/2<br />

(2πn)(2πn + π 2 ) → 0<br />

für n → ∞. Zu ε = 1 kann es hier also kein δ > 0 mit der Eigenschaft (1.8) geben.<br />

Theorem 1.10 Ist I ⊂ R ein kompaktes Intervall, so ist jede stetige Funktion<br />

f : I → C gleichmäßig stetig.<br />

Beweis (durch Widerspruch).<br />

Wir nehmen an, daß f ∈ C(I) nicht gleichmäßig stetig ist. Dann gibt es ein ε > 0,<br />

sowie zu jedem δ := 1 n (n ∈ N, n ≥ 1) ein Paar x n, y n in I mit |x n − y n | < 1 n und<br />

|f(x n ) − f(y n )| ≥ ε. Dies impliziert insbesondere, daß lim n→∞ |x n − y n | = 0 ist.<br />

Da I ein kompaktes Intervall ist, gibt es nach dem Satz von Bolzano-Weierstraß eine<br />

Teilfolge (x nk ) k der Folge (x n ) n , welche gegen ein ξ ∈ I konvergiert. Durch Übergang<br />

zu dieser Teilfolge können wir o.B.d.A. annehmen, daß die Folge (x n ) n bereits gegen<br />

ξ konvergiert. Wegen lim n→∞ |x n − y n | = 0 ist dann auch lim n→∞ y n = ξ.<br />

Da f im Punkte ξ stetig ist, folgt damit:<br />

f(ξ) = lim<br />

n→∞<br />

f(x n ) = lim<br />

n→∞<br />

f(y n ),<br />

also<br />

0 = lim<br />

n→∞<br />

|f(x n ) − f(y n )|.<br />

Dies steht im Widerspruch zu |f(x n ) − f(y n )| ≥ ε, ∀n ≥ 1.<br />

Q.E.D.<br />

16


Beweis von Satz 1.9.<br />

Es sei f : R → C stückweise stetig und verschwinde im Unendlichen. Sei (x k ) k∈Z<br />

eine Familie von Punkten x k ∈ R mit x ±k → ±∞ für k → ∞, x k < x k+1 für alle<br />

k ∈ Z, und F k ∈ C([x k , x k+1 ]) mit f ∣ = F ∣<br />

]xk ,x k+1 [ k . ]xk ,x k+1 [<br />

Sei ε > 0. Dazu gibt es ein C > 0, so daß<br />

|f(x)| ≤ ε für alle x mit |x| ≥ C.<br />

In dem beschränkten Intervall [−C, C] liegen nur endlich viele der Punkte x k , sagen<br />

wir x p , x p+1 , . . .,x p+l . Wir setzen<br />

ξ 0 := −C, ξ 1 := x p , . . .,ξ l+1 := x p+l , ξ l+2 := C.<br />

Indem wir C ggf. leicht vergrößern dürfen wir o.B.d.A. annehmen, daß<br />

−C = ξ 0 < ξ 1 < · · · < ξ l+2 = C.<br />

Da die Funktion F k nach Theorem 1.10 gleichmäßig stetig ist auf dem Intervall<br />

[x k , x k+1 ], ist für j = 0, . . ., l + 1 die Funktion f ∣ ]ξj ,ξ j+1<br />

gleichmäßig stetig auf dem<br />

[<br />

Intervall I j :=]ξ j , ξ j+1 [. Ferner ist [−C, C] = l+1 ⋃<br />

I j ∪ {ξ 0 , . . .,ξ l+2 }.<br />

j=0<br />

Für festes j gibt es also zu ε > 0 ein δ j > 0, so daß gilt:<br />

|f(x) − f(y)| < ε für alle x, y ∈ I j mit |x − y| < δ j .<br />

Es sei o.B.d.A. N j := ξ j+1−ξ j<br />

δ j<br />

∈ N. Wir setzen nun<br />

a i := ξ j + iδ j , i = 0, . . .,N j .<br />

Das Intervall I j zerfällt dann in die Teilintervalle<br />

]a 0 , a 1 ], ]a 1 , a 2 ], . . .,]a Nj −1, a Nj [,<br />

welche alle die Länge δ j haben.<br />

Wir wählen zu jedem i = 0, . . ., N j − 1 einen Punkt b i in dem zugehörigen Teilintervall<br />

aus, und setzen<br />

ϕ j :=<br />

N j −1<br />

∑<br />

i=0<br />

f(b i )1 ]ai ,a i+1 [ +<br />

N j −1<br />

∑<br />

i=1<br />

f(a i )1 {ai } .<br />

Dann ist ‖(f − ϕ j ) ∣ ∣<br />

Ij<br />

‖ u ≤ ε, denn ist x ∈ I j , so existiert ein i mit x ∈]a i , a i+1 [, oder<br />

x = a i . Im ersten Falle ist |f(x) − ϕ j (x)| = |f(x) − f(b i )| < ε, da |x − b i | < δ j ist,<br />

und im zweiten Falle ist<br />

|f(x) − ϕ j (x)| = |f(a i ) − f(a i )| = 0 < ε .<br />

17


Setzen wir schließlich<br />

∑l+1<br />

∑l+2<br />

ϕ := ϕ j + f(ξ j )1 {ξj } ,<br />

j=0 j=0<br />

so ist ϕ ∈ T , und es gilt offenbar<br />

‖f − ϕ‖ u ≤ ε .<br />

Insbesondere erhalten wir auf diese Weise zu jedem ε = 1/n, n ∈ N, n ≥ 1, ein ϕ n<br />

in T mit ‖f − ϕ n ‖ u ≤ 1/n . Damit ist f ∈ R.<br />

Q.E.D.<br />

Es sei [a, b] ein kompaktes Intervall. Eine Funktion f : [a, b] → C heiße auf [a, b]<br />

integrierbar, falls die durch<br />

{<br />

f(x), falls x ∈ [a, b],<br />

˜f(x) :=<br />

0, falls x /∈ [a, b],<br />

definierte Funktion ˜f, die sogenannte triviale Fortsetzung von f, in R liegt. Die<br />

komplexe Zahl<br />

∫ b<br />

a<br />

f(x) dx :=<br />

heißt das Riemannsche Integral von f.<br />

∫ b<br />

a<br />

˜f(x) dx<br />

Satz 1.9 zeigt, daß jede (stückweise) stetige Funktion auf [a, b] integrierbar ist. Genauer<br />

zeigt der Beweis sogar folgendes:<br />

Sind x 0 = a < x 1 < · · · < x n = b Punkte in [a, b], welche eine Zerlegung des<br />

Intervalls [a, b] in die Teilintervalle I j := [x j , x j+1 ] der Länge ∆ j := x j+1 −x j liefern,<br />

und sind b j ∈ I j , j = 0, . . .,n − 1, beliebige Stützstellen im Intervall I j , so läßt<br />

sich zu diesen Daten die Riemann-Summe zu f der Gestalt<br />

∑n−1<br />

∑n−1<br />

f(b j )(x j+1 − x j ) = f(b j )∆ j ,<br />

j=0<br />

bilden. Zu jedem ε > 0 gibt es dann ein δ > 0, so daß für jede Riemann-Summe mit<br />

Feinheit max ∆ j < δ gilt:<br />

j=0,...,n−1<br />

j=0<br />

(1.9)<br />

∣<br />

∫ b<br />

∑n−1<br />

∣ ∣∣<br />

f(x) dx − f(b j )∆ j < ε.<br />

a<br />

j=0<br />

Das Integral ∫ b<br />

f(x) dx ist also der Grenzwert jeder Folge von Riemann-Summen zu<br />

a<br />

f, deren Feinheiten gegen Null streben!<br />

18


Dagegen ist die Dirichlet-Funktion ϕ := 1 Q : R → R, nicht integierbar über [0, 1]<br />

(Übung).<br />

Wann kann man aus der Konvergenz einer Folge (f n ) n integrierbarer Funktionen f n<br />

gegen eine Funktion f schließen, daß auch die Grenzfunktion f integrierbar ist, und<br />

daß die Integrale der f n gegen das Integral von f streben?<br />

Das Beispiel der Dirichlet-Funktion zeigt bereits, daß hierfür die punktweise Konvergenz<br />

der f n gegen f nicht ausreicht.<br />

Ist nämlich (x n ) n∈N eine Abzählung der Punkte in Q ∩ [0, 1], und setzen wir<br />

ϕ n :=<br />

n∑<br />

1 {xj } ,<br />

j=0<br />

so ist offenbar ϕ der punktweise Limes der Folge der (ϕ n ) n , welche alle in T liegen,<br />

also integrierbar sind auf [0, 1] (übrigens ist<br />

∫ 1<br />

0<br />

ϕ n dx = 0 für alle n ∈ N).<br />

Satz 1.11 Ist (f n ) n eine Folge integrierbarer Funktionen auf [a, b], und konvergiert<br />

diese gleichmäßig gegen f : [a, b] → C, so ist auch f integrierbar auf [a, b], und es<br />

gilt<br />

lim<br />

n→∞<br />

∫ b<br />

a<br />

f n dx =<br />

∫ b<br />

a<br />

f dx.<br />

Beweis. Seien ˜f n und ˜f die oben definierten Fortsetzungen der f n und f auf ganz<br />

R. Dann liegen die ˜f n in R und konvergieren gleichmäßig gegen ˜f. Ist nun h n ∈ T<br />

mit ‖ ˜f n − h n ‖ u < 1 , so folgt aus<br />

n<br />

‖ ˜f − h n ‖ u ≤ ‖ ˜f − ˜f n ‖ u + ‖ ˜f n − h n ‖ u<br />

< ‖ ˜f − ˜f n ‖ u + 1 n<br />

auch lim ‖ ˜f − h n ‖ u = 0, also ˜f ∈ R.<br />

n→∞<br />

Aus<br />

∫ b<br />

∫ b<br />

∣ f dx − f n dx<br />

∣ =<br />

a<br />

a<br />

≤<br />

∣<br />

∫ b<br />

a<br />

( ˜f − ˜f n ) dx<br />

∣<br />

(b − a)‖ ˜f − ˜f n ‖ u<br />

∫ b<br />

folgt schließlich lim f<br />

n→∞ a n dx = ∫ b<br />

f dx . a<br />

Q.E.D.<br />

19


∑<br />

Korollar 1.12 Besitzt die Potenzreihe f(x) = ∞ a k x k den Konvergenzradius R ><br />

0, und ist a ≤ b mit |a|, |b| < R, so ist<br />

k=0<br />

∫ b<br />

a<br />

f(x) dx =<br />

∞∑<br />

∫ b<br />

a k x k dx.<br />

k=0<br />

a<br />

Beweis. Setze f n (x) := ∑ n<br />

k=0 a kx k . Nach dem Beweis von Satz 9.14 (<strong>Analysis</strong> I)<br />

konvergiert dann die Folge der Polynome f n auf dem Intervall [a, b] gleichmäßig<br />

gegen die (stetige) Funktion f, so daß die Aussage unmittelbar aus Satz 1.11 folgt.<br />

Q.E.D.<br />

Um das Integral einer Funktion, welche durch eine Potenzreihe dargestellt ist, zu<br />

berechnen, genügt es also im Prinzip, die Integrale ∫ b<br />

a xk dx, k ∈ N, zu kennen. Diese<br />

lassen sich in der Tat mit ein wenig Fleiß mittels Approximation durch Treppenfunktionen<br />

berechnen. Einfacher ist es jedoch, hierzu den von Newton und Leibniz<br />

entdeckten engen Zusammenhang zwischen Differentiation und Integration auszunutzen,<br />

welcher im nächsten Abschnitt besprochen wird.<br />

Bemerkung 1.13 Wir haben hier folgende Definition der Integrierbarkeit verwendet:<br />

f ∈ C [a,b] ist integrierbar, wenn f der gleichmäßige Grenzwert einer Folge von<br />

Treppenfunktionen f n auf dem Intervall [a, b] ist. Eine schwächere Form der Approximation<br />

durch Treppenfunktionen ist die folgende:<br />

f : [a, b] → C heiße Riemannsch integrierbar auf [a, b], wenn es zwei Folgen<br />

(f n ) n und (ψ n ) n von Treppenfunktion auf [a, b] gibt, so daß gilt:<br />

|f − f n | ≤ ψ n und<br />

∫ b<br />

a<br />

ψ n dx → 0 für n → ∞<br />

(offenbar muß ψ n ≥ 0 sein).<br />

Konvergiert die Folge (f n ) n aus T gleichmäßig auf [a, b] gegen f, so kann man offenbar<br />

ψ n := ‖f − f n ‖ u 1 [a,b] wählen.<br />

Man kann zeigen, daß sich für alle Riemannsch integrierbaren Funktionen auf [a, b]<br />

ein Integral definieren läßt, welches ähnliche Eigenschaften wie die des von uns<br />

betrachteten Integrals besitzt, und daß insbesondere die beiden Integrale für stückweise<br />

stetige Funktionen gleich sind. Allerdings ist die Dirichlet-Funktion auch im<br />

Riemannschen Sinne nicht integrierbar.<br />

20


1.4 Integration und Differentiation<br />

Definition. Es sei f ∈ C(I) eine stetige Funktion auf dem Intervall I = [a, b]. Eine<br />

differenzierbare Funktion F auf I heiße Stammfunktion von f, wenn gilt<br />

f = F ′ auf I.<br />

Theorem 1.14 (Newton-Leibniz) Sei f ∈ C([a, b]). Dann ist<br />

F(x) :=<br />

eine Stammfunktion von f.<br />

∫ x<br />

a<br />

f(t) dt,<br />

x ∈ [a, b],<br />

Beweis. Sind x und x + h in I = [a, b], so gilt:<br />

F(x + h) − F(x) − f(x)h<br />

=<br />

=<br />

∫ x+h<br />

a<br />

∫ x+h<br />

da ∫ x+h<br />

f(t) dt = ∫ x<br />

f(t) dt+∫ x+h<br />

a<br />

a x<br />

ist für festes x und h ≠ 0<br />

F(x + h) − F(x)<br />

h<br />

x<br />

f(t)dt −<br />

∫ x<br />

a<br />

(f(t) − f(x)) dt ,<br />

f(t)dt − f(x)h<br />

f(t) dt ist, und da f(x)h = ∫ x+h<br />

f(x) dt ist. Somit<br />

x<br />

− f(x) = 1 h<br />

∫ x+h<br />

x<br />

(f(t) − f(x)) dt =: r(h).<br />

Wir müssen zeigen, daß lim h→0 r(h) = 0 ist. Sei dazu ε > 0 gegeben. Da f in x stetig<br />

ist, existiert ein δ > 0, so daß |f(t) − f(x)| < ε ist für alle t ∈ [a, b] mit |t − x| < δ.<br />

Für |h| < δ gilt somit für alle t ∈ [a, b], welche zwischen x und x + h liegen:<br />

|f(t) − f(x)| < ε.<br />

Somit folgt für |h| < δ :<br />

|r(h)| ≤ 1<br />

|h|<br />

∣<br />

∫ x+h<br />

x<br />

|f(t) − f(x)| dt<br />

∣ ≤ |h|ε<br />

|h|<br />

= ε .<br />

Q.E.D.<br />

Bemerkung 1.15 Sind F und G zwei Stammfunktionen von f auf [a, b], so ist<br />

(F − G) ′ = F ′ − G ′ = f − f = 0, d.h. F − G ist eine konstante Funktion (vgl. Satz<br />

10.11 (ii), <strong>Analysis</strong> I).<br />

Zwei Stammfunktionen von f unterscheiden sich also nur um eine additive Konstante.<br />

Umgekehrt ist mit F auch F + c für jede Konstante c ∈ C eine Stammfunktion<br />

von f.<br />

21


Satz 1.16 (Hauptsatz der Differential- und Integralrechnung) Ist F eine<br />

Stammfunktion der stetigen Funktion f auf [a, b], so gilt für alle x, y ∈ [a, b]:<br />

∫ y<br />

x<br />

f(t) dt = F(y) − F(x) .<br />

Beweis. Wir definieren für x ∈ [a, b]<br />

G(x) :=<br />

∫ x<br />

a<br />

f(t) dt .<br />

Dann existiert nach Theorem 1.14 und Bemerkung 1.15 eine Konstante c ∈ C, so<br />

daß gilt<br />

Somit ist<br />

F(x) = G(x) + c , x ∈ [a, b] .<br />

F(y) − F(x) = G(y) − G(x) =<br />

=<br />

∫ y<br />

a<br />

∫ y<br />

x<br />

f(t) dt −<br />

f(t) dt .<br />

∫ x<br />

a<br />

f(t) dt<br />

Q.E.D.<br />

Bezeichnung: Man setzt<br />

∣<br />

F(t)<br />

∣ y x<br />

:= F(y) − F(x) .<br />

Die Formel in Satz 1.16 schreibt sich dann als<br />

∫ y<br />

x<br />

∣<br />

f(t)dt = F(t)<br />

∣ y x<br />

.<br />

Die folgende Tabelle läßt sich durch Differentiation der angegebenen Funktionen F<br />

leicht überprüfen.<br />

22


Tabelle einiger Stammfunktionen<br />

f<br />

F (bis auf additive Konstante)<br />

x k , x ≠ 0<br />

x k+1<br />

k+1 , k ≠ −1<br />

x −1 , x ≠ 0 log |x|<br />

x α , x > 0<br />

x α+1<br />

α+1 , α ≠ −1<br />

e x<br />

e x<br />

e ix<br />

1 i eix<br />

sin x<br />

cos x<br />

sinh x<br />

cosh x<br />

− cosx<br />

sin x<br />

cosh x<br />

sinh x<br />

√ 1<br />

1−x 2, |x| < 1 arcsin x<br />

1<br />

√<br />

1+x 2<br />

arsinh x<br />

√ 1<br />

x<br />

, |x| > 1 arcosh x<br />

2 −1<br />

1<br />

arctan x<br />

1+x 2<br />

1<br />

cosh 2 x<br />

tanh x<br />

1<br />

, x ≠ 0 − coth x<br />

sinh 2 x<br />

1<br />

, |x| < π tan x<br />

cos 2 x 2<br />

1<br />

, 0 < x < π − cot x<br />

sin 2 x<br />

Beispielsweise erhält man nun für beliebiges n ∈ N:<br />

oder auch<br />

∫ a<br />

0<br />

∫ b<br />

a<br />

x n dx = xn+1 ∣<br />

n + 1<br />

1<br />

∣ ∣∣<br />

x dx = log x b<br />

a<br />

∣ a 0<br />

= an+1 − 0 n+1<br />

n + 1<br />

= an+1<br />

n + 1 ,<br />

( b<br />

= log b − log a = log ,<br />

a)<br />

für 0 < a < b.<br />

Weitere Regeln, welche für gewisse Klassen von Funktionen eine ”<br />

explizite“ Integration<br />

ermöglichen, lassen sich mittels Satz 1.16 aus entsprechenden Regeln für die<br />

Differentiation herleiten:<br />

23


Satz 1.17 (Partielle Integration) Seien f ∈ C([a, b]), g ∈ C 1 ([a, b]), und sei F<br />

eine Stammfunktion von f. Dann ist<br />

∫ b<br />

a<br />

f(x)g(x) dx = F(x)g(x) ∣ b −<br />

a<br />

∫ b<br />

a<br />

F(x)g ′ (x) dx.<br />

Beweis. Sei h = Fg. Dann ist h ∈ C 1 ([a, b]), und es gilt nach der Produktregel<br />

h ′ = F ′ g + Fg ′ = fg + Fg ′ .<br />

Damit folgt<br />

F(x)g(x) ∣ b =<br />

a<br />

∫ b<br />

h ′ (x) dx =<br />

∫ b<br />

fg dx +<br />

∫ b<br />

a<br />

a<br />

a<br />

Fg ′ dx.<br />

Q.E.D.<br />

Beispiele. a) Für 0 < a < b ist<br />

∫ b<br />

log xdx =<br />

∫ b<br />

a<br />

a<br />

1·log xdx = x log x∣ b a−<br />

∫ b<br />

a<br />

x· 1 ∣ ∣∣<br />

x dx = x log x b<br />

−x∣ b = x(log x−1) ∣ b<br />

a a a.<br />

b) Für n ∈ N, n ≥ 2, gilt:<br />

∫ π/2<br />

0<br />

sin n xdx =<br />

∫ π/2<br />

0<br />

sin x sin n−1 xdx<br />

= (− cos x) sin n−1 ∣<br />

x<br />

=<br />

woraus man sofort<br />

(1.10)<br />

erhält. Wegen<br />

∫ π/2<br />

0<br />

= (n − 1)<br />

∫ π/2<br />

0<br />

∫ π/2<br />

0<br />

∣ π/2<br />

0<br />

−<br />

∫ π/2<br />

(cos 2 x) (n − 1) sin n−2 xdx = (n − 1)<br />

∫ π/2<br />

0<br />

sin n−2 xdx − (n − 1)<br />

sin n xdx = n − 1<br />

n<br />

sin xdx = 1,<br />

0<br />

∫ π/2<br />

folgert man hieraus per Induktion nach n, daß<br />

0<br />

∫ π/2<br />

0<br />

(− cosx) (n − 1) sin n−2 x cosxdx<br />

∫ π/2<br />

0<br />

sin n−2 xdx<br />

sin 0 xdx = π/2<br />

∫ π/2<br />

0<br />

sin n xdx,<br />

(1 − sin 2 x) sin n−2 xdx,<br />

(1.11)<br />

∫ π/2<br />

0<br />

sin 2m+1 xdx =<br />

2m<br />

2m + 1 · 2m − 2<br />

2m − 1 · · · 2<br />

3 ,<br />

24


(1.12)<br />

∫ π/2<br />

0<br />

sin 2m xdx = 2m − 1<br />

2m · 2m − 3<br />

2m − 2 · · · 1<br />

2 · π<br />

2 .<br />

Per Division ergibt sich aus diesen Formeln<br />

(1.13)<br />

2<br />

π<br />

∫ π/2<br />

sin 2m xdx<br />

0<br />

∫ π/2<br />

sin 2m+1 xdx = 1 2 · 3<br />

2 · 3<br />

4 · 5<br />

4 · 5<br />

6 · 7<br />

6 · · · 2m − 1<br />

2m · 2m + 1<br />

2m<br />

0<br />

Setze nun s n := ∫ π/2<br />

sin n xdx. Auf dem Intervall 0 < x < π , wo 0 < sin x < 1 gilt,<br />

0 2<br />

ist offenbar<br />

0 < sin 2m+1 x ≤ sin 2m x ≤ sin 2m−1 x.<br />

Daraus folgt wegen der Monotonie des Integrals<br />

0 < s 2m+1 ≤ s 2m ≤ s 2m−1 .<br />

Teilt man hier jeden Term durch s 2m+1 , so folgt<br />

1 ≤ s 2m<br />

s 2m+1<br />

≤ s 2m−1<br />

s 2m+1<br />

= 1 + 1<br />

2m ,<br />

wobei wir bei der letzten Identität Formel (1.10) benutzt haben. Hieraus erhalten<br />

wir sofort<br />

∫ π/2<br />

sin 2m xdx<br />

0<br />

lim ∫<br />

m→∞ π/2<br />

sin 2m+1 dx = 1,<br />

0<br />

und zusammen mit (1.13) folgt<br />

2<br />

π = lim 1<br />

m→∞ 2 · 3<br />

2 · 3<br />

4 · 5<br />

4 · 5<br />

6 · 7<br />

6 · · · 2m − 1<br />

2m · 2m + 1<br />

2m<br />

(vergleiche das Beispiel zu Satz 5.3, <strong>Analysis</strong> I). Gehen wir zu den Kehrwerten über,<br />

so erhalten wir die Wallissche Produktdarstellung von π :<br />

(1.14)<br />

π<br />

2 = lim 2<br />

m→∞ 1 · 2<br />

3 · 4<br />

3 · 4<br />

5 · 6<br />

5 · 6<br />

7 · · · 2m<br />

2m − 1 · 2m<br />

2m + 1 .<br />

Satz 1.18 (Substitutionsregel) Sei I ein kompaktes Intervall und f ∈ C(I). Sei<br />

ferner ϕ : [a, b] → R eine stetig differenzierbare Funktion mit ϕ([a, b]) ⊂ I. Dann<br />

gilt<br />

∫ b<br />

a<br />

f(ϕ(t))ϕ ′ (t) dt =<br />

25<br />

∫ ϕ(b)<br />

ϕ(a)<br />

f(x) dx.


Beweis. Sei F eine Stammfunktion von f auf I. Dann ist F ◦ ϕ ∈ C 1 ([a, b]), und es<br />

ist nach der Kettenregel<br />

Somit ist nach Satz 1.16<br />

∫ b<br />

a<br />

(F ◦ ϕ) ′ (t) = F ′ (ϕ(t))ϕ ′ (t) = f(ϕ(t))ϕ ′ (t).<br />

f(ϕ(t))ϕ ′ (t) dt = F ◦ ϕ(t) ∣ b = F(ϕ(b)) − F(ϕ(a)).<br />

a<br />

Beispiele. a) Berechne ∫ π/2<br />

0<br />

e − sin x cosxdx.<br />

Q.E.D.<br />

Die Substitution y = sin x =: ϕ(x) liefert wegen ϕ ′ (x) = cos x (was man gerne auch<br />

in der suggestiven Kurzform<br />

cosxdx = dy<br />

schreibt)<br />

∫ π/2<br />

0<br />

e − sinx cosxdx =<br />

∫ sin(π/2)<br />

sin(0)<br />

e −y dy<br />

∣<br />

= −e −y ∣∣<br />

1<br />

= 1 − e −1 .<br />

0<br />

b) Bestimme ∫ x<br />

√<br />

0 1 − t2 dt, 0 ≤ x < 1.<br />

Die Substitution t = sin y, 0 < t < π/2, mit dt = cosy dy, liefert<br />

∫ x<br />

0<br />

√<br />

1 − t2 dt =<br />

∫<br />

arcsinx<br />

0<br />

√<br />

1 − sin 2 y cosy dy =<br />

∫<br />

arcsin x<br />

0<br />

cos 2 y dy.<br />

Ferner erhält man mittels partieller Integration<br />

∫ s<br />

0<br />

woraus<br />

cos 2 y dy<br />

∫ s<br />

= sin y cos y∣ s +<br />

0<br />

∫ s<br />

= 1 ∫ s<br />

2 sin(2s) + s − cos 2 y dy,<br />

0<br />

0<br />

0<br />

sin 2 y dy = sin s coss +<br />

∫ s<br />

cos 2 y dy = 1 2 (1 2 sin(2s) + s) = 1 (sin s cos+s)<br />

2<br />

0<br />

(1 − cos 2 y) dy<br />

folgt. Für s := arcsin x mit 0 ≤ x < 1 ist aber 0 ≤ s < π/2, also coss > 0, so daß<br />

sin s = x, cos s =<br />

√<br />

1 − sin 2 s = √ 1 − x 2 .<br />

26


Damit erhalten wir insgesamt<br />

∫ x<br />

0<br />

√<br />

1 − t2 dt = 1 2 (x√ 1 − x 2 + arcsin x).<br />

Man überprüfe durch Differentiation nach x, daß die rechte Seite dieser Identität in<br />

der Tat eine Stammfunktion zu √ 1 − x 2 ist!<br />

c) Bestimme das unbestimmte Integral ∫ arctan xdx<br />

(unter dem unbestimmten Integral “ ∫ f(x) dx von f versteht man dabei eine<br />

”<br />

beliebige Stammfunktion von f; das unbestimmte Integral ist also im Grunde nur<br />

bis auf eine additive Konstante wohldefiniert!).<br />

Mit der Produktregel erhalten wir zunächst<br />

∫<br />

∫<br />

arctanxdx = x arctanx −<br />

∫<br />

x arctan ′ (x) dx = x arctan x −<br />

x<br />

1 + x 2 dx.<br />

Die Substitution y = x 2 liefert ferner<br />

∫ ∫<br />

x<br />

1 + x dx = 1<br />

1<br />

2 2<br />

1 + y dy = 1 log(1 + y) + c = 1 log(1 + 2 2 x2 ) + c,<br />

so daß<br />

∫<br />

arctanxdx = x arctan x − 1 2 log(1 + x2 ) + c,<br />

wobei c eine beliebige Konstante ist (man prüfe dies durch Ableiten nach!).<br />

Satz 1.19 (Differentiation von Grenzfunktionen) Sei f : [a, b] → C eine<br />

Funktion auf dem Intervall [a, b], a < b. Ist f der punktweise Limes einer Folge<br />

von Funktionen (f n ) n in C 1 ([a, b]), und konvergiert die Folge der Ableitungen (f ′ n ) n<br />

gleichmäßig gegen eine Funktion g ∈ C([a, b]), so ist f bereits stetig differenzierbar<br />

auf [a, b], und es gilt:<br />

f ′ (x) = g(x) = lim f n ′ (x) für alle x ∈ [a, b].<br />

n→∞<br />

Beweis. Wir setzen G(x) := ∫ x<br />

g(t)dt, x ∈ [a, b]. Nach Satz 1.11 ist dann<br />

a<br />

G(x) = lim<br />

für alle x ∈ [a, b], also nach Satz 1.16<br />

n→∞<br />

∫ x<br />

a<br />

f ′ n(t) dt<br />

G(x) = lim<br />

n→∞<br />

(f n (x) − f n (a)) = f(x) − f(a).<br />

Da G nach Satz 1.14 in C 1 ([a, b]) liegt, gilt dies auch für f = G + f(a), und es ist<br />

f ′ = G ′ = g.<br />

Q.E.D.<br />

27


1.5 Integration rationaler Funktionen<br />

1.5.1 Partialbruchzerlegung<br />

Die folgenden Aussagen über rationale Funktionen gehören eher in den Bereich der<br />

Algebra und sollen daher nur kurz skizziert werden.<br />

Sei R = p mit Polynomen p und q eine rationale Funktion auf C. Bezeichnen wir<br />

q<br />

mit GradP den Grad eines Polynoms P, und setzen wir o.B.d.A. Gradq ≥ 1 voraus,<br />

so erhält man mittels Polynomdivision mit Rest leicht folgende Aussage:<br />

Es existieren eindeutige Polynome v und r, so daß<br />

(1.15) p = vq + r und Gradr < Grad q.<br />

Damit ist<br />

(1.16) R = p q = v + r , mit Gradr < Gradq.<br />

q<br />

Satz 1.20 (Zerlegung in Linearfaktoren) Sei P ein Polynom vom Grad n ≥ 1<br />

auf C. Dann gibt es komplexe Zahlen a ≠ 0 und α 1 , . . .,α n , so daß<br />

P(z) = a(z − α 1 ) · · ·(z − α n ), z ∈ C.<br />

Beweis. Nach dem Fundamentalsatz der Algebra besitzt P eine Nullstelle α n ∈ C.<br />

Wenden wir (1.15) an auf p = P und q(z) := (z − α n ), so folgt:<br />

P(z) = v(z)(z − α n ) + c,<br />

wobei c eine komplexe Konstante ist. Wegen P(α n ) = 0 ergibt sich c = 0, d.h.<br />

P(z) = v(z)(z − α n ). Da Gradv = GradP − 1, folgt die Behauptung nun per<br />

Induktion nach dem Grad des Polynoms.<br />

Q.E.D.<br />

Wenden wir diesen Satz auf q in (1.16) an, und fassen wir alle Linearfaktoren (z−α j )<br />

von q mit gleichem α j zusammen, so sehen wir:<br />

Es gibt paarweise verschiedene komplexe Zahlen λ 1 . . .λ m sowie n 1 , . . .n m ∈ N × , so<br />

daß n 1 + · · · + n m = Gradq und<br />

(1.17) q(z) = (z − λ 1 ) n1 · · ·(z − λ m ) nm .<br />

Die Zahl n j bezeichnet man dann auch als die Vielfachheit der Nullstelle λ j des<br />

Polynoms q, und die Polynome (z − λ j ) auch als die Primfaktoren von q.<br />

Da die Polynome<br />

q k (z) := ∏ j≠k(z − λ j ) n j<br />

, k = 1, . . .,m,<br />

28


teilerfremd “ im Ring C[x] aller komplexen Polynome sind, d.h., da die einzigen<br />

”<br />

Teilerpolynome von q 1 , . . .,q m die nicht-trivialen konstanten Polynome sind, und da<br />

dieser Ring ein Hauptidealring“ist, kann man mit Methoden der Algebra zeigen,<br />

”<br />

daß Polynome u 1 , . . .,u m existieren, so daß<br />

(1.18) 1 = u 1 (z) ∏ j≠1<br />

(z − λ j ) n j<br />

+ · · · + u m (z) ∏ j≠m(z − λ j ) n j<br />

.<br />

Der Beweis gehört eher in die Algebra, soll aber dennoch hier kurz skizziert werden:<br />

Betrachte die Teilmenge<br />

J := {v 1 q 1 + . . . v m q m : v 1 , . . .,v m ∈ C[x]}<br />

des Rings C[x]. Dann sieht man rasch, daß J ein Ideal in C[x] ist, d.h. mit Q, L ∈ J<br />

und P ∈ C[x] liegen stets auch Q+L sowie PQ in J. Wähle nun ein Polynom Q ≠ 0<br />

minimalen Grades in J. Ist dann L ∈ J ein beliebiges Polynom in J, so erhält man<br />

durch Polynomdivision mit Rest<br />

L = UQ + R,<br />

mit Polynomen U und R, wobei GradR < GradQ. Offenbar liegt mit Q und L<br />

jedoch auch R = L + (−U)Q in J, und da der Grad von Q minimal in J gewählt<br />

wurde, muß somit R = 0 sein, d.h., das Polynom Q teilt jedes Polynom aus J.<br />

Insbesondere teilt es die Polynome q 1 , . . .,q m , und da diese teilerfremd sind, muß<br />

notwendig Q eine nichttriviale Konstante a ∈ C \ {0} sein. Da diese in J liegt, folgt<br />

sofort (1.18).<br />

Multipliziert man nun (1.18) mit r , so erhält man unter Ausnutzung von (1.17)<br />

q<br />

r(z)<br />

q(z) =<br />

p 1(z)<br />

(z − λ 1 ) + · · · + p m(z)<br />

n 1<br />

(z − λ m ) ,<br />

nm<br />

mit gewissen Polynomen p 1 , . . .,p m .<br />

Teilt man schließlich p j (z) durch das Polynom (z − λ j ) mit Rest, und wiederholt<br />

diesen Vorgang genügend oft, so erhält man schließlich<br />

p j (z)<br />

(z − λ j ) n j = v j(z) +<br />

n j<br />

∑<br />

k=1<br />

a jk<br />

(z − λ j ) k,<br />

für gewisse Polynome v j und Koeffizienten a jk ∈ C. Zusammen mit (1.16) erhalten<br />

wir<br />

Satz 1.21 (Partialbruchzerlegung) Sei R = p q<br />

Dann besitzt R eine Darstellung<br />

eine rationale Funktion auf C.<br />

(1.19) R(z) = P(z) + h 1 (z) + . . .h m (z),<br />

29


mit einer Polynomfunktion P und Hauptteilen h j der Form<br />

(1.20) h j (z) =<br />

n j<br />

∑<br />

k=1<br />

a jk<br />

(z − λ j ) k.<br />

Dabei sind die λ j die paarweise verschiedenen Nullstellen und n j deren Vielfachheiten<br />

des Nennerpolynoms q, falls wir voraussetzen, daß die Polynome p und q<br />

keine gemeinsamen Linearfaktoren haben.<br />

Setzen wir o.B.d.A. voraus, daß a j nj ≠ 0, so nennt man λ j einen Pol der Ordnung<br />

n j von R. Man kann übrigens zeigen, daß die obige Zerlegung eindeutig ist.<br />

Für die konkrete Durchführung einer Partialbruchzerlegung ist die folgende offenkundige<br />

Beobachtung nützlich, welche es gestattet, den Koeffizienten a j nj für den<br />

Term mit höchstem Exponenten n j im Haupteil h j zu bestimmen:<br />

(1.21) a j nj = lim<br />

z→λj<br />

R(z)(z − λ j ) n j<br />

.<br />

Anhand zweier Beispiele möchte ich noch zeigen, wir man eine solche Partialbruchzerlegung<br />

konkret herstellen kann.<br />

Beispiele 1.22 (a) Sei<br />

R(z) := z + 1<br />

z(z − 1) 2.<br />

Da der Grad des Zählerpolynoms bereits kleiner als der Grad des Nennerpolynoms<br />

ist, besitzt die Partialbruchzerlegung die Gestalt<br />

(1.22) R(z) = a z + b 1<br />

(z − 1) + b 2<br />

(z − 1) 2.<br />

a und b 2 berechnen wir nach (1.21):<br />

Wegen R(z)z = z+1 ist a = lim R(z)z = 1, und wegen R(z)(z − 1) 2 = z+1<br />

(z−1) 2 z→0 z<br />

b 2 = lim R(z)(z − 1) 2 = 2.<br />

z→1<br />

Um b 1 zu bestimmen, betrachten wir die Differenz<br />

R 1 (z) := R(z) −<br />

(<br />

b<br />

)<br />

2<br />

az + = b 1<br />

(z − 1) 2 (z − 1) .<br />

ist<br />

Beachte, daß die rechte Seite gerade die Partialbruchzerlegung der neuen rationalen<br />

Funktion R 1 ist. Da a = 1, b 2 = 2 bekannt sind, ergibt eine einfache Rechnung<br />

R 1 (z) = −z2 + z<br />

z(z − 1) 2 = −1<br />

z − 1 .<br />

30


Hieraus ergibt sich sofort b 1 = −1, also insgesamt<br />

z + 1<br />

z(z − 1) = 1 2 z − 1<br />

(z − 1) + 2<br />

(z − 1) 2.<br />

Alternativ kann man b 1 auch aus (1.21), angewandt auf R 1 , gewinnen. Diese Bemerkung<br />

ist vor allem für den Fall von Polen höherer Ordnung von Bedeutung, da<br />

sich mit unserem Vorgehen ein Rekursionsschema zur Berechnung der Koeffizienten<br />

der Partialbruchzerlegung ergibt (damit erhalten wir dann auch die behauptete<br />

Eindeutigkeit der Partialbruchzerlegung).<br />

(b) Sei<br />

R(z) :=<br />

1<br />

(z − 2) 2 + 1 .<br />

Wegen (z −2) 2 +1 = (z −(2+i))(z −(2 −i)) besitzt die Partialbruchzerlegung von<br />

R die Gestalt<br />

a<br />

R(z) =<br />

z − (2 + i) + b<br />

z − (2 − i) .<br />

Mit (1.21) erhält man sofort a = 1 und b = − 1 , also insgesamt<br />

2i 2i<br />

1<br />

(z − 2) 2 + 1 = − i/2<br />

z − (2 + i) + i/2<br />

z − (2 − i) .<br />

1.5.2 Stammfunktionen rationaler Funktionen<br />

Sei R = p eine reellwertige rationale Funktion auf R, d.h. p und q sind reelle Polynomfunktionen.<br />

Betrachte die<br />

q<br />

Partialbruchzerlegung<br />

(1.23) R(x) = v(x) + h 1 (x) + . . . h m (x)<br />

mit einer Polynomfunktion v und Hauptteilen h j der Form<br />

(1.24) h j (x) =<br />

n j<br />

∑<br />

k=1<br />

a jk<br />

(x − λ j ) k<br />

von R, welche uns jetzt nur für reelles x ∈ R interessiert. Die Nullstellen λ j des<br />

Nennerpolynoms q können dabei reell oder auch komplex sein (vgl. obige Beispiele).<br />

Da jedoch R(x) = R(x) für alle x ∈ R gilt, tritt wegen der Eindeutigkeit der<br />

Partialbruchzerlegung mit jedem Term<br />

a jk<br />

(x−λ j ) k<br />

auch der konjugiert komplexe Term<br />

a jk<br />

(x−λ j ) k in der Partialbruchzerlegung auf. Diese Beobachtung ist vor allem für k = 1<br />

nützlich, denn ist λ = α + iβ, mit α, β ∈ R, so gilt<br />

Wir sehen damit:<br />

a<br />

(x − λ) + a (a + a)x − (aλ + aλ)<br />

= .<br />

(x − λ) (x − α) 2 + β 2<br />

Mittels Partialbruchzerlegung können wir die reelle rationale Funktion R zerlegen in<br />

eine Summe rationaler Funktionen folgenden Typs:<br />

31


(a) Eine Polynomfunktion.<br />

(b) Funktionen der Gestalt<br />

(c) Funktionen der Gestalt<br />

a<br />

mit n ≥ 2.<br />

(x − λ)<br />

n<br />

ax + b<br />

(x − α) 2 + β2, mit a, b, α, β ∈ R, wobei β ≠ 0.<br />

Polynomfunktionen lassen sich leicht integrieren, und die Funktionen vom Typ (b)<br />

besitzen z.B.<br />

a<br />

(1 − n)(x − λ) n−1<br />

als Stammfunktion (Übung). Die Funktionen vom Typ (c) schließlich lassen sich<br />

x − α<br />

kombinieren aus Funktionen der Gestalt<br />

(x − α) 2 + β2, welche offenbar die Funktion<br />

1<br />

2 log[(x − α)2 + β 2 ]<br />

als Stammfunktion besitzt (hierauf wird man durch die Substitution y = (x−α) 2 +β 2<br />

geführt), und Funktionen des Typs<br />

g(x) :=<br />

1<br />

(x − α) 2 + β 2.<br />

Die Substitution y = (t−a)<br />

β<br />

liefert hier z.B.<br />

∫ x<br />

0<br />

1<br />

(t − α) 2 + β dt = 1 ∫ (x−a)<br />

β<br />

2 β −a/β<br />

1<br />

y 2 + 1 dy,<br />

so daß offenbar eine Stammfunktion G zu g gegeben ist durch<br />

G(x) := 1 β arctan(x − a<br />

β ).<br />

Damit ist die Frage nach der Integration rationaler Funktionen im Prinzip<br />

vollständig gelöst.<br />

1.5.3 Integration von R(cosx, sinx).<br />

Sei R(x, y) eine rationale Funktion in den reellen Variablen x, y, und betrachte die<br />

Funktion f(x) := R(cos x, sin x). Z.B. könnte dies die Funktion f(x) := sinx cos2 x+5<br />

sin 2 x+7cos 4 x<br />

sein.<br />

Wenden wir die Substitution t := tan( x ) an, d.h. x = 2 arctant, so ist in unserer<br />

2<br />

formalen Schreibweise dx = 2 dt, und eine einfache Rechnung zeigt, daß cosx =<br />

1+t 2<br />

32


1−t 2<br />

ist und sin x = 2t , so daß das unbestimmte Integral ∫ R(cosx, sin x) dx in das<br />

1+t 2 1+t 2<br />

unbestimmte Integral ∫ ( 1 − t<br />

2<br />

2t<br />

) 2<br />

R<br />

1 + t 2, 1 + t 2 1 + t dt 2<br />

übergeht. Unter dem Integralzeichen steht nun eine rationale Funktion in der Variablen<br />

t, so daß das Integral mit Hilfe der Methoden des vorherigen Abschnitts<br />

prinzipiell berechnet werden kann. Ersetzt man im Ergebnis dieser Berechnung dann<br />

wieder t durch tan( x ), so erhält man eine Stammfunktion zu f.<br />

2<br />

Damit ist die Frage nach der Integration von Funktionen obiger Gestalt<br />

R(cosx, sin x) im Prinzip ebenfalls vollständig gelöst.<br />

Die Integrationen weiterer Klassen von Funktionen kann mittels geeigneter Substitutionen<br />

ebenfalls auf die Integration rationaler Funktionen zurückgeführt werden.<br />

Hierzu siehe z.B. [C], Kapitel IV.<br />

Bemerkungen. Während man die Ableitung einer Funktion, die sich aus den behandelten<br />

”<br />

elementaren“ Funktionen zusammensetzt, mit den bekannten Regeln<br />

direkt berechnen kann, lassen sich neben den ”<br />

Grundintegralen“ gewisse Klassen<br />

von Funktionen noch ”<br />

elementar integrieren“ in dem Sinne, daß sich explizite<br />

analytische Ausdrücke in den betrachteten elementaren Funktionen wie<br />

x α , e x , sin x, cosx, log, arctan etc. für Stammfunktionen angeben lassen. Beispielsweise<br />

gilt dies für alle rationalen Funktionen, wie wir gesehen haben. Allerdings gelingt<br />

dies oftmals nur noch mittels geschickter Ansätze und trickreicher Substitutionen:<br />

Die Differentiation gehört zum Handwerk, die Integration zur Kunst“.<br />

”<br />

Viele Integrale widersetzen sich jedoch allen Tricks. Zum Beispiel kann man beweisen,<br />

daß sich die elliptischen Integrale“<br />

”<br />

und<br />

F k (x) :=<br />

E k (x) :=<br />

∫ x<br />

0<br />

∫ x<br />

0<br />

1<br />

√ dt, (0 ≤ x < ∞)<br />

1 − k2 sin 2 t<br />

√<br />

1 − k 2 sin 2 tdt, (0 ≤ x < ∞)<br />

nicht elementar integrieren lassen (hier sei 0 < k < 1). Die elliptischen Integrale<br />

treten zum Beispiel bei der Berechnung der Bogenlänge einer Ellipse auf.<br />

1.6 Taylor-Approximation<br />

Ist P(x) = ∑ n<br />

k=0 a kx k eine polynomiale Abbildung, so ist offenbar<br />

d.h.<br />

(1.25) P(x) =<br />

a k = P (k) (0)/k! ,<br />

n∑<br />

k=0<br />

33<br />

P (k) (0)<br />

x k .<br />

k!


P ist also schon durch die Ableitungen (bis zur Ordnung n) im Punkte 0 bestimmt.<br />

Sei nun I ein nicht nur aus einem Punkt bestehendes Intervall. Ist f ∈ C n (I), und ist<br />

a ein Punkt aus I, so definieren wir (1.25) verallgemeinernd das Taylor-Polynom<br />

der Ordnung n in a von f als<br />

T n,a (f)(x) :=<br />

n∑<br />

k=0<br />

f (k) (a)<br />

(x − a) k .<br />

k!<br />

Wir wollen untersuchen, inwieweit dieses Polynom die gegebene Funktion f zumindest<br />

in der Nähe des Punktes a approximiert.<br />

Satz 1.23 (Taylor-Formel) Sei f ∈ C n+1 (I). Dann ist für alle x ∈ I<br />

f(x) = T n,a (f)(x) + R n (x) ,<br />

wobei<br />

ist.<br />

R n (x) = 1 n!<br />

∫ x<br />

a<br />

(x − t) n f (n+1) (t) dt<br />

Beweis durch Induktion nach n.<br />

Für n = 0 gilt nach dem Hauptsatz der Differential- und Integralrechnung<br />

f(x) = f(a) +<br />

∫ x<br />

a<br />

f ′ (t) dt = T 0,a (f)(x) + R 0 (x) .<br />

Wir nehmen an, daß die Formel für R n für ein gegebenes n ≥ 0 gültig ist. Dann<br />

folgt für f ∈ C n+2 (I) mittels partieller Integration<br />

∫ x<br />

R n (x) = 1 (x − t) n f (n+1) (t) dt<br />

n! a<br />

= 1 −1<br />

∫<br />

n! n + 1 (x − t)n+1 f (n+1) (t) ∣ x 1 x<br />

+ (x − t) n+1 f (n+2) (t) dt<br />

t=a n!(n + 1) a<br />

∫<br />

1<br />

=<br />

(n + 1)! f(n+1) (a)(x − a) n+1 1 x<br />

+ (x − t) n+1 f (n+2) (t) dt.<br />

(n + 1)!<br />

Hieraus folgt die Behauptung.<br />

a<br />

Q.E.D.<br />

Korollar 1.24 (Taylor-Approximation) Sei f ∈ C n+1 (I), und sei<br />

|f (n+1) (x)| ≤ M für alle x ∈ I.<br />

Dann gilt mit c k := f(k) (a)<br />

, k = 0, . . ., n :<br />

k!<br />

34


(1.26) f(x) = c 0 + c 1 (x − a) + c 2 (x − a) 2 + · · · + c n (x − a) n + R n (x) ,<br />

wobei<br />

|x − a|n+1<br />

(1.27) |R n (x)| ≤ M<br />

(n + 1)!<br />

Beweis. Ist |f (n+1) | auf I durch M ≥ 0 beschränkt, so erhält man für R n (x) folgende<br />

Abschätzung (sei o.B.d.A. x > a):<br />

|R n (x)| ≤ 1 n!<br />

∫ x<br />

a<br />

(x − t) n (x − a)n+1<br />

M dt = M<br />

(n + 1)!<br />

.<br />

.<br />

Q.E.D.<br />

Ist beispielsweise f ein Polynom vom Grade n, so ist f (n+1) = 0, d.h. man kann<br />

M = 0 wählen und erhält R n = 0. In diesem Falle ist also<br />

f(x) =<br />

n∑<br />

k=0<br />

f (k) (a)<br />

(x − a) k ,<br />

k!<br />

und zwar für jeden Punkt a ∈ R. Im allgemeinen Fall liefert (1.26), (1.27) eine Approximation<br />

von f durch ein Polynom vom Grade ≤ n, wobei der Fehler, welcher bei<br />

dieser Approximation auftritt, durch (1.27) kontrolliert wird und von der Ordnung<br />

O(|x − a| n+1 ) ist. Dieser ist offenbar um so geringer, je näher sich x bei a befindet;<br />

ferner wird sich i.a. die Güte der Approximation verbessern, je größer n gewählt<br />

werden kann.<br />

Für n = 4, M = 1 und |x−a| ≤ 1/2 beträgt der Fehler z.B. höchstens 2−5<br />

5!<br />

< 0, 00027.<br />

Für reellwertige Funktionen läßt sich das Restglied R n auch wie folgt darstellen:<br />

Satz 1.25 (Lagrangesche Form des Restglieds) Sei f ∈ C n+1 (I, R), und sei<br />

a ∈ I. Dann existiert zu jedem x ∈ I ein ξ zwischen a und x, so daß gilt:<br />

(1.28) f(x) =<br />

n∑<br />

k=0<br />

f (k) (a)<br />

(x − a) k + f(n+1) (ξ)<br />

k! (n + 1)! (x − a)n+1 .<br />

Insbesondere gilt<br />

(1.29) f(x) =<br />

∑n+1<br />

k=0<br />

f (k) (a)<br />

(x − a) k + o(|x − a| n+1 ) .<br />

k!<br />

35


Bemerkung 1.26 Ist f ∈ C 2 (I, R), und ist ξ ∈ I ein kritischer Punkt von f, d.h.<br />

ist f ′ (ξ) = 0, und gilt ferner f ′′ (ξ) > 0, so folgert man mit (1.29) leicht, daß f in ξ<br />

ein lokales Mimimum besitzt (Übung).<br />

Für den Beweis benutzen wir<br />

Satz 1.27 (Mittelwertsatz für Integrale) Seien f, w ∈ C(I, R) stetige reellwertige<br />

Funktionen auf dem Intervall I = [a, b]. Ist w ≥ 0 auf I, so gibt es einen Punkt<br />

ξ ∈ I, so daß gilt:<br />

Beweis. Sei<br />

∫ b<br />

a<br />

f(x) w(x) dx = f(ξ)<br />

c :=<br />

∫ b<br />

a<br />

∫ b<br />

a<br />

w(y) dy ∈ R + 0 .<br />

Nach dem Satz vom Maximum gibt es ξ 1 , ξ 2 ∈ I mit<br />

Es folgt<br />

also nach Integration über I<br />

w(x) dx.<br />

f(ξ 1 ) ≤ f(x) ≤ f(ξ 2 ) für alle x ∈ I.<br />

f(ξ 1 ) w(x) ≤ f(x) w(x) ≤ f(ξ 2 ) w(x) für alle x ∈ I,<br />

cf(ξ 1 ) ≤<br />

∫ b<br />

a<br />

f(x) w(x) dx ≤ cf(ξ 2 ).<br />

Wenden wir den Zwischenwertsatz auf die stetige Funktion cf an, so gibt es also ein<br />

ξ ∈ I mit cf(ξ) = ∫ b<br />

f(x) w(x) dx.<br />

a<br />

Q.E.D.<br />

Beweis von Satz 1.25. Wenden wir obigen Mittelwertsatz auf das Integral<br />

R n (x) = 1 n!<br />

∫ x<br />

a<br />

(x − t) n f (n+1) (t) dt<br />

an, mit w(t) := (x − t) n (x ist hier festgehalten!), so finden wir ein ξ ∈ [a, b] mit<br />

R n (x) = f (n+1) (ξ) 1 n!<br />

womit (1.28) bewiesen ist.<br />

Setzen wir<br />

∫ x<br />

a<br />

(x − t) n dt = f(n+1) (ξ)<br />

(n + 1)! (x − a)n+1 ,<br />

r(x) := f(n+1) (ξ)<br />

(n + 1)! − f(n+1) (a)<br />

(n + 1)! ,<br />

36


so gilt damit<br />

f(x) =<br />

∑n+1<br />

k=0<br />

f (k) (a)<br />

(x − a) k + r(x)(x − a) n+1 .<br />

k!<br />

Da ξ zwischen a und x liegt, gilt dabei aufgrund der Stetigkeit von f (n+1) im Punkte<br />

a offenbar lim<br />

x→a<br />

r(x) = 0. Damit ist auch (1.29) nachgewiesen.<br />

Q.E.D.<br />

Ist f ∈ C ∞ (I) unendlich oft differenzierbar, und ist a ∈ I, so heißt die Potenzreihe<br />

in (x − a)<br />

∞∑ f (k) (a)<br />

T a (f)(x) := (x − a) k<br />

k!<br />

die Taylorreihe von f in a.<br />

k=0<br />

37


WARNUNGEN:<br />

i) Der Konvergenzradius von T a (f) kann durchaus 0 sein.<br />

ii) Falls die Taylorreihe von f konvergiert, so konvergiert sie nicht notwendig<br />

gegen f.<br />

Beispiel 1.28 Betrachte die Funktion ϕ : R → R,<br />

{<br />

e −1/x , x > 0,<br />

ϕ(x) :=<br />

0, x ≤ 0.<br />

Man kann zeigen, daß ϕ unendlich oft differenzierbar ist, auch in der 0, so dass<br />

insbesondere ϕ (k) (0) = 0 für alle k ∈ N. Die Taylorreihe von ϕ in a = 0 stellt somit<br />

die triviale Funktion f = 0 dar, welche offenkundig verschieden von ϕ ist (Übung)!<br />

1.7 Das uneigentliche Riemannsche Integral<br />

Sei I ein halboffenes Intervall der Form I = [a, b[ mit −∞ < a < b ≤ ∞, und sei<br />

f : I → C eine Funktion auf I.<br />

Ist β ∈ [a, b[, und ist die Einschränkung f| [a,β] von f auf [a, β] integrierbar, so sagen<br />

wir, daß f auf [a, β] integrierbar ist und schreiben schreiben<br />

∫ β<br />

a<br />

f(x) dx :=<br />

∫ β<br />

a<br />

f| [a,β] (x) dx .<br />

Definition. Die Funktion f : I → C heiße auf I im uneigentlichen Sinne integrierbar<br />

oder uneigentlich integrierbar, falls f auf jedem kompakten Teilintervall<br />

[a, β] mit β ∈ [a, b[ integrierbar ist und der Grenzwert<br />

∫ β<br />

lim f(x) dx<br />

β→b<br />

a<br />

existiert. Dieser Grenzwert heißt das uneigentliche Riemannsche Integral von<br />

f über das Intervall [a, b[ und wird mit<br />

∫ b<br />

a<br />

f(x) dx<br />

bezeichnet. Eine analoge Definition gilt für links-halboffene Intervalle ]a, b] mit<br />

−∞ ≤ a < b < ∞. Ist −∞ ≤ a < b ≤ +∞, so heißt f :]a, b[→ C uneigentlich<br />

38


integrierbar, wenn für ein c ∈]a, b[ die Einschränkungen von f auf die Intervalle<br />

]a, c] und [c, b[ uneigentlich integrierbar sind. Das Integral ist in diesem Falle durch<br />

definiert.<br />

∫ b<br />

f dx :=<br />

∫ c<br />

f dx +<br />

∫ b<br />

a<br />

a c<br />

f dx<br />

Bemerkungen: a) Es ist klar, daß im letzten Falle die Definition unabhängig von<br />

der Wahl von c ∈]a, b[ ist.<br />

b) Sind a, b ∈ R und ist f auf [a, b] integrierbar, so ist f auch auf jedem anderen<br />

Intervall I mit den Endpunkten a und b uneigentlich integrierbar, und die Integrale<br />

stimmen überein.<br />

Wir bezeichnen für s ∈ R mit p s die auf ]0, ∞[ durch p s (x) := x s definierte stetige<br />

Funktion.<br />

Satz 1.29 (i) p s ist genau dann auf dem Intervall ]0, 1] uneigentlich integrierbar,<br />

wenn s > −1 ist. Dann gilt:<br />

∫ 1<br />

0<br />

x s dx = 1<br />

s + 1 .<br />

(ii) p s ist genau dann auf dem Intervall [1, ∞[ uneigentlich integrierbar, wenn s < −1<br />

ist. Dann gilt<br />

∫ ∞<br />

x s dx = −1<br />

s + 1 .<br />

Beweis. Dies folgt sofort aus den für 0 < a < b gültigen Formeln<br />

∫ b<br />

a<br />

∫ b<br />

a<br />

1<br />

x s dx = 1<br />

s + 1 (bs+1 − a s+1 ), s ≠ 1<br />

x −1 dx = log b a .<br />

Z.B. ist danach für 0 < α < 1 und s > −1<br />

∫ 1<br />

α<br />

x s dx = 1<br />

s + 1 (1 − αs+1 ),<br />

woraus wegen s + 1 > 0 folgt, daß der Grenzwert für α → 0 existiert und gegeben<br />

ist durch ∫ 1 ∫ 1<br />

0 xs dx = lim<br />

α→0 α xs dx = 1 . s+1<br />

Für s < −1 zeigt dieselbe Formel, daß der Grenzwert nicht existiert, da der Exponent<br />

s+1 negativ ist. Ähnlich folgt für s = −1 aus ∫ 1<br />

α x−1 dx = log 1 , daß der Grenzwert<br />

α<br />

ebenfalls nicht existiert.<br />

Analog beweist man die Aussagen in (ii).<br />

Q.E.D.<br />

39


1.8 Rektifizierbare Kurven<br />

Definition. Eine stetige Abbildung γ von einem kompakten Intervall [a, b] nach C<br />

heißt eine Kurve oder ein Weg in C. Ist γ(a) = γ(b), so heißt γ eine geschlossene<br />

Kurve. Die Bildmenge γ([a, b]) bezeichnet man als die Spur der Kurve.<br />

Achtung: Eine Kurve ist also eine Abbildung, während ihre Spur das ist, was<br />

man sich anschaulich eher unter einer Kurve vorstellt. Verschieden Kurven können<br />

insbesondere dieselbe Spur besitzen.<br />

γ(x n)<br />

γ(x 1)<br />

γ(x 2)<br />

γ(x 0)<br />

γ(x 3)<br />

Abb. 1.1: Bogenlänge<br />

Ist P = {x 0 , . . ., x n } eine Partition von [a, b], d.h. sind die x j Punkte in [a, b] mit<br />

a = x 0 < x 1 < · · · < x n = b,<br />

so ordnen wir dieser die Zahl<br />

L(P, γ) :=<br />

n∑<br />

|γ(x j ) − γ(x j−1 )|<br />

j=1<br />

zu. Da |γ(x j )−γ(x j−1 )| der Abstand zwischen den Punkten γ(x j−1 ) und γ(x j ) ist, ist<br />

L(P, γ) offenbar die Länge des Polygonzuges mit den Ecken γ(x 0 ), γ(x 1 ), . . .γ(x n ),<br />

in dieser Reihenfolge. Wählen wir die Partition immer feiner, so nähert sich dieser<br />

Polygonzug anschaulich der Spur von γ immer mehr. Somit ist es sinnvoll, die Länge<br />

von γ als<br />

L(γ) := sup L(γ, P)<br />

P<br />

zu definieren, wobei das Supremum über alle Partitionen von [a, b] gebildet wird. Ist<br />

L(γ) < ∞, so sagt man, γ sei rektifizierbar.<br />

Sei nun γ eine stetig differenzierbare Kurve. In diesem Fall gilt nach dem Hauptsatz<br />

der Differential- und Integralrechnung<br />

γ(x j ) − γ(x j−1 ) =<br />

40<br />

∫ xj<br />

x j−1<br />

γ ′ (t) dt,


also insbesondere |γ(x j ) −γ(x j−1 )| ≤ ∫ x j<br />

x j−1<br />

|γ ′ (t)| dt. Hieraus folgt durch Summation<br />

für jede Partition P von [a, b]<br />

L(P, γ) ≤<br />

so daß γ rektifizierbar ist. Genauer gilt<br />

∫ b<br />

a<br />

|γ ′ (t)| dt < ∞,<br />

Satz 1.30 Ist die Kurve γ : [a, b] → C stetig differenzierbar, so ist sie rektifizierbar,<br />

und es gilt<br />

L(γ) =<br />

∫ b<br />

a<br />

|γ ′ (t)| dt.<br />

Ich möchte dies hier nur für den (nicht sonderliche interessanten) Fall beweisen,<br />

daß γ rellwertig ist, da man hier leicht mit Hilfe des Mittelwertsatzes für Integrale<br />

argumentieren kann. Danach ist nämlich für jede Partition P wie zuvor offenbar<br />

|γ(x j ) − γ(x j−1 )| = |γ ′ (ξ j )<br />

∫ xj<br />

für geeignete Punkte ξ j ∈ [x j−1 , x j ], so daß<br />

x j−1<br />

dt| = |γ ′ (ξ j )|(x j−1 − x j ),<br />

L(P, γ) =<br />

n∑<br />

|γ ′ (ξ j )|(x j−1 − x j ).<br />

j=1<br />

Die Riemannsumme auf der rechten Seite konvergiert aber offenbar gegen das Integral<br />

∫ b<br />

a |γ′ (t)| dt, falls die Feinheit der Partition gegen Null stebt.<br />

Für einen Beweis im allgemeinen Fall sei z.B. auf Rudins Buch [R], S. 159, verwiesen.<br />

Beispiel: Bogenlänge auf dem Kreis: Es bezeichne wieder cis : [0, 2π] → C<br />

die Funktion t ↦→ e it . In der <strong>Analysis</strong> I hatten wir gesehen, daß cis das halboffene<br />

Intervall [0, 2π[ bijektiv auf den Einheitskreis S 1 abbildet. Wegen cis(0) = cis(2π) ist<br />

cis : [0, 2π] → C somit eine geschlossene Kurve, und ihre Spur ist der Einheitskreis.<br />

Ferner ist cis ′ (t) = ie it , also |cis ′ (t)| = 1 für alle t.<br />

Ist nun 0 ≤ α ≤ 2π, so beschreibt das Integral ∫ α<br />

0 |cis′ (t)| dt die Länge des Kreisbogens<br />

mit Anfangspunkt cis(0) = 1 und Endpunkt cis(α) = e iα , welche sich nach<br />

Satz 1.30 berechnet zu<br />

∫ α<br />

0<br />

|cis ′ (t)| dt =<br />

∫ α<br />

0<br />

1 dt = α.<br />

Dies bedeutet, daß der Parameter α tatsächlich der Winkel, gemessen im Bogenmaß,<br />

zwischen dem Punkt e iα auf dem Einheitskreis und dem Punkt 1 auf der reellen<br />

Achse ist. Dies rundet unser geometrisches Bild von der Abbildung t ↦→ e it , welche<br />

wir ja bereits in der <strong>Analysis</strong> I betrachtet hatten, ab.<br />

41


Kapitel 2<br />

Normierte Vektorräume<br />

2.1 Grundlegende Begriffe<br />

Definitionen. Sei E ein Vektorraum über K = R oder K = C (im folgenden kurz<br />

Vektorraum“genannt). Unter einer Norm auf E versteht man eine Abbildung<br />

”<br />

‖ · ‖ : E → R<br />

mit folgenden Eigenschaften: Für alle x, y ∈ E und λ ∈ K gilt<br />

(a) ‖x‖ ≥ 0;<br />

(b) ‖x‖ = 0 ⇔ x = 0;<br />

(c) ‖λx‖ = |λ| ‖x‖;<br />

(d) ‖x + y‖ ≤ ‖x‖ + ‖y‖.<br />

(Dreiecksungleichung)<br />

Diese Eigenschaften ähneln denen des Absolutbetrags | · | einer reellen oder komplexen<br />

Zahl, und in der Tat ist dieser eine Norm auf E = R bzw. E = C. Ein<br />

weiteres Beispiel ist die Supremumsnorm ‖ · ‖ u auf dem Vektorraum E = B(X) aller<br />

beschränkten Funktionen auf einer nichtleeren Menge X (siehe Bemerkungen 1.5).<br />

Ein normierter Vektorraum ist ein Paar (E, ‖ · ‖), bestehend aus einem Vektorraum<br />

E und einer Norm ‖ · ‖ auf E. Ist aus dem Kontext klar, um welche Norm es<br />

sich handelt, so schreibt man meist nur E anstelle des Paares (E, ‖ · ‖).<br />

Eine Folge (x j ) j in E heiße konvergent mit Grenzwert x ∈ E (in Zeichen : x j → x<br />

oder x = lim<br />

j→∞<br />

x j ), wenn es zu jedem ε > 0 ein j 0 = j 0 (ε) ∈ N gibt so, daß gilt:<br />

‖x − x j ‖ < ε für alle j ≥ j 0 .<br />

Sie heiße Cauchy-Folge, wenn es zu jedem ε > 0 ein j 0 = j 0 (ε) ∈ N gibt so, daß<br />

gilt:<br />

‖x j − x k ‖ < ε für alle j, k ≥ j 0 .<br />

42


E heiße vollständig, wenn jede Cauchy-Folge in E einen Grenzwert in E besitzt.<br />

Vollständige normierte Vektorräume heißen auch Banachräume.<br />

Beispiel. In der <strong>Analysis</strong> I (vergl. Satz 5.15 sowie die Bemerkung nach Satz 7.3)<br />

wurde gezeigt, daß (K, | · |) ein vollständiger 1-dimensionaler Vektorraum über K,<br />

K = R oder K = C, ist.<br />

Die Vollständigkeit eines normierten Vektorraums ist eine fundamentale Eigenschaft.<br />

Man kann beweisen, daß jeder normierte Vektorraum eine ”<br />

Vervollständigung“ besitzt,<br />

ähnlich wie sich R durch Vervollständigung aus Q gewinnen läßt.<br />

Ist (x n ) n∈N eine Folge in E, so versteht man unter der unendlichen Reihe ∞ ∑<br />

zunächst die Folge (s n ) n∈N der Partialsummen<br />

x k<br />

k=0<br />

s n :=<br />

n∑<br />

x k = x 0 + · · · + x n , n ∈ N,<br />

k=0<br />

k=0<br />

in E. Konvergiert diese gegen einen Grenzwert s ∈ E, so bezeichnet man diesen<br />

∑<br />

ebenfalls mit ∞ x k , ganz ähnlich wie für Zahlenreihen. Analog zum Begriff der ab-<br />

∑<br />

soluten Konvergenz bezeichnet man die Reihe ∞ x k in E als normal konvergent,<br />

∑<br />

falls die Reihe ∞ ∑<br />

‖x k ‖ konvergiert, d.h. falls ∞ ‖x k ‖ < ∞. Es gelten dann die<br />

k=0<br />

folgenden Analoga zu den entsprechenden Sätzen 5.17 und 8.1 aus der <strong>Analysis</strong> I:<br />

Satz 2.1 (Cauchy-Kriterium für Reihen) Sei E ein Banachraum. Dann ist eine<br />

Reihe ∑ k x k in E genau dann konvergent, wenn es zu jedem ε > 0 ein n(ε) ∈ N<br />

gibt, so daß ∥ ∥ ∥∥∥∥ ∑ m ∥∥∥∥<br />

x k < ε für alle m ≥ n ≥ n(ε).<br />

k=n<br />

Satz 2.2 Sei E ein Banachraum. Eine normal konvergente Reihe in E konvergiert<br />

auch im gewöhnlichen Sinn.<br />

Diese Sätze können fast wortgleich wie die analogen Sätze über Zahlenreihen bewiesen<br />

werden; man muß nur den Betrag |·| einer Zahl durch die Norm ‖·‖ auf E ersetzen<br />

und den Begriff der absoluten Konvergenz durch den der normalen Konvergenz.<br />

k=0<br />

k=0<br />

2.2 p-Normen auf K n und die Banachräume l p<br />

Sei wieder K = R oder K = C. Wir wollen nun eine wichtige Klasse von Normen<br />

auf dem K n einführen.<br />

43


2.2.1 Die p-Norm auf dem K n<br />

Ist x = (x 1 , . . .,x n ) ein Vektor im K n , so setzen wir<br />

falls 1 ≤ p < ∞, und<br />

Wir bemerken, daß<br />

‖x‖ p := (|x 1 | p + · · · + |x n | p ) 1/p ,<br />

‖x‖ ∞ := max<br />

j=1,...,n |x j|.<br />

‖x‖ ∞ = lim<br />

p→∞<br />

‖x‖ p ,<br />

was die Notation ‖ · ‖ ∞ rechtfertigt (Übung). Wir werden zeigen, daß für jedes p<br />

mit 1 ≤ p ≤ ∞ durch ‖ · ‖ p eine Norm auf dem n-dimensionalen K-Vektorraum<br />

K n gegeben ist. Hierzu erweist es sich als nützlich, zu einer etwas allgemeineren<br />

Situation überzugehen.<br />

Sei dazu A eine beliebige Menge der Mächtigkeit n ∈ N × . Die Menge K A aller<br />

Funktionen f : A → K, versehen mit der üblichen Addition sowie Multiplikation mit<br />

Skalaren aus dem Körper K, bildet dann einen n-dimensionalen K-Vektorraum. Ist<br />

nämlich A = {a 1 , . . ., a n } eine Abzählung der Menge A, so ist durch die Abbildung<br />

Φ : f ↦→ (f(a 1 ), . . .,f(a n ))<br />

ein linearer Isomorphismus Φ : K A → K n definiert, wie man sofort sieht. Setzen wir<br />

für f ∈ K A ‖f‖ p :=<br />

( ) 1/p<br />

∑<br />

|f(a)| p =<br />

a∈A<br />

|f(a j )| p ) 1/p<br />

,<br />

( n∑<br />

j=1<br />

falls 1 ≤ p < ∞, und<br />

so gilt offenbar zudem<br />

‖f‖ ∞ := max<br />

a∈A |f(a)|,<br />

‖f‖ p = ‖Φ(f)‖ p für alle f ∈ K A .<br />

Damit wird klar, daß es genügt zu zeigen, daß durch ‖ · ‖ p eine Norm auf dem<br />

Vektorraum K A definiert ist. Hierzu beobachten wir zuerst, daß sich die Höldersche<br />

Ungleichung aus Satz 10.22 (<strong>Analysis</strong> I) umschreiben läßt als<br />

(<br />

n∑<br />

n∑<br />

) 1/p ( n∑<br />

) 1/q<br />

|f(a j )g(a j )| ≤ |f(a j )| p |g(a j )| q ,<br />

j=1<br />

j=1<br />

j=1<br />

falls 1 < p, q mit 1 p + 1 q<br />

= 1, d.h. als<br />

(2.1) ‖fg‖ 1 ≤ ‖f‖ p ‖g‖ q , f, g ∈ K A .<br />

44


Diese Ungleichung bleibt, wie man leicht nachprüft, auch noch gültig für p = 1 und<br />

q = ∞ sowie p = ∞ und q = 1. Somit gilt diese Höldersche Ungleichung (2.1)<br />

wann immer p, q ∈ [1, ∞] konjugierte Exponenten sind, d.h. falls gilt<br />

1<br />

p + 1 q = 1.<br />

Dabei sei in diesem Zusammenhang 1 := 0 gesetzt. Beachte, daß für 1 < p < ∞<br />

∞<br />

der konjugierte Exponent zu p gegeben ist durch<br />

q =<br />

p<br />

p − 1 .<br />

Satz 2.3 (Minkowskische Ungleichung) Sei A eine endliche Menge, und sei<br />

1 ≤ p ≤ ∞. Sind f, g ∈ K A , so gilt<br />

(2.2) ‖f + g‖ p ≤ ‖f‖ p + ‖g‖ p .<br />

Insbesondere gilt damit auch<br />

‖x + y‖ p ≤ ‖x‖ p + ‖y‖ p für alle x, y ∈ K n .<br />

Beweis. Für p = 1 und p = ∞ ist die Ungleichung klar. Sei also 1 < p < ∞. Dann<br />

gilt<br />

∑<br />

|(f + g)(a)| p ≤ ∑ |f(a)| |(f + g)(a)| p−1 + ∑ |g(a)| |(f + g)(a)| p−1 .<br />

a∈A<br />

a∈A<br />

a∈A<br />

Wendet man auf diese beiden Summen jeweils die Höldersche Ungleichung an, so<br />

folgt wegen q(p − 1) = p offenbar<br />

∑<br />

|(f + g)(a)| p ≤ ‖f‖ p (‖f + g‖ p ) p/q + ‖g‖ p (‖f + g‖ p ) p/q .<br />

a∈A<br />

Mit p/q = p − 1 folgt hieraus<br />

also<br />

und damit die behauptete Ungleichung.<br />

‖f + g‖ p p ≤ (‖f‖ p + ‖g‖ p )‖f + g|| p−1<br />

p ,<br />

‖f + g‖ p ≤ ‖f‖ p + ‖g‖ p ,<br />

Q.E.D.<br />

Korollar 2.4 Für 1 ≤ p ≤ ∞ ist durch ‖ · ‖ p eine Norm auf dem K-Vektorraum<br />

K A (bzw. auf dem K n ) gegeben.<br />

Beweis. Sind f ∈ K A und λ ∈ K, so gilt offenbar ‖λf‖ p = |λ| ‖f‖ p . Ferner zeigt<br />

die Minkowskische Ungleichung, daß die Dreiecksungleichung für ‖ · ‖ p erfüllt ist.<br />

Um nachzuweisen, daß ‖ · ‖ p eine Norm ist, bleibt nur noch zu zeigen, daß ‖f‖ p = 0<br />

äquivalent zu f = 0 ist. Dies folgt aber unmittelbar aus der Definition. Q.E.D.<br />

45


2.2.2 Die Räume l p (A)<br />

Ist A eine endliche Menge, so bezeichnet man den Vektorraum K A , versehen mit der<br />

p-Norm ‖ · ‖ p , mit l p (A).<br />

Diese Definition läßt sich sogar auf den Fall unendlicher Menge A und damit auf<br />

den Fall unendlich-dimensionaler Räume ausdehnen, wie wir nun zeigen werden.<br />

Definitionen. Sei 1 ≤ p ≤ ∞, und sei A eine unendliche Menge. Ist E ⊂ A eine<br />

endliche Teilmenge, so setzen wir für jede Funktion f : A → K<br />

sowie<br />

‖f‖ E,p := ‖f| E ‖ p ,<br />

‖f‖ p := sup{‖f‖ E,p : E ⊂ A, E endlich}.<br />

Beachte: Es kann durchaus ‖f‖ p = ∞ sein, falls A unendlich ist.<br />

Wir werden uns hauptsächlich für den Fall abzählbarer Mengen A interessieren,<br />

insbesondere A = N und A = Z.<br />

Definitionen. f ∈ K A heiße p-summierbar, falls ‖f‖ p < ∞. Mit l p (A) bezeichnen<br />

wir die Menge aller p-summierbaren Abbildungen f : A → K. l ∞ (A) besteht offenbar<br />

aus der Menge B(A) aller beschränkten Abbildungen von A nach K, und es ist<br />

‖f‖ ∞ = sup |f(a)| = ‖f‖ u .<br />

a∈A<br />

Lemma 2.5<br />

(i) Ist 1 ≤ p < ∞, und ist f ∈ l p (A), so ist<br />

( { 1/p ∑<br />

‖f‖ p = sup |f(a)| p : E ⊂ A, E endlich})<br />

.<br />

a∈E<br />

(ii) Ist A abzählbar unendlich, und ist die Folge (a j ) j∈N eine bijektive Abzählung<br />

von A (d.h. die Abbildung N ∋ j ↦→ a j ∈ A ist bijektiv), so gilt<br />

⎧(<br />

) 1/p<br />

∞∑ ⎪⎨ |f(a j )| p , 1 ≤ p < ∞,<br />

‖f‖ p = j=0<br />

⎪⎩ sup |f(a j )| , p = ∞.<br />

j∈N<br />

Beweis. (i) Für E ⊂ A, |E| < ∞, und f ∈ l p (A) sei r E<br />

:= ∑ |f(a)| p . Da die<br />

a∈E<br />

Abbildung r ↦→ r 1/p und ihre Umkehrfunktion r ↦→ r p monoton wachsend auf [0, ∞[<br />

sind, folgt:<br />

‖f‖ p = sup{r 1/p<br />

E<br />

: E ⊂ A, |E| < ∞}<br />

= (sup{r E , E ⊂ A, |E| < ∞}) 1/p ,<br />

46


womit (i) bewiesen ist.<br />

(ii) Übungsaufgabe.<br />

Q.E.D.<br />

Satz 2.6 (Höldersche Ungleichung) Seien p, q ∈ [1, ∞] konjugierte Exponenten,<br />

und seien f ∈ l p (A), g ∈ l q (A). Dann liegt die Funktion fg in l 1 (A), und es<br />

gilt<br />

(2.3) ‖fg‖ 1 ≤ ‖f‖ p ‖g‖ q<br />

Beweis. Ist E ⊂ A endlich, so gilt mit (2.1)<br />

‖fg‖ E,1 ≤ ‖f‖ E,p ‖g‖ E,q ≤ ‖f‖ p ‖g‖ q .<br />

Bildet man hier das Supremum über alle endlichen Teilmengen E von A, so folgt<br />

(2.3). Q.E.D.<br />

Satz 2.7 (Minkowskische Ungleichung) Sei 1 ≤ p ≤ ∞. Sind f, g ∈ l p (A), so<br />

ist auch f + g ∈ l p (A), und es gilt:<br />

(2.4) ‖f + g‖ p ≤ ‖f‖ p + ‖g‖ p .<br />

Beweis. Ist E ⊂ A endlich, so gilt mit Satz 2.3<br />

‖f + g‖ E,p ≤ ‖f‖ E,p + ‖g‖ E,p ≤ ‖f‖ p + ‖g‖ p .<br />

Dies zeigt, daß mit f, g ∈ l p (A) auch f + g in l p (A) liegt, und bildet man wieder<br />

das Supremum über alle endlichen Teilmengen E von A, so folgt (2.4). Q.E.D.<br />

Da offenbar ‖λf‖ p = |λ|‖f‖ p ist für alle f ∈ l p (A) und λ ∈ K, so ist damit offenbar<br />

l p (A) ein K-Vektorraum, und ganz ähnlich wie in Korollar 2.4 folgert man, daß ‖·‖ p<br />

auch im Falle unendlicher Mengen A eine Norm auf l p (A) ist, d.h.<br />

(l p (A), ‖ · ‖ p ) bildet einen normierten Vektorraum über K.<br />

Theorem 2.8 Für jede endliche oder auch unendliche Menge A und 1 ≤ p ≤ ∞<br />

ist der normierte Raum (l p (A), ‖ · ‖ p ) vollständig.<br />

Beweis. Sei (f j ) j eine Cauchy-Folge in l p (A). Wir müssen zeigen, daß (f j ) j bzgl.<br />

der p-Norm einer Grenzfunktion f ∈ l p (A) entgegenstrebt.<br />

Da für jede endliche Teilmenge E ⊂ A und g ∈ l p (A) stets ‖g| E ‖ p ≤ ‖g‖ p ist, so ist<br />

insbesondere für jedes a ∈ A mit der Menge E := {a}<br />

|f j (a) − f k (a)| = ‖(f j − f k )| {a} ‖ p ≤ ‖f j − f k ‖ p ,<br />

47


d.h. (f j (a)) j ist eine Cauchy-Folge in K. Wegen der Vollständigkeit von K besitzt<br />

diese einen eindeutigen Grenzwert in K, welchen wir mit f(a) bezeichnen:<br />

(2.5) lim<br />

j→∞<br />

f j (a) =: f(a) für jedes a ∈ A.<br />

Wir zeigen, daß die hierdurch definierte Abbildung f : A → K p-summierbar ist,<br />

und daß ‖f j − f‖ p → 0 für j → ∞.<br />

Sei ε > 0, und wähle j 0 so groß, daß<br />

‖f j − f k ‖ p < ε ∀ j, k ≥ j 0 .<br />

Für jede endliche Teilmenge E von A folgt dann für j, k ≥ j 0 , falls p < ∞ :<br />

( ∑<br />

a∈E<br />

|f j (a) − f k (a)| p ) 1/p<br />

≤ ‖f j − f k ‖ p < ε.<br />

Läßt man hierin k gegen Unendlich streben, so folgt mittels der Grenzwertsätze für<br />

Zahlenfolgen und (2.5) für j ≥ j 0 :<br />

( ∑<br />

a∈E<br />

|f j (a) − f(a)| p ) 1/p<br />

≤ ε,<br />

also ‖f j − f‖ E,p ≤ ε. Wie man leicht sieht, gilt dies ebenfalls für p = ∞. Da j 0 nicht<br />

von E abhängt, folgt durch Supremumsbildung über alle endlichen Mengen E:<br />

‖f j − f‖ p ≤ ε, falls j ≥ j 0 .<br />

Damit haben wir gezeigt, daß ‖f j − f‖ p → 0 für j → ∞. .<br />

Wähle schließlich für ε = 1 ein j so, daß ‖f j −f‖ p ≤ 1. Für jede endliche Teilmenge<br />

E von A gilt dann<br />

‖f‖ E,p ≤ ‖f − f j ‖ E,p + ‖f j ‖ E,p ≤ ‖f j − f‖ p + ‖f j ‖ p ≤ 1 + ‖f j ‖ p ,<br />

folglich<br />

‖f‖ p ≤ 1 + ‖f j ‖ p < ∞.<br />

Somit ist f p-summierbar.<br />

Als unmittelbare Konsequenz erhalten wir<br />

Q.E.D.<br />

Korollar 2.9 K n , versehen mit der p-Norm, ist ein vollständiger normierter Vektorraum<br />

über K.<br />

Bemerkung 2.10 Ist A unendlich, so ist l p (A) ein unendlich-dimensionaler Vektorraum.<br />

48


Beweis. Für a ∈ A sei δ a die charakteristische Funktion der Menge {a}, d.h.<br />

{<br />

1, falls b = a,<br />

δ a (b) :=<br />

0, sonst.<br />

Z.B. bilden für K n ≃ l p ({1, . . ., n}) die Vektoren δ 1 , . . .,δ n gerade die kanonische<br />

Basis des K n . Die Funktionen δ a , a ∈ A, sind linear unabhängig in l p (A), denn:<br />

Ist 0 = ∑ a∈A<br />

λ a δ a eine endliche Linearkombination, so folgt für jedes b ∈ A:<br />

0 = ∑ a∈A<br />

λ a δ a (b) = λ b .<br />

Hieraus folgt die Behauptung.<br />

Q.E.D.<br />

Achtung: Ist A unendlich, so bilden die δ a , a ∈ A, keine Basis von l p (A) im Sinne<br />

der linearen Algebra. Z.B. liegt für A = N × die Funktion (d.h. Folge) f : N × →<br />

R, f(j) := 1/j, in l 2 (N × ), diese kann aber nicht als eine endliche Linearkombination<br />

der Funktionen δ k , k ∈ N × , dargestellt werden.<br />

Konvention. Wenn nicht ausdrücklich anders gesagt, werden wir in Zukunft den<br />

R n bzw. C n stets mit der Euklidischen Norm, d.h. der 2-Norm<br />

‖x‖ = ‖x‖ 2 =<br />

( n∑<br />

j=1<br />

|x j | 2 ) 1/2<br />

versehen.<br />

49


Kapitel 3<br />

Metrische Räume<br />

3.1 Definitionen und Beispiele<br />

Wir wollen uns nun der <strong>Analysis</strong> auf mehrdimensionalen Räumen zuwenden. Dazu<br />

werden wir zunächst den Begriff des (Euklidischen) Abstands zweier reeller oder<br />

komplexer Zahlen, welcher für die Konvergenztheorie reeller oder komplexer Zahlenfolgen<br />

von fundamentaler Bedeutung war, verallgemeinern.<br />

Definition. Sei X eine nichtleere Menge. Eine Metrik auf X ist eine Abbildung<br />

mit folgenden Eigenschaften:<br />

(i) d(x, y) ≥ 0 für alle x, y ∈ X.<br />

d : X × X → R<br />

(ii) d(x, y) = 0 genau dann, wenn x = y .<br />

(iii) d(x, y) = d(y, x) für alle x, y ∈ X.<br />

(iv) d(x, z) ≤ d(x, y) + d(y, z) für alle x, y, z ∈ X.<br />

(Symmetrie)<br />

(Dreiecksungleichung)<br />

Ein metrischer Raum ist ein Paar X = (X, d) bestehend aus einer nichtleeren<br />

Menge X und einer Metrik d auf X. Man nennt d(x, y) den Abstand oder die Distanz<br />

der Punkte x und y bzgl. der Metrik d. Sind Mißverständnisse ausgeschlossen,<br />

so werden wir gelegentlich auch die Menge X des metrischen Raumes X = (X, d)<br />

als metrischen Raum bezeichnen.<br />

Beispiele 3.1 a) Die Menge R der reellen Zahlen und die Menge C der komplexen<br />

Zahlen werden zu metrischen Räumen, wenn man als Abstand definiert<br />

d(x, y) := |x − y|<br />

für x, y ∈ R (bzw. x, y ∈ C).<br />

50


) Ist allgemeiner (E, ‖ · ‖) ein normierter Vektorraum über K = R oder K = C,<br />

so ist durch<br />

d(x, y) := ‖x − y‖, x, y ∈ E,<br />

eine Metrik auf E definiert. Dies folgt unmittelbar aus den Definitionen von<br />

Norm und Metrik. Z.B. folgt die Dreiecksungleichung für die Metrik d aus der<br />

für die Norm:<br />

d(x, z) = ‖x −z‖ = ‖(x −y)+(y −z)‖ ≤ ‖x −y‖+‖y −z‖ = d(x, y)+d(y, z).<br />

Diese Metrik d ist stets gemeint, wenn wir (E, ‖ · ‖) als metrischen Raum<br />

betrachten.<br />

Als Standardmetrik auf dem K n werden wir, wenn nicht anders gesagt, die<br />

Euklidische Metrik d(x, y) := ‖x − y‖ 2 wählen.<br />

c) Ist (X, d) ein metrischer Raum und ist Y eine nichtleere Teilmenge von X,<br />

so wird Y zu einem metrischen Raum, wenn man als Metrik d Y auf Y die<br />

Einschränkung d Y := d| Y ×Y von d auf Y × Y wählt. Man bezeichnet den<br />

metrischen Raum (Y, d Y ) dann auch als metrischen Teilraum von (X, d).<br />

d) Auf jeder nichtleeren Menge X kann man die sogenannte diskrete Metrik<br />

einführen durch<br />

{<br />

0, falls x = y,<br />

d(x, y) :=<br />

1, falls x ≠ y.<br />

Die für die <strong>Analysis</strong> wichtigsten metrischen Räume sind die normierten Vektorräume<br />

sowie Teilmengen solcher Vektorräume.<br />

Definition. Zwei Metriken d 1 und d 2 auf einer Menge X heißen äquivalent (in<br />

Zeichen: d 1 ∼ d 2 ) , wenn es Konstanten 0 < c 1 ≤ c 2 gibt so, daß<br />

(3.1) c 1 d 1 (x, y) ≤ d 2 (x, y) ≤ c 2 d 1 (x, y) ∀x, y ∈ X.<br />

Analog sagt man, zwei Normen ‖ · ‖ 1 und ‖ · ‖ 2 auf einem K-Vektorraum E seien<br />

äquivalent (in Zeichen: ‖ · ‖ 1 ∼ ‖ · ‖ 2 ) , wenn es Konstanten 0 < c 1 ≤ c 2 gibt so,<br />

daß<br />

(3.2) c 1 ‖x‖ 1 ≤ ‖x‖ 2 ≤ c 2 ‖x‖ 1 ∀x ∈ E.<br />

Bezeichnet d j (x, y) := ‖x − y‖ j , j = 1, 2, dann die jeweilige zugehörige Metrik, so<br />

gilt offenbar:<br />

Lemma 3.2 Die Metriken d 1 und d 2 sind genau dann äquivalent, wenn die zugehörigen<br />

Normen ‖ · ‖ 1 und ‖ · ‖ 2 äquivalent sind.<br />

51


Man sieht übrigens leicht, daß durch den Begriff der Äquivalenz von Normen bzw.<br />

Metriken jeweils Äquivalenzrelationen auf der Menge aller Normen auf einem Vektorraum<br />

E bzw. Metriken auf einer Menge X definiert werden.<br />

Satz 3.3 Seien (X 1 , d 1 ) und (X 2 , d 2 ) zwei metrische Räume. Für 1 ≤ p ≤ ∞ ist<br />

dann durch<br />

(<br />

)∥ ∥∥p<br />

d p ((x 1 , x 2 ), (y 1 , y 2 )) := ∥ d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 )<br />

⎧(<br />

)<br />

⎨<br />

1/p,<br />

d<br />

= 1 (x 1 , y 1 ) p + d 2 (x 2 , y 2 ) p falls 1 ≤ p < ∞<br />

⎩<br />

max{d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 )}, falls p = ∞<br />

eine Metrik auf dem kartesischen Produkt X 1 × X 2 definiert. Ferner sind je zwei<br />

dieser Metriken äquivalent.<br />

Beweis. Seien x = (x 1 , x 2 ), y = (y 1 , y 2 ) ∈ X 1 × X 2 . Offenbar ist d p (x, y) ≥ 0, und<br />

d p (x, y) = 0 genau dann, wenn ‖(d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 ))‖ p = 0. Dies ist äquivalent zu<br />

d 1 (x 1 , y 1 ) = d 2 (x 2 , y 2 ) = 0, folglich zu x 1 = y 1 und x 2 = y 2 , d.h. zu x = y. Ist ferner<br />

z = (z 1 , z 2 ) ∈ X 1 × X 2 , so gilt<br />

d j (x j , y j ) ≤ d j (x j , z j ) + d j (z j , y j ), j = 1, 2,<br />

woraus aufgrund der Definition der p-Norm auf R 2 folgt:<br />

‖(d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 ))‖ p<br />

≤ ‖(d 1 (x 1 , z 1 ) + d 1 (z 1 , y 1 ), d 2 (x 2 , z 2 ) + d 2 (z 2 , y 2 ))‖ p<br />

Damit ergibt sich die Dreiecksungleichung<br />

= ‖(d 1 (x 1 , z 1 ), d 2 (x 2 , z 2 )) + (d 1 (z 1 , y 1 ), d 2 (z 2 , y 2 ))‖ p<br />

≤ ‖(d 1 (x 1 , z 1 ), d 2 (x 2 , z 2 ))‖ p + ‖(d 1 (z 1 , y 1 ), d 2 (z 2 , y 2 ))‖ p<br />

d p (x, y) ≤ d p (x, z) + d p (z, y).<br />

Schließlich sind, wie man leicht zeigt, je zwei p-Normen auf dem R 2 äquivalent<br />

(Übung), womit die Äquivalenz der Metriken d p auf X 1 × X 2 folgt.<br />

Q.E.D.<br />

Beispiel 3.4 X 1 = R k , X 2 = R l , jeweils versehen mit der p-Norm. Für x =<br />

(x 1 , x 2 ), y = (y 1 , y 2 ) ∈ R k × R l ist dann für 1 ≤ p < ∞<br />

und<br />

d p (x, y) = (‖x 1 − y 1 ‖ p p + ‖x 2 − y 2 ‖ p p) 1/p = ‖x − y‖ p ,<br />

d ∞ (x, y) = max{‖x 1 − y 1 ‖ ∞ , ‖x 2 − y 2 ‖ ∞ } = ‖x − y‖ ∞ ,<br />

falls man den R k × R l mit R k+l identifiziert.<br />

Falls nicht ausdrücklich anders gesagt, werden wir der Einfachheit halber den Produktraum<br />

X 1 × X 2 zweier metrischer Räume (X 1 , d 1 ) und (X 2 , d 2 ) stets mit der<br />

Metrik d = d ∞ versehen, d.h.<br />

(3.3)<br />

d((x 1 , x 2 ), (y 1 , y 2 )) := max{d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 )}.<br />

52


3.2 Die Topologie eines metrischen Raumes<br />

Definition. Sei (X, d) ein metrischer Raum. Sind a ∈ X sowie r > 0, so heißt<br />

B r (a) := {x ∈ X : d(x, a) < r}<br />

die offene Kugel mit Mittelpunkt a und Radius r. Gelegentlich nennt man B ε (a)<br />

auch die ε-Umgebung von a.<br />

Definition. Eine Teilmenge U ⊂ X heiße Umgebung des Punktes x ∈ X, falls<br />

ein ε > 0 existiert, so daß gilt:<br />

B ε (x) ⊂ U.<br />

Beachte: Betrachten wir die Teilmenge Y ⊂ X von X als metrischen Teilraum von<br />

X und bezeichnen die Kugeln in Y mit Br Y (a), d.h.<br />

so gilt offenbar<br />

B Y r (a) := {y ∈ Y : d Y (y, a) < r}, a ∈ Y,<br />

(3.4) B Y r (a) = B r(a) ∩ Y.<br />

Satz 3.5 (i) Ist U eine Umgebung von x und ist W ⊃ U, so ist auch W eine<br />

Umgebung von x.<br />

(ii) Sind U 1 und U 2 Umgebungen von x, so ist auch U 1 ∩ U 2 eine Umgebung von x.<br />

Beweis. (i) Per definitionem existiert ein ε > 0 mit B ε (x) ⊂ U ⊂ W.<br />

(ii) Seien ε 1 , ε 2 ∈ R + so, daß B ε1 (x) ⊂ U 1 und B ε2 (x) ⊂ U 2 ist. Für ε := min{ε 1 , ε 2 }<br />

gilt dann: B ε (x) ⊂ U 1 ∩ U 2 .<br />

Q.E.D.<br />

Satz 3.6 Sei (X, d) ein metrischer Raum. Dann gilt das Hausdorffsche Trennungsaxiom:<br />

Zu je zwei verschiedenen Punkten x, y ∈ X gibt es Umgebungen U von x und V von<br />

y, die disjunkt sind.<br />

Beweis. Sei ε := 1 2 d(x, y). Dann ist ε > 0, und U := B ε(x) und V := B ε (y) sind<br />

Umgebungen von x bzw. y. Ferner ist U ∩ V = ∅, denn für jedes z ∈ U ∩ V würde<br />

gelten:<br />

2ε = d(x, y) ≤ d(x, z) + d(z, y) < ε + ε = 2ε,<br />

was zu einem Widerspruch führt.<br />

Q.E.D.<br />

Definition. Eine Teilmenge U eines metrischen Raumes X heiße offen, wenn sie<br />

Umgebung jedes ihrer Punkte ist, d.h. wenn gilt:<br />

∀x ∈ U ∃ε > 0 : B ε (x) ⊂ U.<br />

53


Beispiele 3.7<br />

offen:<br />

(i) Für jeden Punkt a ∈ X und jedes r > 0 ist die Kugel B r (a)<br />

Ist nämlich x ∈ B r (a), so ist ε := r − d(x, a) > 0. Für y ∈ B ε (x) folgt damit:<br />

d.h. es ist B ε (x) ⊂ B r (a).<br />

d(y, a) ≤ d(y, x) + d(x, a) < ε + d(x, a) = r ,<br />

(ii) ”<br />

Offene Intervalle“ der Form ]a, b[ mit −∞ ≤ a < b ≤ +∞ sind offene Teilmengen<br />

des metrischen Raumes (R, d) (vgl. Beispiel 3.1):<br />

Ist nämlich x ∈]a, b[, und sind a und b endlich, so ist für<br />

ε := min{|a −x|, |b −x|} offenbar B ε (x) ⊂]a, b[; der allgemeine Fall kann leicht<br />

auf den obigen zurückgeführt werden.<br />

Dagegen sind Intervalle der Form [a, b[, ]a, b] und [a, b] nicht offen; z.B. liegt<br />

für kein ε > 0 die Kugel B ε (a) ganz in [a, b[.<br />

Bezeichnung. Ist X = (X, d) ein metrischer Raum, so bezeichnen wir mit<br />

die Menge aller offenen Mengen in X.<br />

T(X) := {U ⊂ X : U ist offen }<br />

Satz 3.8 T := T(X) besitzt die folgenden Eigenschaften:<br />

a) ∅, X ∈ T.<br />

b) Sind U, V ∈ T, so ist auch U ∩ V ∈ T.<br />

c) Sind U ι , ι ∈ I, in T, so ist auch ⋃ ι∈I U ι ∈ T.<br />

Beweis. a) Ist trivial.<br />

b) Sei x ∈ U ∩ V . Dann sind U und V Umgebungen von x, somit nach Satz 3.5(ii)<br />

auch U ∩ V . Damit ist U ∩ V offen.<br />

c) Sei x ∈ ⋃ U ι . Dann gibt es ein ι 0 mit x ∈ U ι0 . Wieder mit Satz 3.5 ist ⋃ U ι als<br />

ι∈I<br />

Obermenge von U ι0 eine Umgebung von x.<br />

ι∈I<br />

Q.E.D.<br />

Definition. Ist X eine nichtleere Menge, so bezeichnet man ein Mengensystem<br />

T ⊂ P(X) mit den Eigenschaften a) – c) aus Satz 3.8 als Topologie auf X. Das<br />

Paar (X, T) wird dann als topologischer Raum, und die Mengen U ∈ T als die<br />

offenen Mengen des topologischen Raumes (X, T) bezeichnet.<br />

54


Ist d eine Metrik auf X, so heißt T((X, d)) die durch d auf X induzierte Topologie.<br />

Diese werden wir stets auf X verwenden.<br />

Nach Satz 3.8 ist übrigens der Durchschnitt endlich vieler offener Mengen stets offen.<br />

Für unendliche Durchschnitte ist dies i.a. nicht so. Z.B. ist<br />

∞⋂<br />

[0, 1[= ] − 1 n , 1[ .<br />

n=1<br />

Satz 3.9 Zwei äquivalente Metriken d 1 und d 2 auf X erzeugen dieselbe Topologie,<br />

d.h. T(X, d 1 ) = T(X, d 2 ).<br />

Beweis. Seien 0 < c 1 ≤ c 2 so, daß<br />

c 1 d 1 (x, y) ≤ d 2 (x, y) ≤ c 2 d 1 (x, y) ∀x, y ∈ X.<br />

Bezeichnen wir mit B j r (a) := {x ∈ X, d j(x, a) < r}, j = 1, 2, die Kugeln bzgl. der<br />

beiden Metriken d 1 und d 2 , so folgt für jedes r > 0, a ∈ X<br />

so daß für jedes ε > 0 gilt:<br />

B 1 r (a) ⊂ B2 c 2 r (a),<br />

B 1 ε/c 2<br />

(a) ⊂ B 2 ε (a),<br />

Hieraus folgt unmittelbar die Behauptung.<br />

B2 r (a) ⊂ B1 1/c 1 r (a),<br />

B2 c 1 ε (a) ⊂ B1 ε (a).<br />

Q.E.D.<br />

Definition. Eine Teilmenge A eines metrischen Raumes (X, d) (oder allgemeiner<br />

eines topologischen Raumes) heiße abgeschlossen, wenn ihr Komplement A c :=<br />

X \ A offen ist.<br />

Beispiele 3.10 (i) Abgeschlossene Intervalle “der Gestalt [a, b] sind abgeschlossene<br />

Teilmengen von R, denn R \ [a, b] =] − ∞, a[ ∪ ]b, +∞[ ist ”<br />

offen.<br />

Ebenso sind Intervalle der Form [a, +∞[ und ] − ∞, a] abgeschlossen.<br />

(ii) Die ”<br />

abgeschlossenen Kugeln“<br />

B r (a) := {x ∈ X : d(x, a) ≤ r}, a ∈ X, r ≥ 0,<br />

eines metrischen Raumes X sind stets abgeschlossen.<br />

Ist nämlich y ∈ X \ B r (a), so ist<br />

Für z ∈ B ε (y) ist dann<br />

ε := d(y, a) − r > 0 .<br />

d(z, a) ≥ d(y, a) − d(z, y) > d(y, a) − ε = r .<br />

Somit ist B ε (y) ⊂ X \ B r (a), d.h. X \ B r (a) ist offen.<br />

55


(iii) Die Mengen ∅ und X sind stets abgeschlossen.<br />

(iv) Beliebige Durchschnitte und endliche Vereinigungen abgeschlossener Mengen<br />

sind abgeschlossen.<br />

(v) Ist die nichtleere Menge X mit der diskreten Metrik versehen, so sind alle<br />

Teilmengen von X offen (Übung). Folglich sind alle Teilmengen von X ebenso<br />

abgeschlossen. Eine Menge kann somit durchaus gleichzeitig offen und abgeschlossen<br />

sein!<br />

Satz 3.11 (Relativtopologie) Sei (X, d) ein metrischer Raum, und sei Y ⊂ X<br />

eine Teilmenge von X, welche wir mittels der eingeschränkten Metrik d Y (vgl. Beispiel<br />

3.1 c)) als metrischen Teilraum von X betrachten. d Y induziert eine Topologie<br />

auf Y, die sogenannte Relativtopologie von Y bzgl. X. Die offenen (bzw. abgeschlossenen)<br />

Teilmengen von Y lassen sich dann wie folgt charakterisieren:<br />

Eine Teilmenge N ⊂ Y ist genau dann offen (bzw. abgeschlossen) in Y , wenn es<br />

eine offene (bzw. abgeschlossene) Teilmenge M von X gibt mit N = M ∩ Y .<br />

Beweis. Wir zeigen die Aussage über die Offenheit von Teilmengen von Y . Die<br />

analoge Aussage über die Abgeschlossenheit folgt dann durch Komplementbildung.<br />

Ist M ⊂ X offen in X, und ist y ∈ N := M ∩ Y , so gibt es ein ε > 0 so, daß<br />

B ε (y) ⊂ M. Folglich ist nach (3.4) Bε Y (y) = B ε(y) ∩Y ⊂ N. Dies zeigt, daß N offen<br />

in Y ist.<br />

Ist umgekehrt N offen in<br />

⋃<br />

Y , so gibt es zu jedem a ∈ Y ein ε(a) > 0 so, daß<br />

Bε(a) Y (a) ⊂ N. Sei M := B ε(a) (a). Dann ist M offen in X, und nach (3.4) ist<br />

a∈N<br />

M ∩ Y = ⋃ (a) = N.<br />

Q.E.D.<br />

Bε(a) Y<br />

a∈N<br />

Definitionen. Seien (X, d) ein metrischer Raum und Y eine Teilmenge von X. Ein<br />

Punkt x ∈ X heiße Randpunkt von Y , wenn in jeder Umgebung von x sowohl ein<br />

Punkt von Y als auch ein Punkt des Komplements X \ Y liegt. Die Menge aller<br />

Randpunkte von Y nennt man den Rand von Y und bezeichnet ihn mit ∂Y .<br />

Ein Punkt x ∈ X heiße Berührungspunkt von Y, wenn in jeder Umgebung von x<br />

mindestens ein Punkt aus Y liegt. Die Menge aller Berührungspunkte von Y nennt<br />

man die abgeschlossene Hülle oder auch den Abschluß von Y und bezeichnet<br />

sie mit Y .<br />

Ein Punkt y ∈ Y heiße innerer Punkt von Y, wenn Y eine Umgebung von y ist.<br />

Die Menge aller inneren Punkte von Y nennt man das (offene) Innere von Y und<br />

bezeichnet sie mit Y 0 .<br />

56


Beispiele 3.12 (a) Wir haben gesehen, daß für r > 0 die Mengen B r (a) = {x ∈<br />

X : d(x, a) < r} und X \ B r (a) = {x ∈ X : d(x, a) > r} offen sind. Hieraus<br />

folgt<br />

∂B r (a) ⊂ {x ∈ X : d(x, a) = r}.<br />

Für X = R n kann man sogar zeigen (Übung):<br />

∂{x ∈ R n : ‖x‖ 2 < r} = {x ∈ R n : ‖x‖ 2 = r} .<br />

Es gibt jedoch auch metrische Räume, in denen die entsprechende Identität<br />

falsch ist (Übung)!<br />

(b) ∂Q = ∂(R \ Q) = R.<br />

Satz 3.13 Seien X ein metrischer Raum und Y ⊂ X. Dann gilt:<br />

(a) ∂Y = ∂(X \ Y ).<br />

(b) Y \ ∂Y ist offen, und es gilt Y \ ∂Y = Y 0 .<br />

(c) Y ∪ ∂Y ist abgeschlossen, und es gilt Y ∪ ∂Y = Y .<br />

(d) Es gilt ∂Y = Y \ Y 0 ; insbesondere ist ∂Y abgeschlossen.<br />

Beweis. (a) ist klar aufgrund der Definition des Randes.<br />

(b) Offenbar kann ein innerer Punkt von Y kein Randpunkt von Y sein, so daß<br />

Y 0 ⊂ Y \ ∂Y.<br />

Um die umgekehrte Inklusion zu zeigen beobachten wir, daß ein Punkt x ∈ X nicht<br />

in ∂Y liegt dann und nur dann, wenn es eine offene ε-Umgebung U von x gibt,<br />

welche entweder ganz in Y oder ganz in X \ Y liegt.<br />

Sei nun x ∈ Y \ ∂Y , und sei U eine solche offene Umgebung von x. Da x in Y liegt,<br />

muß dann U ganz in Y liegen, und da U offen ist, sind alle Punkte aus U innere<br />

Punkte von Y. Damit gilt U ⊂ Y 0 ⊂ Y \ ∂Y.<br />

Dies zeigt sowohl, daß Y \ ∂Y offen ist, als auch, daß Y \ ∂Y ⊂ Y 0 , womit (a)<br />

bewiesen ist.<br />

(c) Offenbar ist jeder Punkt aus Y und auch jeder Randpunkt von Y ein Berührungspunkt<br />

von Y, d.h. Y ∪ ∂Y ⊂ Y .<br />

Um die umgekehrte Inklusion zu zeigen betrachten wir zunächst das Komplement<br />

(Y ∪ ∂Y ) c von Y ∪ ∂Y in X. Es gilt mit (a)<br />

(Y ∪ ∂Y ) c = Y c ∩ (∂Y ) c = Y c \ ∂Y = Y c \ ∂Y c ,<br />

so daß die Menge (Y ∪ ∂Y ) c nach (b) offen ist. Folglich ist Y ∪ ∂Y abgeschlossen.<br />

Ist x ∈ (Y ∪ ∂Y ) c ⊂ Y c , so kann wegen der Offenheit von (Y ∪ ∂Y ) c insbesondere x<br />

kein Berührungspunkt von Y sein, d.h. es ist (Y ∪ ∂Y ) c ⊂ (Y ) c , bzw. Y ⊂ Y ∪ ∂Y.<br />

Die umgekehrte Inklusion hatten wir bereits gezeigt, so daß also Y = Y ∪ ∂Y gilt.<br />

57


(d) Mit (b) und (c) folgt<br />

∂Y = (Y ∪ ∂Y ) \ (Y \ ∂Y ) = Y \ Y 0 = Y ∩ (Y 0 ) c .<br />

Somit ist insbesondere ∂Y als Durchschnitt zweier abgeschlossener Mengen abgeschlossen.<br />

Damit ist auch (d) bewiesen.<br />

Q.E.D.<br />

Bemerkung: Man kann beweisen (Übung), daß Y die kleinste abgeschlossen Teilmenge<br />

A von X ist mit Y ⊂ A, d.h. es gilt<br />

⋂<br />

Y =<br />

C.<br />

Y ⊂C, C abgeschlossen<br />

Definitionen. Es seien A, B ⊂ X. A heiße dicht in B, falls A ∩ B = B ist. Beispielsweise<br />

ist Q = R, d.h. Q ist dicht in R.<br />

Der Abstand zweier nichtleerer Teilmengen A und B von X ist definiert durch<br />

d(A, B) := inf{d(a, b) : a ∈ A, b ∈ B}.<br />

Der Abstand des Punktes x ∈ X zu A ist definiert durch<br />

d(x, A) := d({x}, A) = inf{d(x, a) : a ∈ A}.<br />

3.3 Konvergenz in metrischen Räumen<br />

Sei X = (X, d) ein metrischer Raum.<br />

Definition. Eine Folge (x n ) n∈N von Punkten aus X heiße konvergent gegen a ∈ X,<br />

in Zeichen:<br />

lim<br />

n→∞ x n = a,<br />

wenn gilt: Zu jeder Umgebung U von a existiert ein N ∈ N so, daß x n ∈ U ist für<br />

alle n ≥ N.<br />

Da in jeder Umgebung eine ε-Umgebung enthalten ist, ist dies gleichbedeutend mit<br />

der Aussage: Zu jedem ε > 0 gibt es ein N = n(ε) ∈ N, so daß d(x n , a) < ε ist für<br />

alle n ≥ N, bzw. zu<br />

(3.5)<br />

lim d(x n, a) = 0 .<br />

n→∞<br />

Man sieht sofort mit Hilfe des Hausdorffschen Trennungsaxioms (Satz 3.6), daß<br />

eine konvergente Folge genau einen Grenzwert besitzt. Ferner führen nach Satz 3.9<br />

äquivalente Metriken zum selben Konvergenzbegriff.<br />

58


Satz 3.14 Sei (x k ) k∈N eine Folge von Punkten im R n . Ferner sei x k =<br />

(x k1 , . . .x kn ), k ∈ N. Dann konvergiert die Folge (x k ) k gegen a = (a 1 , . . .,a n ) ∈ R n<br />

dann und nur dann, wenn für jedes j = 1, . . .,n gilt:<br />

lim x kj = a j .<br />

k→∞<br />

Beweis. Aufgrund der Definition der l p - Normen sieht man leicht, daß<br />

max<br />

j=1,...,n |x kj − a j | ≤ d(x k , a) = ‖x k − a‖ 2 ≤ √ n max<br />

j=1,...,n |x kj − a j | .<br />

Somit ist lim d(x k , a) = 0 genau dann, wenn max |x kj − a j | → 0 für k → ∞, d.h.<br />

k→∞ j=1,...,n<br />

wenn<br />

|x kj − a j | → 0 für k → ∞, für jedes j = 1, . . .,n .<br />

Q.E.D.<br />

Mit Hilfe der Konvergenz von Folgen kann man die abgeschlossenen Mengen folgendermaßen<br />

charakterisieren.<br />

Satz 3.15 (Folgenkriterium für Abgeschlossenheit) Sei (X, d) ein metrischer<br />

Raum. Eine Teilmenge A ⊂ X ist genau dann abgeschlossen, wenn für jede Folge<br />

(x k ) k von Punkten x k ∈ A gilt:<br />

Konvergiert (x k ) k gegen einen Punkt x ∈ X, so ist x ∈ A .<br />

Beweis. Sei A abgeschlossen. Ist dann (x k ) k eine Folge in A mit x = lim x k , so wäre,<br />

falls x in A c läge, A c eine offene Umgebung von x. Folglich gäbe es ein N ∈ N mit<br />

x N ∈ A c , im Widerspruch zu unserer Annahme. Also ist notwendig x ∈ A.<br />

Zur Umkehrung: Das Folgenkriterium sei erfüllt. Wir wollen zeigen, daß dann A = A<br />

ist, woraus die Abgeschlossenheit von A folgt.<br />

Sei dazu x ∈ A. Dann ist x ein Berührungspunkt von A und wir finden insbesondere<br />

zu jedem k ∈ N, k ≥ 1, einen Punkt x k ∈ A in der Umgebung B 1/k (x) von x. Wegen<br />

d(x k , x) < 1 ist dann x = lim x k k, folglich x ∈ A. Dies zeigt, daß A ⊂ A ist, und die<br />

k→∞<br />

Inklusion A ⊂ A ist klar.<br />

Q.E.D.<br />

Bemerkung 3.16 Der Beweis lehrt zusätzlich, daß A ⊂ X abgeschlossen ist genau<br />

dann, wenn A = A ist.<br />

Definition. Die Folge (x k ) k von Punkten aus X heiße Cauchy-Folge, wenn gilt:<br />

Zu jedem ε > 0 gibt es ein N ∈ N, so daß d(x n , x m ) < ε ist für alle n, m ≥ N.<br />

Bemerkung 3.17 Jede konvergente Folge ist eine Cauchy-Folge (Beweis?).<br />

59


Definition. Ein metrischer Raum heiße vollständig, wenn in ihm jede Cauchy-<br />

Folge konvergiert.<br />

Satz 3.18 Sei (X, d) ein vollständiger metrischer Raum. Eine Teilmenge Y von X<br />

ist abgeschlossen in X genau dann, wenn sie als metrischer Teilraum von (X, d)<br />

vollständig ist.<br />

Beweis. Sei Y abgeschlossen. Ist (y n ) n eine Cauchy-Folge in Y , so konvergiert sie<br />

wegen der Vollständigkeit von X gegen ein x ∈ X, d.h. es ist lim y n = x. Damit ist<br />

n→∞<br />

aber nach Satz 3.15 x ∈ Y . Y ist also vollständig.<br />

Ist umgekehrt Y vollständig, und ist (y n ) n eine Folge in Y , welche gegen x ∈ X<br />

konvergiert, so ist sie auch eine Cauchy-Folge in Y und damit konvergent in Y .<br />

Wegen der Eindeutigkeit des Limes ist dann x ∈ Y , d.h. Y ist abgeschlossen.<br />

Beispiel 3.19 Die Banachräume C k (I).<br />

Q.E.D.<br />

Sei I = [a, b] ⊂ R ein kompaktes Intervall positiver Länge, und sei k ∈ N. Wir<br />

versehen den Raum C k (I) mit der Norm<br />

‖f‖ C k := max<br />

j=0,...,k ‖f(j) ‖ ∞<br />

(daß dies in der Tat eine Norm ist folgt unmittelbar aus der Tatsache, daß ‖ · ‖ ∞ =<br />

‖ · ‖ u eine Norm auf dem Raum C 0 (I) = C(I) ist).<br />

Betrachte zunächst den Fall k = 0. Man zeigt leicht, daß C(I) eine abgeschlossene<br />

Teilmenge des Banachraumes (l ∞ (I), ‖ · ‖ ∞ ) ist. Ist nämlich (f j ) j eine Folge in<br />

C(I), welche in l ∞ (I) gegen eine Grenzfunktion f ∈ l ∞ (I) konvergiert, so ist f als<br />

gleichmäßiger Limes einer Folge stetiger Funktionen selbst stetig (Satz 9.13, <strong>Analysis</strong><br />

I), d.h. f ∈ C(I). Somit ist C(I) nach Satz 3.18 vollständig, also ein Banachraum.<br />

Mittels Satz 1.19 und der Vollständigkeit von C(I) kann man dann leicht per Induktion<br />

nach k zeigen, daß (C k (I), ‖ · ‖ C k) ein Banachraum ist für jedes k ∈ N<br />

(Übung).<br />

Definitionen. Der Durchmesser einer Teilmenge A eines metrischen Raumes<br />

(X, d) ist definiert als<br />

diam(A) := sup{d(x, y) : x, y ∈ A} .<br />

Die Menge A heiße beschränkt, falls diam(A) < ∞ ist. Offenbar ist A genau dann<br />

beschränkt, wenn ein a ∈ X und ein r ∈ R + existieren so, daß A ⊂ B r (a) ist. Es<br />

gilt z.B.<br />

diam B r (a) ≤ 2r .<br />

60


3.4 Stetigkeit<br />

Es seien (X, d) und (Y, ̺) metrische Räume, sowie a ∈ X.<br />

Satz 3.20 Die folgenden Bedingungen sind für eine Abbildung f : X → Y äquivalent:<br />

(i) Für jede Folge (x n ) n in X mit lim x n = a gilt: lim f(x n ) = f(a), d.h.<br />

lim f(x n) = f( lim x n )<br />

n→∞ n→∞<br />

(ii) Zu jedem ε > 0 existiert ein δ = δ(ε) > 0, so daß<br />

̺(f(x), f(a)) < ε ist für alle x ∈ X mit d(x, a) < δ<br />

(Folgen − Stetigkeit).<br />

(ε − δ− Kriterium).<br />

(iii) Für jede Umgebung V von f(a) in Y ist U := f −1 (V ) eine Umgebung von a<br />

in X.<br />

Beweis. Wir beobachten zunächst, daß (ii) gleichbedeutend ist mit<br />

(ii ′ ) Zu jedem ε > 0 gibt es ein δ = δ(ε) > 0 mit<br />

)<br />

f(B δ (a)) ⊂ B ε (f(a)), d.h. mit B δ (a) ⊂ f<br />

(B −1 ε (f(a)) .<br />

Die Äquivalenz von (ii ′ ) und (iii) folgt nun sofort aus der Definition des Umgebungsbegriffs.<br />

Es bleibt die Äquivalenz von (i) und (ii ′ ) zu zeigen:<br />

Gilt (ii ′ ) nicht, so gibt es ein ε > 0 so, daß für jedes δ = 1/n, n ∈ N × , ein x n ∈<br />

B 1/n (a) existiert mit f(x n ) ∉ B ε (f(a)). Dann ist a = lim x n , während die Folge<br />

n→∞<br />

(f(x n )) n nicht gegen f(a) konvergiert. Somit ist f nicht Folgen-stetig.<br />

Gilt dagegen (ii ′ ), und ist (x n ) n eine Folge in X mit a = lim x n , so wähle zu gegebenem<br />

ε > 0 ein δ > 0 gemäß (ii ′ ) mit f(B δ (a)) ⊂ B ε (f(a)). Dann gibt es ein<br />

N ∈ N so, daß x n ∈ B δ (a) für alle n ≥ N, folglich f(x n ) ∈ B ε (f(a)). Somit ist<br />

lim<br />

n→∞ f(x n) = f(a).<br />

Q.E.D.<br />

Definitionen. Die Funktion f : X → Y heiße im Punkte a ∈ X stetig, wenn<br />

sie den Bedingungen von Satz 3.20 genügt. f heiße stetig, wenn f in jedem Punkt<br />

a ∈ X stetig ist.<br />

Ist A ⊂ X, so bezeichnet man x ∈ X als Häufungspunkt der Menge A, wenn<br />

jede Umgebung von x in X mindestens einen Punkt a ≠ x aus A enthält (man<br />

vergleiche dies mit dem Begriff des Berührungspunktes!).<br />

61


Seien f : A → Y eine Abbildung und x ∈ X ein Häufungspunkt von A.<br />

Dann bezeichnet man b ∈ Y als den Grenzwert der Abbildung f : A → Y für<br />

a → x, in Zeichen:<br />

b = lim<br />

a→x<br />

f(a) ,<br />

wenn es zu jedem ε > 0 ein δ > 0 gibt derart, daß ̺(f(a), b) < ε ist für alle<br />

a ∈ A \ {x} mit d(a, x) < δ.<br />

Beispiel. Die Menge der Häufungspunkte der Menge A =]0, 1[∪{2} in R ist gegeben<br />

durch [0, 1].<br />

Satz 3.21 Es seien (X, d), (Y, ̺), (Z, γ) metrische Räume, sowie f : X → Y und<br />

g : Y → Z Abbildungen. Ist f stetig in a ∈ X und g stetig in b := f(a) ∈ Y , so ist<br />

g ◦ f : X → Z stetig in a.<br />

Beweis. Es sei W eine Umgebung von g(b) in Z. Dann ist V = g −1 (W) eine Umgebung<br />

von b in Y, folglich U = f −1 (V ) eine Umgebung von a in X, jeweils wegen<br />

der Stetigkeit von g in b bzw. von f in a. Schließlich ist (g ◦ f) −1 (W) = U.<br />

Q.E.D.<br />

Definition. Sind (X, d), (Y, ̺) metrische Räume, so bezeichnen wir mit C(X, Y ) die<br />

Menge aller stetigen Funktionen von X nach Y .<br />

Satz 3.22 Eine Abbildung f : X → Y ist genau dann stetig, wenn für jede offene<br />

(abgeschlossene) Teilmenge M von Y ihr Urbild f −1 (M) offen (abgeschlossen) ist<br />

in X.<br />

Beweis. Sei f ∈ C(X, Y ). Ist U ⊂ Y offen, und ist a ∈ f −1 (U), so ist U eine Umgebung<br />

von f(a) ist. Wegen der Stetigkeit von f in a ist somit f −1 (U) eine Umgebung<br />

von a. Dies zeigt, daß f −1 (U) offen ist. Weiter ist f −1 (U c ) = (f −1 (U)) c . Dies zeigt,<br />

daß auch das Urbild einer abgeschlossenen Teilmenge von Y stets abgeschlossen ist.<br />

Sei umgekehrt f ∈ Y X so, daß das Urbild einer offenen Menge unter f stets offen<br />

ist. Seien ferner a ∈ X, ε > 0. Dann ist V = f −1 (B ε (f(a))) eine offene Menge mit<br />

a ∈ V , also eine Umgebung von a. Damit ist f nach Satz 3.20 stetig in a. Es folgt<br />

f ∈ C(X, Y ).<br />

Q.E.D.<br />

Beispiele 3.23 a) Seien (X, d) und (Y 1 , d 1 ), (Y 2 , d 2 ) metrische Räume, sowie<br />

f 1 : X → Y 1 , f 2 : X → Y 2 Abbildungen. Die Abbildung<br />

f = (f 1 , f 2 ) : X → Y 1 × Y 2<br />

ist genau dann stetig in x ∈ X, wenn beide Abbildungen f 1 und f 2 stetig sind<br />

in x.<br />

62


Beweis. Eine Folge (y k ) k = ((y k1 , y k2 )) k in Y 1 × Y 2 konvergiert genau dann<br />

gegen y = (y 1 , y 2 ) in Y 1 ×Y 2 , wenn lim y k1 = y 1 und lim y k2 = y 2 (vergl. dazu<br />

k→∞ k→∞<br />

(3.3), sowie den Beweis von Satz 3.14).<br />

Ist nun (x k ) k eine Folge in X mit lim x k = x ∈ X, so gilt somit: Die Folge<br />

k→∞<br />

f(x k ) konvergiert genau dann gegen f(x) in Y 1 ×Y 2 , wenn lim f 1 (x k ) = f 1 (x)<br />

k→∞<br />

und lim f 2 (x k ) = f 2 (x). Hieraus folgt die Behauptung. Q.E.D.<br />

k→∞<br />

b) Durch Iteration erhält man insbesondere:<br />

Eine Abbildung<br />

f = (f 1 , . . .,f n ) : X → K n<br />

ist genau dann stetig, wenn alle Komponenten f j : X → K, j = 1, . . ., n,<br />

stetig sind.<br />

c) Folgende Abbildungen sind stetig:<br />

(i) add: K × K → K, (x, y) ↦→ x + y,<br />

(ii) mult: K × K → K,<br />

(iii) quot: K × K × → K,<br />

(x, y) ↦→ xy,<br />

(x, y) ↦→ x y , wobei K× = K \ {0} sei.<br />

Beweis. Sei ((x k , y k )) k eine Folge in K 2 mit<br />

lim (x k, y k ) = (x, y) .<br />

k→∞<br />

Nach Satz 3.14 gilt dann lim x k = x, lim y k = y.<br />

k→∞ k→∞<br />

Daraus folgt<br />

lim (x k + y k ) = x + y, lim (x k y k ) = xy .<br />

k→∞ k→∞<br />

Ist zusätzlich y k ≠ 0 für alle k sowie y ≠ 0, so ist auch<br />

lim x ky −1<br />

k<br />

= xy −1 .<br />

k→∞<br />

Q.E.D.<br />

Korollar 3.24 Sei (X, d) ein metrischer Raum, und seien f, g : X → K stetige<br />

Funktionen. Dann sind auch die Funktionen<br />

f + g : X → K,<br />

fg : X → K<br />

stetig. Ist ferner g(x) ≠ 0 für alle x ∈ X, so ist auch<br />

stetig.<br />

f<br />

g : X → K<br />

63


Beweis. Nach a) ist die Abbildung<br />

(f, g) : X → K × K<br />

stetig. Ferner ist<br />

f + g = add ◦ (f, g), fg = mult ◦ (f, g),<br />

Die Behauptung folgt somit aus Satz 3.21 und c).<br />

f<br />

g<br />

= quot ◦ (f, g) .<br />

Q.E.D.<br />

d) Ein Monom auf dem K n vom Grad r ∈ N ist eine Funktion von K n nach K<br />

der Gestalt<br />

(x 1 , . . .,x n ) ↦→ x k 1<br />

1 x k 2<br />

2 . . .x kn<br />

n ,<br />

wobei k 1 , . . .,k n ∈ N mit k 1 + · · · + k n = r sind. Eine Polynomfunktion<br />

F : K n → K vom Grad ≤ r ist eine Linearkombination von Monomen vom<br />

Grad ≤ r,<br />

∑<br />

F(x 1 , . . .,x n ) = c k1 ...k n<br />

x k 1<br />

1 · · ·xkn n ,<br />

k 1 +···+k n≤r<br />

mit c k1 ...k n<br />

∈ K. Gibt es einen Koeffizienten c l1 ...l n<br />

≠ 0 mit l 1 + · · · + l n = r,<br />

so heißt F vom Grad r.<br />

Da die Koordinatenprojektionen<br />

p j : (x 1 , . . .,x n ) ↦→ x j<br />

für j = 1, . . .,n stetig sind, folgt durch wiederholte Anwendung von Korollar<br />

3.24, daß alle Polynomfunktionen auf dem K n stetig sind.<br />

Definition. Seien (X, d), (Y, ̺) metrische Räume. Eine Abbildung f : X → Y<br />

heiße gleichmäßig stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt, so daß für alle<br />

x 1 , x 2 ∈ X gilt:<br />

(3.6)<br />

Ist d(x 1 , x 2 ) < δ, so ist ̺(f(x 1 ), f(x 2 )) < ε.<br />

f : X → Y heißt Lipschitz-stetig, falls eine Konstante L ≥ 0 existiert mit<br />

̺(f(x 1 ), f(x 2 )) ≤ Ld(x 1 , x 2 ) für alle x 1 , x 2 ∈ X. Eine solche Abbildung ist offenbar<br />

gleichmäßig stetig.<br />

Satz 3.25 Sei X 0 dicht in X, und sei f : X 0 → Y gleichmäßig stetig. Ist Y<br />

vollständig, so gibt es genau eine stetige Abbildung<br />

˜f : X → Y mit ˜f|X0 = f.<br />

Man bezeichnet ˜f als die stetige Fortsetzung von f auf X. Diese ist ebenfalls<br />

gleichmäßig stetig.<br />

64


Beweis. Sei x ∈ X. Dann existiert eine Folge (x j ) j in X 0 mit x = lim x j . Somit ist<br />

(x j ) j eine Cauchy-Folge in X. Wegen der gleichmäßigen Stetigkeit von f ist dann<br />

die Folge (f(x j )) j eine Cauchy-Folge in Y :<br />

Ist nämlich ε > 0, so wähle δ > 0 wie in (3.6). Zu δ wähle k 0 ∈ N so, daß d(x j , x k ) < δ<br />

ist für alle j, k ≥ k 0 . Für diese j, k ist dann ̺(f(x j ), f(x k )) < ε.<br />

Wegen der Vollständigkeit von Y strebt somit f(x j ) einem Grenzwert in Y zu, den<br />

wir mit ˜f(x) bezeichnen: ˜f(x) := lim f(xj ).<br />

Dieser Grenzwert hängt nicht von der gewählten Folge (x j ) j ab, so daß ˜f als Funktion<br />

auf X wohldefiniert ist:<br />

Ist nämlich (y j ) j eine weitere Folge in X 0 mit x = lim y j , und ist ε > 0, so wähle δ > 0<br />

gemäß (3.6). Ist k 0 ∈ N so gewählt, daß d(x j , y j ) ≤ d(x j , x)+d(y j , x) < δ/2+δ/2 = δ<br />

gilt für alle j ≥ k 0 , so folgt<br />

̺(f(x j ), f(y j )) < ε ∀j ≥ k 0 .<br />

Somit ist lim ̺(f(x j ), f(y j )) = 0, woraus limf(x j ) = lim f(y j ) folgt.<br />

Die Funktion ˜f besitzt alle gewünschten Eigenschaften: Ist x ∈ X 0 , so gilt für die<br />

konstante Folge (x j ) j mit x j := x in X 0 : x = lim x j , also ˜f(x) = lim f(x j ) = f(x),<br />

d.h. ˜f ist eine Fortsetzung von f. Ferner ist ˜f gleichmäßig stetig:<br />

Ist ε > 0, so wähle wieder δ > 0 wie in (3.6). Sind x, y ∈ X mit d(x, y) < δ/3, so<br />

seien (x j ) j und (y j ) j Folgen in X 0 mit x = lim x j und y = lim y j . Dann ist für jedes<br />

j offenbar<br />

also<br />

̺( ˜f(x), ˜f(y)) ≤ ̺( ˜f(x), f(x j )) + ̺(f(x j ), f(y j )) + ̺(f(y j ), ˜f(y)),<br />

̺( ˜f(x), ˜f(y)) ≤ lim<br />

j<br />

̺(f(x j ), f(y j )).<br />

Wähle k 0 ∈ N so, daß gilt: d(x, x j ) < δ/3 und d(y, y j ) < δ/3 für j ≥ k 0 .<br />

Für j ≥ k 0 ist dann<br />

also ̺(f(x j ), f(y j )) < ε. Somit folgt<br />

d(x j , y j ) ≤ d(x j , x) + d(x, y) + d(y, y j ) < δ,<br />

̺( ˜f(x), ˜f(y)) ≤ ε.<br />

Da für jede stetige Fortsetzung g von f auf X gelten muß: g(x) = lim f(x j ), falls<br />

(x j ) j eine Folge in X 0 ist mit x = lim x j , ist die Eindeutigkeit von ˜f klar.<br />

Q.E.D.<br />

Bemerkung. Ist x ∈ X 0 , so ist ˜f(x) = f(x). Ist x ∈ X \ X 0 , so ist x ein Häufungspunkt<br />

von X 0 , und der Beweis zeigt, daß ˜f(x) = lim<br />

y→x<br />

f(y).<br />

Beispiel. f(x) = sin 1 x<br />

fortsetzen.<br />

ist stetig auf ]0, ∞[, läßt sich jedoch nicht stetig auf [0, ∞[<br />

65


3.5 Konvergenz von Funktionenfolgen<br />

Definition. Es seien (X, d), (Y, ̺) metrische Räume. Eine Funktionenfolge (f n ) n in<br />

Y X konvergiere punktweise (oder einfach) gegen f ∈ Y X , falls lim f n (x) = f(x)<br />

n→∞<br />

ist für alle x ∈ X. Sie konvergiere gleichmäßig gegen f, wenn es zu jedem ε > 0<br />

ein N = N(ε) ∈ N gibt mit<br />

̺(f(x), f n (x)) < ε für alle n ≥ N und alle x ∈ X .<br />

Satz 3.26 Es sei (f n ) n eine Funktionenfolge in C(X, Y ), welche gleichmäßig gegen<br />

f : X → Y konvergiert. Dann ist auch f ∈ C(X, Y ).<br />

Beweis. (Analog wie im Falle X = Y = R). Sei dazu ε > 0. Wegen der gleichmäßigen<br />

Konvergenz existiert ein N ∈ N so, daß<br />

̺(f(x), f N (x)) < ε 3<br />

ist für alle x ∈ X .<br />

Sei a ∈ X. Da f N in a stetig ist, gibt es ein δ > 0 mit<br />

̺(f N (x), f N (a)) < ε 3<br />

für alle x ∈ X mit d(x, a) < δ .<br />

Dann gilt für alle x ∈ X mit d(x, a) < δ:<br />

̺(f(x), f(a)) ≤<br />

̺(f(x), f N (x)) + ̺(f N (x), f N (a)) + ̺(f N (a), f(a))<br />

< ε 3 + ε 3 + ε 3 = ε . Q.E.D.<br />

3.6 Die Vervollständigung eines metrischen<br />

Raumes*<br />

In Anwendungen trifft man des öfteren metrische Räume an, welche nicht vollständig<br />

sind. Ein solches Beispiel kennen wir bereits: Die Menge Q der rationalen Zahlen,<br />

versehen mit der Metrik d(x, y) = |x − y|, x, y ∈ Q, ist nicht vollständig. Der<br />

Wunsch, Q zu ”<br />

vervollständigen“, führt letzendlich dann zur Menge R der reellen<br />

Zahlen, mit R = Q.<br />

Ganz ähnlich läßt sich jeder beliebige metrische Raum vervollständigen.<br />

Definition. Es seien (X 1 , d 1 ) und (X 2 , d 2 ) zwei metrische Räume. Eine Abbildung<br />

ϕ : X 1 → X 2 heiße abstandstreu oder isometrisch oder auch Isometrie von X 1<br />

nach X 2 , wenn gilt:<br />

66


d 2 (ϕ(x), ϕ(y)) = d 1 (x, y) für alle x, y ∈ X 1 .<br />

Offenbar ist eine Isometrie stets injektiv.<br />

Definition. Es sei X = (X, d) ein metrischer Raum. Ein vollständiger metrischer<br />

Raum Y = (Y, ̺) heiße Vervollständigung von X, wenn es eine Isometrie ϕ : X →<br />

Y gibt mit ϕ(X) = Y , d.h. wenn ϕ(X) dicht in Y ist.<br />

Bemerkung 3.27 Ist (Y, ̺) eine solche Vervollständigung von (X, d), so bildet ϕ<br />

den metrischen Raum X bijektiv und isometrisch auf den Teilraum ˜X = ϕ(X)<br />

von Y ab. Wir können daher die Räume (X, d) und ( ˜X, ̺ ˜X)<br />

als metrische Räume<br />

identifizieren“, d.h. o.B.d.A. annehmen, daß X bereits ein Teilraum von Y ist.<br />

”<br />

Dann ist Y der Abschluß von X (in Y ), d.h. Y = X.<br />

Satz 3.28 Es seien Y 1 = (Y 1 , ̺1) und Y 2 = (Y 2 , ̺2) zwei Vervollständigungen des<br />

metrischen Raumes X = (X, d). Dann gibt es eine bijektive Isometrie von Y 1 auf Y 2 .<br />

Beweis. Seien ϕ j : X → Y j Isometrien mit ϕ j (X) = Y j , j = 1, 2. Setze Z j :=<br />

ϕ j (X) ⊂ Y j , und betrachte die Abbildung<br />

ϕ := ϕ 2 ◦ ϕ −1<br />

1 : Z 1 → Z 2 ⊂ Y 2 .<br />

Als Komposition zweier Isometrien ist ϕ eine Isometrie, und folglich als solche<br />

gleichmäßig stetig. Es bezeichne ˜ϕ : Y 1 → Y 2 ihre stetige Fortsetzung nach Satz<br />

3.25. Dann ist auch ˜ϕ isometrisch. Dies folgt sofort aus der folgenden Tatsache:<br />

Ist (X, d) ein metrischer Raum, so ist die Metrik d : X ×X → R stetig als Funktion<br />

auf dem Produktraum X × X (Übung).<br />

Ganz analog besitzt die Isometrie<br />

ψ := ϕ 1 ◦ ϕ −1<br />

2 : Z 2 → Y 1<br />

eine Fortsetzung zu einer Isometrie ˜ψ : Y 2 → Y 1 .<br />

Dann ist jedoch ˜ψ ◦ ˜ϕ : Y 1 → Y 1 eine Isometrie mit<br />

˜ψ ◦ ˜ϕ| Z1 = ϕ 1 ◦ ϕ −1<br />

2 ◦ ϕ 2 ◦ ϕ −1<br />

1 = id | Z1 ,<br />

und da ˜ψ ◦ ˜ϕ stetig ist und Z 1 dicht in Y 1 liegt, folgt: ˜ψ ◦ ˜ϕ = id . Analog folgt auch<br />

˜ϕ ◦ ˜ψ = id , d.h. ˜ϕ ist eine bijektive Isometrie von Y 1 auf Y 2 , mit Umkehrabbildung<br />

˜ψ.<br />

Q.E.D.<br />

Dieser Satz zeigt, daß es bis auf Isometrie nur höchstens eine Vervollständigung eines<br />

metrischen Raumes gibt.<br />

67


Theorem 3.29 Jeder metrische Raum besitzt eine Vervollständigung.<br />

Bemerkung. Ist (X, d) ein metrischer Raum, so bezeichnet man oft mit (X, d) ”<br />

die“<br />

Vervollständigung von X, und nimmt o.B.d.A. gemäß Bemerkung 3.27 an, daß X<br />

der Abschluß von X ist.<br />

Beweis von Theorem 3.29.<br />

Es sei (X, d) ein metrischer Raum. Dann bezeichne Z die Menge aller Cauchy-Folgen<br />

in X.<br />

Sind nun ξ = (x n ) n∈N und η = (y n ) n∈N zwei Elemente von Z, so liest man aus der<br />

Ungleichung<br />

|d(x n , y n ) − d(x m , y m )| ≤ d(x n , x m ) + d(y m , y n )<br />

leicht ab, daß die Folge (d(x n , y n )) n∈N eine Cauchy-Folge in R bildet. Wir setzen<br />

̺′(ξ,<br />

η) := lim<br />

n→∞<br />

d(x n , y n ) .<br />

Man prüft nun leicht die folgenden Eigenschaften von ̺′ nach:<br />

(i) ̺′(ξ, η) ≥ 0 für alle ξ, η ∈ Z.<br />

(ii ′ ) ̺′(ξ, ξ) = 0 für alle ξ ∈ Z.<br />

(iii) ̺′(ξ, η) = ̺′(η, ξ) für alle ξ, η ∈ Z.<br />

(iv) ̺′(ξ, γ) ≤ ̺′(ξ, η) + ̺′(η, γ) für alle ξ, η, γ ∈ Z.<br />

Ferner ist ̺′(ξ, η) = ̺′((x n ) n , (y n ) n ) = 0 genau dann, wenn lim<br />

n→∞<br />

d(x n , y n ) = 0 ist. ̺′<br />

erfüllt also die Eigenschaften einer Metrik auf Z, bis auf die Eigenschaft (ii).<br />

Wir führen daher auf Z die folgende Relation ein:<br />

ξ ∼ η, falls ̺′(ξ,<br />

η) = 0 ist.<br />

Aus (i), (ii ′ ), (iii) und (iv) ersieht man leicht, daß hierdurch eine Äquivalenzrelation<br />

auf Z definiert wird, und wir setzen<br />

Y := Z/ ∼ .<br />

Sind x, y ∈ Y zwei Äquivalenzklassen, und sind ξ ∈ x, η ∈ y zwei Repräsentanten<br />

aus Z, so setzen wir<br />

̺(x, y) := ̺′(ξ,<br />

η) .<br />

Wiederum aus (i) – (iv) ersieht man, daß ̺ wohldefiniert ist. Sind nämlich beispielsweise<br />

ξ, ξ ′ ∈ x, η ∈ y, so ist<br />

̺′(ξ,<br />

η) ≤ ̺′(ξ,<br />

ξ ′ ) + ̺′(ξ ′ , η) = ̺′(ξ ′ , η) ,<br />

68


und ebenso ist ̺′(ξ ′ , η) ≤ ̺′(ξ, η), so daß ̺′(ξ, η) = ̺′(ξ ′ , η) ist.<br />

Aus der Definition von ̺ ergibt sich sofort, daß ̺ ebenfalls die Eigenschaften (i),<br />

(ii ′ ), (iii) und (iv) erfüllt. Zusätzlich gilt jedoch noch<br />

(ii) ̺(x, y) = 0 genau dann, wenn x = y, d.h. ̺ ist eine Metrik auf Y .<br />

Ist nämlich ̺(x, y) = 0, und sind ξ ∈ x, η ∈ y, so ist ̺′(ξ, η) = 0, d.h. ξ ∼ η und<br />

somit x = [ξ] = [η] = y .<br />

Weiter wird durch<br />

ϕ : X → Y, x ↦→ [(x) n ],<br />

eine Isometrie von X in Y definiert, denn es ist für x, y ∈ X<br />

̺([(x) n ], [(y) n ]) = ̺′((x)<br />

n , (y) n ) = lim<br />

n→∞<br />

d(x, y) = d(x, y) ;<br />

hier ist für x ∈ X mit (x) n die konstante Folge (x n ) n mit x n = x für alle n gemeint.<br />

Behauptung: ϕ(X) = Y .<br />

Ist nämlich x ∈ Y , so sei ξ = (x n ) n ∈ x . Dann ist<br />

̺(x, ϕ(x n )) = ̺′((x<br />

k ) k , (x n ) k ) = lim<br />

k→∞<br />

d(x k , x n ) .<br />

Sei ε > 0. Da (x k ) k eine Cauchy-Folge ist, gibt es ein N ∈ N, so daß d(x k , x n ) < ε<br />

ist für alle k, n ≥ N. Insbesondere ist für n ≥ N<br />

̺(x, ϕ(x n )) = lim<br />

k→∞<br />

d(x k , x n ) ≤ ε .<br />

Folglich ist lim n→∞̺(x, ϕ(x n )) = 0. Dies zeigt, daß jeder Punkt x von Y ein Berührungspunkt<br />

von ϕ(X) ist.<br />

Schließlich müssen wir noch die Vollständigkeit von Y nachweisen. Sei dazu (y n ) n<br />

eine Cauchy-Folge in Y . Da ϕ(X) dicht in Y ist, gibt es eine Folge (x n ) n in X mit<br />

ρ(y n , ϕ(x n )) < 1/(n + 1) .<br />

Hieraus folgt leicht, daß auch die Folge (ϕ(x n )) n eine Cauchy-Folge in Y ist. Da<br />

jedoch<br />

̺(ϕ(x n ), ϕ(x m )) = d(x n , x m )<br />

ist, ist die Folge ξ = (x n ) n somit eine Cauchy-Folge in X. Es sei y := [ξ] ∈ Y . Dann<br />

ist nach dem Beweis der vorangegangenen Behauptung<br />

y = lim<br />

n→∞<br />

ϕ(x n ) n in Y .<br />

Ferner ist offenbar lim n→∞ ρ(y n , ϕ(x n )) = 0, und somit auch<br />

Die Folge (y n ) n konvergiert also in Y .<br />

y = lim<br />

n→∞<br />

y n in Y .<br />

Q.E.D.<br />

69


Kapitel 4<br />

Stetige lineare Abbildungen<br />

zwischen normierten<br />

Vektorräumen<br />

Satz 4.1 Seien (V, ‖ · ‖ V ) und (W, ‖ · ‖ W ) normierte Vektorräume über K, sowie<br />

v ∈ V . Für eine lineare Abbildung T : V → W sind die folgenden Bedingungen<br />

äquivalent:<br />

(a) T ist stetig in 0 ∈ V .<br />

(b) T ist stetig in v.<br />

(c) T ist global stetig.<br />

(d) T ist eine beschränkte lineare Abbildung, d.h. es gibt eine Konstante C ≥ 0<br />

mit<br />

‖T(x)‖ W ≤ C‖x‖ V für alle x ∈ V.<br />

Beweis. (a) ⇐⇒ (b):<br />

Da ‖T(x) − T(v)‖ W = ‖T(x − v)‖ W = ‖T(x − v) − T(0)‖ W ist für alle x, v ∈ V ,<br />

folgt die Äquivalenz von (a) und (b) sofort aus dem ε − δ-Kriterium in Satz 3.20.<br />

Die Äquivalenz von (a),(b) mit (c) ist offensichtlich, da ja v ∈ V beliebig ist .<br />

(a) ⇒ (d): Ist T stetig in 0, so gibt es zu ε = 1 ein δ > 0 so, daß<br />

‖T(z)‖ W < 1 für alle z ∈ V mit ‖z‖ V < δ .<br />

Ist nun x ∈ V \ {0} beliebig, so setzen wir z :=<br />

folglich<br />

δ<br />

2‖x‖ V<br />

x. Dann ist ‖z‖ V = δ < δ, 2<br />

‖T(x)‖ W = ‖T( 2‖x‖ V<br />

z)‖ W = 2‖x‖ V<br />

‖T(z)‖ W < 2 δ δ δ ‖x‖ V .<br />

Somit gilt die Abschätzung in (d) mit C := 2/δ.<br />

70


(d) ⇒ (c): Aus der Abschätzung in (d) folgt:<br />

‖T(x) − T(v)‖ W ≤ C‖x − v‖ V , ∀x, v ∈ V,<br />

woraus sogar Lipschitz- Stetigkeit von T folgt.<br />

Q.E.D.<br />

Bemerkung 4.2 Um die Schreibweise zu erleichtern, werden wir in Zukunft die<br />

Norm ‖ · ‖ V auf einem normierten Vektorraum in der Regel einfach mit ‖ · ‖ bezeichnen,<br />

auch wenn es sich mitunter um Normen auf verschiedenen normierten<br />

Vektorräumen handeln wird, die wir so mit demselben Symbol belegen werden.<br />

Beispiele 4.3<br />

(a) Sei V = C([a, b]), versehen mit der Supremumsnorm<br />

‖f‖ ∞ = sup{|f(x)| : x ∈ [a, b]} .<br />

Sei I : C([a, b]) → C die durch das Integral definierte lineare Abbildung<br />

I(f) :=<br />

∫ b<br />

a<br />

f(x) dx, f ∈ C([a, b]) .<br />

Dann ist I stetig, denn es gilt die Abschätzung<br />

|I(f)| ≤ (b − a)‖f‖ ∞ .<br />

(b) Sei W der lineare Teilraum C 1 ([0, 1]) von C([0, 1]), versehen mit der Supremumsnorm,<br />

und sei<br />

D : C 1 ([0, 1]) → C([0, 1])<br />

die durch die Differentiation D(f) := f ′ gegebene lineare Abbildung. D ist<br />

nicht stetig:<br />

Für die Funktionen f n ∈ C 1 ([0, 1]), f n (x) = x n , n ∈ N, gilt nämlich: ‖f n ‖ ∞ =<br />

1, ‖D(f n )‖ ∞ = n. Es gibt daher keine Konstante C ∈ R + 0 mit ‖D(f n )‖ ∞ ≤<br />

C‖f n ‖ ∞ für alle n ∈ N.<br />

Definition. Es sei T : V → W eine stetige lineare Abbildung zwischen normierten<br />

Vektorräumen. Nach Satz 4.1 ist T beschränkt, so daß<br />

endlich ist. Es gilt dann offenbar<br />

‖T ‖ = ‖T ‖ op := sup{‖T(x)‖ : x ∈ V, ‖x‖ ≤ 1}<br />

(4.1) ‖T(x)‖ ≤ ‖T ‖ · ‖x‖ für alle x ∈ V ,<br />

71


(<br />

da für x ≠ 0 die Abschätzung ‖T<br />

x<br />

‖x‖<br />

)<br />

‖ ≤ ‖T ‖ zutrifft.<br />

Ferner ist ‖T ‖ offenbar die kleinste Konstante C, für welche die Abschätzung in Teil<br />

(d) von Satz 4.1 gilt.<br />

Z.B. ist ‖I‖ = 1, wobei I den identischen Operator x ↦→ x bezeichne.<br />

Wir bezeichnen eine stetige lineare Abbildung T : V → W auch als beschränkten<br />

linearen Operator, und schreiben anstelle von T(x) oftmals auch kurz Tx.<br />

L(V, W) bezeichne die Menge aller beschränkten linearen Operatoren T : V → W.<br />

Sind T, S ∈ L(V, W), λ ∈ K, x ∈ V , so gilt nach (4.1):<br />

‖(T + S)(x)‖<br />

‖(λT)(x)‖<br />

= ‖Tx + Sx‖ ≤ ‖Tx‖ + ‖Sx‖<br />

≤ ‖T ‖ ‖x‖ + ‖S‖ ‖x‖<br />

= (‖T ‖ + ‖S‖)‖x‖,<br />

= ‖λTx‖ = |λ| ‖Tx‖,<br />

woraus folgt: λT, T + S ∈ L(V, W), und<br />

‖λT ‖<br />

= |λ| ‖T ‖,<br />

‖T + S‖ ≤ ‖T ‖ + ‖S‖.<br />

Ferner ist offenbar ‖T ‖ = 0 genau dann, wenn Tx = 0 ∀x ∈ V , d.h. wenn T = 0.<br />

Dies zeigt, daß L(V, W) einen K-Vektorraum bildet, und daß ‖ · ‖ = ‖ · ‖ op eine<br />

Norm auf L(V, W) ist, die sogenannte Operatornorm. Diese werden wir stets auf<br />

L(V, W) verwenden.<br />

Beispiel 4.4 V = R n , W = R m .<br />

Bezeichnen e 1 , . . .,e n und f 1 , . . .,f m die kanonischen Basen des R n bzw. R m , und<br />

∑<br />

ist T ∈ L(R n , R m ), so gilt für x = n x k e k ∈ R n :<br />

k=1<br />

Tx =<br />

n∑<br />

x k Te k ,<br />

k=1<br />

wobei Te k sich eindeutig darstellen läßt als<br />

(4.2) Te k =<br />

m∑<br />

a jk f j , a jk ∈ R.<br />

j=1<br />

Somit ist<br />

(4.3) Tx =<br />

m∑<br />

j=1<br />

( n∑<br />

k=1<br />

a jk x k<br />

)<br />

f j .<br />

72


Daher identifiziert man in der linearen Algebra bekanntlich T ∈ L(R n , R m ) mit der<br />

m × n-Matrix A := (a jk ) j=1,...,m, und die Anwendung von T auf x läßt sich durch<br />

k=1,...,n<br />

Matrixmultiplikation von A mit dem Spaltenvektor t x darstellen, d.h.<br />

⎛ ⎞<br />

x 1<br />

(4.4)<br />

t (Tx) = A ·tx, t ⎜ ⎟<br />

x = ⎝ . ⎠ .<br />

x n<br />

Konvention: Wann immer wir eine lineare Abbildung T : R n → R m durch eine<br />

Matrix bezüglich der kanonischen Basen dieser Räume beschreiben, werden wir daher<br />

die Vektoren als Spaltenvektoren betrachten, und T durch Linksmultiplikation<br />

mit einer m × n-Matrix A darstellen:<br />

⎛ ⎞<br />

x 1<br />

⎜ ⎟<br />

(4.5) T(x) = A · x, x = ⎝ . ⎠.<br />

x n<br />

⎛ ⎞<br />

a 1k<br />

⎜ ⎟<br />

Schreiben wir die Matrix A in der Form A = (A 1 , . . .,A n ), wobei A k := ⎝ . ⎠ den<br />

a mk<br />

k-ten Spaltenvektor der Matrix A bezeichne, so gilt also<br />

⎛ ⎞<br />

n∑<br />

x 1<br />

⎜ ⎟<br />

(4.6) T(x) = A · x = x k A k , falls x = ⎝ . ⎠ .<br />

k=1<br />

x n<br />

Bemerkung. Ist V = W, und sind S, T ∈ L(V, V ), so ist auch S ◦ T ∈ L(V, V ),<br />

und man sieht leicht:<br />

(4.7) ‖S ◦ T ‖ ≤ ‖S‖ ‖T ‖ .<br />

L(V, V ) bildet bzgl. der Addition und Komposition beschränkter linearer Operatoren<br />

somit sogar eine normierte Algebra (d.h. eine Algebra (A, +, ·) über K, K = R<br />

oder K = C, versehen mit einer Norm ‖·‖, so daß (A, ‖·‖) ein normierter Vektorraum<br />

ist, und so daß für alle a, b ∈ A gilt: ‖a · b‖ ≤ ‖a‖ ‖b‖. Besitzt A ein Einselement I,<br />

so verlangt man zusätzlich ‖I‖ = 1).<br />

Ist W vollständig, so ist auch L(V, W) vollständig. Insbesondere ist L(V, V ) eine<br />

Banach-Algebra, d.h. eine vollständig normierte Algebra, falls V ein Banach-<br />

Raum ist.<br />

Satz 4.5 Ist V = K n , so ist jede lineare Abbildung T : K n → W stetig.<br />

73


Beweis. Es bezeichne e k = (0, . . .,0, 1, 0, . . ., 0) den k-ten Basisvektor der kanonischen<br />

Basis des K n . Setze w k := T(e k ) ∈ W, k = 1, . . .,n. Für x = (x 1 , . . .,x n ) =<br />

∑ n<br />

k=1 x ke k ∈ K n gilt dann (man vergleiche dies mit (4.6)):<br />

Tx =<br />

n∑<br />

x k w k ,<br />

k=1<br />

also<br />

‖Tx‖<br />

≤<br />

n∑<br />

‖x k w k ‖ =<br />

n∑<br />

‖w k ‖ |x k | ≤<br />

‖w k ‖ 2 ) 1/2<br />

‖x‖ 2 .<br />

( n∑<br />

k=1<br />

k=1<br />

k=1<br />

Es folgt<br />

‖Tx‖ ≤ C‖x‖ 2 , mit C :=<br />

( n∑<br />

k=1<br />

‖w k ‖ 2 ) 1/2<br />

.<br />

Somit ist T beschränkt und folglich stetig.<br />

Q.E.D.<br />

74


Kapitel 5<br />

Kompaktheit<br />

5.1 Kompakte metrische Räume<br />

Definition. Der metrische Raum (X, d) heiße Folgen-kompakt, wenn jede Folge<br />

(x n ) n in X (mindestens) eine konvergente Teilfolge besitzt.<br />

Eine Teilmenge Y ⊂ X heiße Folgen-kompakt, wenn Y als metrischer Teilraum<br />

von X Folgen-kompakt ist.<br />

Der Satz von Bolzano-Weierstraß aus der <strong>Analysis</strong> I läßt sich nun auch folgendermaßen<br />

formulieren:<br />

Jedes “kompakte“ Intervall [a, b] mit a, b ∈ R, a ≤ b, ist Folgen-kompakt.<br />

Satz 5.1 Sind (X 1 , d 1 ), (X 2 , d 2 ) zwei metrische Räume, und sind K 1 ⊂ X 1 und<br />

K 2 ⊂ X 2 Folgen-kompakte Teilmengen, so ist auch die Menge K 1 × K 2 Folgenkompakt<br />

in (X 1 × X 2 , d), wobei d die Metrik (3.3) auf X 1 × X 2 bezeichne.<br />

Beweis. Ist ((x n , y n )) n eine Folge in K 1 ×K 2 , so gibt es zunächst wegen der Folgen-<br />

Kompaktheit von K 1 eine aufsteigende Indexfolge (n j ) j so, daß die Teilfolge (x nj ) j<br />

von (x n ) n in K 1 konvergiert. Aus der Teilfolge (y nj ) j von (y n ) n in K 2 läßt sich dann<br />

wiederum eine in K 2 konvergente Teilfolge (y njk ) k auswählen. Setzen wir m k := n jk ,<br />

so finden wir damit insgesamt eine aufsteigende Indexfolge (m k ) k derart, daß die<br />

Teilfolge (x mk ) k von (x n ) n in K 1 und die Teilfolge (y mk ) k von (y n ) n in K 2 konvergiert.<br />

Hieraus folgert man, daß die Teilfolge ((x mk , y mk )) k von ((x n , y n )) n in K 1 ×K 2<br />

konvergiert.<br />

Q.E.D.<br />

Beispiel. Durch wiederholte Anwendung dieser Beobachtung erkennt man, daß jeder<br />

abgeschlossene Quader [a 1 , b 1 ] × · · · × [a n , b n ] im R n Folgen- kompakt ist.<br />

Definitionen. Sei Y ⊂ X. Eine Familie (U ι ) ι∈I von Teilmengen von X heiße Überdeckung<br />

von Y , wenn gilt<br />

Y ⊂ ⋃ ι∈I<br />

U ι .<br />

75


Sie heiße offene Überdeckung von Y , wenn zusätzlich alle U ι offen sind.<br />

Gibt es zu jedem ε > 0 eine endliche Überdeckung von Y aus Kugeln B ε (a j ), j =<br />

1, . . .m, welche allesamt den Radius ε haben, d.h.<br />

U =<br />

m⋃<br />

B ε (a j ),<br />

so heißt die Menge Y total beschränkt oder auch präkompakt.<br />

j=1<br />

Schließlich heiße der metrische Raum X separabel, wenn er eine abzählbare dichte<br />

Teilmenge enthält.<br />

Satz 5.2 Sei X = (X, d) ein Folgen-kompakter metrischer Raum. Dann gilt:<br />

(i) X ist vollständig.<br />

(ii) X ist beschränkt.<br />

(iii) X ist total beschränkt.<br />

(iv) X ist separabel.<br />

Beweis.<br />

(i) Sei (x n ) n eine Cauchy-Folge in X. Da X Folgen-kompakt ist, existiert eine<br />

konvergente Teilfolge (x nk ) k . Ist x = lim x nk , so konvergiert auch die gesamte<br />

k→∞<br />

Folge (x n ) n gegen x, denn:<br />

Ist ε > 0, so existieren ein N ∈ N sowie k 0 ∈ N so, daß d(x n , x m ) < ε/2 für<br />

alle m, n ≥ N, und d(x, x nk ) < ε/2 für alle k ≥ k 0 . Wähle k ≥ k 0 so groß, daß<br />

n k ≥ N. Für n ≥ N folgt dann d(x, x n ) ≤ d(x, x nk )+d(x nk , x n ) < ε/2+ε/2 =<br />

ε.<br />

(ii) Wäre X unbeschränkt, so gäbe es zwei Folgen (x n ) n und (y n ) n in X mit<br />

d(x n , y n ) → ∞ .<br />

Andererseits gibt es wegen der Folgen-Kompaktheit von X eine aufsteigende<br />

Folge (n k ) k in N so, daß beide Teilfolgen (x nk ) k und (y nk ) k in X konvergieren.<br />

Dies steht im Widerspruch zu<br />

d(x nk , y nk ) → ∞ für k → ∞ .<br />

76


(iii) Sei ε > 0 gegeben. Wir wählen einen Punkt a 0 ∈ X. Ist B ε (a 0 ) c ≠ ∅, so<br />

wählen wir a 1 ∈ B ε (a 0 ) c . Ist weiter (B ε (a 0 ) ∪ B ε (a 1 )) c ≠ ∅, so wählen wir<br />

a 2 ∈ (B ε (a 0 ) ∪ B ε (a 1 )) c , und fahren entsprechend fort. Dieses Verfahren muß<br />

abbrechen, denn andernfalls erhielten wir damit eine Folge (a n ) n in X, bei der<br />

der Abstand je zweier Folgenglieder stets größer als ε > 0 wäre, und welche<br />

somit keine konvergente Teilfolge besäße. Es muß also ein k ∈ N geben mit<br />

X = B ε (a 0 ) ∪ · · · ∪ B ε (a k ) .<br />

(iv) Wir wählen zu jedem ε = 1 n , n ∈ N× , eine endliche Überdeckung<br />

(B 1/n (a nj )) j=1,...,kn von X gemäß (iii), und setzen A := {a nj , n ∈ N × , j =<br />

1, . . ., k n }. Dann ist A abzählbar, und es ist A = X.<br />

Ist nämlich x ∈ X, so gibt es zu jedem n ∈ N × ein j n mit x ∈ B 1/n (a njn ).<br />

Folglich ist x = lim a njn .<br />

n→∞ Q.E.D.<br />

Eine keineswegs naheliegende, äquivalente Charakterisierung der Folgen-<br />

Kompaktheit wird durch folgende Definition gegeben:<br />

Definition. Eine Teilmenge K von (X, d) heiße kompakt, wenn es zu jeder offenen<br />

Überdeckung (U ι ) ι∈I von K endlich viele Indizes ι 1 , . . .,ι k ∈ I gibt mit<br />

K ⊂ U ι1 ∪ · · · ∪ U ιk ,<br />

d.h. wenn jede offene Überdeckung von K eine endliche Teilüberdeckung enthält.<br />

Theorem 5.3 Ein metrischer Raum (X, d) ist kompakt genau dann, wenn er<br />

Folgen-kompakt ist.<br />

Beweis. Wir beweisen beide zu zeigenden Implikationen durch Widerspruch.<br />

Sei zunächst X kompakt, und sei (x n ) n eine Folge in X. Angenommen, keine Teilfolge<br />

von (x n ) n konvergiert gegen einen Punkt von X. Dann besitzt jeder Punkt x ∈ X<br />

eine offene Umgebung U x , in der nur endlich viele Glieder der Folge liegen. Es gilt<br />

offenbar X = ⋃ U x . Da X kompakt ist, gibt es endlich viele Punkte x 1 , . . .,x m ∈ X<br />

mit X = m ⋃<br />

k=1<br />

x∈X<br />

nicht möglich ist.<br />

U xk . Dann lägen aber in ganz X nur endlich viele Folgenglieder, was<br />

Wir nehmen nun umgekehrt an, daß X Folgen-kompakt ist. Sei (U ι ) ι∈I eine offene<br />

Überdeckung von X. Angenommen, diese besitzt keine endliche Teilüberdeckung.<br />

Nach Satz 5.2 können wir für jedes n ∈ N × endlich viele Kugeln mit Radius 1/n<br />

wählen, welche X überdecken.<br />

77


Unsere Voraussetzung impliziert dann, daß mindestens eine dieser Kugeln mit Radius<br />

1/n nicht durch endlich viele der Mengen U ι überdeckt wird, sagen wir die Kugel<br />

B n = B 1/n (z n ).<br />

Da X Folgen-kompakt ist, besitzt die Folge (z n ) n eine konvergente Teilfolge (z nj ) j ,<br />

welche gegen ein z ∈ X konvergiert. Wähle den Index ι 0 ∈ I so, daß z ∈ U ι0 . Da U ι0<br />

offen ist, gibt es eine Kugel B = B ε (z), ε > 0, welche in U ι0 enthalten ist. Wähle N<br />

so groß, daß 2 N < ε. Dann existiert ein n = n j > N so, daß<br />

gilt. Für jedes x ∈ B n gilt dann:<br />

d(z n , z) < 1/N<br />

d(x, z) ≤ d(x, z n ) + d(z n , z) < 1 n + 1 N < 2 N < ε,<br />

d.h. es ist B n ⊂ B ⊂ U ι0 . Dies widerspricht der Wahl von B n (da danach B n sogar<br />

durch eine der Mengen U ι überdeckt wird). Dieser Widerspruch zeigt, daß X doch<br />

durch endlich viele der Mengen U ι überdeckt werden kann.<br />

Q.E.D.<br />

Satz 5.4 Sei (X, d) ein metrischer Raum, und sei A ⊂ X eine Teilmenge.<br />

(i) A ist kompakt in X genau dann, wenn A als metrischer Teilraum von (X, d)<br />

kompakt ist.<br />

(ii) Ist A kompakt, so ist A abgeschlossen in X.<br />

(iii) Ist (X, d) kompakt, so ist A kompakt genau dann, wenn A abgeschlossen ist in<br />

X.<br />

Beweis.<br />

(i) Dies folgt sofort aus der Definition der Kompaktheit und der Tatsache, daß<br />

V ⊂ A offen im metrischen Teilraum A ist genau dann, wenn es eine offene<br />

Teilmenge U von X gibt mit V = A ∩ U (vergl. Satz 3.11).<br />

(ii) Ist A kompakt, so ist A Folgen-kompakt. Ist somit (a n ) n eine Folge in A, welche<br />

gegen ein x ∈ X konvergiert, so besitzt diese eine in A konvergente Teilfolge.<br />

Folglich ist x ∈ A, und damit A abgeschlossen.<br />

(iii) Sei (X, d) kompakt, und sei A abgeschlossen in X. Ist dann (U ι ) ι∈I eine offene<br />

Überdeckung von A, so ist durch die Mengen U ι , ι ∈ I, und A c eine offene<br />

Überdeckung von X gegeben. Da X kompakt ist, gibt es folglich ι 1 , . . .,ι k ∈ I<br />

mit<br />

A c ∪ U ι1 ∪ · · · ∪ U ιk ⊃ A .<br />

78


Hieraus folgt U ι1 ∪ · · · ∪ U ιk ⊃ A. Somit ist A kompakt.<br />

Die Umkehrung ist nach (ii) klar.<br />

Q.E.D.<br />

Wir haben gesehen, daß jede kompakte Teilmenge von X abgeschlossen und beschränkt<br />

ist. Die Umkehrung hiervon gilt i.a. jedoch nicht.<br />

Beispiel 5.5 Wir betrachten N mit der diskreten Metrik<br />

{<br />

0, falls x = y,<br />

d(x, y) =<br />

1, falls x ≠ y.<br />

Dann ist (N, d) abgeschlossen und beschränkt, die Folge (n) n∈N beispielsweise enthält<br />

jedoch keine konvergente Teilfolge (eine solche müßte ab einem gewissen Index konstant<br />

sein).<br />

Im R n gilt jedoch das<br />

Theorem 5.6 (Satz von Heine-Borel) Eine Teilmenge A ⊂ R n ist genau dann<br />

kompakt, wenn sie abgeschlossen und beschränkt ist.<br />

Beweis. Es bleibt nur noch eine Richtung zu zeigen.<br />

Sei also A abgeschlossen und beschränkt. Wir zeigen, daß A kompakt ist. Da A<br />

beschränkt ist, können wir ein R > 0 so wählen, daß für jedes a = (a 1 , . . ., a n ) ∈ A<br />

gilt:<br />

max<br />

j=1,...,n |a j| ≤ R ,<br />

d.h. A liegt im Würfel W := [−R, R] n . Dieser ist aber nach dem Satz 5.1 folgenden<br />

Beispiel Folgen-kompakt, also kompakt. Somit ist A eine abgeschlossene Teilmenge<br />

einer kompakten Menge, folglich nach Satz 5.4 (iii) kompakt.<br />

Q.E.D.<br />

Wir können nun einige Sätze, welche wir für stetige Funktionen auf kompakten<br />

Intervallen bewiesen hatten, erheblich verallgemeinern.<br />

Theorem 5.7 Es seien X, Y metrische Räume und f ∈ C(X, Y ). Ist K ⊂ X<br />

kompakt, so ist auch f(K) ⊂ Y kompakt.<br />

Beweis. Sei (U ι ) ι∈I eine offene Überdeckung von f(K). Nach Satz 3.22 sind die<br />

Mengen V ι := f −1 (U ι ) offen in X, und es gilt: K ⊂ ⋃ V ι . Da K kompakt ist, gibt<br />

es endlich viele Indizes ι 1 , . . .,ι m mit K ⊂ m ⋃<br />

k=1<br />

ι∈I<br />

V ιk . Hieraus folgt f(K) ⊂ ⋃ m<br />

k=1 U ι k<br />

.<br />

Q.E.D.<br />

79


Satz 5.8 Seien X ein kompakter metrischer Raum und f ∈ C(X, R). Dann ist<br />

die Funktion f beschränkt und nimmt ihr Maximum und Minimum an, d.h. es gibt<br />

Punkte p, q ∈ X mit<br />

f(p) = sup{f(x) : x ∈ X}, f(q) = inf{f(x) : x ∈ X} .<br />

Beweis. Nach Theorem 5.7 ist K := f(X) ⊂ R kompakt, also abgeschlossen und<br />

beschränkt. Sei α = sup(K). Dann ist α ∈ R, und es existiert eine Folge (a n ) n in K<br />

mit α = lim a n . Folglich ist α ∈ K. Dies beweist die Behauptung über das Maximum<br />

von f, und diejenige über das Minimum wird analog bewiesen.<br />

Q.E.D.<br />

Satz 5.9 Seien (X, d), (Y, ̺) metrische Räume. Ist X kompakt, so ist jede stetige<br />

Funktion f ∈ C(X, Y ) gleichmäßig stetig.<br />

Beweis. Sei ε > 0. Da f stetig ist, gibt es zu jedem z ∈ X ein δ(z) > 0 so, daß gilt:<br />

Da X kompakt ist, und da X = ⋃<br />

̺(f(x), f(z)) < ε 2 für alle x ∈ B δ(z)(z) .<br />

z∈X<br />

X =<br />

B δ(z)/2 (z), gibt es Punkte z 1 , . . .,z k ∈ X mit<br />

k⋃<br />

B δ(zj )/2(z j ) .<br />

j=1<br />

Sei δ := 1 2 min{δ(z 1), . . .,δ(z k )}. Seien nun x, y zwei beliebige Punkte in X mit<br />

d(x, y) < δ. Zu x gibt es ein j ∈ {1, . . ., k} mit x ∈ B δ(zj )/2(z j ). Mittels der Dreiecksungleichung<br />

folgt dann: y ∈ B δ(zj )(z j ). Somit erhalten wir<br />

̺(f(x), f(z j )) < ε 2 und ̺(f(y), f(z j)) < ε 2 ,<br />

also<br />

̺(f(x), f(y)) < ε .<br />

Q.E.D.<br />

80


5.2 Äquivalenz der Normen auf dem R n<br />

Wir haben bereits in den Übungen gesehen, daß alle p-Normen auf dem R n äquivalent<br />

sind, und somit auch dieselbe Topologie und denselben Konvergenzbegriff<br />

induzieren. Allgemeiner gilt sogar<br />

Satz 5.10 Je zwei Normen auf dem R n sind äquivalent.<br />

Beweis. Sei ‖·‖ eine beliebige, feste Norm auf dem R n . Wir zeigen, daß ‖·‖ ∼ ‖·‖ ∞<br />

ist, woraus die Behauptung folgt.<br />

Es bezeichne e 1 , . . ., e n die kanonische Basis des R n . Für x = (x 1 , . . .,x n ) =<br />

∑ n<br />

j=1 x je j ∈ R n folgt:<br />

(5.1) ‖x‖ ≤<br />

n∑<br />

‖x j e j ‖ =<br />

j=1<br />

n∑<br />

|x j | ‖e j ‖ ≤ c 2 ‖x‖ ∞ ,<br />

j=1<br />

∑<br />

mit c 2 := n ‖e j ‖.<br />

j=1<br />

Aus (5.1) folgt insbesondere, daß die Abbildung ‖ · ‖ : (R n , ‖ · ‖ ∞ ) → R stetig ist, da<br />

| ‖x‖ − ‖y‖ | ≤ ‖x − y‖ ≤ c 2 ‖x − y‖ ∞ .<br />

Es bezeichne nun S := {x ∈ R n : ‖x‖ ∞ = 1} die ”<br />

Einheitssphäre“ bzgl. der Maximumsnorm<br />

(welche geometrisch eine Würfelfläche ist). S ist abgeschlossen und<br />

beschränkt, und somit kompakt.<br />

Nach Satz 5.8 nimmt die Abbildung ‖ · ‖ daher auf S ihr Minimum an, d.h. es gibt<br />

ein y 0 ∈ S mit<br />

‖y 0 ‖ ≤ ‖y‖ für alle y ∈ S .<br />

Es ist aber c 1 := ‖y 0 ‖ > 0, da andernfalls y 0 = 0 wäre und somit y ∉ S . Für<br />

beliebiges x ∈ R n , x ≠ 0, folgt:<br />

‖x‖ =<br />

( ) x ∣∣∣ ∣ ∣∣ ∣∣ ∣∣ ∣∣ x<br />

∣∣ ∣∣ ∣∣<br />

∣∣ ‖x‖ ∞ = ‖x‖∞<br />

‖x‖ ∞<br />

‖x‖ ∞<br />

≥ ‖x‖ ∞ c 1 .<br />

Zusammen mit (5.1) folgt daher (für beliebiges x ∈ R n ):<br />

c 1 ‖x‖ ∞ ≤ ‖x‖ ≤ c 2 ‖x‖ ∞ .<br />

Q.E.D.<br />

81


Kapitel 6<br />

Zusammenhang<br />

Definition. Ein metrischer Raum (X, d) heiße zusammenhängend, wenn es kein<br />

Paar nichtleerer offener Mengen A und B in X gibt mit X = A ∪B und A ∩B = ∅.<br />

Eine Teilmenge von X heiße zusammenhängend, wenn sie als metrischer Teilraum<br />

von X zusammenhängend ist.<br />

Satz 6.1 Sei M ⊂ X. Folgende Aussagen sind äquivalent:<br />

(i) M ist zusammenhängend.<br />

(ii) ∅ und M sind die einzigen Teilmengen von M, welche in der Relativtopologie<br />

von M sowohl offen als auch abgeschlossen sind.<br />

Beweis. Sei o.B.d.A. M = X. Ist X zusammenhängend, und ist ∅ ≠ A ⊂ X offen<br />

und abgeschlossen, so gilt dasselbe für B = A c . Ferner ist A ∪ B = X, A ∩ B = ∅.<br />

Somit muß B = ∅ sein, d.h. A = X.<br />

Gilt umgekehrt (ii), und sind A, B offen in X mit A ∪ B = X, A ∩ B = ∅, so ist<br />

wegen A = B c die Menge A sowohl offen als auch abgeschlossen. Ist A ≠ ∅, so muß<br />

nach (ii) folglich A = X sein, d.h. B = ∅.<br />

Q.E.D.<br />

Theorem 6.2 Sei M eine zusammenhängende Teilmenge des metrischen Raumes<br />

(X, d), und sei f eine stetige Abbildung von X in den metrischen Raum (Y, ̺). Dann<br />

ist das Bild f(M) zusammenhängend.<br />

Beweis. Indem wir Y durch f(M) ersetzen, dürfen wir o.B.d.A. annehmen, daß f<br />

surjektiv ist.<br />

Falls dann Y nicht zusammenhängend ist, so gibt es nichtleere offene Teilmengen<br />

A, B in Y mit Y = A ∪ B und A ∩ B = ∅. Dann ist<br />

X = f −1 (Y ) = f −1 (A) ∪ f −1 (B),<br />

f −1 (A) ∩ f −1 (B) = f −1 (A ∩ B) = f −1 (∅) = ∅,<br />

wobei die Mengen f −1 (A) und f −1 (B) nichtleer und, nach Satz 3.22, offen sind.<br />

Somit ist X nicht zusammenhängend.<br />

Q.E.D.<br />

82


Satz 6.3 Eine nichtleere Teilmenge M von R ist zusammenhängend dann und nur<br />

dann, wenn sie ein Intervall ist.<br />

Beweis. Per ”<br />

Kontraposition“:<br />

Wir nehmen zunächst an, daß M kein Intervall ist. Dann gibt es Punkte a < x < b<br />

mit a, b ∈ M und x ∉ M. Die Mengen A := M∩] − ∞, x[ und B := M∩]x, ∞[ sind<br />

dann offen in M, nichtleer, und es ist A ∪ B = M, A ∩ B = ∅. Somit ist M nicht<br />

zusammenhängend.<br />

Sei nun umgekehrt M ⊂ R nicht zusammenhängend. Dann gibt es nichtleere, in M<br />

offene Teilmengen A, B von M mit M = A ∪ B und A ∩ B = ∅. Wähle Punkte<br />

a ∈ A, b ∈ B. Es sei o.B.d.A. a < b. Wir zeigen, daß dann [a, b] ⊄ M, so daß M<br />

kein Intervall ist. Angenommen, es wäre [a, b] ⊂ M. Sei dann<br />

c := sup A ∩ [a, b].<br />

Dann ist c ∈ [a, b] ⊂ M, und, da A abgeschlosssen in M ist, ist auch c ∈ A. Da b ∈ B<br />

ist, folgt: c ∈ A ∩ [a, b[. Aufgrund der Offenheit von A in M gibt es andererseits ein<br />

ε > 0 so, daß c + ε ∈ A ∩ [a, b[, was der Definition von c widerspricht.<br />

Q.E.D.<br />

Korollar 6.4 (Verallgemeinerter Zwischenwertsatz) Sei (X, d) ein zusammenhängender<br />

metrischer Raum, und sei f ∈ C(X, R). Sind dann a, b ∈ X, und<br />

ist f(a) ≤ f(b), so gibt es zu jedem y ∈ [f(a), f(b)] ein x ∈ X mit f(x) = y.<br />

Beweis. Da f(X) zusammenhängend in R ist, ist f(X) ein Intervall. Somit ist<br />

[f(a), f(b)] ⊂ f(X).<br />

Q.E.D.<br />

Definition. Sei A eine Teilmenge des metrischen Raumes (X, d). Zur Erinnerung;<br />

Ein Weg in A ist eine stetige Abbildung γ : [a, b] → A. γ verbinde die Punkte x<br />

und y aus A, falls γ(a) = x und γ(b) = y.<br />

Die Menge A heiße wegzusammenhängend, falls je zwei Punkte aus A durch einen<br />

Weg in A verbunden werden können.<br />

Satz 6.5 Jede wegzusammenhängende Teilmenge A von X ist zusammenhängend.<br />

Beweis. Sei o.B.d.A. A = X. Ist X nicht zusammenhängend, so gibt es nichtleere<br />

offene Teilmengen U 1 , U 2 von X mit U 1 ∪U 2 = X und U 1 ∩U 2 = ∅. Seien x 1 ∈ U 1 und<br />

x 2 ∈ U 2 . Wäre nun X wegzusammenhängend, so gäbe es einen Weg γ : [a, b] → X<br />

mit γ(a) = x 1 und γ(b) = x 2 . Setze V j = γ −1 (U j ) ⊂ [a, b], j = 1, 2. Dann ist<br />

a ∈ V 1 , b ∈ V 2 . Ferner ist V j offen in [a, b], und V 1 ∪ V 2 = [a, b], V 1 ∩ V 2 = ∅. Folglich<br />

wäre das Intervall [a, b] nicht zusammenhängend, im Widerspruch zu Satz 6.3.<br />

Q.E.D.<br />

Bemerkungen. a) In vielen Fällen ist der Wegzusammenhang einer Menge erheblich<br />

leichter nachzuweisen als ihr Zusammenhang.<br />

b) Die Umkehrung von Satz 6.5 gilt jedoch nicht: es gibt z.B. zusammenhängende<br />

Teilmengen in R 2 , welche nicht wegzusammenhängend sind.<br />

83


Kapitel 7<br />

Differentialrechnung in mehreren<br />

Veränderlichen<br />

7.1 Partielle Ableitungen<br />

Es sei (F, ‖ · ‖) ein normierter reeller Vektorraum. Für ξ ∈ F und t ∈ R, t ≠ 0,<br />

wollen wir anstelle von 1 t ξ auch ξ t schreiben.<br />

Definition. Es sei I ⊂ R offen. Eine Abbildung f : I → F heiße im Punkte t 0 ∈ I<br />

differenzierbar, wenn der Grenzwert<br />

f(t) − f(t 0 )<br />

lim<br />

t→t 0 t − t 0<br />

= lim<br />

h→0<br />

f(t 0 + h) − f(t 0 )<br />

h<br />

in F existiert, d.h. wenn es ein a ∈ F gibt mit<br />

∥ ∥∥∥ f(t) − f(t 0 )<br />

lim<br />

− a<br />

t→t 0 t − t 0<br />

∥ = 0 .<br />

Wie im Falle einer reell- oder komplexwertigen Funktion (d.h. F = R oder F = C)<br />

sieht man leicht, daß der Grenzwert eindeutig ist. Wir bezeichnen ihn mit df (t dt 0)<br />

(gelegentlich auch mit f(t ˙ 0 )). Der Vektor df (t f(t)−f(t<br />

dt 0) = lim 0 )<br />

t→t0 t−t 0<br />

∈ F heißt die<br />

(Newton-) Ableitung von f in t 0 .<br />

Geometrische Interpretation. Im “Regelfall“ wird das Bild der Abbildung f ∈<br />

F I eine Kurve im Raum F beschreiben, und der Vektor a = df (t dt 0) liegt anschaulich<br />

tangential zur Spur f(I) der Kurve f im Punkte f(t 0 ).<br />

84


= f(t 0 + h) − f(t 0 )<br />

h<br />

.<br />

Man sieht ebenfalls wieder leicht ein, daß f ∈ F I im Punkte t 0 differenzierbar ist<br />

und die Ableitung a = df<br />

dt (t 0) besitzt genau dann, wenn die affin lineare Abbildung<br />

g : t ↦→ f(t 0 ) + (t − t 0 )a<br />

von R in F tangential an f im Punkte t 0 ist, d.h. wenn<br />

ist (für t in einer Umgebung von t 0 ) mit<br />

d.h.<br />

f(t) = f(t 0 ) + (t − t 0 )a + ϕ(t − t 0 )<br />

ϕ(t − t 0 )<br />

lim<br />

t→t 0 |t − t 0 |<br />

= 0 ,<br />

ϕ(t − t 0 ) = o(|t − t 0 |).<br />

Falls a ≠ 0 ist, so bezeichnet man das Bild g(R) von g als die Tangente an die<br />

parametrisierte Kurve f in t 0 . Offenbar ist g(R) diejenige Gerade im Vektorraum<br />

F, welche parallel zum eindimensionalen Unterraum R f(t ˙ 0 ) durch den Punkt f(t 0 )<br />

verläuft.<br />

Im Falle F = R n schreiben wir f : I → R n als f = (f 1 , . . .,f n ). Dann ist nach<br />

Satz 3.14 f in t 0 ∈ I differenzierbar genau dann, wenn alle Komponentenfunktionen<br />

f 1 , . . .,f n in t 0 differenzierbar sind, und es gilt dann:<br />

(7.1)<br />

df<br />

dt (t 0) = ( df 1<br />

dt (t 0), . . ., df n<br />

dt (t 0)) .<br />

Beispiele: a) Sei f : R → R 3 gegeben durch f(t) := (t, sin t, te t ). Dann ist<br />

df<br />

dt (t) = (1, cost, (1 + t)et ).<br />

85


) Sei f(t) = (t, f 2 (t)). Dann ist df<br />

dt (t 0) = (1, f ′ 2 (t 0)):<br />

Es seien nun E und F zwei normierte reelle Vektorräume.<br />

Definition. Es sei f : U → F eine Abbildung der offenen Teilmenge U von E in<br />

F. Ferner sei e ∈ E ein Vektor. Nehmen wir an, daß e ≠ 0 ist, so definiert e eine<br />

” Richtung“ im Vektorraum E. f heiße dann im Punkte x 0 ∈ U in Richtung von e<br />

oder partiell nach e differenzierbar, wenn die Abbildung t ↦→ f(x 0 +te) in t = 0<br />

differenzierbar ist. Der Grenzwert<br />

a = lim<br />

t→0<br />

f(x 0 + te) − f(x 0 )<br />

t<br />

ist die partielle Ableitung von f nach e im Punkte x 0 . Wir schreiben dafür<br />

a = ∂f<br />

∂e (x 0).<br />

Bemerkung. Da die Abbildung t ↦→ x 0 + te von R in E stetig ist, ist I := {t ∈ R :<br />

x 0 + te ∈ U} eine offene Umgebung von 0 in R, so daß die Definition Sinn macht.<br />

Beispiel: Sei f : R 2 → R gegeben durch f(x, y) := x 2 + e xy , und sei e := (2, 3).<br />

Dann ist z.B. f((1, 0)+ te) = f((1, 0) + (2t, 3t)) = f(1 + 2t, 3t) = (1 + 2t) 2 + e 3t+6t2 ,<br />

also<br />

∂f<br />

∂e (1, 0) = (4(1 + 2t) + (3 + 12t)e3t+6t2 ) ∣ ∣<br />

t=0<br />

= 7.<br />

Der Fall E = R n :<br />

Hier bezeichne e 1 , . . ., e n die kanonische Basis des R n , d.h. es sei e i der i-te Einheitsvektor<br />

} i-te{{ Stelle}<br />

e i = (0, . . ., 0, 1, 0, . . ., 0) .<br />

Dann schreibt man für ∂f<br />

∂e i<br />

auch ∂f<br />

∂x i<br />

oder D i f und bezeichnet ∂f<br />

∂x i<br />

(x) als die partielle<br />

Ableitung von f nach der i-ten Koordinate im Punkte x. Es ist also<br />

∂f<br />

∂x i<br />

(x 1 , . . ., x n )<br />

∈ F<br />

= lim<br />

h→0<br />

f(x 1 , . . .,x i−1 , x i + h, x i+1 , . . .,x n ) − f(x 1 , . . .,x i , . . ., x n )<br />

h<br />

86


d.h. wir können bei festgehaltenen Koordinaten x 1 , . . .,x i−1 , x i+1 , . . .,x n die partielle<br />

Ableitung ∂f<br />

∂x i<br />

(x) als ”<br />

gewöhnliche“ Ableitung der Abbildung<br />

im Punkte x i ∈ R auffassen.<br />

f (i) : t ↦→ f(x 1 , . . ., x i−1 , t, x i+1 , . . .,x n )<br />

Definition. Sei U ⊂ R n offen. Eine Abbildung f : U → F heiße partiell differenzierbar,<br />

falls ∂f<br />

∂x i<br />

(x) für alle x ∈ U und i = 1, . . ., n existiert. f heiße stetig<br />

partiell differenzierbar, falls zusätzlich alle partiellen Ableitungen ∂f<br />

∂x i<br />

: U → F,<br />

i = 1, . . .,n, stetig sind.<br />

Beispiel 7.1 Sei r : R n → R gegeben durch<br />

√<br />

r(x) := ‖x‖ 2 = x 2 1 + · · · + x 2 n .<br />

r ist in R n \ {0} partiell differenzierbar, und es gilt<br />

∂r<br />

∂x i<br />

(x) = x i<br />

‖x‖ 2<br />

, für x = (x 1 , . . .,x n ) ≠ 0 .<br />

Halten wir nämlich x 1 , . . ., x i−1 , x i+1 , . . .,x n fest, so ist die Abbildung<br />

t ↦→ √ x 2 1 + · · · + t2 + · · · + x 2 n für alle t differenzierbar, falls nicht alle x j mit j ≠ i<br />

null sind, und andernfalls für t ≠ 0, und die Ableitung nach t für t = x i ist<br />

∂r<br />

∂x i<br />

(x) = 1 2 (x2 1 + · · · + x 2 i + · · · + x 2 n) −1 2 · 2xi = x i<br />

‖x‖ 2<br />

.<br />

Partielle Ableitungen höherer Ordnung einer Abbildung f : U → F, U ⊂ R n offen,<br />

definiert man rekursiv:<br />

Definition. f : U → F heiße (k + 1)-mal partiell differenzierbar, wenn f<br />

k-mal partiell ( ( differenzierbar )) ) ist und alle partiellen Ableitungen k-ter Ordnung<br />

∂ ∂ ∂<br />

∂x ik<br />

(· · ·<br />

∂x i2 ∂x i1<br />

f · · · : U → F (mit i 1 , . . .,i k ∈ {1, . . .,n}), partiell differenzierbar<br />

sind.<br />

87


Die Funktion f : U → F heiße k-mal stetig partiell differenzierbar, wenn sie<br />

k-mal partiell differenzierbar ist und alle partiellen Ableitungen der Ordnung ≤ k<br />

stetig auf U sind.<br />

Sind i 1 , . . .,i k ∈ {1, . . .,n}, so schreibt man für<br />

∂<br />

(· · ·( ∂ ( ∂ f)) · · ·)<br />

∂x ik ∂x i2 ∂x i1<br />

auch<br />

∂ k<br />

∂x ik . . .∂x i1<br />

f .<br />

C k (U, F) bezeichne den Vektorraum aller k-mal stetig partiell differenzierbaren<br />

Funktionen f : U → F.<br />

Beispiel. Für die Funktion r : R n → R aus Beispiel 7.1 ist für x ≠ 0 und i ≠ j<br />

( )<br />

∂ 2 r ∂ 1 −1<br />

(x) = x i (x) = x i<br />

∂x j ∂x i ∂x j r r(x) 2<br />

∂r<br />

(x) = − x ix j<br />

,<br />

∂x j ‖x‖ 3 2<br />

und für i = j<br />

∂ 2 r<br />

∂x 2 i<br />

:=<br />

=<br />

∂ 2 r<br />

∂x i ∂x i<br />

= 1<br />

‖x‖ 2<br />

+ x i<br />

∂<br />

1<br />

‖x‖ 2<br />

−<br />

x2 i<br />

‖x‖ 3 2<br />

∂x i<br />

( 1<br />

r<br />

= ‖x‖2 2 − x2 i<br />

‖x‖ 3 2<br />

.<br />

)<br />

(x)<br />

Offenbar ist hier<br />

∂ 2 r<br />

∂x j ∂x i<br />

= ∂2 r<br />

∂x i ∂x j<br />

. Gilt dies wohl allgemein?<br />

7.2 Totale Differenzierbarkeit<br />

Es seien nun E und F zwei normierte reelle Vektorräume, sowie U eine offene Teilmenge<br />

von E und x 0 ∈ U.<br />

Ist die Abbildung f : U → F in Richtung des Vektors e ∈ E \ {0} differenzierbar,<br />

so gilt:<br />

(7.2)<br />

f(x 0 + te) = f(x 0 ) + t ∂f<br />

∂e (x 0) + ϕ(t)<br />

für t nahe 0, mit ϕ(t) = o(|t|). Dies bedeutet, daß sich f entlang der affinen Geraden<br />

{x 0 +te : t ∈ R} durch x 0 in Richtung von e “immer besser“ durch die affin-lineare<br />

Abbildung x 0 + te ↦→ f(x 0 ) + t ∂f<br />

∂e (x 0) approximieren läßt, je kleiner |t| wird.<br />

Analog definieren wir:<br />

Definition. Die Abbildung f : U → F heiße im Punkte x 0 ∈ U (total) differenzierbar,<br />

falls es eine stetige lineare Abbildung A ∈ L(E, F) gibt so, daß für alle<br />

x ∈ U gilt:<br />

(7.3) f(x) = f(x 0 ) + A(x − x 0 ) + ϕ(x − x 0 )<br />

88


wobei ϕ eine Funktion auf der Nullumgebung −x 0 + U ist mit<br />

(7.4)<br />

ϕ(x − x 0 ) = o(‖x − x 0 ‖), d.h. lim<br />

x→x0<br />

ϕ(x − x 0 )<br />

‖x − x 0 ‖ = 0.<br />

Äquivalent dazu ist:<br />

(7.5)<br />

f(x 0 + ξ) = f(x 0 ) + Aξ + ϕ(ξ)<br />

für alle ξ in einer Umgebung der Null, wobei ϕ eine auf einer Umgebung der Null<br />

definierte Funktion ist mit<br />

(7.6) ϕ(ξ) = o(‖ξ‖), d.h. lim<br />

ξ→0<br />

ϕ(ξ)<br />

‖ξ‖ = 0 .<br />

f besitzt dann also nahe x 0 eine“gute“ Approximation durch die stetige, affin-lineare<br />

Abbildung g : E → F,<br />

g(x) := f(x 0 ) + A(x − x 0 ), x ∈ E,<br />

deren Graphen wir auch als den affinen Tangentialraum an den Graphen von f<br />

im Punkte (x 0 , f(x 0 )) bezeichnen.<br />

Die lineare Abbildung A ∈ L(E, F) heißt dann die Ableitung von f im Punkte<br />

x 0 und wird mit Df(x 0 ) bezeichnet.<br />

Die Ableitung im Punkte x 0 ist eindeutig: Sind nämlich A, B ∈ L(E, F) mit<br />

f(x 0 + ξ) = f(x 0 ) + Aξ + ϕ(ξ)<br />

= f(x 0 ) + Bξ + ˜ϕ(ξ)<br />

und<br />

ϕ(ξ)<br />

lim<br />

ξ→0 ‖ξ‖ = lim<br />

ξ→0<br />

˜ϕ(ξ)<br />

‖ξ‖ = 0,<br />

89


so ist (A − B)ξ = ψ(ξ) := ˜ϕ(ξ) − ϕ(ξ) für alle ξ in einer Nullumgebung, mit<br />

= 0. Für beliebiges η ∈ E \ {0} folgt dann aber wegen der Linearität von<br />

lim<br />

ξ→0<br />

ψ(ξ)<br />

‖ξ‖<br />

A − B<br />

also<br />

Somit ist A − B = 0.<br />

(A − B)η = ψ(tη)<br />

t<br />

für genügend kleines t ∈ R ,<br />

ψ(tη) ψ(tη)<br />

(A − B)η = lim = ‖η‖ lim<br />

t→0 t t→0 ‖tη‖ sign(t) = 0 .<br />

Bemerkung. Die Differenzierbarkeit in einem festen Punkt x 0 ist offenbar eine<br />

lokale Eigenschaft einer Funktion, d.h. stimmen die Funktionen f und g auf einer<br />

Umgebung von x 0 überein, so ist f in x 0 differenzierbar genau dann, wenn g in x 0<br />

differenzierbar ist, und es gilt dann: Df(x 0 ) = Dg(x 0 ).<br />

Satz 7.2 (Beziehung zwischen partieller und totaler Ableitung) Die Abbildung<br />

f : U → F sei im Punkte x 0 ∈ U ⊂ E total differenzierbar. Dann ist f in<br />

Richtung jedes Vektors e ≠ 0 aus E im Punkte x 0 partiell differenzierbar, und es<br />

gilt:<br />

∂f<br />

∂e (x 0) = Df(x 0 )e .<br />

Ferner ist f im Punkte x 0 stetig.<br />

Beweis. Sei A = Df(x 0 ) ∈ L(E, F). Nach (7.5) ist dann<br />

f(x 0 + te) = f(x 0 ) + A(te) + ϕ(te) = f(x 0 ) + t(Ae) + ψ(t) ,<br />

ψ(t)<br />

mit ψ(t) := ϕ(te). Mit (7.6) folgert man aber wie zuvor, daß lim = 0. Somit ist<br />

t→0 t<br />

f partiell nach e im Punkte x 0 differenzierbar, und ∂f (x ∂e 0) = Ae = Df(x 0 )e.<br />

Die Stetigkeit von f in x 0 folgt ebenfalls sofort aus (7.5) und (7.6), denn da A<br />

stetig und linear ist, ist lim ξ→0 A(ξ) = A(0) = 0, und (7.6) impliziert offenbar<br />

lim ξ→0 ϕ(ξ) = 0, so daß<br />

lim<br />

ξ→0 f(x 0 + ξ) = f(x 0 ).<br />

Q.E.D.<br />

Die totale Differenzierbarkeit von f im Punkte x 0 ist eine erheblich stärkere Eigenschaft<br />

als ihre partielle Differenzierbarkeit in x 0 . Selbst die Existenz sämtlicher<br />

Richtungsableitungen von f in x 0 genügt im allgemeinen nicht für ihre totale Differenzierbarkeit<br />

in x 0 , wie folgendes Beispiel zeigt:<br />

90


Beispiel 7.3 Sei<br />

f : R 2 → R, f(x, y) =<br />

x3<br />

für (x, y) ≠ 0, f(0) = 0.<br />

x 2 + y2 Sei e θ = (cosθ, sin θ) mit θ ∈ [0, 2π[ ein Einheitsvektor im R 2 . Dann ist<br />

f(0 + te θ ) = t cos 3 θ, t ∈ R,<br />

d.h. f ist linear entlang jeder Geraden durch den Ursprung. Damit ist f partiell<br />

nach e differenzierbar in 0, mit<br />

Insbesondere ist<br />

∂f<br />

∂e θ<br />

(0) = cos 3 θ.<br />

∂f ∂f<br />

(0) = 1,<br />

∂x<br />

(0) = 0.<br />

∂y<br />

Wäre nun f in 0 total differenzierbar mit Ableitung A ∈ L(R 2 , R), so wäre für (x, y)<br />

nahe 0<br />

f(x, y) = a 1 x + a 2 y + o(‖(x, y)‖),<br />

falls A · (x, y) = a 1 x + a 2 y, mit a 1 , a 2 ∈ R. Insbesondere wäre nach Satz 7.2<br />

∂f<br />

∂e θ<br />

(0) = A · e θ = a 1 cosθ + a 2 sin θ.<br />

Für θ = 0 und θ = π 2<br />

erhielten wir<br />

also a 1 = 1, a 2 = 0, und somit<br />

∂f<br />

∂x (0) = a 1,<br />

∂f<br />

∂y (0) = a 2,<br />

∂f<br />

∂e θ<br />

(0) = cosθ.<br />

Für θ ≠ 0 steht dies im Widerspruch zu ∂f<br />

∂e θ<br />

(0) = cos 3 θ.<br />

Bemerkungen 7.4 a) Ist f : U → F im Punkte x 0 ∈ U stetig, und gibt es eine<br />

lineare Abbildung A : E → F (welche nicht als stetig vorausgesetzt werde), so daß<br />

(7.4), (7.5) gilt, so ist A automatisch stetig.<br />

Es ist nämlich<br />

Aξ = f(x 0 + ξ) − f(x 0 ) − ϕ(ξ) ,<br />

und wegen der Stetigkeit von f in x 0 und (7.5) ist<br />

lim Aξ = 0 .<br />

ξ→0<br />

91


1<br />

0.5<br />

0<br />

-0.5<br />

-1<br />

1<br />

0.5<br />

0<br />

x<br />

-0.5<br />

-1<br />

1<br />

0.5<br />

0<br />

y<br />

-0.5<br />

-1<br />

Damit ist A stetig in 0, folglich global stetig.<br />

b) Sei T : E → F eine lineare Abbildung, und x 0 ∈ E. Nach Satz 7.2 und Bemerkung<br />

a) ist T genau dann differenzierbar in x 0 , wenn T stetig ist. In diesem Fall ist<br />

wegen<br />

T(x 0 + ξ) = Tx 0 + Tξ<br />

offenbar DT(x 0 ) = T für alle x 0 ∈ E.<br />

c) Ist I ⊂ R eine offene Teilmenge, und ist f : I → F eine Abbildung, so haben<br />

wir für f sowohl den Begriff der Newton“-Ableitung df (t ” dt 0) ∈ F im Punkte t 0 ∈ I<br />

definiert, wie auch den der totalen Ableitung Df(t 0 ) ∈ L(R, F).<br />

Beide Begriffe lassen sich in Einklang bringen, wenn wir den Raum L(R, F) wie<br />

folgt mit F identifizieren:<br />

Für η ∈ F definieren wir die lineare Abbildung T η ∈ L(R, F) mittels<br />

T η (t) := tη, t ∈ R.<br />

Da es zu jedem T ∈ L(R, F) genau ein η ∈ F mit T = T η , nämlich η = T(1) gibt,<br />

wird durch die Abbildung η ↦→ T η ein Isomorphismus von F auf L(R, F) definiert.<br />

Identifizieren wir F mit L(R, F) auf diese Weise, so ist offenbar d dt f(t 0) = Df(t 0 ).<br />

Genauer bedeutet dies:<br />

Df(t 0 ) = T d<br />

dt f(t 0) .<br />

d) In Analogie zum eindimensionalen Fall werden ab jetzt die totale Ableitung Df<br />

einer Funktion f : U → F, U ⊂ E, oft auch wieder mit f ′ bezeichnen.<br />

Definition. Ist U ⊂ E offen, und ist f : U → F in jedem Punkt von U differenzierbar,<br />

so heiße f (total) differenzierbar (in U). Ist zusätzlich die Ableitung<br />

f ′ : U → L(E, F), x ↦→ f ′ (x) = Df(x 0 )<br />

92


eine stetige Funktion auf U, so heiße f stetig differenzierbar. Dabei sei der Raum<br />

L(E, F) stets mit der Operatornorm versehen (vgl. Kapitel 4).<br />

7.3 Der Fall E = R n , F = R m<br />

Die lineare Abbildung A ∈ L(R n , R m ) kann hier bzgl. der kanonischen Basen des R n<br />

bzw. R m durch eine m × n-Matrix (a ij ) i=1,...,m beschrieben werden. Fassen wir die<br />

j=1,...,n<br />

Elemente des R n bzw. R m unserer Konvention folgend als Spaltenvektoren auf, so<br />

wird die Abbildung einfach durch Matrizen-Multiplikation von links gegeben (vergl.<br />

(4.4)),<br />

⎛<br />

⎞ ⎛ ⎞<br />

a 11 a 12 . . . a 1n ξ 1<br />

⎜<br />

⎟ ⎜ ⎟<br />

A(ξ) = ⎝ .<br />

⎠ · ⎝ . ⎠ .<br />

a m1 a m2 . . . a mn ξ n<br />

Im folgenden identifizieren wir die lineare Abbildung A ∈ L(R n , R m ) mit der sie<br />

beschreibenden Matrix.<br />

⎛ ⎞ ⎛ ⎞<br />

f 1<br />

ϕ 1<br />

⎜ ⎟ ⎜ ⎟<br />

Sind f = ⎝ . ⎠ , bzw. ϕ = ⎝ . ⎠ die Komponentendarstellungen von f bzw. ϕ,<br />

f m ϕ m<br />

so schreibt sich die Gleichung (7.2) ausführlich als<br />

(7.7)<br />

n∑<br />

f i (x 0 + ξ) = f i (x 0 ) + a ij ξ j + ϕ i (ξ), i = 1, . . .,m .<br />

j=1<br />

Hieran erkennt man auch, daß die Abbildung f genau dann im Punkte x 0 differenzierbar<br />

ist, wenn alle Komponentenfunktionen f i in x 0 differenzierbar sind.<br />

Satz 7.5 Seien U ⊂ R n offen und f : U → R m eine Abbildung, die im Punkte<br />

x 0 ∈ U differenzierbar ist. Identifizieren wir die Ableitung f ′ (x 0 ) ∈ L(R n , R m ) mit<br />

der m × n-Matrix A = (a ij ), so gilt:<br />

a ij = ∂f i<br />

∂x j<br />

(x 0 ) .<br />

Bezeichnung. Man bezeichnet die Matrix<br />

( ) ∂fi<br />

J f (x 0 ) := (x 0 )<br />

∂x j<br />

i=1,...,m,<br />

j=1,...,n<br />

auch als die Jacobi-Matrix (oder auch Funktional-Matrix) von f im Punkte x 0 .<br />

93<br />

,


Es gilt also:<br />

(7.8) f ′ (x 0 ξ) = J f (x 0 ) · ξ, ξ ∈ R n .<br />

Beweis. Nach (7.7) gilt für k = 1, . . .,n:<br />

ϕ<br />

mit lim i (te k )<br />

t→0 |t|<br />

f i (x 0 + te k ) = f i (x 0 ) + ta ik + ϕ i (te k ), i = 1, . . .,m ,<br />

= 0. Hieraus folgt sofort<br />

∂f i<br />

∂x k<br />

(x 0 ) = ∂f i<br />

∂e k<br />

(x 0 ) = a ik .<br />

Q.E.D.<br />

Beispiel 7.6 Sei f : R 3 → R 2 gegeben durch<br />

( ) xy − z<br />

f(x, y, z) := .<br />

y cosx<br />

Dann ist<br />

J f (x, y, z) =<br />

( y x −1<br />

−y sin x cosx 0<br />

)<br />

.<br />

Wie läßt sich nun die Differenzierbarkeit einer Funktion f : U → R m nachweisen?<br />

Beispiel 7.3 lehrt, daß die Existenz aller partiellen Ableitungen von f im Punkte<br />

x 0 i.a. nicht ausreicht, um auf die Differenzierbarkeit von f in x 0 zu schließen.<br />

Verlangen wir jedoch zusätzlich, daß die partiellen Ableitungen in einer Umgebung<br />

von x 0 existieren und in x 0 stetig sind, so ist f in der Tat in x 0 differenzierbar.<br />

Theorem 7.7 (Hinreichende Bedingung für totale Differenzierbarkeit)<br />

Sei U ⊂ R n offen, und sei f : U → R m eine in U partiell differenzierbare Funktion.<br />

Sind alle partiellen Ableitungen ∂f i<br />

∂x j<br />

, i = 1, . . .,m, j = 1, . . ., n, stetig im Punkt x 0 ,<br />

so ist f in x 0 total differenzierbar.<br />

Beweis. Da f = t (f 1 . . .f m ) in x 0 differenzierbar ist genau dann, wenn dies für alle<br />

Komponentenfunktionen f i zutrifft, genügt es, den Fall m = 1 zu betrachten.<br />

Wir wählen ε > 0 so, daß B ε (x 0 ) ⊂ U ist. Für ξ = t (ξ 1 . . .,ξ n ) ∈ R n mit ‖ξ‖ < ε<br />

definieren wir Punkte<br />

z (i) := x 0 +<br />

i∑<br />

ξ k e k , i = 0, . . .,n .<br />

k=1<br />

94


Dann ist z (0) = x 0 , z (n) = x 0 + ξ. Da sich z (i−1) und z (i) nur in der i-ten Koordinate<br />

unterscheiden, gibt es nach dem Mittelwertsatz für differenzierbare Funktionen einer<br />

Veränderlichen ein θ i ∈ [0, 1] mit<br />

f(z (i) ) − f(z (i−1) ) = f(z (i−1) + ξ i e i ) − f(z (i−1) ) = ∂f<br />

∂x i<br />

(y (i) )ξ i ,<br />

mit y (i) := z (i−1) + θ i ξ i e i . Es folgt<br />

also<br />

mit<br />

f(x 0 + ξ) − f(x 0 ) =<br />

ϕ(ξ) :=<br />

n∑<br />

(f(z (i) ) − f(z (i−1) )) =<br />

i=1<br />

f(x 0 + ξ) = f(x 0 ) +<br />

n∑<br />

i=1<br />

n∑<br />

i=1<br />

n∑<br />

i=1<br />

∂f<br />

∂x i<br />

(x 0 )ξ i + ϕ(ξ)<br />

( ∂f<br />

(z (i−1) + θ i ξ i e i ) − ∂f )<br />

(x 0 ) ξ i .<br />

∂x i ∂x i<br />

∂f<br />

∂x i<br />

(y (i) )ξ i ,<br />

Da mit ξ → 0 die Punkte z (i−1) +θ i ξ i e i gegen x 0 streben, folgt aufgrund der Stetigkeit<br />

von ∂f<br />

∂x i<br />

in x 0 :<br />

( ∂f<br />

lim (z (i−1) + θ i ξ i e i ) − ∂f )<br />

(x 0 ) = 0.<br />

ξ→0 ∂x i ∂x i<br />

Folglich ist lim<br />

ξ→0<br />

ϕ(ξ)<br />

‖ξ‖ = 0 . Q.E.D.<br />

Bemerkung 7.8 Ist E = R n , F = R m , so gelten nach den Sätzen 7.2 und 7.7<br />

folgende Implikationen (vgl. auch die entsprechende Übung):<br />

f ist stetig partiell differenzierbar ⇐⇒ f ist stetig differenzierbar<br />

⇒ f ist differenzierbar<br />

⇒ f ist stetig.<br />

Die Umkehrungen der einseitigen Implikationen gelten i.a. nicht.<br />

Definition. Sei U ⊂ R n offen. Ist f : U → R partiell differenzierbar, so heißt der<br />

Zeilenvektor<br />

( ∂f<br />

gradf(x) := (x), . . ., ∂f )<br />

(x)<br />

∂x 1 ∂x n<br />

der Gradient von f im Punkte x ∈ U. Man schreibt dafür auch<br />

∇f(x)<br />

(sprich: “Nabla f“).<br />

95


Ist f in x (total) differenzierbar, so ist ∇f(x) offenbar gerade die Jacobi-Matrix<br />

J f (x) von f in x. Wir schreiben daher dafür gelegentlich auch f ′ (x).<br />

Ist f in U differenzierbar, so ist die Abbildung<br />

v := ∇f : U → R n , x ↦→ v(x) := ∇f(x),<br />

ein Vektorfeld auf U, d.h. eine Abbildung, welche jedem Punkt x ∈ U einen Vektor<br />

v(x) ∈ R n zuordnet.<br />

∑<br />

Es bezeichne 〈x, y〉 = n x j y j = x · ty das Euklidische Skalarprodukt auf dem R n ,<br />

sowie<br />

j=1<br />

S n−1 := {e ∈ R n : ‖e‖ 2 = 1}<br />

die Einheitssphäre im R n . Ist f differenzierbar, und ist e ∈ R n ein Einheitsvektor,<br />

d.h. ist e ∈ S n−1 , so gilt offenbar<br />

(7.9)<br />

∂f<br />

(x) = 〈∇f(x), e〉 .<br />

∂e<br />

Satz 7.9 (Geometrische Kennzeichnung des Gradienten) Sei U ⊂ R n eine<br />

nichtleere, offene Teilmenge des R n , sei f : U → R differenzierbar und sei x ∈ U so,<br />

daß ∇f(x) ≠ 0. Bezeichnen wir mit γ :=<br />

∇f(x)<br />

‖∇f(x)‖ 2<br />

den Einheitsvektor in Richtung<br />

des Gradienten von f in x, so gilt<br />

(7.10)<br />

∂f<br />

{ ∂f<br />

}<br />

∂γ (x) = max ∂e (x) : e ∈ Sn−1 .<br />

Der Gradient ∇f(x 0 ) zeigt somit in Richtung des stärksten Anstiegs der Funktion<br />

f, wenn man sich von x 0 fortbewegt!<br />

Beweis. Aufgrund der Cauchy-Schwarzschen Ungleichung aus der Linearen Algebra<br />

(bzw. der Hölderschen Ungleichung) gilt für e ∈ S n−1 mit (7.9)<br />

Ferner ist<br />

∂f<br />

∂e (x) ≤ ‖∇f(x)‖ 2‖e‖ 2 = ‖∇f(x)‖ 2 .<br />

∂f<br />

(x) = 〈∇f(x), γ〉 = ‖∇f(x)‖−1 2<br />

∂γ 〈∇f(x), ∇f(x)〉 = ‖∇f(x)‖ 2.<br />

Hieraus folgt die Behauptung.<br />

Q.E.D.<br />

96


7.4 Rechenregeln für die Ableitung<br />

Satz 7.10 (Kettenregel) Es seien E, F und G drei normierte reelle Vektorräume,<br />

U eine offene Umgebung von x 0 ∈ E und f : U → F eine Abbildung, V eine offene<br />

Umgebung von y 0 = f(x 0 ) in F sowie g : V → G.<br />

Ist f differenzierbar in x 0 , und ist g differenzierbar in y 0 , so ist die Abbildung h =<br />

g ◦f : U → G (welche in einer Umgebung von x 0 definiert ist) differenzierbar in x 0 ,<br />

und es gilt:<br />

h ′ (x 0 ) = g ′ (f(x 0 )) ◦ f ′ (x 0 ) .<br />

Man beachte, daß g ′ (f(x 0 )) ∈ L(F, G) und f ′ (x 0 ) ∈ L(E, F), so daß g ′ (f(x 0 )) ◦<br />

f ′ (x 0 ) ∈ L(E, G).<br />

Beweis. Nach Voraussetzung ist<br />

f(x 0 + ξ) = f(x 0 ) + Aξ + ϕ(ξ),<br />

g(y 0 + η) = g(y 0 ) + Bη + ψ(η),<br />

mit A := f ′ (x 0 ) ∈ L(E, F), B := g ′ (y 0 ) ∈ L(F, G), wobei<br />

ϕ(ξ) ψ(η)<br />

lim = 0, lim<br />

ξ→0 ‖ξ‖ η→0 ‖η‖ = 0 .<br />

Setzt man speziell η := f(x 0 + ξ) − f(x 0 ) = Aξ + ϕ(ξ), so ergibt sich<br />

(g ◦ f)(x 0 + ξ) = g(f(x 0 ) + η) = g(y 0 + η)<br />

= g(f(x 0 )) + B(Aξ + ϕ(ξ)) + ψ(Aξ + ϕ(ξ))<br />

= (g ◦ f)(x 0 ) + (B ◦ A)ξ + χ(ξ),<br />

mit<br />

Da B stetig ist, ist<br />

χ(ξ) := Bϕ(ξ) + ψ(Aξ + ϕ(ξ)) .<br />

( )<br />

Bϕ(ξ) ϕ(ξ)<br />

lim<br />

ξ→0 ‖ξ‖<br />

= lim B = B(0) = 0 .<br />

ξ→0 ‖ξ‖<br />

ϕ(ξ)<br />

Ferner können wir wegen lim<br />

ξ→0<br />

‖ξ‖<br />

weiter ψ(η) = ‖η‖ψ 1 (η) mit lim<br />

η→0<br />

ψ 1 (η) = 0 ist, folgt:<br />

= 0 o.B.d.A. annehmen, daß ‖ϕ(ξ)‖ ≤ ‖ξ‖ ist. Da<br />

‖ψ(Aξ + ϕ(ξ))‖ ≤ (‖A‖ + 1)‖ξ‖ ‖ψ 1 (Aξ + ϕ(ξ))‖,<br />

also<br />

ψ(Aξ + ϕ(ξ))<br />

lim = 0 .<br />

ξ→0 ‖ξ‖<br />

97


χ(ξ)<br />

Somit ist lim = 0, d.h. g ◦ f ist differenzierbar in x<br />

ξ→0<br />

‖ξ‖ 0, und (g ◦ f) ′ (x 0 ) = B ◦ A =<br />

g ′ (y 0 ) ◦ f ′ (x 0 ).<br />

Q.E.D.<br />

Der Fall E = R m , F = R n , G = R p . In diesem Fall läßt sich die Kettenregel wie<br />

folgt schreiben:<br />

(7.11) J g◦f (x) = J g (f(x)) · J j (x),<br />

d.h. mit y := f(x) gilt<br />

(7.12)<br />

∂h l<br />

∂x j<br />

(x) =<br />

n∑<br />

k=1<br />

∂g l<br />

∂y k<br />

(y) ∂f k<br />

∂x j<br />

(x), l = 1, . . ., p, j = 1, . . .,m ,<br />

Beispiel. Polarkoordinaten im R 2 .<br />

Sei Φ :]0, ∞[×R → R 2 gegeben durch<br />

Φ(r, θ) :=<br />

( )<br />

r cosθ<br />

,<br />

r sin θ<br />

d.h. (x, y) = (r cosθ, r sin θ). Φ ist differenzierbar, mit Jacobi-Matrix<br />

( ∂x<br />

) ( )<br />

∂x<br />

J Φ (r, θ) =<br />

∂r ∂θ cosθ −r sin θ<br />

=<br />

.<br />

sin θ r cosθ<br />

∂y<br />

∂r<br />

∂y<br />

∂θ<br />

Ist f : R 2 → R differenzierbar, und stellt g := f ◦ Φ die Funktion f in Polarkoordinaten<br />

dar (wobei man dann meist nur θ ∈]0, 2π[ wählt, um Injektivität von Φ zu<br />

gewährleisten), so gilt nach der Kettenregel<br />

(<br />

mit J f (x, y) =<br />

∂f<br />

∂x<br />

J g (r, θ) = J f (Φ(r, θ)) · J Φ (r, θ),<br />

(x, y),<br />

∂f<br />

∂y (x, y) ). Es folgt<br />

∂g ∂f<br />

(r, θ) =<br />

∂r ∂x<br />

∂g ∂f<br />

(r, θ) =<br />

∂θ ∂x<br />

falls (x, y) := (r cosθ, r sin θ).<br />

∂f<br />

(x, y)∂x(r, θ) +<br />

∂r ∂y<br />

(x, y)∂y(r, θ)<br />

∂r<br />

= cosθ ∂f ∂f<br />

(x, y) + sin θ (x, y),<br />

∂x ∂y<br />

∂f<br />

(x, y)∂x(r, θ) +<br />

∂θ ∂y<br />

(x, y)∂y(r, θ)<br />

∂θ<br />

= −r sin θ ∂f (x, y) + r cos θ∂f (x, y),<br />

∂x ∂y<br />

98


Satz 7.11 Es seien E, F und G normierte reelle Vektorräume und U ⊂ E offen.<br />

Ferner seien f, g : U → F Abbildungen, welche im Punkte x 0 ∈ U differenzierbar<br />

sind.<br />

(i) Dann sind auch die Abbildungen f +g und αf (α ∈ R) in x 0 differenzierbar, und<br />

es gilt:<br />

(7.13)<br />

(f + g) ′ (x 0 ) = f ′ (x 0 ) + g ′ (x 0 ) ,<br />

(αf) ′ (x 0 ) = αf ′ (x 0 ) .<br />

(ii) Ist auf F zusätzlich ein Produkt ” · “ mit Werten in G definiert, d.h. eine<br />

Abbildung (a, b) ↦→ a·b von F ×F in G, welche linear in a und in b ist, d.h. bilinear,<br />

und gibt es eine Konstante C ≥ 0, so daß für alle a, b ∈ F gilt:<br />

so gilt die Produktregel:<br />

‖a · b‖ ≤ C‖a‖ ‖b‖ ,<br />

Die Abbildung f · g : U → G, x ↦→ f(x) · g(x), ist in x 0 differenzierbar, und es gilt<br />

für alle ξ ∈ E:<br />

(7.14) (f · g) ′ (x 0 )ξ = f(x 0 ) · (g ′ (x 0 )ξ) + (f ′ (x 0 )ξ) · g(x 0 ) .<br />

Beweis. (i) läßt sich leicht direkt mittels der Definition der Ableitung zeigen. Wir<br />

wollen hier jedoch einmal (i) (für die Summe von f und g) und (ii) mit Hilfe der<br />

Kettenregel beweisen:<br />

Dazu betrachten wir F ×F als normierten Raum, versehen mit der Norm ‖(a, b)‖ ∞ =<br />

max(‖a‖, ‖b‖), (a, b) ∈ F × F. Die Abbildung (f, g) : U → F × F, x ↦→ (f(x), g(x)),<br />

ist dann differenzierbar in x 0 . Nach Voraussetzung ist nämlich<br />

ϕ(ξ)<br />

mit lim<br />

ξ→0<br />

‖ξ‖<br />

= lim ψ(ξ)<br />

ξ→0<br />

‖ξ‖<br />

f(x 0 + ξ) = f(x 0 ) + f ′ (x 0 )ξ + ϕ(ξ),<br />

g(x 0 + ξ) = g(x 0 ) + g ′ (x 0 )ξ + ψ(ξ) ,<br />

= 0. Somit ist<br />

(f, g)(x 0 + ξ) = (f, g)(x 0 ) + (f ′ (x 0 ), g ′ (x 0 ))ξ + (ϕ(ξ), ψ(ξ)) ,<br />

falls wir die stetige lineare Abbildung (f ′ (x 0 ), g ′ (x 0 )) ∈ L(E, F ×F) definieren durch<br />

(f ′ (x 0 ), g ′ (x 0 ))ξ := (f ′ (x 0 )ξ, g ′ (x 0 )ξ), ξ ∈ E.<br />

Offenbar ist lim<br />

ξ→0<br />

‖(ϕ(ξ), ψ(ξ))‖ ∞ /‖ξ‖ = 0. Wir sehen damit insbesondere, daß<br />

(7.15)<br />

(f, g) ′ (x 0 ) = (f ′ (x 0 ), g ′ (x 0 )) .<br />

99


Wir bezeichnen nun mit add : F ×F → F und mult : F ×F → G die Abbildungen<br />

(a, b) ↦→ a + b und (a, b) ↦→ a · b. Es ist für (a 0 , b 0 ), (ξ, η) ∈ F × F<br />

add ((a 0 , b 0 ) + (ξ, η)) = add (a 0 , b 0 ) + ξ + η<br />

mult ((a 0 , b 0 ) + (ξ, η)) = (a 0 + ξ) · (b 0 + η)<br />

= mult (a 0 , b 0 ) + a 0 · η + ξ · b 0 + ξ · η ,<br />

wobei ‖ξ · η‖ ≤ C‖ξ‖ ‖η‖ ≤ C‖(ξ, η)‖ 2 ∞ . Insbesondere ist lim<br />

(ξ,η)→0<br />

ξ·η<br />

‖(ξ,η)‖ ∞<br />

= 0.<br />

Wir sehen also, daß die Abbildungen add und mult auf F × F differenzierbar sind,<br />

und daß<br />

(7.16)<br />

(7.17)<br />

add ′ (a 0 , b 0 )(ξ, η) = add (ξ, η) = ξ + η ,<br />

mult ′ (a 0 , b 0 )(ξ, η) = a 0 · η + ξ · b 0<br />

ist für alle (a 0 , b 0 ), (ξ, η) ∈ F × F.<br />

Da f + g = add ◦(f, g), f ·g = mult ◦ (f, g) ist, folgt aus (7.15) - (7.17) mittels der<br />

Kettenregel:<br />

(f + g) ′ (x 0 )ξ = (add ) ′ (f(x 0 ), g(x 0 ))(f ′ (x 0 )ξ, g ′ (x 0 )ξ)<br />

= f ′ (x 0 )ξ + g ′ (x 0 )ξ = (f ′ (x 0 ) + g ′ (x 0 ))ξ,<br />

(f · g) ′ (x 0 )ξ = (mult ) ′ (f(x 0 ), g(x 0 ))(f ′ (x 0 )ξ, g ′ (x 0 )ξ)<br />

= f(x 0 ) · (g ′ (x 0 )ξ) + (f ′ (x 0 )ξ) · g(x 0 ) .<br />

Bemerkung. Setzen wir für beliebiges ξ ∈ E<br />

∂f<br />

∂ξ (x) := d ∣ f(x + tξ),<br />

dt t=0<br />

Q.E.D.<br />

so ist nach der Kettenregel<br />

∂f<br />

∂ξ (x) = f ′ (x)ξ<br />

(dies liefert übrigens einen alternativen Beweis zu Satz 7.2). Damit läßt sich die<br />

Produktregel (7.14) besonders schön durch folgende Regel für Richtungsableitungen<br />

darstellen: Für alle ξ ∈ E gilt<br />

(7.18)<br />

∂(f · g)<br />

∂ξ<br />

(x) = f(x) · ∂g ∂f<br />

(x) + (x) · g(x).<br />

∂ξ ∂ξ<br />

100


7.5 Der verallgemeinerte Mittelwertsatz<br />

Wir werden später folgende höherdimensionale Variante des Mittelwertsatzes benötigen.<br />

Satz 7.12 (Schrankensatz) Es seien I ⊂ R offen und f : I → F eine stetig<br />

differenzierbare Funktion mit Werten im Banachraum F. Liegt das Intervall [a, b]<br />

in I, und ist<br />

‖f ′ (t)‖ ≤ m<br />

für alle t ∈ [a, b], so ist<br />

‖f(b) − f(a)‖ ≤ m(b − a) .<br />

Beweis. Ist F = R (oder F = C), so können wir wie folgt argumentieren:<br />

Da f ′ stetig ist, ist f ′ über dem Intervall [a, b] integrierbar, und nach dem Hauptsatz<br />

der Differential- und Integralrechnung ist<br />

(7.19)<br />

f(b) − f(a) =<br />

∫ b<br />

a<br />

f ′ (t)dt .<br />

Hieraus folgt aufgrund der Dreiecksungleichung für Integrale:<br />

(7.20)<br />

|f(b) − f(a)| ≤<br />

∫ b<br />

|f ′ (t)|dt ≤<br />

∫ b<br />

a<br />

a<br />

m dt = m(b − a) .<br />

Dieses Argument läßt sich auf den Fall eines beliebigen Banachraumes F übertragen.<br />

Dazu sei angemerkt, daß sich die in Kapitel 1 beschriebene Integrationstheorie<br />

beinahe wortwörtlich auf den Fall von Funktionen mit Werten in F anwenden läßt:<br />

Wir benötigen dazu allerdings nur die folgenden Eigenschaften:<br />

Eine Funktion f : [a, b] → F heiße dazu Treppenfunktion, wenn es eine Zerlegung<br />

a = x 0 < x 1 < . . .x m = b des Intervalls [a, b] gibt sowie Vektoren ξ 1 , . . .,ξ m ∈ F so,<br />

daß f(x) = ξ i für alle x ∈]x i−1 , x i [.<br />

Das Integral einer solchen Treppenfunktion ist der Vektor ∫ ∑<br />

f(x) dx := m (x i −<br />

x i−1 )ξ i ∈ F. Ist f : [a, b] → F der gleichmäßige Limes einer Folge von Treppenfunktionen<br />

f n : [a, b] → F, so weist man analog wie für R-wertige Regelfunktionen nach,<br />

daß die Folge der Integrale<br />

∫ b<br />

a<br />

f n dx eine Cauchy-Folge in F bildet. Diese konvergiert<br />

aufgrund der Vollständigkeit von F gegen einen Vektor ξ = lim<br />

man schreibt ξ =:<br />

∫ b<br />

a<br />

n→∞<br />

b<br />

i=1<br />

∫<br />

f n dx ∈ F, und<br />

f(x) dx. Die Klasse der F-wertigen Regelfunktionen wird nun<br />

101<br />

a


analog wie im Falle F = R definiert, und man weist die gleichen Regeln für den Umgang<br />

mit solchen F-wertigen integrierbaren Funktionen nach wie für den Fall F = R<br />

– man muß dazu in den entsprechenden Beweisen lediglich den Absolutbetrag | · |<br />

durch die Norm ‖ · ‖ auf F ersetzen. Insbesondere sieht man mittels Satz 5.9, daß<br />

wieder jede stetige Funktion f : [a, b] → F auf [a, b] integrierbar ist, und daß auch in<br />

dieser Situation der Hauptsatz der Differential- und Integralrechnung gültig bleibt.<br />

Damit bleibt auch für einen allgemeinen Banachraum (7.19) gültig, und mittels der<br />

Dreiecksungleichung für F-wertige Integrale folgt in Analogie zu (7.20)<br />

‖f(b) − f(a)‖ ≤<br />

∫ b<br />

‖f ′ (t)‖dt ≤<br />

∫ b<br />

a<br />

a<br />

mdt = m(b − a) .<br />

Q.E.D.<br />

Bemerkungen 7.13 (i) Die Vollständigkeit des normierten Raumes F in Satz 7.12<br />

ist für die Gültigkeit des Satzes nicht wirklich erforderlich. Bezeichnet nämlich F<br />

die Vervollständigung von F aus Kapitel 3.6, so zeigt man leicht, daß F die Struktur<br />

eines Banachraumes besitzt, welcher F als dichten linearen Teilraum enthält. Satz<br />

7.12 läßt sich damit auf Funktionen f : I → F anwenden, also insbesondere auch<br />

auf Funktionen f : I → F ⊂ F.<br />

(ii) Man kann ferner zeigen, daß in Satz 7.12 die Differenzierbarkeit von f genügt<br />

(siehe z.B. [AE]).<br />

Wir betrachten nun wieder normierte Vektorräume E und F.<br />

Satz 7.14 Es sei U ⊂ E eine offene, zusammenhängende und nichtleere Teilmenge<br />

von E. Ist f : U → F differenzierbar, so ist f ′ = 0 genau dann, wenn f konstant<br />

ist.<br />

Beweis. Ist f konstant, so ist wegen f(x 0 + ξ) = f(x 0 ) + 0 · ξ trivialerweise f ′ = 0.<br />

Sei nun umgekehrt f ′ = 0. Dann ist f offenbar sogar stetig differenzierbar. Wir<br />

wählen p ∈ U fest und setzen η := f(p) und<br />

A := {x ∈ U : f(x) = η} = f −1 ({η}).<br />

Da {η} abgeschlossen in F und f stetig ist, ist A abgeschlossen in U. Ferner ist<br />

wegen p ∈ A die Menge A nichtleer.<br />

Um zu zeigen, daß A = U ist, d.h. f(x) = η für alle x ∈ U, genügt es nach Satz<br />

6.1(ii) zu zeigen, daß A auch offen in U ist.<br />

Sei dazu x 0 ∈ A. Dann gibt es ein ε > 0 mit B 2ε (x 0 ) ⊂ U. Sei y ∈ B ε (x 0 ), und<br />

z = y −x 0 . Dann ist für |t| < 2 der Punkt x 0 +tz in B 2ε (x 0 ). Für t ∈ I :=] −2, 2[ ist<br />

102


dann durch ϕ(t) := f(x 0 + tz) eine stetig differenzierbare Funktion auf I gegeben,<br />

und nach der Kettenregel ist<br />

ϕ ′ (t) = f ′ (x 0 + tz)z = 0 für t ∈ I .<br />

Mit Hilfe des Mittelwertsatzes 7.12 folgt hieraus:<br />

ϕ(a) = ϕ(b) für alle a, b ∈ I mit a ≤ b .<br />

Insbesondere ist f(y) = ϕ(1) = ϕ(0) = f(x 0 ) = η, und damit B ε (x 0 ) ⊂ A. Folglich<br />

ist A offen in U.<br />

Q.E.D.<br />

Bemerkung. Ist U in Satz 7.14 nicht zusammenhängend (und dim F > 0), so folgt<br />

aus f ′ = 0 keineswegs, daß f konstant ist. Dann läßt sich U nämlich schreiben als<br />

U = U 1 ∪U 2 , mit nichtleeren, disjunkten, offenen Teilmengen U 1 und U 2 , und wählen<br />

wir η 1 , η 2 ∈ F mit η 1 ≠ η 2 , so ist die durch<br />

{<br />

η 1 , falls x ∈ U 1 ,<br />

f(x) :=<br />

η 2 , falls x ∈ U 2 ,<br />

auf U definierte Funktion differenzierbar, nicht konstant, und f ′ = 0.<br />

7.6 Partielle Ableitungen höherer Ordnung<br />

und die Taylorapproximation<br />

Wir betrachten in diesem Paragraphen Funktionen f : U → R m , wobei U eine offene<br />

Teilmenge des R n sei. Für eine allgemeinere Diskussion höherer (totaler) Ableitungen<br />

von Funktionen zwischen beliebigen normierten Vektorräumen sowie der Taylorschen<br />

Formel in diesem allgemeinen Rahmen sei auf Anhang A verwiesen.<br />

Am Ende von Paragraph 7.1 hatten wir die Frage gestellt, ob stets<br />

∂ 2 f<br />

∂x i ∂x j<br />

= ∂2 f<br />

∂x j ∂x i<br />

gilt. Dies ist, wie wir in den Übungen sehen werden, i.a. falsch. Der folgende Satz<br />

zeigt jedoch, daß die obige Identität dann gilt, wenn eine der partiellen Ableitungen<br />

∂ 2 f ∂<br />

∂x i ∂x j<br />

oder<br />

2 f<br />

∂x j ∂x i<br />

stetig ist.<br />

Zur Vereinfachung der Notation schreiben wir zukünftig auch kurz<br />

∂ ik ...i k<br />

f := ∂ ( ( ))<br />

∂ ∂<br />

. . . f ,<br />

∂x i1 ∂x ik−1 ∂x ik<br />

z.B.<br />

∂ i f = ∂f<br />

∂x i<br />

, ∂ ij f = ∂2 f<br />

∂x i ∂x j<br />

.<br />

103


Theorem 7.15 (von H.A. Schwarz) Die Funktion f : U → R m besitze auf U die<br />

partiellen Ableitungen ∂ i f, ∂ j f und ∂ ji f. Ferner sei ∂ ji f im Punkte a ∈ U stetig.<br />

Dann existiert auch ∂ ij f(a), und es gilt<br />

∂ ij f(a) = ∂ ji f(a).<br />

Der Beweis beruht auf einem 2-dimensionalen Analogon des Mittelwertsatzes einer<br />

Veränderlichen.<br />

Lemma 7.16 Sei r > 0, und bezeichne Q das offene Quadrat Q =] − r, r[ 2 ⊂ R 2 .<br />

Die Funktion ϕ : Q → R besitze die partiellen Ableitungen ∂ 1 ϕ und ∂ 21 ϕ. Dann gibt<br />

es für jedes (x, y) ∈ Q mit x ≠ 0, y ≠ 0 einen Punkt (ξ, η) ∈ Q mit<br />

(7.21) ϕ(x, y) − ϕ(x, 0) − ϕ(0, y) + ϕ(0, 0) = ∂ 21 ϕ(ξ, η)xy.<br />

Beweis. Sei u(x) := ϕ(x, y) −ϕ(x, 0). Zweimalige Anwendung des Mittelwertsatzes<br />

aus der <strong>Analysis</strong> I liefert dann ein ξ zwischen 0 und x und ein η zwischen 0 und y<br />

so, daß die linke Seite von (7.21) geschrieben werden kann als<br />

Beweis von Satz 7.15<br />

u(x) − u(0) = xu ′ (ξ)<br />

= x(∂ 1 ϕ(ξ, y) − ∂ 1 ϕ(ξ, 0))<br />

= xy ∂ 21 ϕ(ξ, η).<br />

Q.E.D.<br />

Es genügt, ihn für den Fall m = 1 zu beweisen, d.h. für reellwertiges f. Für genügend<br />

kleines r > 0 ist dann die Funktion<br />

ϕ(x, y) := f(a + xe i + ye j )<br />

auf dem Quadrat Q =] − r, r[ 2 wohldefiniert. Ferner existieren laut Voraussetzung<br />

an f die partiellen Ableitungen ∂ 1 ϕ, ∂ 2 ϕ und ∂ 21 ϕ auf Q, und ∂ 21 ϕ ist im Punkte<br />

(0, 0) stetig. Wir müssen zeigen, daß ∂ 12 ϕ in (0, 0) existiert, und daß gilt:<br />

∂ 12 ϕ(0, 0) = ∂ 21 ϕ(0, 0).<br />

Sei dazu ε > 0 gegeben. Da ∂ 21 ϕ in (0, 0) stetig ist, existiert eine Umgebung V von<br />

(0, 0) in Q so, daß für alle (x ′ , y ′ ) ∈ V<br />

|∂ 21 ϕ(x ′ , y ′ ) − ∂ 21 ϕ(0, 0)| < ε.<br />

Sei o.B.d.A. V von der Gestalt V =] − δ, δ[ 2 , mit 0 < δ < r. Nach (7.21) gilt dann<br />

für jedes (x, y) ∈ V mit x ≠ 0, y ≠ 0<br />

ϕ(x, y) − ϕ(x, 0) − ϕ(0, y) + ϕ(0, 0)<br />

∣<br />

− ∂ 21 ϕ(0, 0)<br />

xy<br />

∣ < ε.<br />

104


Wegen<br />

ϕ(x, y) − ϕ(x, 0)<br />

lim<br />

= ∂ 2 ϕ(x, 0)<br />

y→0 y<br />

folgt hieraus ∣ ∣∣∣ ∂ 2 ϕ(x, 0) − ∂ 2 ϕ(0, 0)<br />

− ∂ 21 ϕ(0, 0)<br />

x<br />

∣ ≤ ε<br />

für alle x ≠ 0 mit |x| < δ.<br />

∂<br />

Dies zeigt, daß lim 2 ϕ(x,0)−∂ 2 ϕ(0,0)<br />

x→0 x<br />

= ∂ 12 ϕ(0, 0) existiert und gleich ∂ 21 ϕ(0, 0) ist.<br />

Q.E.D.<br />

Durch mehrmalige Anwendung des Satzes von Schwarz sieht man, daß bei einer<br />

C k -Funktion f die Reihenfolge der partiellen Ableitungen<br />

∂ ∂<br />

∂x ik<br />

. . .<br />

∂x i1<br />

f keine Rolle<br />

spielt.<br />

Korollar 7.17 Sei f ∈ C k (U, R m ), und seien i 1 , . . .,i k ∈ {1, . . .,n}. Dann gilt für<br />

jede Permutation π der Indizes 1, . . .,k<br />

∂ i1 ...i k<br />

f = ∂ iπ(1) ...i π(k)<br />

f.<br />

Wir können nun die Taylorformel für Funktionen einer Veränderlichen leicht auf den<br />

höherdimensionalen Fall übertragen.<br />

Sei dazu f ∈ C p+1 (U, R), und seien a, x Punkte in U, deren Verbindungsstrecke<br />

[a, x] := {(1 − t)a + tx : t ∈ [0, 1]}<br />

in U liegt.<br />

Wir betrachten die Hilfsfunktion F : [0, 1] → R mit<br />

F(t) := f(a + th), h := x − a.<br />

Dann ist F ∈ C p+1 ([0, 1], R), denn es gelten folgende Formeln für die Ableitungen<br />

von F, wie man sofort durch wiederholte Anwendung der Kettenregel sieht:<br />

(7.22)<br />

F ′ (t) =<br />

F ′′ (t) =<br />

.<br />

F (k) (t) =<br />

n∑<br />

∂ i f(a + th)h i ,<br />

i=1<br />

n∑<br />

i=1 j=1<br />

n∑<br />

∂ j ∂ i f(a + th)h i h j ,<br />

n∑ n∑<br />

· · · ∂ i1 . . .∂ ik f(a + th)h i1 . . .h ik .<br />

i 1 =1 i k =1<br />

105


Zur Vereinfachung der Schreibweise führen wir folgende Bezeichnungen ein:<br />

Für einen beliebigen Punkt x ∈ U und Vektor ξ = (ξ 1 , . . .,ξ n ) ∈ R n setzen wir<br />

n∑ n∑<br />

(7.23) f (k) (x)ξ k := · · · ∂ i1 . . .∂ ik f(x)ξ i1 . . .ξ ik .<br />

i 1 =1<br />

f (k) (x)ξ k ist ein homogenes Polynom vom Grad k. Speziell ist für k = 1<br />

n∑<br />

f (1) (x)ξ 1 = ∂ i f(x)ξ i = f ′ (x)ξ.<br />

Mit diesen Bezeichnungen gilt dann<br />

i k =1<br />

(7.24) F (k) (t) = f (k) (a + th)h k .<br />

i=1<br />

Wir definieren nun das Taylorpolynom p-ter Ordnung von f in a durch<br />

p∑ 1<br />

(7.25) T p,a f(x) :=<br />

k! f(k) (a)(x − a) k .<br />

k=0<br />

Bemerkungen 7.18 (a) Sei U ⊂ R n offen, und sei f ∈ C k (U, R). Für einen<br />

∑<br />

Multiindex α ∈ N n definiert man seine Länge |α| := n α j sowie α! :=<br />

α 1 ! · · ·α n !. Ist ξ ∈ R n , so setzt man ferner ξ α := ξ α 1<br />

( ) 1 · · ·ξn αn . Schließlich sei<br />

α1<br />

)<br />

∂ α ∂<br />

:=<br />

∂x 1<br />

· · ·(<br />

∂ αn.<br />

∂x n<br />

Dann gilt (Übung!)<br />

j=1<br />

(7.26)<br />

1<br />

k! f(k) (x)ξ k =<br />

∑<br />

{α∈N n :|α|=k}<br />

∂ α f(x)<br />

ξ α .<br />

α!<br />

(b) Nimmt f Werte im R m an, so können wir f (k) (x)ξ k analog definieren durch<br />

n∑ n∑<br />

f (k) (x)ξ k := · · · ξ i1 · · ·ξ ik ∂ i1 . . .∂ ik f(x)<br />

i 1 =1<br />

i k =1<br />

= (f (k)<br />

1 (x)ξ k , . . .,f (k)<br />

n (x)ξk ),<br />

und wir definieren das Taylorpolynom analog durch (7.25).<br />

Theorem 7.19 (Taylorformel) Sei f ∈ C p+1 (U, R m ), und seien a, x Punkte in<br />

U, deren Verbindungsstrecke in U liegt. Dann gilt:<br />

(7.27) f(x) = T p,a f(x) + R p,a (x),<br />

wobei das Restglied durch das Integral<br />

(7.28) R p,a (x) = 1 p!<br />

gegeben ist.<br />

∫ 1<br />

0<br />

(1 − t) p f (p+1) (a + t(x − a))(x − a) p+1 dt<br />

106


Beweis. Wir dürfen nach Bemerkung 7.18 o.B.d.A. m = 1 annehmen. Nach der<br />

1-dimensionalen Taylorformel ist nun<br />

F(1) =<br />

p∑<br />

k=0<br />

F (k) (0)<br />

k!<br />

+ R p ,<br />

mit<br />

Nun ist nach (7.24)<br />

sowie<br />

R p = 1 p!<br />

∫ 1<br />

0<br />

R p = 1 p!<br />

F (k) (0)<br />

k!<br />

∫ 1<br />

0<br />

(1 − t) p F (p+1) (t)dt.<br />

= 1 k! f(k) (a)(x − a) k<br />

(1 − t) p f (p+1) (a + t(x − a))(x − a) p+1 dt.<br />

Ferner ist F(1) = f(x). Damit ergibt sich die Behauptung.<br />

Q.E.D.<br />

Bemerkung 7.20 Ist f in Theorem 7.19 reellwertig, so läßt sich das Restglied auch<br />

darstellen in der Form<br />

(7.29) R p,a (x) =<br />

mit einem geeigneten ξ ∈ [a, x].<br />

1<br />

(p + 1)! f(p+1) (ξ)(x − a) p+1 ,<br />

In diesem Fall gibt es nämlich ein θ ∈ [0, 1] so, daß<br />

R p =<br />

1<br />

(p + 1)! F (p+1) (θ).<br />

Die Identität (7.29) folgt, indem man ξ := a + θ(x − a) wählt.<br />

Korollar 7.21 (Taylor-Approximation) Ist f ∈ C p (U, R m ) und ist a ∈ U, so<br />

gilt<br />

(7.30) f(x) = T p,a f(x) + o(‖x − a‖ p ) für x → a,<br />

d.h. es ist<br />

‖f(x) − T p,a f(x)‖<br />

lim<br />

= 0.<br />

x→a ‖x − a‖ p<br />

107


Beweis. Es sei o.B.d.A. m = 1. Nach Theorem 7.19 ist<br />

f(x) = T p−1,a f(x) + R p−1,a (x)<br />

= T p,a f(x) + ϕ(x),<br />

wobei<br />

ϕ(x) = R p−1,a (x) − 1 p! f(p) (a)(x − a) p .<br />

Nach Bemerkung 7.20 gibt es ferner ein ξ ∈ [a, x] mit<br />

ϕ(x) = 1 p! [fp (ξ)(x − a) p − f (p) (a)(x − a) p ].<br />

Wir müssen zeigen, daß ϕ(x) = o(‖x − a‖ p ) ist. Zu ε > 0 wähle dazu eine Kugel<br />

B δ (a) ⊂ U so, daß für alle y ∈ B δ (a) gilt:<br />

Q(y) := 1 p!<br />

n∑ n∑<br />

· · · |∂ i1 . . .∂ ip f(y) − ∂ i1 . . .∂ ip f(a)| < ε.<br />

i 1 =1 i p=1<br />

Beachtet man noch, daß<br />

|(x i1 − a i1 ) . . .(x ip − a ip )| ≤ ‖x − a‖ p ∞ ≤ ‖x − a‖p<br />

ist, so folgt für x ∈ B δ (a):<br />

‖ϕ(x)‖ ≤ 1 n∑ n∑<br />

· · · |∂ i1 . . . ∂ ip f(ξ) − ∂ i1 . . .∂ ip f(a)| · |(x i1 − a i1 ) . . .(x ip − a ip )|<br />

p!<br />

i 1 =1 i p=1<br />

≤ Q(ξ)‖x − a‖ p ≤ ε‖x − a‖ p ,<br />

also ‖ϕ(x)‖<br />

‖x−a‖ p ≤ ε für alle x ≠ a mit ‖x − a‖ < δ.<br />

Q.E.D.<br />

Das Taylorpolynom 1. Ordnung<br />

f(a) + f ′ (a)(x − a)<br />

liefert die in der Definition der totalen Ableitung beschriebene ”<br />

lineare Approximation“<br />

der Funktion f nahe dem Punkt a. Für beliebiges p stellt T p,a f ein Polynom<br />

vom Grade ≤ p dar, welches f in der Nähe von a nach (7.30) derart approximiert,<br />

daß der Fehler f(x) − T p,a f(x) für x → a schneller als ‖x − a‖ p gegen Null strebt.<br />

108


7.7 Die Hesse-Form<br />

Definition. Sei U ⊂ R n offen, und sei f ∈ C 2 (U, R). Für a ∈ U heißt die durch<br />

f (2) (a)x 2 =<br />

n∑<br />

∂ ij f(a)x i x j , x ∈ R n ,<br />

i,j=1<br />

definierte quadratische Form auf dem R n die Hesse-Form von f in a, und die<br />

symmetrische n × n-Matrix<br />

⎛<br />

⎞<br />

∂ 11 f(a) . . . ∂ 1n f(a)<br />

f ′′ ⎜<br />

⎟<br />

(a) = H f (a) := ⎝ . . ⎠<br />

∂ n1 f(a) . . . ∂ nn f(a)<br />

die Hesse-Matrix. Wir nennen diese Matrix auch die zweite Ableitung von f<br />

in a.<br />

Betrachten wir hier die Vektoren des R n wieder als Spaltenvektoren, so gilt also<br />

f (2) (a)x 2 = t x · H f (a) · x = 〈 x, f ′′ (a)x〉 ,<br />

falls 〈x, y〉 = ∑ n<br />

j=1 x jy j wieder das Euklidische Skalarprodukt auf dem R n bezeichnet.<br />

Für das Taylorpolynom 2. Ordnung der Funktion f im Punkte a erhält man<br />

nun die Darstellung<br />

(7.31) T 2,a f(x) = f(a) + f ′ (a)(x − a) + 1 t (x − a) · f ′′ (a) · (x − a),<br />

2<br />

wobei hier f ′ (a) als Kurzschreibweise für den Gradienten ∇f(a) steht.<br />

Beispiel. f(x, y) = x y auf R + × R.<br />

Da f(x, y) = e y log x ist, ist<br />

∂f<br />

∂x = yxy−1 ,<br />

∂ 2 f<br />

∂x 2 = y(y − 1)x y−2 ,<br />

∂ 2 f<br />

∂y 2 = x y (log x) 2 .<br />

∂f<br />

∂y = xy log x,<br />

∂ 2<br />

∂x∂y f =<br />

Für a = (1, 1) ergibt sich f ′ (1, 1) = (1, 0),<br />

f ′′ (1, 1) =<br />

∂2<br />

∂y∂x f = xy−1 (1 + y log x),<br />

( )<br />

0 1<br />

.<br />

1 0<br />

Damit ist das Taylorpolynom 2. Ordnung von f in (1,1) gegeben durch<br />

T 2,(1,1) f(x, y) = 1 + (x − 1) + (x − 1)(y − 1).<br />

109


7.7.1 Schmiegequadriken<br />

Ist die Hesse-Matrix f ′′ (a) nicht die Nullmatrix, so ist der Graph des Taylorpolynoms<br />

T 2,a f von f eine sogenannte Quadrik im R n+1 . Wegen<br />

f(x) − T 2,a f(x) = o(‖x − a‖ 2 )<br />

wird diese auch als die Schmiegequadrik an den Graphen von f im Punkte<br />

(a, f(a)) bezeichnet. Diese hat im Punkte (a, f(a)) dieselbe Tangentialhyperebene<br />

wie der Graph von f, und auch dieselbe Krümmung; letzteres wird in der Differentialgeometrie<br />

präzisiert.<br />

In der Linearen Algebra wird gezeigt, daß man im Fall n = 2 jede Schmiegequadrik<br />

durch eine affine Koordinatentransformation in eine der folgenden Normalformen<br />

bringen kann:<br />

(E) z = ±(x 2 + y 2 )<br />

(H) z = x 2 − y 2<br />

(P) z = ±x 2<br />

(elliptisches Paraboloid)<br />

(hyperbolisches Paraboloid)<br />

(parabolischer Zylinder)<br />

2<br />

1<br />

0.5<br />

0.25<br />

1.5<br />

0.2<br />

0<br />

1<br />

0.15<br />

-0.5<br />

0.1<br />

0.5<br />

-1<br />

-1<br />

0.05<br />

-1<br />

-1<br />

-0.5<br />

-0.5<br />

0<br />

-1<br />

-0.5<br />

0<br />

y<br />

0.5<br />

1<br />

1<br />

0.5<br />

0<br />

x<br />

-0.5<br />

y<br />

0<br />

0.5<br />

1<br />

1<br />

0.5<br />

0<br />

x<br />

-0.5<br />

-1<br />

0<br />

0.4<br />

0.2<br />

0<br />

x<br />

-0.2<br />

-0.4<br />

1<br />

0<br />

y<br />

0.5<br />

Allgemeiner heißt eine quadratische Form<br />

Q : R n → R,<br />

Q(x) = t xAx,<br />

und die sie repräsentierende symmetrische Matrix A, bekanntlich<br />

positiv definit, falls Q(x) > 0 ist für alle x ≠ 0 (in Zeichen: Q > 0),<br />

negativ definit, falls Q(x) < 0 ist für alle x ≠ 0, (in Zeichen: Q < 0),<br />

positiv semidefinit, falls Q(x) ≥ 0 ist für alle x ≠ 0, (in Zeichen: Q ≥ 0),<br />

negativ semidefinit, falls Q(x) ≤ 0 ist für alle x ≠ 0, (in Zeichen: Q > 0),<br />

(in Zei-<br />

indefinit, falls Q sowohl positive als auch negative Werte annimmt<br />

chen: Q ≷ 0).<br />

110


Da sich die symmetrische Matrix A mittels einer orthogonalen Koordinatentransformation<br />

diagonalisieren läßt, sind diese Eigenschaften äquivalent zu den folgenden<br />

Eigenschaften der Eigenwerte (EW) von A :<br />

Q > 0 ⇐⇒ alle EW sind > 0,<br />

Q < 0 ⇐⇒ alle EW sind < 0,<br />

Q ≥ 0 ⇐⇒ alle EW sind ≥ 0,<br />

Q ≤ 0 ⇐⇒ alle EW sind ≤ 0,<br />

Q ≷ 0 ⇐⇒ A hat EW > 0 und < 0.<br />

7.8 Lokale Extrema<br />

Sei f : X → R, wobei X ⊂ R n sei. f besitze in a ∈ X ein lokales Maximum<br />

bzw. Minimum, falls es in X eine Umgebung V von a gibt, so daß f(x) ≤ f(a)<br />

bzw. f(x) ≥ f(a) für alle x ∈ V. Kann V so gewählt werden, daß sogar f(x) < f(a)<br />

bzw. f(x) > f(a) für alle x ∈ V \ {a} gilt, so heißt a Stelle eines isolierten lokalen<br />

Maximums bzw. Minimums von f.<br />

Satz 7.22 (Notwendiges Kriterium) Sei U ⊂ R n offen. Hat f : U → R in<br />

a ∈ U ein lokales Extremum, d.h. ein lokales Maximum oder Minimum, und ist f<br />

in a partiell differenzierbar, so gilt<br />

(7.32) ∂ 1 f(a) = · · · = ∂ n f(a) = 0.<br />

Für eine in a differenzierbare Funktion f besagt (7.32), daß f ′ (a) = 0 ist.<br />

Beweis. Die durch g(t) := f(a + te k ) in einem genügend kleinen Intervall um 0<br />

erklärte Funktion g hat in t = 0 ein lokales Extremum. Somit ist 0 = g ′ (0) =<br />

Df(a)e k = ∂ k f(a) für k = 1, . . ., n.<br />

Q.E.D.<br />

Punkte a mit f ′ (a) = 0 bezeichnet man auch als kritische oder stationäre Punkte<br />

von f.<br />

Satz 7.23 (Hinreichendes Kriterium) Seien U ⊂ R n offen und sei f : U → R<br />

eine C 2 -Funktion. Ist a ∈ U ein kritischer Punkt von f, d.h. ist f ′ (a) = 0, so gilt:<br />

f ′′ (a) > 0 =⇒ f hat in a ein isoliertes lokales Minimum;<br />

f ′′ (a) < 0 =⇒ f hat in a ein isoliertes lokales Maximum;<br />

f ′′ (a) ≷ 0 =⇒ f hat in a kein lokales Extremum.<br />

111


Beweis. Sei zunächst f ′′ (a) > 0. Wegen f ′ (a) = 0 folgt dann für alle genügend<br />

kleinen Vektoren ξ ∈ R n mittels Taylor-Approximation (vgl. Satz 7.21)<br />

wobei<br />

f(a + ξ) = f(a) + 1 t ξf ′′ (a)ξ + R(ξ),<br />

2<br />

R(ξ)<br />

lim<br />

ξ→0 ‖ξ‖ = 0. 2<br />

Die stetige Funktion ξ ↦→ t ξf ′′ (a)ξ nimmt wegen f ′′ (a) > 0 auf der kompakten<br />

Einheitssphäre S := {ξ : ‖ξ‖ = 1} ein strikt positives Minimum m > 0 an. Schreibt<br />

man einen beliebigen Vektor als ξ = ‖ξ‖e, mit einem Einheitsvektor e ∈ S, so folgt<br />

damit für alle ξ<br />

t ξf ′′ (a)ξ ≥ m‖ξ‖ 2 .<br />

Wähle nun ε > 0 so klein, daß B ε (a) ⊂ U, und so daß für ‖ξ‖ < ε stets<br />

gilt. Für alle a + ξ ∈ B ε (a) folgt dann<br />

|R(ξ)| ≤ m 4 ‖ξ‖2<br />

f(a + ξ) ≥ f(a) + m 2 ‖ξ‖2 − m 4 ‖ξ‖2 = f(a) + m 4 ‖ξ‖2 .<br />

Dies zeigt, daß f in der Kugel B ε (a) genau im Punkte a ein Minimum annimmt.<br />

Im Fall f ′′ (a) > 0 ist damit die Behauptung bewiesen, und der Fall f ′′ (a) < 0 wird<br />

durch den Übergang zu −f auf den vorherigen Fall zurückgeführt.<br />

Ist schließlich f ′′ (a) indefinit, so gibt es Vektoren v und w mit t vf ′′ (a)v > 0 bzw.<br />

t wf ′′ (a)w < 0. Betrachten wir dann die Funktionen<br />

g v (t) := f(a + tv)<br />

g w (t) := f(a + tw),<br />

die auf einem genügend kleinen Intervall um 0 ∈ R definiert sind, so ist nach der<br />

Kettenregel g v ′′(0)<br />

= t vf ′′ (a)v > 0 und g w ′′(0) = t wf ′′ (a)w < 0, wobei t = 0 jeweils<br />

ein kritischer Punkt ist. Somit hat g v in 0 ein isoliertes lokales Mimimum, g w ein<br />

isoliertes lokales Maximum, und f daher in a kein lokales Extremum. Q.E.D.<br />

Beispiel. Die Funktion f(x, y) := y 2 (x−1)+x 2 (x+1) auf R 2 soll auf lokale Extrema<br />

untersucht werden. Es ist<br />

f ′ (x, y) = (y 2 + 3x 2 + 2x, 2(x − 1)y).<br />

Die Bedingung f ′ (x, y) = (0, 0) ergibt als stationäre Punkte P 1 := (0, 0) und P 2 :=<br />

(− 2 , 0). Die zweite Ableitung von f ist gegeben durch die Hesse-Matrix<br />

3<br />

( )<br />

6x + 2 2y<br />

f ′′ (x, y) =<br />

.<br />

2y 2(x − 1)<br />

112


( )<br />

2 0<br />

Somit ist f ′′ (P 1 ) = indefinit, so daß in P<br />

0 −2<br />

1 kein lokales Extremum vorliegt<br />

( )<br />

−2 0<br />

(sondern ein sogenannter Sattelpunkt), und f ′′ (P 2 ) =<br />

0 − 10 , so daß in P 2 ein<br />

3<br />

lokales Maximum vorliegt.<br />

113


Kapitel 8<br />

Der Banachsche Fixpunktsatz<br />

In vielen Situationen in der Mathematik steht man vor dem Problem, die Existenz<br />

eines gewissen Objektes, wie z.B. die Lösung eine Gleichung, nachzuweisen, ohne dieses<br />

”<br />

explizit“ berechnen zu können. Hier helfen oftmals sogenannte Fixpunktsätze<br />

weiter. Einer der bedeutendsten Sätze dieser Art ist der Kontraktionssatz von Banach.<br />

Definition. Es sei (M, d) ein metrischer Raum. Eine Abbildung S : M → M heiße<br />

kontrahierend oder eine Kontraktion, wenn es eine Zahl θ ∈ [0, 1[ gibt mit<br />

d(S(x), S(y)) ≤ θ d(x, y) für alle x, y ∈ M .<br />

Ein Punkt x ∈ M heiße Fixpunkt von S, wenn gilt S(x) = x.<br />

Man beachte, daß jede Kontraktion Lipschitz-stetig ist.<br />

Theorem 8.1 (Banachscher Fixpunktsatz) Sei S eine Kontraktion des vollständigen<br />

metrischen Raumes (M, d). Dann besitzt S einen eindeutigen Fixpunkt<br />

x.<br />

Ist x 0 ein beliebiger Punkt in M, und definieren wir die Folge (x n ) n rekursiv durch<br />

x n := S(x n−1 ), n = 1, 2, . . ., so ist lim<br />

n→∞<br />

x n = x, und es gilt<br />

(8.1) d(x, x n ) ≤ θ<br />

1 − θ d(x n−1, x n ) ≤ θn<br />

1 − θ d(x 0, x 1 ) .<br />

Beweis. Wir zeigen zuerst, daß S höchstens einen Fixpunkt besitzt. Sind nämlich<br />

x 1 und x 2 zwei Fixpunkte von S, so gilt:<br />

d(x 1 , x 2 ) = d(S(x 1 ), S(x 2 )) ≤ θd(x 1 , x 2 ),<br />

mit 0 ≤ θ < 1. Es folgt d(x 1 , x 2 ) = 0, also x 1 = x 2 .<br />

Um die Existenz eines Fixpunktes nachzuweisen, wählen wir einen beliebigen Punkt<br />

x 0 in M, und definieren rekursiv die Folge (x n ) n wie im Theorem. Dann gilt für<br />

k > 1<br />

d(x k , x k+1 ) = d(S(x k−1 ), S(x k )) ≤ θd(x k−1 , x k ) ,<br />

114


woraus per Iteration folgt:<br />

d(x k+j , x k+j+1 ) ≤ θ j+1 d(x k−1 , x k ), j ≥ 0 .<br />

Für p > n ≥ 1 folgt hieraus mittels der Dreiecksungleichung<br />

(8.2)<br />

d(x n , x p ) ≤<br />

p−n−1<br />

∑<br />

j=0<br />

Sei ε > 0. Da 0 ≤ θ < 1, gibt es ein n 0 ∈ N mit<br />

≤<br />

d(x n+j , x n+j+1 ) ≤<br />

p−n−1<br />

∑<br />

j=0<br />

θ<br />

1 − θ d(x n−1, x n ) ≤ θn<br />

1 − θ d(x 0, x 1 ) .<br />

θ n<br />

1 − θ d(x 0, x 1 ) < ε für alle n ≥ n 0 .<br />

θ j+1 d(x n−1 , x n )<br />

Somit ist (x n ) n eine Cauchy-Folge im vollständigen metrischen Raum M und konvergiert<br />

folglich gegen einen Punkt x ∈ M. Da S als Kontraktion stetig ist, ist<br />

S(x) = lim<br />

n→∞<br />

S(x n ) = lim<br />

n→∞<br />

x n+1 = x ,<br />

d.h. x ist ein Fixpunkt von S. Die Stetigkeit der Metrik als Abbildung von M × M<br />

nach R impliziert schließlich<br />

d(x n , x) = lim<br />

p→∞<br />

d(x n , x p ),<br />

so daß sich die gewünschten Abschätzungen in Theorem 8.1 unmittelbar aus (8.2)<br />

ergeben.<br />

Q.E.D.<br />

Bemerkung 8.2 Setzen wir S 1 := S, und S n := S ◦ S n−1 für n > 1, um die Iterierten<br />

von S zu beschreiben, so läßt sich die Folge (x n ) n in Theorem 8.1 schreiben<br />

als (S n (x 0 )) n . Der Banachsche Fixpunktsatz liefert nicht nur die Existenz eines Fixpunktes<br />

sowie dessen Eindeutigkeit, sondern sogar ein iteratives Verfahren, um diesen<br />

aufzufinden. Ferner wird eine Formel zur Abschätzung des Fehlers d(x, S n (x 0 ))<br />

geliefert, den man begeht, wenn man anstelle des Fixpunktes x den Punkt S n (x 0 )<br />

aus dem n-ten Iterationsschritt wählt.<br />

115


Kapitel 9<br />

Der Satz über implizite<br />

Funktionen<br />

9.1 Einleitende Beispiele<br />

Ein Problem, auf welches man in der Mathematik, aber auch in vielen Anwendungen<br />

des öfteren stößt, ist das der ”<br />

Auflösung“ eines Systems von Gleichungen nach<br />

gewissen ”<br />

Unbekannten“ y 1 , . . .,y m .<br />

Typischerweise handelt es sich um Gleichungen der Form<br />

(9.1)<br />

F 1 (x 1 , . . .,x k , y 1 , . . ., y m ) = 0<br />

.<br />

F n (x 1 , . . .,x k , y 1 , . . ., y m ) = 0<br />

in den Variablen x 1 , . . .,x k , y 1 , . . .,y m (welche auf einer Teilmenge des R k × R m<br />

definiert sind), welche man für gegebene Werte von x 1 , . . .,x k nach y 1 , . . .,y m<br />

“auflösen“ möchte. Im Idealfall hofft man dabei, daß es zu festem x 1 , . . .,x k nur<br />

genau eine Lösung y 1 = y 1 (x 1 , . . .,x k ), . . .,y m = y m (x 1 , . . .,x k ) gibt, wodurch dann<br />

Funktionen<br />

g i : (x 1 , . . ., x k ) ↦→ y i (x 1 , . . .,x k ), i = 1, . . .,m,<br />

mit<br />

F j (x 1 , . . .,x k , g 1 (x 1 , . . .,x k ), . . .,g m (x 1 , . . ., x k )) = 0,<br />

j = 1, . . .,n,<br />

definiert werden.<br />

Beispiele 9.1 a) Die Gleichung x 2 + y 2 = r 2 auf R × R definiert den Kreis mit<br />

Radius r ≥ 0 und Mittelpunkt (0, 0). Diese läßt sich umschreiben in<br />

F(x, y) := r 2 − (x 2 + y 2 ) = 0.<br />

116


Löst man nach y auf, so erhält man<br />

y = ± √ r 2 − x 2 , falls |x| ≤ r .<br />

Für |x| > r erhält man dagegen keine reelle Lösung y. Setzt man g + (x) :=<br />

√<br />

r2 − x 2 , g − (x) := − √ r 2 − x 2 , |x| ≤ r, so erhält man hier sogar zwei stetige<br />

Funktionen g + und g − auf I = [−r, r] mit<br />

F(x, g + (x)) = 0 und F(x, g − (x)) = 0, x ∈ I .<br />

Insbesondere gibt es z.B. nur genau eine stetige Lösungsfunktion g mit F(x, g(x)) =<br />

0 für x ∈ I und (0, g(0)) = (0, r), nämlich g + .<br />

Für r = 0 schrumpft das Lösungsintervall I übrigens zusammen auf die einpunktige<br />

Menge I = {0} so, daß wir hier auf keiner noch so kleinen Umgebung der 0 eine<br />

Lösungsfunktion g finden können.<br />

b) Sind die Funktionen F 1 , . . .,F n in (9.1) linear, so läßt sich (9.1) kürzer schreiben<br />

als<br />

(9.2) B · x + A · y = 0 ,<br />

⎛ ⎞ ⎛ ⎞<br />

x 1 y 1<br />

⎜ ⎟ ⎜ ⎟<br />

mit x = ⎝ . ⎠ , y = ⎝ . ⎠, wobei A = (a ij ) i=1,...,n und B = (b il ) i=1,...,n<br />

j=1,...,m<br />

l=1,...,k<br />

x k y m<br />

n × m-bzw. n × k-Matrizen sind. (9.2) ist äquivalent zu<br />

gewisse<br />

(9.3)<br />

A · y = −B · x .<br />

Hinreichend für die Auflösbarkeit dieser Gleichung nach y ist dann die Invertierbarkeit<br />

der durch die Matrix A definierten linearen Abbildung. Dazu muß insbesondere<br />

n = m sein. Ist dann A invertierbar, so ist (9.3) äquivalent zu<br />

y = −A −1 · B · x .<br />

Dieses Beispiel unterstreicht das heuristische Prinzip, wonach man i.a. gerade n<br />

Gleichungen benötigt, um nach n Variablen y 1 , . . .,y n<br />

” aufzulösen“.<br />

117


Wir setzen daher ab jetzt stets n = m voraus.<br />

c) Für x, y ∈ R sei<br />

F(x, y) := y + e y − x.<br />

Mit Hilfe des Zwischenwertsatzes (genauer Satz 9.10, Anal. I) sieht man leicht, daß<br />

es eine eindeutige, stetige Funktion g : R → R mit F(x, g(x)) = 0 gibt. Offenbar ist<br />

nämlich g die Umkehrfunktion der stetigen, streng isotonen Funktion h : y ↦→ y+e y ,<br />

welche nach Satz 9.11 (Anal. I) ebenfalls stetig ist.<br />

Leider läßt sich g nicht “explizit“ angeben, d.h. als Ausdruck in wohlbekannten<br />

Funktionen. Wir werden sehen, daß sich trotzdem wichtige Eigenschaften der durch<br />

F(x, g(x)) = 0 ”<br />

implizit“ definierten Funktion g, wie z.B. Stetigkeit, Differenzierbarkeit<br />

etc., aus entsprechenden Eigenschaften der Funktion F herleiten lassen.<br />

Wir kehren nun zum Gleichungssystem (9.1) zurück und beobachten zunächst, daß<br />

sich dieses für n = m in die Form<br />

(9.4)<br />

F(x, y) = 0<br />

bringen läßt, wenn wir setzen:<br />

x := (x 1 , . . .,x k ) ∈ R k ,<br />

y := (y 1 , . . .,y n ) ∈ R n ,<br />

F := (F 1 , . . ., F n ).<br />

9.2 Satz über implizite Funktion und Satz über<br />

Umkehrfunktionen<br />

Wir wollen sogar folgende, allgemeinere Situation betrachten:<br />

Es seien X, Y und Z normierte Vektorräume (welche in (9.4) den Räumen R k , R n<br />

und R n entsprechen), sowie (a, b) ∈ X × Y . X × Y werde mit der Norm ‖(x, y)‖ :=<br />

‖(x, y)‖ ∞ = max(‖x‖ X , ‖y‖ Y ), (x, y) ∈ X × Y , versehen.<br />

Definition. Sind U eine Teilmenge von X × Y mit (a, b) ∈ U sowie F : U → Z<br />

eine Abbildung, und ist {x ∈ X : (x, b) ∈ U} eine Umgebung von a in X, so heiße<br />

F in (a, b) partiell nach der 1. Variablen differenzierbar, falls die Abbildung<br />

F(·, b) : x ↦→ F(x, b) im Punkte a differenzierbar ist. Man schreibt dann für diese<br />

partielle Ableitung<br />

D 1 F(a, b) := (F(·, b)) ′ (a),<br />

oder auch F ′ x(a, b).<br />

Analog wird die partielle Ableitung D 2 F(a, b) = F ′ y (a, b) := (F(a, ·))′ (b) definiert.<br />

Ist F im Punkte (a, b) total differenzierbar, so ist offenbar für alle (ξ, η) ∈ X × Y<br />

118


(9.5)<br />

DF(a, b)(ξ, η) = DF(a, b)(ξ, 0) + DF(a, b)(0, η)<br />

= D 1 F(a, b)ξ + D 2 F(a, b)η .<br />

Definition. Ein beschränkter linearer Operator T ∈ L(Y, Z) heiße regulär, falls es<br />

einen beschränkten linearen Operator T −1 ∈ L(Z, Y ) gibt mit T ◦ T −1 = I Z , T −1 ◦<br />

T = I Y , wobei I Z bzw. I Y den identischen Operator auf Z bzw. Y bezeichne.<br />

Bemerkung. In vielen Anwendungen ist Y = Z = R n . Dann ist T ∈ L(R n , R n )<br />

regulär dann und nur dann, wenn T invertierbar ist, d.h. wenn det T ≠ 0.<br />

Satz 9.2 (Differenzierbarkeit der auflösenden Funktion) Sei (a, b) ∈ X ×Y ,<br />

und seien U 1 eine offene Umgebung von a in X und U 2 eine offene Umgebung von b<br />

in Y . Ferner sei F : U 1 × U 2 → Z eine Abbildung mit F(a, b) = 0, welche im Punkt<br />

(a, b) differenzierbar ist. Weiter sei g : U 1 → U 2 eine stetige Abbildung mit g(a) = b<br />

sowie<br />

F(x, g(x)) = 0 für alle x ∈ U 1 .<br />

Ist dann die partielle Ableitung F y ′ (a, b) ∈ L(Y, Z) regulär, so ist g im Punkte a<br />

differenzierbar, und es gilt:<br />

(9.6)<br />

g ′ (a) = −(F y ′ (a, b))−1 ◦ F x ′ (a, b) .<br />

Beweis. Sei o.B.d.A. (a, b) = (0, 0), und somit insbesondere g(0) = 0 (ansonsten<br />

betrachte man die Hilfsfunktion ˜F(x, y) := F(a + x, b + y)). Wir setzen<br />

A := F x ′(0, 0) ∈ L(X, Z), B := F y ′ (0, 0) ∈ L(Y, Z). Da F in (0, 0) differenzierbar<br />

ist, ist<br />

F(x, y) = Ax + By + ϕ(x, y) ,<br />

wobei ϕ : U 1 × U 2 → Z eine Funktion ist mit<br />

ϕ(x, y) = o(‖(x, y)‖) .<br />

Nach Voraussetzung ist F(x, g(x)) = 0 für alle x ∈ U 1 , und damit 0 = Ax+Bg(x)+<br />

ϕ(x, g(x)), also<br />

(9.7) g(x) = −B −1 Ax − B −1 ϕ(x, g(x)) für alle x ∈ U 1 ,<br />

mit B −1 ∈ L(Z, Y ) .<br />

Sei ε > 0. Da ϕ(x, y) = o(‖(x, y)‖) ist, gibt es ein δ > 0 so, daß<br />

‖ϕ(x, y)‖ ≤ ε‖(x, y)‖ ≤ ε(‖x‖ + ‖y‖)<br />

119


ist für alle (x, y) mit ‖(x, y)‖ < δ. Ferner gibt es wegen der Stetigkeit von g in 0 ein<br />

δ 1 < δ so, daß gilt:<br />

‖g(x)‖ < δ für alle x mit ‖x‖ < δ 1 .<br />

Damit ist für ‖x‖ < δ 1 offenbar ‖(x, g(x))‖ < δ, also<br />

und damit<br />

‖ϕ(x, g(x))‖ ≤ ε(‖x‖ + ‖g(x)‖)<br />

(9.8)<br />

‖B −1 ϕ(x, g(x))‖ ≤ ‖B −1 ‖ε(‖x‖ + ‖g(x)‖) .<br />

Für ε := 1<br />

2‖B −1 ‖<br />

Somit gibt es ein δ 0 > 0 mit<br />

erhalten wir nach (9.7) insbesondere<br />

‖g(x)‖ ≤ ‖B −1 A‖ ‖x‖ + 1 2 ‖x‖ + 1 2 ‖g(x)‖ .<br />

(9.9)<br />

‖g(x)‖ ≤ K ‖x‖ , für ‖x‖ < δ 0 ,<br />

mit K := 2‖B −1 A‖ + 1.<br />

Wir setzen nun ψ(x) := −B −1 ϕ(x, g(x)). Damit ist nach (9.7)<br />

g(x) = −B −1 Ax + ψ(x) ,<br />

und der Satz ist bewiesen, wenn gezeigt wird, daß ψ(x) = o(‖x‖) ist, d.h. daß<br />

ψ(x)<br />

lim<br />

x→0 ‖x‖ = 0 .<br />

Aus (9.8) und (9.9) folgt jedoch, daß es zu jedem ε ′ > 0 ein δ ′ > 0 mit δ ′ < δ 0 gibt<br />

so, daß ‖ψ(x)‖ ≤ ε ′ ‖x‖ gilt für alle x mit ‖x‖ < δ ′ .<br />

Q.E.D.<br />

Bemerkungen 9.3 (i) Man überlege sich einmal, daß für die Abbildung F in Beispiel<br />

9.1 a) die Bedingung F y ′ ∂F<br />

(a, b) = (a, b) ≠ 0 (für a, b mit ∂y a2 + b 2 = r 2 )<br />

hinreichend und notwendig dafür ist, daß es auf einer Umgebung von a eine stetige<br />

Funktion g gibt mit g(a) = b und F(x, g(x)) = 0, und daß in Beispiel b) die<br />

Regularität von F y(a, ′ b) äquivalent zur Regularität der Matrix A ist.<br />

(ii) Für die in Beispiel 9.1 c) implizit definierte Funktion erhalten wir aus Satz 9.2:<br />

g ist differenzierbar auf ganz R, und es gilt:<br />

∂F<br />

g ′ (x, g(x))<br />

∂x<br />

(x) = −<br />

∂F<br />

(x, g(x)) = 1<br />

1 + e . g(x) ∂y<br />

120


Da die rechte Seite differenzierbar ist, ist damit g sogar zweimal differenzierbar, und<br />

per Induktion erkennt man, daß g sogar beliebig oft differenzierbar ist.<br />

(iii) Formel (9.6) ergibt sich sofort mit der Kettenregel aus f(x) := F(x, g(x)) ≡ 0,<br />

falls man bereits weiß, daß g differenzierbar ist: Es ist dann nämlich<br />

0 = f ′ (x) = F ′ x (x, g(x)) + F ′ y (x, g(x)) ◦ g′ (x),<br />

woraus (9.6) durch Auflösen nach g ′ (x) folgt.<br />

Theorem 9.4 (Satz über implizite Funktionen) Es seien X, Y und Z Banachräume,<br />

U 1 ⊂ X und U 2 ⊂ Y offene Mengen, sowie F : U 1 × U 2 → Z eine<br />

stetig differenzierbare Abbildung. Sei (a, b) ∈ U 1 × U 2 mit F(a, b) = 0, und sei<br />

F y ′ (a, b) ∈ L(Y, Z) regulär.<br />

Dann gibt es offene Umgebungen V 1 ⊂ U 1 von a und V 2 ⊂ U 2 von b derart, daß es<br />

zu jedem x ∈ V 1 genau ein y ∈ V 2 gibt mit F(x, y) = 0. Bezeichnen wir dieses y mit<br />

g(x), so ist die dadurch definierte Funktion g : V 1 → V 2 stetig, und es gilt:<br />

F(x, g(x)) = 0 für alle x ∈ V 1 .<br />

Beweis. Der Beweis soll in zwei Schritten erfolgen.<br />

1. Schritt: Reduktion auf ein Fixpunktproblem<br />

Es sei o.B.d.A. (a, b) = (0, 0). Wir setzen B := F y ′ (0, 0) ∈ L(Y, Z), und definieren<br />

die Abbildung G : U 1 × U 2 → Y durch<br />

Offenbar gilt dann:<br />

G(x, y) := y − B −1 ◦ F(x, y) .<br />

(9.10)<br />

F(x, y) = 0 genau dann, wenn G(x, y) = y .<br />

Ferner ist nach der Kettenregel<br />

G ′ y (x, y) = I − B−1 ◦ F y ′ (x, y) ,<br />

also G ′ y (0, 0) = I − B−1 ◦ B = 0. Für G gilt also<br />

G ′ y(0, 0) = 0,<br />

G(0, 0) = 0.<br />

Da G ′ y stetig ist, können wir somit Nullumgebungen W 1 ⊂ U 1 und W 2 ⊂ U 2 so<br />

wählen, daß gilt:<br />

(9.11)<br />

‖G ′ y(x, y)‖ ≤ 1 2<br />

für alle (x, y) ⊂ W 1 × W 2 .<br />

121


Wir wählen R > 0 so, daß V 2 := B R (0) ⊂ W 2 ist.<br />

Da G stetig ist mit G(0, 0) = 0, gibt es ferner ein r > 0 so, daß V 1 := B r (0) ⊂ W 1<br />

ist und<br />

(9.12)<br />

sup<br />

x∈V 1<br />

‖G(x, 0)‖ ≤ R 4 .<br />

Aus (9.11) und (9.12) folgern wir mit Hilfe des Schrankensatzes, daß für alle x ∈ V 1<br />

und y 1 , y 2 , y ∈ V 2 gilt:<br />

(9.13)<br />

‖G(x, y 1 ) − G(x, y 2 )‖ ≤ 1 2 ‖y 1 − y 2 ‖<br />

und<br />

(9.14)<br />

‖G(x, y)‖ ≤ 3 4 R .<br />

In der Tat, setzen wir für y 1 , y 2 ∈ V 2 = B R (0) und x ∈ V 1<br />

ϕ(t) := G(x, (1 − t)y 1 + ty 2 ) ,<br />

so ist ϕ(t) in einer offenen Umgebung des Intervalls [0, 1] definiert (da<br />

‖(1 − t)y 1 + ty 2 ‖ ≤ (1 − t)‖y 1 ‖ + |t| ‖y 2 ‖ < |1 − t|R + |t|R = (|1 − t| + |t|)R) und es<br />

ist nach der Kettenregel<br />

ϕ ′ (t) = G ′ y(x, (1 − t)y 1 + ty 2 )(y 2 − y 1 ) ,<br />

also nach (9.11)<br />

‖ϕ ′ (t)‖ ≤ 1 2 ‖y 2 − y 1 ‖ für t ∈ [0, 1] .<br />

Da ϕ(0) = G(x, y 1 ), ϕ(1) = G(x, y 2 ), so folgt (9.13) mit Satz 7.12.<br />

Mit (9.12) und (9.13) folgert man für y ∈ V 2 und x ∈ V 1 :<br />

‖G(x, y)‖ ≤ ‖G(x, y) − G(x, 0)‖ + ‖G(x, 0)‖<br />

≤ 1 2 ‖y‖ + R 4 ≤ R 2 + R 4 = 3 4 R .<br />

Aus (9.13) folgt übrigens sofort, daß es zu gegebenem x ∈ V 1 höchstens ein y ∈ V 2<br />

geben kann mit F(x, y) = 0 :<br />

Sind nämlich y 1 , y 2 ∈ V 2 so, daß F(x, y 1 ) = F(x, y 2 ) = 0, so ist G(x, y 1 ) = y 1 und<br />

G(x, y 2 ) = y 2 , also nach (9.13) ‖y 1 − y 2 ‖ ≤ 1 2 ‖y 1 − y 2 ‖. Hieraus folgt y 1 = y 2 .<br />

2. Schritt: Konstruktion eines Fixpunktes<br />

Wir versuchen nun, eine stetige Funktion g auf V 1 zu konstruieren mit g(0) = 0 und<br />

F(x, g(x)) = 0, oder, dazu äquivalent,<br />

(9.15)<br />

g(0) = 0 und G(x, g(x)) = g(x) für alle x ∈ V 1 .<br />

122


Zusammen mit der obigen Beobachtung hätten wir dann Theorem 9.4 bewiesen.<br />

Wir wollen uns dazu einen geeigneten metrischen Raum F von stetigen Funktionen<br />

f : V 1 → V 2 mit f(0) = 0 verschaffen, welcher unter der Abbildung<br />

f ↦→ S(f),<br />

S(f)(x) := G(x, f(x)),<br />

invariant bleibt, d.h. S(f) ∈ F für alle f ∈ F. Die Bedingung G(x, g(x)) = g(x)<br />

bedeutet dann gerade, daß g ein Fixpunkt von S ist, d.h. daß<br />

S(g) = g<br />

ist.<br />

Es bezeichne C b (V 1 , Y ) den Raum aller stetigen, beschränkten Abbildungen f : V 1 →<br />

Y , versehen mit der Supremumsnorm<br />

‖f‖ ∞ := sup{‖f(x)‖ : x ∈ V 1 } .<br />

Lemma 9.5 (C b (V 1 , Y ), ‖ · ‖ ∞ ) ist vollständig.<br />

Beweis. Sei (f n ) n eine Cauchy-Folge in C b (V 1 , Y ). Für jedes x ∈ V 1 ist dann die Folge<br />

(f n (x)) n eine Cauchy-Folge in Y . Aufgrund der Vollständigkeit von Y konvergiert<br />

sie gegen einen Punkt f(x) ∈ Y . Wir zeigen, daß die dadurch definierte Funktion<br />

f : V 1 → Y in C b (V 1 , Y ) liegt und der Grenzwert der Folge (f n ) n ist.<br />

Sei ε > 0. Dann existiert ein n 0 ∈ N so, daß ‖f n − f m ‖ ∞ ≤ ε ist für n 0 ≤ n ≤ m.<br />

Für n ≥ n 0 ist damit für alle x ∈ V 1<br />

‖f n (x) − f(x)‖ = lim<br />

m→∞ ‖f n(x) − f m (x)‖ ≤ ε .<br />

Dies zeigt, daß f der gleichmäßige Limes der Folge (f n ) n ist. Damit ist f offenbar<br />

beschränkt, und nach Satz 3.26 auch stetig.<br />

Wir setzen nun<br />

F := {f ∈ C b (V 1 , Y ) : ‖f‖ ∞ ≤ 3 R und f(0) = 0} .<br />

4<br />

Q.E.D.<br />

Offenbar ist F eine abgeschlossene Teilmenge von C b (V 1 , Y ) und somit als metrischer<br />

Teilraum (welcher die Metrik<br />

d(f, g) := ‖f − g‖ ∞ = sup<br />

x∈V 1<br />

‖f(x) − g(x)‖<br />

trägt), vollständig. Ist f ∈ F, so ist aufgrund der Stetigkeit von G auch die Funktion<br />

S(f) : V 1 → Y stetig, und wegen G(0, 0) = 0 ist auch S(f)(0) = G(0, f(0)) = 0.<br />

Ferner ist nach (9.14) ‖S(f)‖ ∞ ≤ 3 R. Somit gilt in der Tat<br />

4<br />

(9.16)<br />

S(F) ⊂ F .<br />

123


Sind f 1 , f 2 ∈ F, so folgt zusätzlich aus (9.13): für alle x ∈ V 1 ist<br />

‖S(f 1 )(x) − S(f 2 )(x)‖<br />

= ‖G(x, f 1 (x)) − G(x, f 2 (x))‖<br />

≤ 1 2 ‖f 1(x) − f 2 (x)‖,<br />

und folglich<br />

(9.17)<br />

d(S(f 1 ), S(f 2 )) ≤ 1 2 d(f 1, f 2 ), für alle f 1 , f 2 ∈ F .<br />

Die Abbildung S ist somit kontrahierend.<br />

Folglich gibt es nach dem Banachschen Fixpunktsatz (genau) eine Funktion g ∈<br />

F ⊂ C b (V 1 , Y ) mit S(g) = g, d.h. welche (9.15) erfüllt.<br />

Q.E.D.<br />

Im Beweis des Satzes über implizite Funktion könnte man übrigens das Iterationsverfahren<br />

mit der Funktion f 0 := 0 starten. Als Ergänzung zu Theorem 9.4 erwähnen<br />

wir noch<br />

Lemma 9.6 Unter den Voraussetzungen von Theorem 9.4 gibt es ein ε > 0 so, daß<br />

F ′ y (x, y) regulär ist für alle (x, y) ∈ B ε(a) × B ε (b) ⊂ U 1 × U 2 .<br />

Ferner ist die Abbildung (x, y) ↦→ (F ′ y(x, y)) −1 ∈ L(Z, Y ) stetig auf B ε (a) × B ε (b).<br />

Beweis. Wir führen hier nur den Beweis im Falle endlich dimensionaler Räume<br />

X, Y und Z. Dann folgt die Aussage leicht aus der Stetigkeit der Funktion<br />

δ(x, y) := det(F y ′ (x, y)) .<br />

Da δ(a, b) ≠ 0 ist, gilt damit auch δ(x, y) ≠ 0 für alle (x, y) ∈ U 1 × U 2 , welche nahe<br />

genug bei (a, b) liegen.<br />

Der Beweis im allgemeinen Fall wird in Anhang B nachgeliefert.<br />

Q.E.D.<br />

Korollar 9.7 Unter den Voraussetzungen des Satzes über implizite Funktionen<br />

können die Umgebungen V 1 und V 2 in Theorem 9.4 so klein gewählt werden, daß<br />

die auflösende Funktion g : V 1 → V 2 sogar stetig differenzierbar ist.<br />

Beweis. Mittels Lemma 9.6 folgert man aus Satz 9.2 sofort, daß die Funktion g aus<br />

Theorem 9.4 in einer Umgebung des Punktes a differenzierbar ist. Formel (9.6) zeigt<br />

dann, daß g sogar stetig differenzierbar ist.<br />

Q.E.D.<br />

Aus dem Satz über implizite Funktionen erhält man nun leicht auch folgendes fundamentales<br />

Resultat:<br />

124


Theorem 9.8 (Satz über Umkehrfunktionen) Es seien X und Y Banachräume,<br />

a ein Punkt aus X und U eine offene Umgebung von a in X. Sei ferner<br />

f : U → Y eine stetig differenzierbare Funktion derart, daß f ′ (a) ∈ L(X, Y ) regulär<br />

ist.<br />

Dann gibt es eine offene Umgebung V 1 von a in U sowie eine offene Umgebung<br />

V 2 von b := f(a) in Y so, daß f die Menge V 1 bijektiv auf V 2 abbildet und die<br />

Umkehrabbildung<br />

g := (f| V1 ) −1 : V 2 → V 1<br />

stetig differenzierbar ist. Es gilt dann ferner<br />

g ′ (b) = (f ′ (a)) −1 .<br />

Beweis. Um g zu finden, müssen wir die Gleichung f(x) − y = 0 nach x auflösen.<br />

Wir definieren daher die Abbildung F : U × Y → Y durch<br />

F(x, y) := f(x) − y .<br />

Offenbar ist F stetig differenzierbar, und F(a, b) = 0. Ferner ist<br />

F ′ x (a, b) = f ′ (a) ∈ L(X, Y )<br />

regulär. Wir dürfen somit den Satz über implizite Funktionen auf F anwenden.<br />

Danach gibt es eine offene Umgebung V 2 von b in Y sowie eine offene Umgebung V 1<br />

′<br />

von a in U derart, daß es zu jedem y ∈ V 2 genau ein x ∈ V 1 ′ gibt mit F(x, y) = 0, und<br />

daß die dadurch definierte Funktion y ↦→ x = g(y) auf V 2 stetig ist. Nach Korollar<br />

9.7 darf man überdies annehmen, daß g : V 2 → V 1 ′ stetig differenzierbar ist.<br />

Für unsere Funktion f bedeutet dies insbesondere: Zu jedem y ∈ V 2 gibt es genau<br />

ein x ∈ V 1, ′ nämlich x = g(y), mit f(x) = y.<br />

Somit gilt<br />

V 1 := g(V 2 ) = {x ∈ V 1 ′ : f(x) ∈ V 2} = V 1 ′ ∩ f −1 (V 2 ),<br />

und f : V 1 → V 2 ist bijektiv mit Umkehrabbildung g : V 2 → V 1 . Da f stetig ist, ist<br />

zudem V 1 offen.<br />

Schließlich folgt aus g ◦ f(x) = x für x ∈ V 1 mit Hilfe der Kettenregel:<br />

d.h. insbesondere<br />

g ′ (f(x)) ◦ f ′ (x) = I ,<br />

g ′ (b) = (f ′ (a)) −1 .<br />

Q.E.D.<br />

Definition. Eine bijektive stetig differenzierbare Abbildung f : U → V einer offenen<br />

Teilmenge U ⊂ X auf eine offene Teilmenge V ⊂ Y heiße ein C 1 - Diffeomorphismus,<br />

wenn die Umkehrabbildung f −1 : V → U ebenfalls stetig differenzierbar ist.<br />

In Theorem 9.8 ist damit die eingeschränkte Abbildung f| V1 : V 1 → V 2 ein C 1 -<br />

Diffeomorphismus.<br />

125


Anhang A: Totale Ableitungen<br />

höherer Ordnung<br />

Es seien wieder E und F zwei normierte Vektorräume über R, sowie U ⊂ E eine<br />

offene Teilmenge von E und f : U → F eine Abbildung.<br />

Ist f differenzierbar, so ist Df : U → L(E, F) eine Abbildung mit Werten im<br />

normierten Vektorraum L(E, F). Ist diese im Punkte x 0 ∈ U differenzierbar, so<br />

heiße f zweimal im Punkte x 0 differenzierbar, und die Ableitung D(Df)(x 0 )<br />

wird mit D 2 f(x 0 ) oder f ′′ (x 0 ) bezeichnet. Dies ist ein Element von L(E, L(E, F)).<br />

Definition. Sei L 0 (E, F) = F und L n (E, F) := L(E, L n−1 (E, F)) für n ≥ 1. Eine<br />

Abbildung f : U → F heiße n-mal (total) differenzierbar auf U (n ≥ 1), wenn<br />

es für k = 0, 1, . . ., n − 1 differenzierbare Funktionen f (k) : U → L k (E, F) gibt, so<br />

daß gilt:<br />

f (k+1) = D(f (k) ), k = 0, . . .,n − 2, und f (0) = f.<br />

Die Abbildung f (n) := D(f (n−1) ) : E → L n (E, F) heißt die n-te Ableitung von f,<br />

und wird auch mit D n f bezeichnet.<br />

Die Abbildung f heiße im Punkte x 0 ∈ U n-mal differenzierbar, wenn es<br />

eine Umgebung V von x 0 in U gibt, auf der sie (n − 1)-mal differenzierbar, ist und<br />

zusätzlich die (n − 1)− te Ableitung f (n−1) in x 0 differenzierbar ist.<br />

Die Abbildung f heiße n-mal stetig differenzierbar, wenn die n-te Ableitung<br />

f (n) stetig auf U ist. Die Menge aller n-mal stetig differenzierbaren Abbildungen von<br />

U in F wird mit C n (U, F) bezeichnet. Offenbar bildet C n (U, F) einen Vektorraum<br />

über R.<br />

Definition. Eine bilineare Abbildung B : E × E → F heiße beschränkt, wenn es<br />

eine Konstante C > 0 gibt so, daß gilt:<br />

(1)<br />

‖B(x, y)‖ ≤ C‖x‖ ‖y‖ für alle x, y ∈ E .<br />

Die Norm ‖B‖ von B wird definiert durch<br />

‖B‖ :=<br />

sup ‖B(x, y)‖ .<br />

‖x‖≤1,‖y‖≤1<br />

Ganz ähnlich wie für beschränkte lineare Abbildungen von E nach F zeigt man, daß<br />

eine bilineare Abbildung B stetig ist genau dann, wenn sie beschränkt ist, und daß<br />

‖B‖ die kleinste Konstante C ist, für die (1) gilt.<br />

126


Mit M 2 (E, F) bezeichnen wir die Menge aller beschränkten bilinearen Abbildungen<br />

von E × E in F. Offenbar bildet M 2 (E, F) einen R-Vektorraum.<br />

Ist Φ ∈ L 2 (E, F) = L(E, L(E, F)), so setzen wir<br />

˜Φ(x, y) := Φ(x)(y) ∈ F, x, y ∈ E .<br />

Offenbar ist dann ˜Φ linear in x und in y, d.h. bilinear. Ferner gilt<br />

‖˜Φ(x, y)‖ ≤ ‖Φ(x)‖ op ‖y‖ ≤ ‖Φ‖ op ‖x‖ ‖y‖,<br />

d.h. ˜Φ ist beschränkt. Somit ist ˜Φ ∈ M 2 (E, F), und es gilt: ‖˜Φ‖ ≤ ‖Φ‖ op . Umgekehrt<br />

gilt für x, y ∈ E<br />

‖Φ(x)(y)‖ = ‖˜Φ(x, y)‖ ≤ ‖˜Φ‖ ‖x‖ ‖y‖,<br />

woraus folgt: ‖Φ‖ op ≤ ‖Φ‖.<br />

Offenbar ist die Abbildung ι : Φ ↦→ ˜Φ auch linear, so daß<br />

ι : L 2 (E, F) → M 2 (E, F)<br />

eine lineare Isometrie ist. ι ist auch surjektiv, denn ist B ∈ M 2 (E, F), und setzen<br />

wir<br />

Φ(x)(y) := B(x, y), x, y ∈ E ,<br />

so wird hierdurch ein Element Φ ∈ L(E, (E; F)) definiert mit ˜Φ = B.<br />

Wir erkennen also insgesamt, daß sich der normierte Raum L 2 (E, F) mittels ι<br />

mit dem Raum M 2 (E, F) identifizieren läßt, was wir im folgenden stets tun wollen.<br />

Insbesondere werden wir die zweite Ableitung f ′′ (x 0 ) von f in x 0 als eine beschränkte<br />

bilineare Abbildung von E × E in F betrachten, d.h. wir schreiben für<br />

(f ′′ (x 0 )(ξ))(η), ξ, η ∈ E, auch kurz f ′′ (x 0 )(ξ, η).<br />

Allgemeiner werden wir L n (E, F) mit dem Raum M n (E, F) aller beschränkten<br />

n-linearen Abbildungen von E n = E × · · · × E nach F identifizieren vermöge der<br />

Definition<br />

˜Φ(x 1 , x 2 , . . ., x n ) = (· · ·((Φ(x 1 ))(x 2 )) . . .(x n )) ,<br />

d.h. wir werden die n-te Ableitung f (n) (x 0 ) von f in x 0 als eine beschränkte,<br />

n-lineare Abbildung von E n nach F betrachten (dabei heiße die n-lineare<br />

Abbildung B : E n → F beschränkt, wenn es eine Konstante C ≥ 0 gibt mit<br />

für alle x 1 , . . .,x n ∈ E).<br />

‖B(x 1 , . . .,x n )‖ ≤ C ‖x 1 ‖ · · · ‖x n ‖<br />

Definition. B ∈ L 2 (E, F) ( ∼ = M 2 (E, F)) heiße symmetrisch, wenn gilt:<br />

B(x, y) = B(y, x) für alle x, y ∈ E .<br />

127


Satz 1 Sei F vollständig. Ist f : U → F zweimal stetig differenzierbar, und ist<br />

x 0 ∈ U, so ist f ′′ (x 0 ) eine symmetrische bilineare Abbildung.<br />

Beweis. Wie im Beweis des Mittelwertsatzes wollen wir den Hauptsatz der<br />

Differential- und Integralrechnung (für F-wertige Funktionen) verwenden.<br />

Sei o.B.d.A. x 0 = 0, und sei r > 0 so, daß B 2r (0) ⊂ U. Wir fixieren ξ, η ∈ B r (0).<br />

Dann ist ξ + tη ∈ U für alle t in einer Umgebung des Intervalls [0, 1] in R, und für<br />

die Abbildung g(t) = f(ξ + tη) gilt nach der Kettenregel:<br />

Nach dem Hauptsatz gilt folglich:<br />

Ebenso ist<br />

also<br />

g ′ (t) = f ′ (ξ + tη)(η), t ∈ [0, 1] .<br />

f(ξ + η) − f(ξ) = g(1) − g(0) =<br />

f(η) − f(0) =<br />

f(ξ + η) − f(ξ) − f(η) + f(0) =<br />

∫ 1<br />

0<br />

∫ 1<br />

0<br />

∫ 1<br />

0<br />

f ′ (tη)(η)dt,<br />

f ′ (ξ + tη)(η)dt .<br />

(f ′ (ξ + tη) − f ′ (tη))(η)dt .<br />

Für jedes z = tη betrachten wir nun die Abbildung h : s ↦→ f ′ (sξ + z)(η) von [0, 1]<br />

in F. h ist dann stetig differenzierbar, und aus der Kettenregel ergibt sich:<br />

Aus dem Hauptsatz folgt also<br />

d.h.<br />

h ′ (s) = (f ′′ (sξ + z)(ξ))(η) = f ′′ (sξ + tη)(ξ, η) .<br />

f ′ (ξ + tη) − f ′ (tη) = h(1) − h(0) =<br />

∫ 1<br />

0<br />

f ′′ (sξ + tη)(ξ, η)ds ,<br />

(2)<br />

f(ξ + η) −<br />

=<br />

f(ξ) − f(η) + f(0)<br />

∫ 1<br />

(∫ 1<br />

)<br />

f ′′ (sξ + tη)(ξ, η)ds dt .<br />

0 0<br />

Berücksichtigen wir, daß die linke Seite in ξ und η symmetrisch ist, so erhalten<br />

wir<br />

∫ 1<br />

(∫ 1<br />

) ∫ 1<br />

(∫ 1<br />

)<br />

f ′′ (sξ + tη)(ξ, η)ds dt = f ′′ (sξ + tη)(η, ξ)dt ds .<br />

0<br />

0<br />

128<br />

0<br />

0


Dieselbe Formel bleibt auch für εξ und εη gültig, falls 0 < ε ≤ 1 ist, und mit der<br />

Bilinearität von f ′′ (sεξ + tεη) folgt:<br />

∫ 1<br />

0<br />

(∫ 1<br />

0<br />

)<br />

f ′′ (ε(sξ + tη))(ξ, η)ds dt =<br />

∫ 1<br />

0<br />

(∫ 1<br />

0<br />

)<br />

f ′′ (ε(sξ + tη))(η, ξ)dt ds<br />

für 0 < ε ≤ 1.<br />

Da f ′′ stetig ist, existiert eine Folge (ε n ) n≥1 in ]0, 1[ mit ‖f ′′ (x) − f ′′ (0)‖ ≤ 1 n für<br />

alle x mit ‖x‖ < ε n 2r. Es folgt insbesondere:<br />

‖f ′′ (ε n (sξ + tη))(ξ, η) − f ′′ (0)(ξ, η)‖ ≤ 1 ‖ξ‖ ‖η‖,<br />

n<br />

gleichmäßig in s, t ∈ [0, 1]. Infolgedessen ist<br />

∫ 1<br />

(∫ 1<br />

)<br />

f ′′ (0)(ξ, η) = f ′′ (0)(ξ, η)ds dt<br />

0 0<br />

∫ 1<br />

(∫ 1<br />

)<br />

= lim f ′′ (ε n (sξ + tη) (ξ, η)ds)dt<br />

n→∞<br />

0 0<br />

∫ 1<br />

(∫ 1<br />

)<br />

= lim f ′′ (ε n (sξ + tη) (η, ξ)dt)ds<br />

n→∞<br />

0 0<br />

∫ 1<br />

(∫ 1<br />

)<br />

= f ′′ (0)(η, ξ)dt ds<br />

0<br />

0<br />

= f ′′ (0)(η, ξ) .<br />

Mit Hilfe der Bilinearität von f ′′ (0) folgt hieraus:<br />

f ′′ (0)(ξ, η) = f ′′ (0)(η, ξ) für alle ξ, η ∈ E .<br />

Q.E.D.<br />

Bemerkung. Die Vollständigkeit von F wurde von uns aus technischen Gründen<br />

vorausgesetzt, ist jedoch nicht notwendig für die Gültigkeit des Satzes.<br />

Den Begriff der Richtungsableitung verallgemeinernd definieren wir nun für f ∈<br />

C 1 (U, F) und beliebiges ξ ∈ E die Funktion D ξ f : U → F durch<br />

Nach der Kettenregel ist<br />

D ξ f(x) := f ′ (x)ξ, x ∈ U .<br />

D ξ f(x) = d dt (f(x + tξ)) | t=0= lim (f(x + tξ) − f(x)) .<br />

t<br />

t→0<br />

1<br />

129


Satz 2 (i) Für n > 1 ist D ξ eine lineare Abbildung von C n (U, F) nach C n−1 (U, F).<br />

(ii) Ist f ∈ C n (U, F), und sind ξ 1 , . . .,ξ n ∈ E, so ist für alle x ∈ U<br />

(iii) Für ξ, η ∈ E und f ∈ C 2 (U, F) ist<br />

f (n) (x)(ξ 1 , . . .,ξ n ) = (D ξ1 D ξ2 · · ·D ξn f)(x) .<br />

D ξ D η f = D η D ξ f .<br />

Beweis. (i) Ist f ∈ C n (U, F), so ist f ′ ∈ C n−1 (U, L(E, F)). Ferner ist für festes<br />

ξ ∈ E die Abbildung σ : L(E, F) → F, A ↦→ Aξ, stetig, und als lineare Abbildung<br />

somit sogar unendlich oft differenzierbar. Folglich ist D ξ f = σ ◦ f ′ ∈ C n−1 (U, F).<br />

(ii) Für n = 1 stimmt die Behauptung mit der Definition von D ξ überein. Wir<br />

nehmen an, daß sie für (n − 1)-te Ableitungen gilt. Dann ist insbesondere<br />

(D ξ2 . . .D ξn f)(x) = f (n−1) (ξ 2 , . . ., ξ n ) .<br />

Es ist f (n−1) ∈ C 1 (U, L n−1 (E, F)). Für feste ξ 2 , . . .,ξ n ist durch<br />

̺ : L n−1 (E, F) → F, B ↦→ B(ξ 2 , . . .,ξ n ) ,<br />

eine stetige lineare Abbildung definiert, welche folglich beliebig oft differenzierbar<br />

ist. Nach der Kettenregel ist somit (D ξ2 . . .D ξn )f = ̺ ◦ f (n−1) stetig differenzierbar<br />

und<br />

(D ξ1 . . .D ξn )f(x) = ̺′(f (n−1) (x)) ◦ f (n) (x)(ξ 1 ) = ̺(f (n) (x)(ξ 1 ))<br />

= f (n) (x)(ξ 1 , ξ 2 , . . ., ξ n ) ,<br />

da ̺′(B) = ̺ ist gemäß Bemerkung 7.4 b).<br />

(iii) folgt aus Satz 1 und (ii).<br />

Q.E.D.<br />

Bemerkungen. a) Aus Satz 2 folgt insbesondere, daß f (n) (x) für f ∈ C n (U, F) und<br />

alle x ∈ U eine symmetrische n-lineare Abbildung ist.<br />

b) Ein Vergleich von Formel (7.22) mit Satz 2 zeigt, daß für E = R n der Ausdruck<br />

f (k) (x)ξ k in (7.22) nichts anderes ist als<br />

(3) f (k) (x)ξ k = f (k) (x)(ξ, . . .,ξ) = (D ξ D ξ . . . D ξ f)(x), ξ ∈ R n ,<br />

wobei auf der rechten Seite f (k) (x) die k-te totale Ableitung von f bezeichne und<br />

k− Faktoren ξ vertreten seien.<br />

Insbesondere läßt sich hier das Taylorpolynom der Ordnung p von f in a ∈ E<br />

auch schreiben als<br />

(4) T p,a f(x) :=<br />

p∑<br />

k=0<br />

1<br />

k! f(k) (a)(x − a, . . .,x − a).<br />

Dieser Ausdruck läßt sich allgemeiner auch für Abbildungen f ∈ C p (U, F) definieren,<br />

wobei U eine offene Teilmenge eines beliebigen normierten Raumes E und<br />

F ein beliebiger Banachraum seien, und mit ganz ähnlichem Beweis läßt sich die<br />

Taylorformel in Theorem 7.18 dann auch für f ∈ C p (U, F) zeigen.<br />

130


Anhang B: Die Gruppe der<br />

invertierbaren Elemente einer<br />

Banach-Algebra<br />

Es bezeichne (A, +, · , ‖·‖) eine Banach-Algebra über K, K = R oder K = C, welche<br />

ein Einselement e besitze.<br />

Definition. Ein Element a ∈ A heiße regulär oder invertierbar, wenn es ein<br />

Element b ∈ A gibt mit ab = ba = e.<br />

Dieses Inverse b ist eindeutig und wird mit a −1 bezeichnet. Man sieht leicht,<br />

daß die Menge A × aller invertierbaren Elemente von A eine multiplikative Gruppe<br />

bildet.<br />

Lemma 1 Sei a ∈ A mit ‖e − a‖ < 1. Dann ist a invertierbar, und es gilt:<br />

a −1 =<br />

∞∑<br />

(e − a) k , mit ‖a −1 ‖ ≤<br />

k=0<br />

1<br />

1 − ‖e − a‖ .<br />

Beweis. Wir setzen x := e − a, so daß gilt: a = e − x. Um a −1 zu definieren,<br />

∑<br />

betrachten wir die geometrische Reihe ∞ x k . Diese konvergiert für ‖x‖ < 1 normal<br />

(vergl. Kapitel 2) , d.h. es gilt<br />

k=0<br />

∞∑<br />

‖x k ‖ < ∞ ,<br />

∑<br />

denn es ist ‖x k ‖ ≤ ‖x‖ k , und die Reihe ∞ ‖x‖ k ist konvergent.<br />

k=0<br />

k=0<br />

Nach Satz 2.2 ist die Reihe somit insbesondere konvergent in A. Sei b ∈ A ihr<br />

∑<br />

Wert, d.h. b = ∞ x k ∈ A. Aus der Norm-Ungleichung ‖y · z‖ ≤ ‖y‖ ‖z‖, y, z ∈ A,<br />

k=0<br />

leitet man ab, daß die Links- sowie die Rechtsmultiplikation y ↦→ by bzw. y ↦→ yb<br />

131


mit b stetige Abbildungen sind. Daher ist<br />

ba =<br />

=<br />

∞∑<br />

∞∑<br />

(x k a) = x k (e − x)<br />

k=0<br />

∞∑<br />

x k −<br />

k=0 k=0<br />

k=0<br />

∞∑<br />

x k+1 = e ,<br />

und ähnlich zeigt man: ab = e.<br />

Somit ist b = a −1 . Schließlich ist<br />

∞∑<br />

‖b‖ ≤<br />

k=0<br />

‖x‖ k =<br />

1<br />

1 − ‖x‖ = 1<br />

1 − ‖e − a‖ . Q.E.D.<br />

Korollar 2 Die Gruppe A × der invertierbaren Elemente von A ist offen in A.<br />

Beweis. Sei y ∈ A × , und sei r := 1<br />

‖y −1 ‖ . Dann ist r > 0, und wir zeigen: B r(y) ⊂ A × .<br />

Sei dazu a ∈ A mit ‖a − y‖ < r. Dann ist<br />

‖e − y −1 a‖ = ‖y −1 (y − a)‖ ≤ ‖y −1 ‖ ‖y − a‖ < 1 r r = 1 ,<br />

so daß nach Lemma 1 y −1 a ∈ A × ist. Da auch y ∈ A × ist, folgt: a = y(y −1 a) ∈ A × .<br />

Beweis von Lemma 9.6.<br />

Q.E.D.<br />

Seien also X, Y und Z Banachräume, U 1 ⊂ X und U 2 ⊂ Y offen, F : U 1 × U 2 → Z<br />

stetig differenzierbar und F y ′(a, b) regulär, mit (a, b) ∈ U 1 × U 2 . Wir setzen A :=<br />

F y ′ (a, b) ∈ L(Y, Z), und behaupten:<br />

Ist B ∈ L(Y, Z), und ist ‖A − B‖ < 1 , so ist auch B regulär.<br />

‖A −1 ‖<br />

Dies wird ähnlich wie Korollar 2 gezeigt. Nach Kapitel 4 ist nämlich L(Y, Y ) eine<br />

Banach-Algebra, mit Einselement I. Ferner ist nach Voraussetzung<br />

(1) ‖I − A −1 ◦ B‖ = ‖A −1 ◦ (A − B)‖ ≤ ‖A −1 ‖ ‖A − B‖ < 1 ,<br />

und damit A −1 ◦ B ∈ L(Y, Y ) invertierbar. Ist T das Inverse zu A −1 ◦ B, so ist also<br />

T ◦ A −1 ∈ L(Z, Y ) ein Inverses zu B, wobei nach Lemma 1<br />

‖B −1 ‖<br />

= ‖T ◦ A −1 ‖ ≤ ‖T ‖ ‖A −1 ‖<br />

1<br />

≤<br />

1 − ‖I − A −1 ◦ B‖ ‖A−1 ‖ .<br />

132


Setzen wir ̺ := 1<br />

2‖A −1 ‖ , so erhalten wir mit (1) für B ∈ B̺(A) ⊂ L(Y, Z):<br />

also<br />

B ist regulär, und<br />

‖B −1 ‖ ≤<br />

1<br />

1 − ‖I − A −1 ◦ B‖ ‖A−1 ‖ ≤ 1<br />

1 − 1 ‖A −1 ‖,<br />

2<br />

(2)<br />

‖B −1 − A −1 ‖<br />

= ‖B −1 ◦ (A − B) ◦ A −1 ‖<br />

≤<br />

‖B −1 ‖ ‖A −1 ‖ ‖A − B‖<br />

≤ 2‖A −1 ‖ ‖A −1 ‖ ‖A − B‖<br />

= 1 ‖A − B‖ .<br />

2̺2<br />

Da F ′ y stetig ist, ist (F ′ y) −1 (B̺(A)) offen in U 1 ×U 2 . Somit existiert ein ε > 0 derart,<br />

daß<br />

F ′ y (B ε(a) × B ε (b)) ⊂ B̺(A)<br />

ist.<br />

Damit ist F ′ y (x, y) regulär für (x, y) ∈ B ε(a) × B ε (b), und nach (2) gilt:<br />

‖(F y ′ (x, y))−1 − (F y ′ (a, b)−1 ‖ ≤ 1 ‖F y ′ (x, y) − F y ′ (a, b)‖ ,<br />

2̺2<br />

so daß (F ′ y) −1 stetig in (a, b) ist. Ersetzt man schließlich (a, b) durch einen beliebigen<br />

Punkt (x ′ , y ′ ) ∈ B ε (a) × B ε (b), so folgt mit dem soeben Bewiesenen, daß F auch<br />

stetig in (x ′ , y ′ ) ist.<br />

Q.E.D.<br />

133

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!