Vorlesungsskript (pdf): Analysis II
Vorlesungsskript (pdf): Analysis II
Vorlesungsskript (pdf): Analysis II
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Analysis</strong> <strong>II</strong><br />
Prof. Dr. D. Müller<br />
SoSe 2010
Inhaltsverzeichnis<br />
1 Integration 5<br />
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />
1.2 Das Riemannsche Integral einer Treppenfunktion . . . . . . . . . . . 6<br />
1.3 Erweiterung des Integrals . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
1.4 Integration und Differentiation . . . . . . . . . . . . . . . . . . . . . . 21<br />
1.5 Integration rationaler Funktionen . . . . . . . . . . . . . . . . . . . . 28<br />
1.5.1 Partialbruchzerlegung . . . . . . . . . . . . . . . . . . . . . . 28<br />
1.5.2 Stammfunktionen rationaler Funktionen . . . . . . . . . . . . 31<br />
1.5.3 Integration von R(cos x, sin x). . . . . . . . . . . . . . . . . . . 32<br />
1.6 Taylor-Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
1.7 Das uneigentliche Riemannsche Integral . . . . . . . . . . . . . . . . . 38<br />
1.8 Rektifizierbare Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
2 Normierte Vektorräume 42<br />
2.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />
2.2 p-Normen auf K n und die Banachräume l p . . . . . . . . . . . . . . . 43<br />
2.2.1 Die p-Norm auf dem K n . . . . . . . . . . . . . . . . . . . . . 44<br />
2.2.2 Die Räume l p (A) . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />
3 Metrische Räume 50<br />
3.1 Definitionen und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
3.2 Die Topologie eines metrischen Raumes . . . . . . . . . . . . . . . . . 53<br />
3.3 Konvergenz in metrischen Räumen . . . . . . . . . . . . . . . . . . . 58<br />
3.4 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />
3.5 Konvergenz von Funktionenfolgen . . . . . . . . . . . . . . . . . . . . 66<br />
3.6 Die Vervollständigung eines metrischen Raumes* . . . . . . . . . . . 66<br />
4 Stetige lineare Abbildungen zwischen normierten Vektorräumen 70<br />
5 Kompaktheit 75<br />
5.1 Kompakte metrische Räume . . . . . . . . . . . . . . . . . . . . . . . 75<br />
5.2 Äquivalenz der Normen auf dem R n . . . . . . . . . . . . . . . . . . . 81<br />
6 Zusammenhang 82<br />
2
7 Differentialrechnung in mehreren Veränderlichen 84<br />
7.1 Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />
7.2 Totale Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />
7.3 Der Fall E = R n , F = R m . . . . . . . . . . . . . . . . . . . . . . . . 93<br />
7.4 Rechenregeln für die Ableitung . . . . . . . . . . . . . . . . . . . . . 97<br />
7.5 Der verallgemeinerte Mittelwertsatz . . . . . . . . . . . . . . . . . . . 101<br />
7.6 Ableitungen höherer Ordnung und Taylorapproximation . . . . . . . 103<br />
7.7 Die Hesse-Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109<br />
7.7.1 Schmiegequadriken . . . . . . . . . . . . . . . . . . . . . . . . 110<br />
7.8 Lokale Extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />
8 Der Banachsche Fixpunktsatz 114<br />
9 Der Satz über implizite Funktionen 116<br />
9.1 Einleitende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />
9.2 Satz über implizite Funktion und Satz über Umkehrfunktionen . . . . 118<br />
Anhang A: Totale Ableitungen höherer Ordnung 126<br />
Anhang B: Die Gruppe der invertierbaren Elemente einer Banach-<br />
Algebra 131<br />
3
Literatur<br />
[F] O. Forster, <strong>Analysis</strong> 2. Vieweg Studium<br />
[B] C. Blatter, <strong>Analysis</strong> <strong>II</strong>, Heidelberger Taschenbuch 151<br />
[AE] A. Amann, J. Escher, <strong>Analysis</strong> <strong>II</strong>, Birkhäuser 1998<br />
[K] K. Königsberger, <strong>Analysis</strong> 2, Springer-Lehrbuch 1992<br />
[C] R. Courant, Vorlesungen über Differential- und Integralrechnung<br />
Bd. 1, Springer 1971<br />
[Br] Th. Bröcker, <strong>Analysis</strong> <strong>II</strong>, BI Wissenschaftsverlag 1992<br />
[R] W. Rudin, <strong>Analysis</strong>, Eddison-Wesley 1968<br />
[L] S. Lang, Real and Functional <strong>Analysis</strong>, Springer Graduate Texts in<br />
Math., 1993<br />
[D] J. Dieudonné, Foundations of modern analysis, Academic Press<br />
1960<br />
[HS] E. Hewitt, K. Stromberg, Real and Abstract <strong>Analysis</strong>, Springer<br />
1969<br />
4
Kapitel 1<br />
Integration<br />
1.1 Motivation<br />
Eines der Probleme, welches zur Einführung des Begriffes des Integrals geführt hat,<br />
ist die Berechnung des Flächeninhalts eines krummlinig berandeten Flächenstückes<br />
der Ebene. Durch Zerlegung in endliche viele Teilstücke läßt sich dieses i.a. auf<br />
folgendes Problem zurückführen:<br />
Es sei I = [a, b] ein kompaktes Intervall und f : I → R + 0 eine geeignete“, z.B.<br />
”<br />
stetige Funktion. Wie läßt sich der Flächeninhalt der Fläche<br />
A := {(x, y) ∈ R 2 : a ≤ x ≤ b, 0 ≤ y ≤ f(x)}<br />
zwischen dem Graphen von f und der x-Achse bestimmen?<br />
In der obigen Form ist die Frage genau genommen noch nicht einmal richtig formuliert.<br />
Sie suggeriert nämlich, daß ein solcher ”<br />
Flächeninhalt“ existieren muß – dies<br />
entspricht zwar unserer Intuition, verschleiert aber die Tatsache, daß die ”<br />
Berechnung“<br />
des Flächeninhalts zunächst einmal eine sinnvolle Definition voraussetzt. Die<br />
obige Frage sollte also genauer die nach der Definition des Flächeninhalts einschließen.<br />
Folgender Weg zur Lösung dieses Problems liegt nahe: Man ”<br />
approximiere“ die<br />
Fläche A durch Flächen A n , welche sich aus endlich vielen achsenparallelen Rechtecken,<br />
deren untere Kanten auf der x-Achse liegen, zusammensetzen, berechne auf<br />
die offenkundige Art und Weise den Flächeninhalt |A n | von A n , und bestimme den<br />
Grenzwert der Folge der |A n | für n → ∞, wobei für n → ∞ die ”<br />
Güte der Approximation“<br />
immer besser werden sollte. Den Grenzwert |A| = lim n→∞ |A n |, vorausgesetzt<br />
er existiert, wird man dann als den Flächeninhalt von A bezeichnen.<br />
5
λ 1<br />
A n<br />
λ 0<br />
a = a 0 a 1 a 2 a 3 a 4 a 5 a 6 b = a 7<br />
Natürlich muß hier noch zusätzlich festgelegt werden, was wir unter einer Approximation<br />
von A durch A n sowie ihrer Güte verstehen wollen.<br />
Die Berechnung der Flächeninhalte der A n ist dagegen unstrittig. Ordnen wir<br />
nämlich die Rechtecke, aus denen A n sich zusammensetzt, von links nach rechts,<br />
so bilden ihre unteren Kanten eine Zerlegung des Intervalls [a, b] in Intervalle<br />
[a 0 , a 1 ], [a 1 , a 2 ], . . .,[a m−1 , a m ],<br />
mit a 0 = a, a m = b (welche strenggenommen noch von n abhängt). Besitzt das<br />
Rechteck mit Basis [a j , a j+1 ] die Höhe λ j , so wird man den Flächeninhalt von A n<br />
als<br />
(1.1) |A n | :=<br />
m−1<br />
∑<br />
j=0<br />
λ j (a j+1 − a j )<br />
definieren. Definiert man die Funktion f n : I → R durch<br />
⎧<br />
λ j , falls x ∈]a j , a j+1 [,<br />
⎪⎨<br />
max{λ j−1 , λ j } falls x = a j , 1 ≤ j ≤ m − 1,<br />
f n (x) :=<br />
λ 0 falls x = a,<br />
⎪⎩<br />
λ m−1 falls x = b,<br />
so ist übrigens<br />
A n = {(x, y) ∈ R 2 : a ≤ x ≤ b, 0 ≤ y ≤ f n (x)}.<br />
Man bezeichnet |A n | daher auch als das ”<br />
Integral der Treppenfunktion“ f n .<br />
1.2 Das Riemannsche Integral einer Treppenfunktion<br />
Es sei daran erinnert, daß für eine gegebene Teilmenge A ⊂ R mit 1 A ∈ R R die<br />
charakteristische Funktion<br />
{<br />
1, falls x ∈ A,<br />
1 A (x) :=<br />
0, falls x ∈ R \ A,<br />
6
ezeichnet wird.<br />
Definitionen. Eine Funktion f ∈ C R heiße Treppenfunktion, wenn es endlich<br />
viele, beschränkte Intervalle I 1 , . . .,I n gibt sowie komplexe Zahlen λ 1 , . . ., λ n ∈ C,<br />
so daß<br />
n∑<br />
f = λ k 1 Ik<br />
k=1<br />
ist. Es bezeichne T die Menge aller Treppenfunktionen auf R. Offenbar bildet die<br />
Menge C R aller komplexwertigen Funktionen auf R einen Vektorraum über dem<br />
Körper der komplexen Zahlen, und T ⊂ C R einen linearen Teilraum, und zwar gerade<br />
denjenigen, welcher von der Menge aller charakteristischen Funktionen endlicher<br />
Intervalle aufgespannt wird.<br />
T bildet wie auch C R sogar eine kommutative Algebra, da mit f und g auch<br />
die Funktionen f + g, λf für alle λ ∈ C sowie fg zu T gehören, und neben den<br />
Vektorraumaxiomen auch noch folgende Rechenregeln gelten für alle f, g, h ∈ T und<br />
λ ∈ C :<br />
(i) (λf)g = f(λg) = λ(fg);<br />
(ii) f(g + h) = fg + fh;<br />
(iii) fg = gf.<br />
Ferner liegt mit f auch die durch<br />
|f|(x) := |f(x)|, x ∈ R,<br />
definierte Funktion |f| in T . Da auch jede einpunktige Menge ein Intervall ist, enthält<br />
T auch die Menge<br />
N := {f : R → C : f(x) ≠ 0 für höchstens endlich viele x ∈ R}.<br />
N ist ein Ideal in T , d.h. N ist eine Unteralgebra von T mit der zusätzlichen<br />
Eigenschaft, daß aus f ∈ T und g ∈ N stets fg ∈ N folgt (N ist sogar ein Ideal in<br />
C R ). Wir schreiben<br />
f ≡ g, falls f − g ∈ N,<br />
und nennen f und g kongruent (modulo N), falls f ≡ g. Offensichtlich ist durch<br />
≡“ eine Äquivalenzrelation auf T definiert.<br />
”<br />
Lemma 1.1 Zu jedem f ∈ T existieren endlich viele Punkte x 0 < x 1 < · · · < x m<br />
in R sowie Zahlen µ 0 , . . .,µ m−1 , so daß<br />
m−1<br />
∑<br />
f ≡ µ j 1 ]xj ,x j+1 [ .<br />
j=0<br />
7
Beweis. Es sei f = ∑ n<br />
k=1 λ k1 Ik , und es bezeichne a k ≤ b k die Endpunkte des Intervalls<br />
I k , d.h. ]a k , b k [⊂ I k ⊂ [a k , b k ]. Wir ordnen die Menge E aller dieser Endpunkte<br />
a k und b k der Größe nach: E = {x 0 , . . .,x m }, wobei x j < x j+1 sei, falls m ≥ 1 und<br />
0 ≤ j ≤ m − 1.<br />
Ist nun etwa a k = x pk , b k = x qk mit p k ≤ q k , so ist offenbar<br />
1 Ik ≡<br />
q k −1<br />
∑<br />
j=p k<br />
1 ]xj ,x j+1 [ .<br />
Berücksichtigen wir, daß aus g i ≡ h i für i = 1, . . ., n stets ∑ n<br />
i=1 α ig i ≡ ∑ n<br />
i=1 α ih i<br />
folgt (wieso?), so ergibt sich aus der letzten Kongruenz und Vertauschung der Reihenfolge<br />
der Summation in k und j:<br />
mit<br />
f ≡<br />
=<br />
n∑<br />
k=1<br />
m−1<br />
∑<br />
j=0<br />
µ j :=<br />
( qk−1<br />
∑<br />
λ k<br />
j=p k<br />
1 ]xj ,x j+1 [<br />
µ j 1 ]xj ,x j+1 [ ,<br />
∑<br />
{k: p k ≤j≤q k −1}<br />
Lemma 1.2 Es sei f = ∑ n<br />
k=1 λ k1 Ik ∈ T . Ist f ≡ 0, so ist<br />
n∑<br />
λ k (b k − a k ) = 0,<br />
k=1<br />
λ k .<br />
wobei a k ≤ b k die Endpunkte des Intervalls I k seien.<br />
)<br />
Q.E.D.<br />
Beweis. Wir wählen x 0 < x 1 < · · · < x m gemäß dem Beweis des vorherigen Lemmas,<br />
so daß<br />
f ≡<br />
m−1<br />
∑<br />
j=0<br />
µ j 1 ]xj ,x j+1 [<br />
ist, mit µ j := ∑ {k:p k ≤j≤q k −1} λ k.<br />
Da f ≡ 0 ist, ist µ j = 0 für j = 0, . . .,m − 1, d.h.<br />
∑<br />
λ k = 0, j = 0, . . .,m − 1.<br />
{k: p k ≤j≤q k −1}<br />
Ferner ist<br />
b k − a k =<br />
q k −1<br />
∑<br />
j=p k<br />
(x j+1 − x j ).<br />
8
Somit folgt<br />
n∑<br />
λ k (b k − a k ) =<br />
k=1<br />
=<br />
n∑<br />
k=1<br />
⎛<br />
m−1<br />
∑<br />
(x j+1 − x j ) ⎝<br />
j=0<br />
(<br />
qk −1<br />
∑<br />
λ k<br />
j=p k<br />
(x j+1 − x j )<br />
∑<br />
{k: p k ≤j≤q k −1}<br />
)<br />
λ k<br />
⎞<br />
⎠ = 0.<br />
Q.E.D.<br />
Bezeichnen wir mit |I| := (b − a) die Länge des endlichen Intervalls I mit den<br />
Endpunkten a ≤ b, so erhalten wir als Konsequenz<br />
Korollar 1.3 Sind f = ∑ n<br />
k=1 λ k1 Ik und g = ∑ m<br />
i=1 µ i1 Ji zwei Treppenfunktionen,<br />
und ist f ≡ g, so ist<br />
n∑ m∑<br />
λ k |I k | = µ i |J i |.<br />
k=1<br />
Beweis. Sei h := f − g = ∑ n<br />
k=1 λ k1 Ik + ∑ m<br />
i=1 (−µ i1 Ji ). Da h ≡ 0 ist, gilt nach<br />
Lemma 1.2 :<br />
n∑ m∑<br />
λ k |I k | + (−µ i )|J i | = 0 .<br />
k=1<br />
Hieraus folgt die behauptete Identität.<br />
i=1<br />
i=1<br />
Q.E.D.<br />
Wir können nun definieren: Ist f = ∑ n<br />
k=1 λ k1 Ik ∈ T , so sei das Integral ∫ f(x) dx<br />
die durch<br />
∫<br />
n∑<br />
f(x) dx := λ k |I k |<br />
definierte komplexe Zahl.<br />
Das Korollar 1.3 garantiert, daß ∫ f(x) dx wohldefiniert ist, d.h. nicht von der Darstellung<br />
f = ∑ n<br />
k=1 λ k1 Ik abhängt. Es zeigt darüberhinaus:<br />
∫<br />
f(x) dx hängt nur von der Kongruenzklasse von f (mod N) ab. Anders formuliert:<br />
Das Integral von f ändert sich nicht, wenn man f an endlich vielen Stellen abändert.<br />
k=1<br />
Insbesondere sehen wir: Ist f ≡ ∑ m−1<br />
j=0 µ j1 ]xj ,x j+1 [, mit x 0 < x 1 < · · · < x m , so ist<br />
(1.2)<br />
in Übereinstimmung mit (1.1).<br />
∫<br />
f(x) dx =<br />
m−1<br />
∑<br />
j=0<br />
9<br />
µ j (x j+1 − x j ),
Wir werden statt ∫ f(x) dx oft kürzer ∫ f dx oder auch nur ∫ f schreiben.<br />
Die Abbildung f ↦→ ∫ f ist offenbar eine Linearform auf dem komplexen Vektorraum<br />
T – dies folgt unmittelbar aus unserer Definition von ∫ f.<br />
Ist f eine komplexwertige Treppenfunktion, so sind ihr Realteil Re f und ihr Imaginärteil<br />
Im f ebenfalls Treppenfunktionen. Aus f = (Ref) + i(Im f) folgt mittels<br />
der Linearität des Integrals:<br />
∫ ∫ ∫<br />
(1.3) f dx = (Re f) dx + i (Im f) dx, f ∈ T .<br />
Aus (1.2) liest man ferner leicht die folgenden Eigenschaften des Integrals ab:<br />
(i) Ist f ∈ T reellwertig, so ist ∫ f dx ∈ R.<br />
(ii) Ist f ∈ T reellwertig, und ist f(x) ≥ 0 für alle x ∈ R, so ist ∫ f dx ≥ 0.<br />
(iii) Das Integral erfüllt die folgende Dreiecksungleichung“:<br />
” ∫<br />
∫<br />
∣ f(x) dx∣ ≤ |f(x)| dx für alle f ∈ T .<br />
Mittels der Linearität des Integrals läßt sich (ii) übrigens wie folgt verallgemeinern:<br />
(ii ′ ) Sind f, g ∈ T reellwertig, und ist f ≥ g (d.h. f(x) ≥ g(x) für alle x ∈ R), so<br />
ist<br />
∫ ∫<br />
f dx ≥ g dx .<br />
Aus f ≥ g folgt nämlich (f − g) ≥ 0, also nach (ii)<br />
∫ ∫ ∫<br />
0 ≤ (f − g) dx = f dx −<br />
g dx .<br />
Definitionen. Ist [a, b] ein kompaktes Intervall, und ist f ∈ T , so ist auch 1 [a,b] f ∈<br />
T , und wir definieren das Integral von f von a nach b durch<br />
∫ b ∫<br />
f(x) dx := 1 [a,b] f dx.<br />
a<br />
Für eine beliebige, nichtleere Menge X bezeichne B(X) die Menge aller beschränkten<br />
Funktionen f : X〉 C. Offenbar bildet B(X) einen linearen Teilraum des Raumes C X .<br />
Für f ∈ B(X) ist dann<br />
wohldefiniert, und es gilt insbesondere<br />
‖f‖ u := sup{|f(x)| : x ∈ X} ∈ R + 0<br />
(1.4) |f(x)| ≤ ‖f‖ u für alle x ∈ X.<br />
10
Lemma 1.4 Für alle f ∈ T gilt<br />
∫ b<br />
∣ f(x) dx<br />
∣ ≤ ‖f‖ u (b − a).<br />
Beweis. Nach (iii) ist<br />
∣<br />
∫ b<br />
a<br />
a<br />
∫<br />
f(x) dx∣ = ∣<br />
∫<br />
1 [a,b] f dx∣ ≤ 1 [a,b] |f| dx.<br />
Ferner ist |f| ≤ ‖f‖ u 1, also nach (ii ′ )<br />
∫ ∫<br />
1 [a,b] |f| dx ≤ 1 [a,b] ‖f‖ u dx = ‖f‖ u (b − a).<br />
Q.E.D.<br />
Bemerkungen 1.5 a) Für ‖ · ‖ u weist man folgende Eigenschaften für alle f, g ∈<br />
B(X) und λ ∈ C nach (Übung), welche denen des Absolutbetrags einer reellen oder<br />
komplexen Zahl ähneln:<br />
(a) ‖f‖ u = 0 ⇔ f = 0;<br />
(b) ‖λf‖ u = |λ| ‖f‖ u ;<br />
(c) ‖f + g‖ u ≤ ‖f‖ u + ‖g‖ u ;<br />
(d) ‖f‖ u = ‖f‖ u ;<br />
(e) ‖fg‖ u ≤ ‖f‖ u ‖g‖ u .<br />
Z.B. folgt aus (1.4)<br />
|f(x) + g(x)| ≤ |f(x)| + |g(x)| ≤ ‖f‖ u + ‖g‖ u ,<br />
und somit aufgrund der Definition des Supremums ‖f + g‖ u ≤ ‖f‖ u + ‖g‖ u . Die<br />
übrigen Eigenschaften folgen ähnlich leicht.<br />
b) Die Eigenschaften (a) bis (c) bedeuten, daß ‖ · ‖ u eine sogenannte Norm auf<br />
dem Vektorraum B(X) ist – auf diesen Begriff werden wir in Kapitel 2 ausführlicher<br />
eingehen. ‖f‖ u bezeichnet man als die Supremumsnorm von f.<br />
c) Mit Hilfe dieser Supremumsnorm läßt sich die gleichmäßige Konvergenz einer<br />
Funktionenfolge (f n ) n in B(X) gegen eine Funktion f ∈ B(X) ähnlich beschreiben<br />
wie die Konvergenz einer Zahlenfolge mit Hilfe des Absolutbetrages:<br />
(f n ) n konvergiert dann und nur dann gleichmäßig gegen f , wenn gilt:<br />
(1.5) lim<br />
n→∞<br />
‖f − f n ‖ u = 0.<br />
11
Für jedes ε > 0 gilt nämlich offenbar<br />
|f n (x) − f(x)| ≤ ε für alle x ∈ X<br />
genau dann, wenn<br />
‖f n − f‖ u ≤ ε.<br />
1.3 Erweiterung des Integrals<br />
Wir wollen nun das Integral auf eine größere Klasse von Funktionen erweitern. Dazu<br />
beobachten wir folgende Konsequenz aus Lemma 1.4:<br />
Lemma 1.6 Es seien a, b ∈ R mit a ≤ b. Ist f ∈ C R der gleichmäßige Limes einer<br />
Folge von Treppenfunktionen (f n ) n∈N , so bildet die Folge der Integrale ( ∫ b<br />
f a n dx)<br />
∫ n∈N<br />
b<br />
eine Cauchy-Folge in C. Insbesondere existiert der Grenzwert I = lim n→∞ f a n dx.<br />
Dieser hängt nur ab von f, nicht jedoch von der approximierenden Folge (f n ) n∈N .<br />
Beweis. Sei nun ε > 0, und es gelte (1.5). Dann gibt es ein n 0 ∈ N, so daß gilt:<br />
‖f − f n ‖ u < ε/2 für alle n ≥ n 0 .<br />
Für n, m ≥ n 0 erhält man somit mittels Bemerkung 1.5<br />
(1.6)<br />
‖f n − f m ‖ u<br />
= ‖(f − f n ) − (f − f m )‖ u<br />
≤ ‖f − f n ‖ u + ‖f − f m ‖ u < ε 2 + ε 2 = ε.<br />
Die Folge (f n ) n bildet also eine gleichmäßige Cauchy-Folge“. Für n, m ≥ n ” 0 folgt<br />
zusammen mit Lemma 1.4 :<br />
∣<br />
∫ b<br />
a<br />
f n dx −<br />
∫ b<br />
a<br />
f m dx∣ =<br />
≤<br />
∣<br />
∫ b<br />
a<br />
(f n − f m ) dx∣<br />
(b − a)‖f n − f m ‖ u < (b − a)ε.<br />
Dies zeigt, daß die Folge ( ∫ b<br />
a f n dx) n∈N eine Cauchy-Folge in C bildet. Sei<br />
I := lim<br />
n→∞<br />
∫ b<br />
a<br />
f n dx.<br />
Sei ferner (g n ) n eine weitere Folge in T , welche gleichmäßig gegen f konvergiert, und<br />
∫ b<br />
sei J = lim g<br />
n→∞ a n dx.<br />
12
Wegen<br />
ist dann offenbar<br />
‖f n − g n ‖ u = ‖(f n − f) + (f − g n )‖ u<br />
≤<br />
‖f n − f‖ u + ‖f − g n ‖ u<br />
lim ‖f n − g n ‖ u = 0.<br />
n→∞<br />
Wieder mittels Lemma 1.4 folgt hieraus:<br />
∫ b<br />
lim<br />
∣ (f n − g n ) dx<br />
∣ = 0,<br />
n→∞<br />
a<br />
∫ b<br />
und somit I = lim f ∫ b<br />
n→∞ a n dx = lim g<br />
n→∞ a n dx = J.<br />
Q.E.D.<br />
Definitionen. Eine Funktion f : R → C, die sich als Limes einer gleichmäßig<br />
konvergenten Folge (f n ) n aus T darstellen läßt, wird als Regelfunktion bezeichnet.<br />
Es sei R die Menge aller solcher Regelfunktionen. Sind (f n ) n bzw. (g n ) n Folgen in<br />
T , welche gleichmäßig gegen f bzw. g aus R konvergieren, so weist man mittels<br />
Bemerkung 1.5 ganz analog wie für konvergente Zahlenfolgen nach, daß die Folge<br />
(f n + g n ) n gleichmäßig gegen f + g, die Folge (f n g n ) n gleichmäßig gegen fg und die<br />
Folge (αf n ) n gleichmäßig gegen αf konvergiert, für jedes α ∈ C. Dies zeigt, daß mit<br />
f und g aus R sowie α ∈ C auch f + g, αf und fg in R liegen, d.h. daß auch R<br />
eine Algebra ist. Ähnlich zeigt man, daß mit f ∈ R auch |f|, Re f und Im f in R<br />
liegen.<br />
Aufgrund von Lemma 1.6 können wir nun definieren:<br />
Sei f ∈ R, und sei (f n ) n eine Folge in T , welche gleichmäßig gegen f konvergiert.<br />
Seien a, b ∈ R mit a ≤ b. Die Zahl<br />
∫ b<br />
a<br />
f(x) dx = lim<br />
n→∞<br />
∫ b<br />
a<br />
f n (x) dx<br />
heißt das Riemannsche Integral der Funktion f über das Intervall [a, b]<br />
(oder ”<br />
von a bis b“).<br />
Satz 1.7 (Eigenschaften des Integrals) (i) Für feste a ≤ b ist die Abbildung<br />
f ↦→ ∫ b<br />
f(x) dx komplex linear von R nach C, d.h. es gilt<br />
a<br />
∫ b<br />
(αf + βg) dx = α<br />
∫ b<br />
f dx + β<br />
∫ b<br />
a<br />
a<br />
a<br />
für alle f, g ∈ R, α, β ∈ C.<br />
g dx<br />
(Linearität)<br />
13
(ii) Ist f ∈ R reellwertig, so ist ∫ b<br />
f dx ∈ R.<br />
a<br />
Ist zusätzlich f ≥ 0, so ist ∫ b<br />
f dx ≥ 0. D.h., aus f, g ∈ R, f ≤ g, folgt<br />
a<br />
Ferner gilt<br />
∫ b<br />
a<br />
f dx ≤<br />
∫ b<br />
a<br />
g dx.<br />
∫ b<br />
1 dx = b − a. (Normierung)<br />
a<br />
(iii) Es gilt die Dreiecksungleichung“<br />
” ∫ b<br />
∫ b<br />
∣ f dx<br />
∣ ≤ |f| dx, f ∈ R .<br />
(iv) Sind a, b, c ∈ R mit a ≤ b ≤ c, so gilt für f ∈ R:<br />
(1.7)<br />
Beweis.<br />
∫ c<br />
a<br />
f dx =<br />
∫ b<br />
a<br />
a<br />
f dx +<br />
∫ c<br />
b<br />
a<br />
f dx.<br />
(Monotonie)<br />
(Bereichsadditivität)<br />
(i) Sind (f n ) n bzw. (g n ) n Folgen in T , welche gleichmäßig gegen f bzw. g konvergieren,<br />
so folgt mittels Bemerkung 1.5:<br />
Somit ist<br />
lim ‖(αf + βg) − (αf n + βg n )‖ u = 0.<br />
n→∞<br />
∫ b<br />
a<br />
(αf + βg) dx = lim<br />
= lim<br />
n→∞<br />
(α<br />
= α lim<br />
= α<br />
∫ b<br />
a<br />
∫ b<br />
n→∞<br />
a<br />
∫ b<br />
a<br />
f dx + β<br />
n→∞<br />
∫ b<br />
f n dx + β<br />
(αf n + βg n ) dx<br />
a<br />
∫ b<br />
a<br />
f n dx + β lim<br />
∫ b<br />
a<br />
g n dx)<br />
n→∞<br />
∫ b<br />
g dx .<br />
a<br />
g n dx<br />
(ii) Ist f ∈ R reellwertig, und ist f der gleichmäßige Limes der Folge (f n ) n aus T ,<br />
so konvergiert wegen ‖f − Re(f n )‖ u := ‖Re(f − f n )‖ u ≤ ‖f − f n ‖ u auch die<br />
Folge (Ref n ) n aus T gleichmäßig gegen f, d.h. man kann o.B.d.A. annehmen,<br />
daß die Folge (f n ) n aus reellwertigen Funktionen besteht. Damit ist<br />
∫ b<br />
a<br />
f dx = lim<br />
n→∞<br />
∫ b<br />
a<br />
f n dx ∈ R.<br />
Ist zusätzlich f ≥ 0, so kann man, indem man f n durch max{0, f n } ersetzt,<br />
zusätzlich f n ≥ 0 für alle n annehmen, so daß ∫ b<br />
f dx ≥ 0 folgt.<br />
a<br />
14
(iii) Ist f der gleichmäßige Limes der Folge (f n ) n aus T , so konvergiert die Folge<br />
(|f n |) n gleichmäßig gegen |f|. Es folgt:<br />
∣<br />
∫ b<br />
a<br />
≤<br />
∣ ∫ b<br />
∣ ∫ b<br />
∣∣ ∣∣ f dx∣ = lim f n dx∣ = lim f n dx∣<br />
n→∞ n→∞<br />
∫ b<br />
lim |f n | dx = lim<br />
n→∞<br />
a<br />
a<br />
n→∞<br />
∫ b<br />
da die Dreiecksungleichung ja für f n ∈ T gilt.<br />
a<br />
a<br />
|f n | dx =<br />
∫ b<br />
a<br />
|f| dx,<br />
(iv) Sei wieder f der gleichmäßige Limes der Folge (f n ) n aus T . Für jedes n ∈ N<br />
gilt:<br />
1 [a,c] f n =1 [a,b] f n +1 [b,c] f n −1 {b} f n (b),<br />
also<br />
∫ c<br />
a<br />
f n dx =<br />
∫ b<br />
a<br />
f n dx +<br />
∫ c<br />
b<br />
f n dx.<br />
Durch Grenzübergang für n → ∞ folgt die Identität (1.7).<br />
Bemerkung 1.8 Für f ∈ R und a > b setzen wir gelegentlich auch<br />
∫ b<br />
a<br />
f dx := −<br />
∫ a<br />
b<br />
f dx.<br />
Q.E.D.<br />
Man prüft leicht nach, daß die Gleichung (1.7) dann für beliebige a, b, c ∈ R gültig<br />
ist.<br />
Welche Funktionen sind in R enthalten?<br />
Definitionen. Wir sagen eine Funktion f : R → C verschwinde im Unendlichen,<br />
falls für jedes ε > 0 die Menge {x ∈ R : |f| ≥ ε} beschränkt ist. Hiermit<br />
äquivalent ist:<br />
Zu jedem ε > 0 existiert ein C ≥ 0 mit |f(x)| < ε für alle x ∈ R mit |x| ≥ C, d.h.<br />
lim |f(x)| = 0.<br />
|x|→∞<br />
f heiße stückweise stetig, wenn es eine streng monoton wachsende ”<br />
Folge“(x k ) k∈Z<br />
von Punkten x k ∈ R gibt mit<br />
x k → −∞ für k → −∞<br />
und x k → +∞ für k → +∞,<br />
sowie Funktionen F k ∈ C( [x k , x k+1 ]), k ∈ Z, so daß<br />
f ∣ = F ∣<br />
]xk ,x k+1 [ k<br />
gilt für alle k ∈ Z.<br />
15<br />
∣<br />
]xk ,x k+1 [
Satz 1.9 R enthält alle stückweise stetigen im Unendlichen verschwindenden Funktionen<br />
auf R.<br />
Der Schlüssel zum Beweis dieses Satzes liegt in der folgenden Definition und dem<br />
anschließenden Satz.<br />
Definition. Es sei A ⊂ R (oder auch A ⊂ C). Die Funktion f : A → C heiße<br />
gleichmäßig stetig, wenn es zu jedem ε > 0 ein δ = δ(ε) > 0 gibt, so daß gilt:<br />
(1.8) |f(x) − f(y)| < ε für alle x, y ∈ A mit |x − y| < δ .<br />
Offenbar ist eine gleichmäßig stetige Funktion f : A → C stetig auf A; die Umkehrung<br />
hiervon ist jedoch falsch.<br />
Beispiel. Die Funktion f(x) = sin 1 ist stetig auf x R+ , jedoch nicht gleichmäßig<br />
stetig. Für x n := 1 , y 2πn n := 1 , n ∈ N, n ≥ 1, gilt nämlich:<br />
2πn+ π 2<br />
und<br />
|f(x n ) − f(y n )| = |0 − 1| = 1,<br />
|x n − y n | =<br />
π/2<br />
(2πn)(2πn + π 2 ) → 0<br />
für n → ∞. Zu ε = 1 kann es hier also kein δ > 0 mit der Eigenschaft (1.8) geben.<br />
Theorem 1.10 Ist I ⊂ R ein kompaktes Intervall, so ist jede stetige Funktion<br />
f : I → C gleichmäßig stetig.<br />
Beweis (durch Widerspruch).<br />
Wir nehmen an, daß f ∈ C(I) nicht gleichmäßig stetig ist. Dann gibt es ein ε > 0,<br />
sowie zu jedem δ := 1 n (n ∈ N, n ≥ 1) ein Paar x n, y n in I mit |x n − y n | < 1 n und<br />
|f(x n ) − f(y n )| ≥ ε. Dies impliziert insbesondere, daß lim n→∞ |x n − y n | = 0 ist.<br />
Da I ein kompaktes Intervall ist, gibt es nach dem Satz von Bolzano-Weierstraß eine<br />
Teilfolge (x nk ) k der Folge (x n ) n , welche gegen ein ξ ∈ I konvergiert. Durch Übergang<br />
zu dieser Teilfolge können wir o.B.d.A. annehmen, daß die Folge (x n ) n bereits gegen<br />
ξ konvergiert. Wegen lim n→∞ |x n − y n | = 0 ist dann auch lim n→∞ y n = ξ.<br />
Da f im Punkte ξ stetig ist, folgt damit:<br />
f(ξ) = lim<br />
n→∞<br />
f(x n ) = lim<br />
n→∞<br />
f(y n ),<br />
also<br />
0 = lim<br />
n→∞<br />
|f(x n ) − f(y n )|.<br />
Dies steht im Widerspruch zu |f(x n ) − f(y n )| ≥ ε, ∀n ≥ 1.<br />
Q.E.D.<br />
16
Beweis von Satz 1.9.<br />
Es sei f : R → C stückweise stetig und verschwinde im Unendlichen. Sei (x k ) k∈Z<br />
eine Familie von Punkten x k ∈ R mit x ±k → ±∞ für k → ∞, x k < x k+1 für alle<br />
k ∈ Z, und F k ∈ C([x k , x k+1 ]) mit f ∣ = F ∣<br />
]xk ,x k+1 [ k . ]xk ,x k+1 [<br />
Sei ε > 0. Dazu gibt es ein C > 0, so daß<br />
|f(x)| ≤ ε für alle x mit |x| ≥ C.<br />
In dem beschränkten Intervall [−C, C] liegen nur endlich viele der Punkte x k , sagen<br />
wir x p , x p+1 , . . .,x p+l . Wir setzen<br />
ξ 0 := −C, ξ 1 := x p , . . .,ξ l+1 := x p+l , ξ l+2 := C.<br />
Indem wir C ggf. leicht vergrößern dürfen wir o.B.d.A. annehmen, daß<br />
−C = ξ 0 < ξ 1 < · · · < ξ l+2 = C.<br />
Da die Funktion F k nach Theorem 1.10 gleichmäßig stetig ist auf dem Intervall<br />
[x k , x k+1 ], ist für j = 0, . . ., l + 1 die Funktion f ∣ ]ξj ,ξ j+1<br />
gleichmäßig stetig auf dem<br />
[<br />
Intervall I j :=]ξ j , ξ j+1 [. Ferner ist [−C, C] = l+1 ⋃<br />
I j ∪ {ξ 0 , . . .,ξ l+2 }.<br />
j=0<br />
Für festes j gibt es also zu ε > 0 ein δ j > 0, so daß gilt:<br />
|f(x) − f(y)| < ε für alle x, y ∈ I j mit |x − y| < δ j .<br />
Es sei o.B.d.A. N j := ξ j+1−ξ j<br />
δ j<br />
∈ N. Wir setzen nun<br />
a i := ξ j + iδ j , i = 0, . . .,N j .<br />
Das Intervall I j zerfällt dann in die Teilintervalle<br />
]a 0 , a 1 ], ]a 1 , a 2 ], . . .,]a Nj −1, a Nj [,<br />
welche alle die Länge δ j haben.<br />
Wir wählen zu jedem i = 0, . . ., N j − 1 einen Punkt b i in dem zugehörigen Teilintervall<br />
aus, und setzen<br />
ϕ j :=<br />
N j −1<br />
∑<br />
i=0<br />
f(b i )1 ]ai ,a i+1 [ +<br />
N j −1<br />
∑<br />
i=1<br />
f(a i )1 {ai } .<br />
Dann ist ‖(f − ϕ j ) ∣ ∣<br />
Ij<br />
‖ u ≤ ε, denn ist x ∈ I j , so existiert ein i mit x ∈]a i , a i+1 [, oder<br />
x = a i . Im ersten Falle ist |f(x) − ϕ j (x)| = |f(x) − f(b i )| < ε, da |x − b i | < δ j ist,<br />
und im zweiten Falle ist<br />
|f(x) − ϕ j (x)| = |f(a i ) − f(a i )| = 0 < ε .<br />
17
Setzen wir schließlich<br />
∑l+1<br />
∑l+2<br />
ϕ := ϕ j + f(ξ j )1 {ξj } ,<br />
j=0 j=0<br />
so ist ϕ ∈ T , und es gilt offenbar<br />
‖f − ϕ‖ u ≤ ε .<br />
Insbesondere erhalten wir auf diese Weise zu jedem ε = 1/n, n ∈ N, n ≥ 1, ein ϕ n<br />
in T mit ‖f − ϕ n ‖ u ≤ 1/n . Damit ist f ∈ R.<br />
Q.E.D.<br />
Es sei [a, b] ein kompaktes Intervall. Eine Funktion f : [a, b] → C heiße auf [a, b]<br />
integrierbar, falls die durch<br />
{<br />
f(x), falls x ∈ [a, b],<br />
˜f(x) :=<br />
0, falls x /∈ [a, b],<br />
definierte Funktion ˜f, die sogenannte triviale Fortsetzung von f, in R liegt. Die<br />
komplexe Zahl<br />
∫ b<br />
a<br />
f(x) dx :=<br />
heißt das Riemannsche Integral von f.<br />
∫ b<br />
a<br />
˜f(x) dx<br />
Satz 1.9 zeigt, daß jede (stückweise) stetige Funktion auf [a, b] integrierbar ist. Genauer<br />
zeigt der Beweis sogar folgendes:<br />
Sind x 0 = a < x 1 < · · · < x n = b Punkte in [a, b], welche eine Zerlegung des<br />
Intervalls [a, b] in die Teilintervalle I j := [x j , x j+1 ] der Länge ∆ j := x j+1 −x j liefern,<br />
und sind b j ∈ I j , j = 0, . . .,n − 1, beliebige Stützstellen im Intervall I j , so läßt<br />
sich zu diesen Daten die Riemann-Summe zu f der Gestalt<br />
∑n−1<br />
∑n−1<br />
f(b j )(x j+1 − x j ) = f(b j )∆ j ,<br />
j=0<br />
bilden. Zu jedem ε > 0 gibt es dann ein δ > 0, so daß für jede Riemann-Summe mit<br />
Feinheit max ∆ j < δ gilt:<br />
j=0,...,n−1<br />
j=0<br />
(1.9)<br />
∣<br />
∫ b<br />
∑n−1<br />
∣ ∣∣<br />
f(x) dx − f(b j )∆ j < ε.<br />
a<br />
j=0<br />
Das Integral ∫ b<br />
f(x) dx ist also der Grenzwert jeder Folge von Riemann-Summen zu<br />
a<br />
f, deren Feinheiten gegen Null streben!<br />
18
Dagegen ist die Dirichlet-Funktion ϕ := 1 Q : R → R, nicht integierbar über [0, 1]<br />
(Übung).<br />
Wann kann man aus der Konvergenz einer Folge (f n ) n integrierbarer Funktionen f n<br />
gegen eine Funktion f schließen, daß auch die Grenzfunktion f integrierbar ist, und<br />
daß die Integrale der f n gegen das Integral von f streben?<br />
Das Beispiel der Dirichlet-Funktion zeigt bereits, daß hierfür die punktweise Konvergenz<br />
der f n gegen f nicht ausreicht.<br />
Ist nämlich (x n ) n∈N eine Abzählung der Punkte in Q ∩ [0, 1], und setzen wir<br />
ϕ n :=<br />
n∑<br />
1 {xj } ,<br />
j=0<br />
so ist offenbar ϕ der punktweise Limes der Folge der (ϕ n ) n , welche alle in T liegen,<br />
also integrierbar sind auf [0, 1] (übrigens ist<br />
∫ 1<br />
0<br />
ϕ n dx = 0 für alle n ∈ N).<br />
Satz 1.11 Ist (f n ) n eine Folge integrierbarer Funktionen auf [a, b], und konvergiert<br />
diese gleichmäßig gegen f : [a, b] → C, so ist auch f integrierbar auf [a, b], und es<br />
gilt<br />
lim<br />
n→∞<br />
∫ b<br />
a<br />
f n dx =<br />
∫ b<br />
a<br />
f dx.<br />
Beweis. Seien ˜f n und ˜f die oben definierten Fortsetzungen der f n und f auf ganz<br />
R. Dann liegen die ˜f n in R und konvergieren gleichmäßig gegen ˜f. Ist nun h n ∈ T<br />
mit ‖ ˜f n − h n ‖ u < 1 , so folgt aus<br />
n<br />
‖ ˜f − h n ‖ u ≤ ‖ ˜f − ˜f n ‖ u + ‖ ˜f n − h n ‖ u<br />
< ‖ ˜f − ˜f n ‖ u + 1 n<br />
auch lim ‖ ˜f − h n ‖ u = 0, also ˜f ∈ R.<br />
n→∞<br />
Aus<br />
∫ b<br />
∫ b<br />
∣ f dx − f n dx<br />
∣ =<br />
a<br />
a<br />
≤<br />
∣<br />
∫ b<br />
a<br />
( ˜f − ˜f n ) dx<br />
∣<br />
(b − a)‖ ˜f − ˜f n ‖ u<br />
∫ b<br />
folgt schließlich lim f<br />
n→∞ a n dx = ∫ b<br />
f dx . a<br />
Q.E.D.<br />
19
∑<br />
Korollar 1.12 Besitzt die Potenzreihe f(x) = ∞ a k x k den Konvergenzradius R ><br />
0, und ist a ≤ b mit |a|, |b| < R, so ist<br />
k=0<br />
∫ b<br />
a<br />
f(x) dx =<br />
∞∑<br />
∫ b<br />
a k x k dx.<br />
k=0<br />
a<br />
Beweis. Setze f n (x) := ∑ n<br />
k=0 a kx k . Nach dem Beweis von Satz 9.14 (<strong>Analysis</strong> I)<br />
konvergiert dann die Folge der Polynome f n auf dem Intervall [a, b] gleichmäßig<br />
gegen die (stetige) Funktion f, so daß die Aussage unmittelbar aus Satz 1.11 folgt.<br />
Q.E.D.<br />
Um das Integral einer Funktion, welche durch eine Potenzreihe dargestellt ist, zu<br />
berechnen, genügt es also im Prinzip, die Integrale ∫ b<br />
a xk dx, k ∈ N, zu kennen. Diese<br />
lassen sich in der Tat mit ein wenig Fleiß mittels Approximation durch Treppenfunktionen<br />
berechnen. Einfacher ist es jedoch, hierzu den von Newton und Leibniz<br />
entdeckten engen Zusammenhang zwischen Differentiation und Integration auszunutzen,<br />
welcher im nächsten Abschnitt besprochen wird.<br />
Bemerkung 1.13 Wir haben hier folgende Definition der Integrierbarkeit verwendet:<br />
f ∈ C [a,b] ist integrierbar, wenn f der gleichmäßige Grenzwert einer Folge von<br />
Treppenfunktionen f n auf dem Intervall [a, b] ist. Eine schwächere Form der Approximation<br />
durch Treppenfunktionen ist die folgende:<br />
f : [a, b] → C heiße Riemannsch integrierbar auf [a, b], wenn es zwei Folgen<br />
(f n ) n und (ψ n ) n von Treppenfunktion auf [a, b] gibt, so daß gilt:<br />
|f − f n | ≤ ψ n und<br />
∫ b<br />
a<br />
ψ n dx → 0 für n → ∞<br />
(offenbar muß ψ n ≥ 0 sein).<br />
Konvergiert die Folge (f n ) n aus T gleichmäßig auf [a, b] gegen f, so kann man offenbar<br />
ψ n := ‖f − f n ‖ u 1 [a,b] wählen.<br />
Man kann zeigen, daß sich für alle Riemannsch integrierbaren Funktionen auf [a, b]<br />
ein Integral definieren läßt, welches ähnliche Eigenschaften wie die des von uns<br />
betrachteten Integrals besitzt, und daß insbesondere die beiden Integrale für stückweise<br />
stetige Funktionen gleich sind. Allerdings ist die Dirichlet-Funktion auch im<br />
Riemannschen Sinne nicht integrierbar.<br />
20
1.4 Integration und Differentiation<br />
Definition. Es sei f ∈ C(I) eine stetige Funktion auf dem Intervall I = [a, b]. Eine<br />
differenzierbare Funktion F auf I heiße Stammfunktion von f, wenn gilt<br />
f = F ′ auf I.<br />
Theorem 1.14 (Newton-Leibniz) Sei f ∈ C([a, b]). Dann ist<br />
F(x) :=<br />
eine Stammfunktion von f.<br />
∫ x<br />
a<br />
f(t) dt,<br />
x ∈ [a, b],<br />
Beweis. Sind x und x + h in I = [a, b], so gilt:<br />
F(x + h) − F(x) − f(x)h<br />
=<br />
=<br />
∫ x+h<br />
a<br />
∫ x+h<br />
da ∫ x+h<br />
f(t) dt = ∫ x<br />
f(t) dt+∫ x+h<br />
a<br />
a x<br />
ist für festes x und h ≠ 0<br />
F(x + h) − F(x)<br />
h<br />
x<br />
f(t)dt −<br />
∫ x<br />
a<br />
(f(t) − f(x)) dt ,<br />
f(t)dt − f(x)h<br />
f(t) dt ist, und da f(x)h = ∫ x+h<br />
f(x) dt ist. Somit<br />
x<br />
− f(x) = 1 h<br />
∫ x+h<br />
x<br />
(f(t) − f(x)) dt =: r(h).<br />
Wir müssen zeigen, daß lim h→0 r(h) = 0 ist. Sei dazu ε > 0 gegeben. Da f in x stetig<br />
ist, existiert ein δ > 0, so daß |f(t) − f(x)| < ε ist für alle t ∈ [a, b] mit |t − x| < δ.<br />
Für |h| < δ gilt somit für alle t ∈ [a, b], welche zwischen x und x + h liegen:<br />
|f(t) − f(x)| < ε.<br />
Somit folgt für |h| < δ :<br />
|r(h)| ≤ 1<br />
|h|<br />
∣<br />
∫ x+h<br />
x<br />
|f(t) − f(x)| dt<br />
∣ ≤ |h|ε<br />
|h|<br />
= ε .<br />
Q.E.D.<br />
Bemerkung 1.15 Sind F und G zwei Stammfunktionen von f auf [a, b], so ist<br />
(F − G) ′ = F ′ − G ′ = f − f = 0, d.h. F − G ist eine konstante Funktion (vgl. Satz<br />
10.11 (ii), <strong>Analysis</strong> I).<br />
Zwei Stammfunktionen von f unterscheiden sich also nur um eine additive Konstante.<br />
Umgekehrt ist mit F auch F + c für jede Konstante c ∈ C eine Stammfunktion<br />
von f.<br />
21
Satz 1.16 (Hauptsatz der Differential- und Integralrechnung) Ist F eine<br />
Stammfunktion der stetigen Funktion f auf [a, b], so gilt für alle x, y ∈ [a, b]:<br />
∫ y<br />
x<br />
f(t) dt = F(y) − F(x) .<br />
Beweis. Wir definieren für x ∈ [a, b]<br />
G(x) :=<br />
∫ x<br />
a<br />
f(t) dt .<br />
Dann existiert nach Theorem 1.14 und Bemerkung 1.15 eine Konstante c ∈ C, so<br />
daß gilt<br />
Somit ist<br />
F(x) = G(x) + c , x ∈ [a, b] .<br />
F(y) − F(x) = G(y) − G(x) =<br />
=<br />
∫ y<br />
a<br />
∫ y<br />
x<br />
f(t) dt −<br />
f(t) dt .<br />
∫ x<br />
a<br />
f(t) dt<br />
Q.E.D.<br />
Bezeichnung: Man setzt<br />
∣<br />
F(t)<br />
∣ y x<br />
:= F(y) − F(x) .<br />
Die Formel in Satz 1.16 schreibt sich dann als<br />
∫ y<br />
x<br />
∣<br />
f(t)dt = F(t)<br />
∣ y x<br />
.<br />
Die folgende Tabelle läßt sich durch Differentiation der angegebenen Funktionen F<br />
leicht überprüfen.<br />
22
Tabelle einiger Stammfunktionen<br />
f<br />
F (bis auf additive Konstante)<br />
x k , x ≠ 0<br />
x k+1<br />
k+1 , k ≠ −1<br />
x −1 , x ≠ 0 log |x|<br />
x α , x > 0<br />
x α+1<br />
α+1 , α ≠ −1<br />
e x<br />
e x<br />
e ix<br />
1 i eix<br />
sin x<br />
cos x<br />
sinh x<br />
cosh x<br />
− cosx<br />
sin x<br />
cosh x<br />
sinh x<br />
√ 1<br />
1−x 2, |x| < 1 arcsin x<br />
1<br />
√<br />
1+x 2<br />
arsinh x<br />
√ 1<br />
x<br />
, |x| > 1 arcosh x<br />
2 −1<br />
1<br />
arctan x<br />
1+x 2<br />
1<br />
cosh 2 x<br />
tanh x<br />
1<br />
, x ≠ 0 − coth x<br />
sinh 2 x<br />
1<br />
, |x| < π tan x<br />
cos 2 x 2<br />
1<br />
, 0 < x < π − cot x<br />
sin 2 x<br />
Beispielsweise erhält man nun für beliebiges n ∈ N:<br />
oder auch<br />
∫ a<br />
0<br />
∫ b<br />
a<br />
x n dx = xn+1 ∣<br />
n + 1<br />
1<br />
∣ ∣∣<br />
x dx = log x b<br />
a<br />
∣ a 0<br />
= an+1 − 0 n+1<br />
n + 1<br />
= an+1<br />
n + 1 ,<br />
( b<br />
= log b − log a = log ,<br />
a)<br />
für 0 < a < b.<br />
Weitere Regeln, welche für gewisse Klassen von Funktionen eine ”<br />
explizite“ Integration<br />
ermöglichen, lassen sich mittels Satz 1.16 aus entsprechenden Regeln für die<br />
Differentiation herleiten:<br />
23
Satz 1.17 (Partielle Integration) Seien f ∈ C([a, b]), g ∈ C 1 ([a, b]), und sei F<br />
eine Stammfunktion von f. Dann ist<br />
∫ b<br />
a<br />
f(x)g(x) dx = F(x)g(x) ∣ b −<br />
a<br />
∫ b<br />
a<br />
F(x)g ′ (x) dx.<br />
Beweis. Sei h = Fg. Dann ist h ∈ C 1 ([a, b]), und es gilt nach der Produktregel<br />
h ′ = F ′ g + Fg ′ = fg + Fg ′ .<br />
Damit folgt<br />
F(x)g(x) ∣ b =<br />
a<br />
∫ b<br />
h ′ (x) dx =<br />
∫ b<br />
fg dx +<br />
∫ b<br />
a<br />
a<br />
a<br />
Fg ′ dx.<br />
Q.E.D.<br />
Beispiele. a) Für 0 < a < b ist<br />
∫ b<br />
log xdx =<br />
∫ b<br />
a<br />
a<br />
1·log xdx = x log x∣ b a−<br />
∫ b<br />
a<br />
x· 1 ∣ ∣∣<br />
x dx = x log x b<br />
−x∣ b = x(log x−1) ∣ b<br />
a a a.<br />
b) Für n ∈ N, n ≥ 2, gilt:<br />
∫ π/2<br />
0<br />
sin n xdx =<br />
∫ π/2<br />
0<br />
sin x sin n−1 xdx<br />
= (− cos x) sin n−1 ∣<br />
x<br />
=<br />
woraus man sofort<br />
(1.10)<br />
erhält. Wegen<br />
∫ π/2<br />
0<br />
= (n − 1)<br />
∫ π/2<br />
0<br />
∫ π/2<br />
0<br />
∣ π/2<br />
0<br />
−<br />
∫ π/2<br />
(cos 2 x) (n − 1) sin n−2 xdx = (n − 1)<br />
∫ π/2<br />
0<br />
sin n−2 xdx − (n − 1)<br />
sin n xdx = n − 1<br />
n<br />
sin xdx = 1,<br />
0<br />
∫ π/2<br />
folgert man hieraus per Induktion nach n, daß<br />
0<br />
∫ π/2<br />
0<br />
(− cosx) (n − 1) sin n−2 x cosxdx<br />
∫ π/2<br />
0<br />
sin n−2 xdx<br />
sin 0 xdx = π/2<br />
∫ π/2<br />
0<br />
sin n xdx,<br />
(1 − sin 2 x) sin n−2 xdx,<br />
(1.11)<br />
∫ π/2<br />
0<br />
sin 2m+1 xdx =<br />
2m<br />
2m + 1 · 2m − 2<br />
2m − 1 · · · 2<br />
3 ,<br />
24
(1.12)<br />
∫ π/2<br />
0<br />
sin 2m xdx = 2m − 1<br />
2m · 2m − 3<br />
2m − 2 · · · 1<br />
2 · π<br />
2 .<br />
Per Division ergibt sich aus diesen Formeln<br />
(1.13)<br />
2<br />
π<br />
∫ π/2<br />
sin 2m xdx<br />
0<br />
∫ π/2<br />
sin 2m+1 xdx = 1 2 · 3<br />
2 · 3<br />
4 · 5<br />
4 · 5<br />
6 · 7<br />
6 · · · 2m − 1<br />
2m · 2m + 1<br />
2m<br />
0<br />
Setze nun s n := ∫ π/2<br />
sin n xdx. Auf dem Intervall 0 < x < π , wo 0 < sin x < 1 gilt,<br />
0 2<br />
ist offenbar<br />
0 < sin 2m+1 x ≤ sin 2m x ≤ sin 2m−1 x.<br />
Daraus folgt wegen der Monotonie des Integrals<br />
0 < s 2m+1 ≤ s 2m ≤ s 2m−1 .<br />
Teilt man hier jeden Term durch s 2m+1 , so folgt<br />
1 ≤ s 2m<br />
s 2m+1<br />
≤ s 2m−1<br />
s 2m+1<br />
= 1 + 1<br />
2m ,<br />
wobei wir bei der letzten Identität Formel (1.10) benutzt haben. Hieraus erhalten<br />
wir sofort<br />
∫ π/2<br />
sin 2m xdx<br />
0<br />
lim ∫<br />
m→∞ π/2<br />
sin 2m+1 dx = 1,<br />
0<br />
und zusammen mit (1.13) folgt<br />
2<br />
π = lim 1<br />
m→∞ 2 · 3<br />
2 · 3<br />
4 · 5<br />
4 · 5<br />
6 · 7<br />
6 · · · 2m − 1<br />
2m · 2m + 1<br />
2m<br />
(vergleiche das Beispiel zu Satz 5.3, <strong>Analysis</strong> I). Gehen wir zu den Kehrwerten über,<br />
so erhalten wir die Wallissche Produktdarstellung von π :<br />
(1.14)<br />
π<br />
2 = lim 2<br />
m→∞ 1 · 2<br />
3 · 4<br />
3 · 4<br />
5 · 6<br />
5 · 6<br />
7 · · · 2m<br />
2m − 1 · 2m<br />
2m + 1 .<br />
Satz 1.18 (Substitutionsregel) Sei I ein kompaktes Intervall und f ∈ C(I). Sei<br />
ferner ϕ : [a, b] → R eine stetig differenzierbare Funktion mit ϕ([a, b]) ⊂ I. Dann<br />
gilt<br />
∫ b<br />
a<br />
f(ϕ(t))ϕ ′ (t) dt =<br />
25<br />
∫ ϕ(b)<br />
ϕ(a)<br />
f(x) dx.
Beweis. Sei F eine Stammfunktion von f auf I. Dann ist F ◦ ϕ ∈ C 1 ([a, b]), und es<br />
ist nach der Kettenregel<br />
Somit ist nach Satz 1.16<br />
∫ b<br />
a<br />
(F ◦ ϕ) ′ (t) = F ′ (ϕ(t))ϕ ′ (t) = f(ϕ(t))ϕ ′ (t).<br />
f(ϕ(t))ϕ ′ (t) dt = F ◦ ϕ(t) ∣ b = F(ϕ(b)) − F(ϕ(a)).<br />
a<br />
Beispiele. a) Berechne ∫ π/2<br />
0<br />
e − sin x cosxdx.<br />
Q.E.D.<br />
Die Substitution y = sin x =: ϕ(x) liefert wegen ϕ ′ (x) = cos x (was man gerne auch<br />
in der suggestiven Kurzform<br />
cosxdx = dy<br />
schreibt)<br />
∫ π/2<br />
0<br />
e − sinx cosxdx =<br />
∫ sin(π/2)<br />
sin(0)<br />
e −y dy<br />
∣<br />
= −e −y ∣∣<br />
1<br />
= 1 − e −1 .<br />
0<br />
b) Bestimme ∫ x<br />
√<br />
0 1 − t2 dt, 0 ≤ x < 1.<br />
Die Substitution t = sin y, 0 < t < π/2, mit dt = cosy dy, liefert<br />
∫ x<br />
0<br />
√<br />
1 − t2 dt =<br />
∫<br />
arcsinx<br />
0<br />
√<br />
1 − sin 2 y cosy dy =<br />
∫<br />
arcsin x<br />
0<br />
cos 2 y dy.<br />
Ferner erhält man mittels partieller Integration<br />
∫ s<br />
0<br />
woraus<br />
cos 2 y dy<br />
∫ s<br />
= sin y cos y∣ s +<br />
0<br />
∫ s<br />
= 1 ∫ s<br />
2 sin(2s) + s − cos 2 y dy,<br />
0<br />
0<br />
0<br />
sin 2 y dy = sin s coss +<br />
∫ s<br />
cos 2 y dy = 1 2 (1 2 sin(2s) + s) = 1 (sin s cos+s)<br />
2<br />
0<br />
(1 − cos 2 y) dy<br />
folgt. Für s := arcsin x mit 0 ≤ x < 1 ist aber 0 ≤ s < π/2, also coss > 0, so daß<br />
sin s = x, cos s =<br />
√<br />
1 − sin 2 s = √ 1 − x 2 .<br />
26
Damit erhalten wir insgesamt<br />
∫ x<br />
0<br />
√<br />
1 − t2 dt = 1 2 (x√ 1 − x 2 + arcsin x).<br />
Man überprüfe durch Differentiation nach x, daß die rechte Seite dieser Identität in<br />
der Tat eine Stammfunktion zu √ 1 − x 2 ist!<br />
c) Bestimme das unbestimmte Integral ∫ arctan xdx<br />
(unter dem unbestimmten Integral “ ∫ f(x) dx von f versteht man dabei eine<br />
”<br />
beliebige Stammfunktion von f; das unbestimmte Integral ist also im Grunde nur<br />
bis auf eine additive Konstante wohldefiniert!).<br />
Mit der Produktregel erhalten wir zunächst<br />
∫<br />
∫<br />
arctanxdx = x arctanx −<br />
∫<br />
x arctan ′ (x) dx = x arctan x −<br />
x<br />
1 + x 2 dx.<br />
Die Substitution y = x 2 liefert ferner<br />
∫ ∫<br />
x<br />
1 + x dx = 1<br />
1<br />
2 2<br />
1 + y dy = 1 log(1 + y) + c = 1 log(1 + 2 2 x2 ) + c,<br />
so daß<br />
∫<br />
arctanxdx = x arctan x − 1 2 log(1 + x2 ) + c,<br />
wobei c eine beliebige Konstante ist (man prüfe dies durch Ableiten nach!).<br />
Satz 1.19 (Differentiation von Grenzfunktionen) Sei f : [a, b] → C eine<br />
Funktion auf dem Intervall [a, b], a < b. Ist f der punktweise Limes einer Folge<br />
von Funktionen (f n ) n in C 1 ([a, b]), und konvergiert die Folge der Ableitungen (f ′ n ) n<br />
gleichmäßig gegen eine Funktion g ∈ C([a, b]), so ist f bereits stetig differenzierbar<br />
auf [a, b], und es gilt:<br />
f ′ (x) = g(x) = lim f n ′ (x) für alle x ∈ [a, b].<br />
n→∞<br />
Beweis. Wir setzen G(x) := ∫ x<br />
g(t)dt, x ∈ [a, b]. Nach Satz 1.11 ist dann<br />
a<br />
G(x) = lim<br />
für alle x ∈ [a, b], also nach Satz 1.16<br />
n→∞<br />
∫ x<br />
a<br />
f ′ n(t) dt<br />
G(x) = lim<br />
n→∞<br />
(f n (x) − f n (a)) = f(x) − f(a).<br />
Da G nach Satz 1.14 in C 1 ([a, b]) liegt, gilt dies auch für f = G + f(a), und es ist<br />
f ′ = G ′ = g.<br />
Q.E.D.<br />
27
1.5 Integration rationaler Funktionen<br />
1.5.1 Partialbruchzerlegung<br />
Die folgenden Aussagen über rationale Funktionen gehören eher in den Bereich der<br />
Algebra und sollen daher nur kurz skizziert werden.<br />
Sei R = p mit Polynomen p und q eine rationale Funktion auf C. Bezeichnen wir<br />
q<br />
mit GradP den Grad eines Polynoms P, und setzen wir o.B.d.A. Gradq ≥ 1 voraus,<br />
so erhält man mittels Polynomdivision mit Rest leicht folgende Aussage:<br />
Es existieren eindeutige Polynome v und r, so daß<br />
(1.15) p = vq + r und Gradr < Grad q.<br />
Damit ist<br />
(1.16) R = p q = v + r , mit Gradr < Gradq.<br />
q<br />
Satz 1.20 (Zerlegung in Linearfaktoren) Sei P ein Polynom vom Grad n ≥ 1<br />
auf C. Dann gibt es komplexe Zahlen a ≠ 0 und α 1 , . . .,α n , so daß<br />
P(z) = a(z − α 1 ) · · ·(z − α n ), z ∈ C.<br />
Beweis. Nach dem Fundamentalsatz der Algebra besitzt P eine Nullstelle α n ∈ C.<br />
Wenden wir (1.15) an auf p = P und q(z) := (z − α n ), so folgt:<br />
P(z) = v(z)(z − α n ) + c,<br />
wobei c eine komplexe Konstante ist. Wegen P(α n ) = 0 ergibt sich c = 0, d.h.<br />
P(z) = v(z)(z − α n ). Da Gradv = GradP − 1, folgt die Behauptung nun per<br />
Induktion nach dem Grad des Polynoms.<br />
Q.E.D.<br />
Wenden wir diesen Satz auf q in (1.16) an, und fassen wir alle Linearfaktoren (z−α j )<br />
von q mit gleichem α j zusammen, so sehen wir:<br />
Es gibt paarweise verschiedene komplexe Zahlen λ 1 . . .λ m sowie n 1 , . . .n m ∈ N × , so<br />
daß n 1 + · · · + n m = Gradq und<br />
(1.17) q(z) = (z − λ 1 ) n1 · · ·(z − λ m ) nm .<br />
Die Zahl n j bezeichnet man dann auch als die Vielfachheit der Nullstelle λ j des<br />
Polynoms q, und die Polynome (z − λ j ) auch als die Primfaktoren von q.<br />
Da die Polynome<br />
q k (z) := ∏ j≠k(z − λ j ) n j<br />
, k = 1, . . .,m,<br />
28
teilerfremd “ im Ring C[x] aller komplexen Polynome sind, d.h., da die einzigen<br />
”<br />
Teilerpolynome von q 1 , . . .,q m die nicht-trivialen konstanten Polynome sind, und da<br />
dieser Ring ein Hauptidealring“ist, kann man mit Methoden der Algebra zeigen,<br />
”<br />
daß Polynome u 1 , . . .,u m existieren, so daß<br />
(1.18) 1 = u 1 (z) ∏ j≠1<br />
(z − λ j ) n j<br />
+ · · · + u m (z) ∏ j≠m(z − λ j ) n j<br />
.<br />
Der Beweis gehört eher in die Algebra, soll aber dennoch hier kurz skizziert werden:<br />
Betrachte die Teilmenge<br />
J := {v 1 q 1 + . . . v m q m : v 1 , . . .,v m ∈ C[x]}<br />
des Rings C[x]. Dann sieht man rasch, daß J ein Ideal in C[x] ist, d.h. mit Q, L ∈ J<br />
und P ∈ C[x] liegen stets auch Q+L sowie PQ in J. Wähle nun ein Polynom Q ≠ 0<br />
minimalen Grades in J. Ist dann L ∈ J ein beliebiges Polynom in J, so erhält man<br />
durch Polynomdivision mit Rest<br />
L = UQ + R,<br />
mit Polynomen U und R, wobei GradR < GradQ. Offenbar liegt mit Q und L<br />
jedoch auch R = L + (−U)Q in J, und da der Grad von Q minimal in J gewählt<br />
wurde, muß somit R = 0 sein, d.h., das Polynom Q teilt jedes Polynom aus J.<br />
Insbesondere teilt es die Polynome q 1 , . . .,q m , und da diese teilerfremd sind, muß<br />
notwendig Q eine nichttriviale Konstante a ∈ C \ {0} sein. Da diese in J liegt, folgt<br />
sofort (1.18).<br />
Multipliziert man nun (1.18) mit r , so erhält man unter Ausnutzung von (1.17)<br />
q<br />
r(z)<br />
q(z) =<br />
p 1(z)<br />
(z − λ 1 ) + · · · + p m(z)<br />
n 1<br />
(z − λ m ) ,<br />
nm<br />
mit gewissen Polynomen p 1 , . . .,p m .<br />
Teilt man schließlich p j (z) durch das Polynom (z − λ j ) mit Rest, und wiederholt<br />
diesen Vorgang genügend oft, so erhält man schließlich<br />
p j (z)<br />
(z − λ j ) n j = v j(z) +<br />
n j<br />
∑<br />
k=1<br />
a jk<br />
(z − λ j ) k,<br />
für gewisse Polynome v j und Koeffizienten a jk ∈ C. Zusammen mit (1.16) erhalten<br />
wir<br />
Satz 1.21 (Partialbruchzerlegung) Sei R = p q<br />
Dann besitzt R eine Darstellung<br />
eine rationale Funktion auf C.<br />
(1.19) R(z) = P(z) + h 1 (z) + . . .h m (z),<br />
29
mit einer Polynomfunktion P und Hauptteilen h j der Form<br />
(1.20) h j (z) =<br />
n j<br />
∑<br />
k=1<br />
a jk<br />
(z − λ j ) k.<br />
Dabei sind die λ j die paarweise verschiedenen Nullstellen und n j deren Vielfachheiten<br />
des Nennerpolynoms q, falls wir voraussetzen, daß die Polynome p und q<br />
keine gemeinsamen Linearfaktoren haben.<br />
Setzen wir o.B.d.A. voraus, daß a j nj ≠ 0, so nennt man λ j einen Pol der Ordnung<br />
n j von R. Man kann übrigens zeigen, daß die obige Zerlegung eindeutig ist.<br />
Für die konkrete Durchführung einer Partialbruchzerlegung ist die folgende offenkundige<br />
Beobachtung nützlich, welche es gestattet, den Koeffizienten a j nj für den<br />
Term mit höchstem Exponenten n j im Haupteil h j zu bestimmen:<br />
(1.21) a j nj = lim<br />
z→λj<br />
R(z)(z − λ j ) n j<br />
.<br />
Anhand zweier Beispiele möchte ich noch zeigen, wir man eine solche Partialbruchzerlegung<br />
konkret herstellen kann.<br />
Beispiele 1.22 (a) Sei<br />
R(z) := z + 1<br />
z(z − 1) 2.<br />
Da der Grad des Zählerpolynoms bereits kleiner als der Grad des Nennerpolynoms<br />
ist, besitzt die Partialbruchzerlegung die Gestalt<br />
(1.22) R(z) = a z + b 1<br />
(z − 1) + b 2<br />
(z − 1) 2.<br />
a und b 2 berechnen wir nach (1.21):<br />
Wegen R(z)z = z+1 ist a = lim R(z)z = 1, und wegen R(z)(z − 1) 2 = z+1<br />
(z−1) 2 z→0 z<br />
b 2 = lim R(z)(z − 1) 2 = 2.<br />
z→1<br />
Um b 1 zu bestimmen, betrachten wir die Differenz<br />
R 1 (z) := R(z) −<br />
(<br />
b<br />
)<br />
2<br />
az + = b 1<br />
(z − 1) 2 (z − 1) .<br />
ist<br />
Beachte, daß die rechte Seite gerade die Partialbruchzerlegung der neuen rationalen<br />
Funktion R 1 ist. Da a = 1, b 2 = 2 bekannt sind, ergibt eine einfache Rechnung<br />
R 1 (z) = −z2 + z<br />
z(z − 1) 2 = −1<br />
z − 1 .<br />
30
Hieraus ergibt sich sofort b 1 = −1, also insgesamt<br />
z + 1<br />
z(z − 1) = 1 2 z − 1<br />
(z − 1) + 2<br />
(z − 1) 2.<br />
Alternativ kann man b 1 auch aus (1.21), angewandt auf R 1 , gewinnen. Diese Bemerkung<br />
ist vor allem für den Fall von Polen höherer Ordnung von Bedeutung, da<br />
sich mit unserem Vorgehen ein Rekursionsschema zur Berechnung der Koeffizienten<br />
der Partialbruchzerlegung ergibt (damit erhalten wir dann auch die behauptete<br />
Eindeutigkeit der Partialbruchzerlegung).<br />
(b) Sei<br />
R(z) :=<br />
1<br />
(z − 2) 2 + 1 .<br />
Wegen (z −2) 2 +1 = (z −(2+i))(z −(2 −i)) besitzt die Partialbruchzerlegung von<br />
R die Gestalt<br />
a<br />
R(z) =<br />
z − (2 + i) + b<br />
z − (2 − i) .<br />
Mit (1.21) erhält man sofort a = 1 und b = − 1 , also insgesamt<br />
2i 2i<br />
1<br />
(z − 2) 2 + 1 = − i/2<br />
z − (2 + i) + i/2<br />
z − (2 − i) .<br />
1.5.2 Stammfunktionen rationaler Funktionen<br />
Sei R = p eine reellwertige rationale Funktion auf R, d.h. p und q sind reelle Polynomfunktionen.<br />
Betrachte die<br />
q<br />
Partialbruchzerlegung<br />
(1.23) R(x) = v(x) + h 1 (x) + . . . h m (x)<br />
mit einer Polynomfunktion v und Hauptteilen h j der Form<br />
(1.24) h j (x) =<br />
n j<br />
∑<br />
k=1<br />
a jk<br />
(x − λ j ) k<br />
von R, welche uns jetzt nur für reelles x ∈ R interessiert. Die Nullstellen λ j des<br />
Nennerpolynoms q können dabei reell oder auch komplex sein (vgl. obige Beispiele).<br />
Da jedoch R(x) = R(x) für alle x ∈ R gilt, tritt wegen der Eindeutigkeit der<br />
Partialbruchzerlegung mit jedem Term<br />
a jk<br />
(x−λ j ) k<br />
auch der konjugiert komplexe Term<br />
a jk<br />
(x−λ j ) k in der Partialbruchzerlegung auf. Diese Beobachtung ist vor allem für k = 1<br />
nützlich, denn ist λ = α + iβ, mit α, β ∈ R, so gilt<br />
Wir sehen damit:<br />
a<br />
(x − λ) + a (a + a)x − (aλ + aλ)<br />
= .<br />
(x − λ) (x − α) 2 + β 2<br />
Mittels Partialbruchzerlegung können wir die reelle rationale Funktion R zerlegen in<br />
eine Summe rationaler Funktionen folgenden Typs:<br />
31
(a) Eine Polynomfunktion.<br />
(b) Funktionen der Gestalt<br />
(c) Funktionen der Gestalt<br />
a<br />
mit n ≥ 2.<br />
(x − λ)<br />
n<br />
ax + b<br />
(x − α) 2 + β2, mit a, b, α, β ∈ R, wobei β ≠ 0.<br />
Polynomfunktionen lassen sich leicht integrieren, und die Funktionen vom Typ (b)<br />
besitzen z.B.<br />
a<br />
(1 − n)(x − λ) n−1<br />
als Stammfunktion (Übung). Die Funktionen vom Typ (c) schließlich lassen sich<br />
x − α<br />
kombinieren aus Funktionen der Gestalt<br />
(x − α) 2 + β2, welche offenbar die Funktion<br />
1<br />
2 log[(x − α)2 + β 2 ]<br />
als Stammfunktion besitzt (hierauf wird man durch die Substitution y = (x−α) 2 +β 2<br />
geführt), und Funktionen des Typs<br />
g(x) :=<br />
1<br />
(x − α) 2 + β 2.<br />
Die Substitution y = (t−a)<br />
β<br />
liefert hier z.B.<br />
∫ x<br />
0<br />
1<br />
(t − α) 2 + β dt = 1 ∫ (x−a)<br />
β<br />
2 β −a/β<br />
1<br />
y 2 + 1 dy,<br />
so daß offenbar eine Stammfunktion G zu g gegeben ist durch<br />
G(x) := 1 β arctan(x − a<br />
β ).<br />
Damit ist die Frage nach der Integration rationaler Funktionen im Prinzip<br />
vollständig gelöst.<br />
1.5.3 Integration von R(cosx, sinx).<br />
Sei R(x, y) eine rationale Funktion in den reellen Variablen x, y, und betrachte die<br />
Funktion f(x) := R(cos x, sin x). Z.B. könnte dies die Funktion f(x) := sinx cos2 x+5<br />
sin 2 x+7cos 4 x<br />
sein.<br />
Wenden wir die Substitution t := tan( x ) an, d.h. x = 2 arctant, so ist in unserer<br />
2<br />
formalen Schreibweise dx = 2 dt, und eine einfache Rechnung zeigt, daß cosx =<br />
1+t 2<br />
32
1−t 2<br />
ist und sin x = 2t , so daß das unbestimmte Integral ∫ R(cosx, sin x) dx in das<br />
1+t 2 1+t 2<br />
unbestimmte Integral ∫ ( 1 − t<br />
2<br />
2t<br />
) 2<br />
R<br />
1 + t 2, 1 + t 2 1 + t dt 2<br />
übergeht. Unter dem Integralzeichen steht nun eine rationale Funktion in der Variablen<br />
t, so daß das Integral mit Hilfe der Methoden des vorherigen Abschnitts<br />
prinzipiell berechnet werden kann. Ersetzt man im Ergebnis dieser Berechnung dann<br />
wieder t durch tan( x ), so erhält man eine Stammfunktion zu f.<br />
2<br />
Damit ist die Frage nach der Integration von Funktionen obiger Gestalt<br />
R(cosx, sin x) im Prinzip ebenfalls vollständig gelöst.<br />
Die Integrationen weiterer Klassen von Funktionen kann mittels geeigneter Substitutionen<br />
ebenfalls auf die Integration rationaler Funktionen zurückgeführt werden.<br />
Hierzu siehe z.B. [C], Kapitel IV.<br />
Bemerkungen. Während man die Ableitung einer Funktion, die sich aus den behandelten<br />
”<br />
elementaren“ Funktionen zusammensetzt, mit den bekannten Regeln<br />
direkt berechnen kann, lassen sich neben den ”<br />
Grundintegralen“ gewisse Klassen<br />
von Funktionen noch ”<br />
elementar integrieren“ in dem Sinne, daß sich explizite<br />
analytische Ausdrücke in den betrachteten elementaren Funktionen wie<br />
x α , e x , sin x, cosx, log, arctan etc. für Stammfunktionen angeben lassen. Beispielsweise<br />
gilt dies für alle rationalen Funktionen, wie wir gesehen haben. Allerdings gelingt<br />
dies oftmals nur noch mittels geschickter Ansätze und trickreicher Substitutionen:<br />
Die Differentiation gehört zum Handwerk, die Integration zur Kunst“.<br />
”<br />
Viele Integrale widersetzen sich jedoch allen Tricks. Zum Beispiel kann man beweisen,<br />
daß sich die elliptischen Integrale“<br />
”<br />
und<br />
F k (x) :=<br />
E k (x) :=<br />
∫ x<br />
0<br />
∫ x<br />
0<br />
1<br />
√ dt, (0 ≤ x < ∞)<br />
1 − k2 sin 2 t<br />
√<br />
1 − k 2 sin 2 tdt, (0 ≤ x < ∞)<br />
nicht elementar integrieren lassen (hier sei 0 < k < 1). Die elliptischen Integrale<br />
treten zum Beispiel bei der Berechnung der Bogenlänge einer Ellipse auf.<br />
1.6 Taylor-Approximation<br />
Ist P(x) = ∑ n<br />
k=0 a kx k eine polynomiale Abbildung, so ist offenbar<br />
d.h.<br />
(1.25) P(x) =<br />
a k = P (k) (0)/k! ,<br />
n∑<br />
k=0<br />
33<br />
P (k) (0)<br />
x k .<br />
k!
P ist also schon durch die Ableitungen (bis zur Ordnung n) im Punkte 0 bestimmt.<br />
Sei nun I ein nicht nur aus einem Punkt bestehendes Intervall. Ist f ∈ C n (I), und ist<br />
a ein Punkt aus I, so definieren wir (1.25) verallgemeinernd das Taylor-Polynom<br />
der Ordnung n in a von f als<br />
T n,a (f)(x) :=<br />
n∑<br />
k=0<br />
f (k) (a)<br />
(x − a) k .<br />
k!<br />
Wir wollen untersuchen, inwieweit dieses Polynom die gegebene Funktion f zumindest<br />
in der Nähe des Punktes a approximiert.<br />
Satz 1.23 (Taylor-Formel) Sei f ∈ C n+1 (I). Dann ist für alle x ∈ I<br />
f(x) = T n,a (f)(x) + R n (x) ,<br />
wobei<br />
ist.<br />
R n (x) = 1 n!<br />
∫ x<br />
a<br />
(x − t) n f (n+1) (t) dt<br />
Beweis durch Induktion nach n.<br />
Für n = 0 gilt nach dem Hauptsatz der Differential- und Integralrechnung<br />
f(x) = f(a) +<br />
∫ x<br />
a<br />
f ′ (t) dt = T 0,a (f)(x) + R 0 (x) .<br />
Wir nehmen an, daß die Formel für R n für ein gegebenes n ≥ 0 gültig ist. Dann<br />
folgt für f ∈ C n+2 (I) mittels partieller Integration<br />
∫ x<br />
R n (x) = 1 (x − t) n f (n+1) (t) dt<br />
n! a<br />
= 1 −1<br />
∫<br />
n! n + 1 (x − t)n+1 f (n+1) (t) ∣ x 1 x<br />
+ (x − t) n+1 f (n+2) (t) dt<br />
t=a n!(n + 1) a<br />
∫<br />
1<br />
=<br />
(n + 1)! f(n+1) (a)(x − a) n+1 1 x<br />
+ (x − t) n+1 f (n+2) (t) dt.<br />
(n + 1)!<br />
Hieraus folgt die Behauptung.<br />
a<br />
Q.E.D.<br />
Korollar 1.24 (Taylor-Approximation) Sei f ∈ C n+1 (I), und sei<br />
|f (n+1) (x)| ≤ M für alle x ∈ I.<br />
Dann gilt mit c k := f(k) (a)<br />
, k = 0, . . ., n :<br />
k!<br />
34
(1.26) f(x) = c 0 + c 1 (x − a) + c 2 (x − a) 2 + · · · + c n (x − a) n + R n (x) ,<br />
wobei<br />
|x − a|n+1<br />
(1.27) |R n (x)| ≤ M<br />
(n + 1)!<br />
Beweis. Ist |f (n+1) | auf I durch M ≥ 0 beschränkt, so erhält man für R n (x) folgende<br />
Abschätzung (sei o.B.d.A. x > a):<br />
|R n (x)| ≤ 1 n!<br />
∫ x<br />
a<br />
(x − t) n (x − a)n+1<br />
M dt = M<br />
(n + 1)!<br />
.<br />
.<br />
Q.E.D.<br />
Ist beispielsweise f ein Polynom vom Grade n, so ist f (n+1) = 0, d.h. man kann<br />
M = 0 wählen und erhält R n = 0. In diesem Falle ist also<br />
f(x) =<br />
n∑<br />
k=0<br />
f (k) (a)<br />
(x − a) k ,<br />
k!<br />
und zwar für jeden Punkt a ∈ R. Im allgemeinen Fall liefert (1.26), (1.27) eine Approximation<br />
von f durch ein Polynom vom Grade ≤ n, wobei der Fehler, welcher bei<br />
dieser Approximation auftritt, durch (1.27) kontrolliert wird und von der Ordnung<br />
O(|x − a| n+1 ) ist. Dieser ist offenbar um so geringer, je näher sich x bei a befindet;<br />
ferner wird sich i.a. die Güte der Approximation verbessern, je größer n gewählt<br />
werden kann.<br />
Für n = 4, M = 1 und |x−a| ≤ 1/2 beträgt der Fehler z.B. höchstens 2−5<br />
5!<br />
< 0, 00027.<br />
Für reellwertige Funktionen läßt sich das Restglied R n auch wie folgt darstellen:<br />
Satz 1.25 (Lagrangesche Form des Restglieds) Sei f ∈ C n+1 (I, R), und sei<br />
a ∈ I. Dann existiert zu jedem x ∈ I ein ξ zwischen a und x, so daß gilt:<br />
(1.28) f(x) =<br />
n∑<br />
k=0<br />
f (k) (a)<br />
(x − a) k + f(n+1) (ξ)<br />
k! (n + 1)! (x − a)n+1 .<br />
Insbesondere gilt<br />
(1.29) f(x) =<br />
∑n+1<br />
k=0<br />
f (k) (a)<br />
(x − a) k + o(|x − a| n+1 ) .<br />
k!<br />
35
Bemerkung 1.26 Ist f ∈ C 2 (I, R), und ist ξ ∈ I ein kritischer Punkt von f, d.h.<br />
ist f ′ (ξ) = 0, und gilt ferner f ′′ (ξ) > 0, so folgert man mit (1.29) leicht, daß f in ξ<br />
ein lokales Mimimum besitzt (Übung).<br />
Für den Beweis benutzen wir<br />
Satz 1.27 (Mittelwertsatz für Integrale) Seien f, w ∈ C(I, R) stetige reellwertige<br />
Funktionen auf dem Intervall I = [a, b]. Ist w ≥ 0 auf I, so gibt es einen Punkt<br />
ξ ∈ I, so daß gilt:<br />
Beweis. Sei<br />
∫ b<br />
a<br />
f(x) w(x) dx = f(ξ)<br />
c :=<br />
∫ b<br />
a<br />
∫ b<br />
a<br />
w(y) dy ∈ R + 0 .<br />
Nach dem Satz vom Maximum gibt es ξ 1 , ξ 2 ∈ I mit<br />
Es folgt<br />
also nach Integration über I<br />
w(x) dx.<br />
f(ξ 1 ) ≤ f(x) ≤ f(ξ 2 ) für alle x ∈ I.<br />
f(ξ 1 ) w(x) ≤ f(x) w(x) ≤ f(ξ 2 ) w(x) für alle x ∈ I,<br />
cf(ξ 1 ) ≤<br />
∫ b<br />
a<br />
f(x) w(x) dx ≤ cf(ξ 2 ).<br />
Wenden wir den Zwischenwertsatz auf die stetige Funktion cf an, so gibt es also ein<br />
ξ ∈ I mit cf(ξ) = ∫ b<br />
f(x) w(x) dx.<br />
a<br />
Q.E.D.<br />
Beweis von Satz 1.25. Wenden wir obigen Mittelwertsatz auf das Integral<br />
R n (x) = 1 n!<br />
∫ x<br />
a<br />
(x − t) n f (n+1) (t) dt<br />
an, mit w(t) := (x − t) n (x ist hier festgehalten!), so finden wir ein ξ ∈ [a, b] mit<br />
R n (x) = f (n+1) (ξ) 1 n!<br />
womit (1.28) bewiesen ist.<br />
Setzen wir<br />
∫ x<br />
a<br />
(x − t) n dt = f(n+1) (ξ)<br />
(n + 1)! (x − a)n+1 ,<br />
r(x) := f(n+1) (ξ)<br />
(n + 1)! − f(n+1) (a)<br />
(n + 1)! ,<br />
36
so gilt damit<br />
f(x) =<br />
∑n+1<br />
k=0<br />
f (k) (a)<br />
(x − a) k + r(x)(x − a) n+1 .<br />
k!<br />
Da ξ zwischen a und x liegt, gilt dabei aufgrund der Stetigkeit von f (n+1) im Punkte<br />
a offenbar lim<br />
x→a<br />
r(x) = 0. Damit ist auch (1.29) nachgewiesen.<br />
Q.E.D.<br />
Ist f ∈ C ∞ (I) unendlich oft differenzierbar, und ist a ∈ I, so heißt die Potenzreihe<br />
in (x − a)<br />
∞∑ f (k) (a)<br />
T a (f)(x) := (x − a) k<br />
k!<br />
die Taylorreihe von f in a.<br />
k=0<br />
37
WARNUNGEN:<br />
i) Der Konvergenzradius von T a (f) kann durchaus 0 sein.<br />
ii) Falls die Taylorreihe von f konvergiert, so konvergiert sie nicht notwendig<br />
gegen f.<br />
Beispiel 1.28 Betrachte die Funktion ϕ : R → R,<br />
{<br />
e −1/x , x > 0,<br />
ϕ(x) :=<br />
0, x ≤ 0.<br />
Man kann zeigen, daß ϕ unendlich oft differenzierbar ist, auch in der 0, so dass<br />
insbesondere ϕ (k) (0) = 0 für alle k ∈ N. Die Taylorreihe von ϕ in a = 0 stellt somit<br />
die triviale Funktion f = 0 dar, welche offenkundig verschieden von ϕ ist (Übung)!<br />
1.7 Das uneigentliche Riemannsche Integral<br />
Sei I ein halboffenes Intervall der Form I = [a, b[ mit −∞ < a < b ≤ ∞, und sei<br />
f : I → C eine Funktion auf I.<br />
Ist β ∈ [a, b[, und ist die Einschränkung f| [a,β] von f auf [a, β] integrierbar, so sagen<br />
wir, daß f auf [a, β] integrierbar ist und schreiben schreiben<br />
∫ β<br />
a<br />
f(x) dx :=<br />
∫ β<br />
a<br />
f| [a,β] (x) dx .<br />
Definition. Die Funktion f : I → C heiße auf I im uneigentlichen Sinne integrierbar<br />
oder uneigentlich integrierbar, falls f auf jedem kompakten Teilintervall<br />
[a, β] mit β ∈ [a, b[ integrierbar ist und der Grenzwert<br />
∫ β<br />
lim f(x) dx<br />
β→b<br />
a<br />
existiert. Dieser Grenzwert heißt das uneigentliche Riemannsche Integral von<br />
f über das Intervall [a, b[ und wird mit<br />
∫ b<br />
a<br />
f(x) dx<br />
bezeichnet. Eine analoge Definition gilt für links-halboffene Intervalle ]a, b] mit<br />
−∞ ≤ a < b < ∞. Ist −∞ ≤ a < b ≤ +∞, so heißt f :]a, b[→ C uneigentlich<br />
38
integrierbar, wenn für ein c ∈]a, b[ die Einschränkungen von f auf die Intervalle<br />
]a, c] und [c, b[ uneigentlich integrierbar sind. Das Integral ist in diesem Falle durch<br />
definiert.<br />
∫ b<br />
f dx :=<br />
∫ c<br />
f dx +<br />
∫ b<br />
a<br />
a c<br />
f dx<br />
Bemerkungen: a) Es ist klar, daß im letzten Falle die Definition unabhängig von<br />
der Wahl von c ∈]a, b[ ist.<br />
b) Sind a, b ∈ R und ist f auf [a, b] integrierbar, so ist f auch auf jedem anderen<br />
Intervall I mit den Endpunkten a und b uneigentlich integrierbar, und die Integrale<br />
stimmen überein.<br />
Wir bezeichnen für s ∈ R mit p s die auf ]0, ∞[ durch p s (x) := x s definierte stetige<br />
Funktion.<br />
Satz 1.29 (i) p s ist genau dann auf dem Intervall ]0, 1] uneigentlich integrierbar,<br />
wenn s > −1 ist. Dann gilt:<br />
∫ 1<br />
0<br />
x s dx = 1<br />
s + 1 .<br />
(ii) p s ist genau dann auf dem Intervall [1, ∞[ uneigentlich integrierbar, wenn s < −1<br />
ist. Dann gilt<br />
∫ ∞<br />
x s dx = −1<br />
s + 1 .<br />
Beweis. Dies folgt sofort aus den für 0 < a < b gültigen Formeln<br />
∫ b<br />
a<br />
∫ b<br />
a<br />
1<br />
x s dx = 1<br />
s + 1 (bs+1 − a s+1 ), s ≠ 1<br />
x −1 dx = log b a .<br />
Z.B. ist danach für 0 < α < 1 und s > −1<br />
∫ 1<br />
α<br />
x s dx = 1<br />
s + 1 (1 − αs+1 ),<br />
woraus wegen s + 1 > 0 folgt, daß der Grenzwert für α → 0 existiert und gegeben<br />
ist durch ∫ 1 ∫ 1<br />
0 xs dx = lim<br />
α→0 α xs dx = 1 . s+1<br />
Für s < −1 zeigt dieselbe Formel, daß der Grenzwert nicht existiert, da der Exponent<br />
s+1 negativ ist. Ähnlich folgt für s = −1 aus ∫ 1<br />
α x−1 dx = log 1 , daß der Grenzwert<br />
α<br />
ebenfalls nicht existiert.<br />
Analog beweist man die Aussagen in (ii).<br />
Q.E.D.<br />
39
1.8 Rektifizierbare Kurven<br />
Definition. Eine stetige Abbildung γ von einem kompakten Intervall [a, b] nach C<br />
heißt eine Kurve oder ein Weg in C. Ist γ(a) = γ(b), so heißt γ eine geschlossene<br />
Kurve. Die Bildmenge γ([a, b]) bezeichnet man als die Spur der Kurve.<br />
Achtung: Eine Kurve ist also eine Abbildung, während ihre Spur das ist, was<br />
man sich anschaulich eher unter einer Kurve vorstellt. Verschieden Kurven können<br />
insbesondere dieselbe Spur besitzen.<br />
γ(x n)<br />
γ(x 1)<br />
γ(x 2)<br />
γ(x 0)<br />
γ(x 3)<br />
Abb. 1.1: Bogenlänge<br />
Ist P = {x 0 , . . ., x n } eine Partition von [a, b], d.h. sind die x j Punkte in [a, b] mit<br />
a = x 0 < x 1 < · · · < x n = b,<br />
so ordnen wir dieser die Zahl<br />
L(P, γ) :=<br />
n∑<br />
|γ(x j ) − γ(x j−1 )|<br />
j=1<br />
zu. Da |γ(x j )−γ(x j−1 )| der Abstand zwischen den Punkten γ(x j−1 ) und γ(x j ) ist, ist<br />
L(P, γ) offenbar die Länge des Polygonzuges mit den Ecken γ(x 0 ), γ(x 1 ), . . .γ(x n ),<br />
in dieser Reihenfolge. Wählen wir die Partition immer feiner, so nähert sich dieser<br />
Polygonzug anschaulich der Spur von γ immer mehr. Somit ist es sinnvoll, die Länge<br />
von γ als<br />
L(γ) := sup L(γ, P)<br />
P<br />
zu definieren, wobei das Supremum über alle Partitionen von [a, b] gebildet wird. Ist<br />
L(γ) < ∞, so sagt man, γ sei rektifizierbar.<br />
Sei nun γ eine stetig differenzierbare Kurve. In diesem Fall gilt nach dem Hauptsatz<br />
der Differential- und Integralrechnung<br />
γ(x j ) − γ(x j−1 ) =<br />
40<br />
∫ xj<br />
x j−1<br />
γ ′ (t) dt,
also insbesondere |γ(x j ) −γ(x j−1 )| ≤ ∫ x j<br />
x j−1<br />
|γ ′ (t)| dt. Hieraus folgt durch Summation<br />
für jede Partition P von [a, b]<br />
L(P, γ) ≤<br />
so daß γ rektifizierbar ist. Genauer gilt<br />
∫ b<br />
a<br />
|γ ′ (t)| dt < ∞,<br />
Satz 1.30 Ist die Kurve γ : [a, b] → C stetig differenzierbar, so ist sie rektifizierbar,<br />
und es gilt<br />
L(γ) =<br />
∫ b<br />
a<br />
|γ ′ (t)| dt.<br />
Ich möchte dies hier nur für den (nicht sonderliche interessanten) Fall beweisen,<br />
daß γ rellwertig ist, da man hier leicht mit Hilfe des Mittelwertsatzes für Integrale<br />
argumentieren kann. Danach ist nämlich für jede Partition P wie zuvor offenbar<br />
|γ(x j ) − γ(x j−1 )| = |γ ′ (ξ j )<br />
∫ xj<br />
für geeignete Punkte ξ j ∈ [x j−1 , x j ], so daß<br />
x j−1<br />
dt| = |γ ′ (ξ j )|(x j−1 − x j ),<br />
L(P, γ) =<br />
n∑<br />
|γ ′ (ξ j )|(x j−1 − x j ).<br />
j=1<br />
Die Riemannsumme auf der rechten Seite konvergiert aber offenbar gegen das Integral<br />
∫ b<br />
a |γ′ (t)| dt, falls die Feinheit der Partition gegen Null stebt.<br />
Für einen Beweis im allgemeinen Fall sei z.B. auf Rudins Buch [R], S. 159, verwiesen.<br />
Beispiel: Bogenlänge auf dem Kreis: Es bezeichne wieder cis : [0, 2π] → C<br />
die Funktion t ↦→ e it . In der <strong>Analysis</strong> I hatten wir gesehen, daß cis das halboffene<br />
Intervall [0, 2π[ bijektiv auf den Einheitskreis S 1 abbildet. Wegen cis(0) = cis(2π) ist<br />
cis : [0, 2π] → C somit eine geschlossene Kurve, und ihre Spur ist der Einheitskreis.<br />
Ferner ist cis ′ (t) = ie it , also |cis ′ (t)| = 1 für alle t.<br />
Ist nun 0 ≤ α ≤ 2π, so beschreibt das Integral ∫ α<br />
0 |cis′ (t)| dt die Länge des Kreisbogens<br />
mit Anfangspunkt cis(0) = 1 und Endpunkt cis(α) = e iα , welche sich nach<br />
Satz 1.30 berechnet zu<br />
∫ α<br />
0<br />
|cis ′ (t)| dt =<br />
∫ α<br />
0<br />
1 dt = α.<br />
Dies bedeutet, daß der Parameter α tatsächlich der Winkel, gemessen im Bogenmaß,<br />
zwischen dem Punkt e iα auf dem Einheitskreis und dem Punkt 1 auf der reellen<br />
Achse ist. Dies rundet unser geometrisches Bild von der Abbildung t ↦→ e it , welche<br />
wir ja bereits in der <strong>Analysis</strong> I betrachtet hatten, ab.<br />
41
Kapitel 2<br />
Normierte Vektorräume<br />
2.1 Grundlegende Begriffe<br />
Definitionen. Sei E ein Vektorraum über K = R oder K = C (im folgenden kurz<br />
Vektorraum“genannt). Unter einer Norm auf E versteht man eine Abbildung<br />
”<br />
‖ · ‖ : E → R<br />
mit folgenden Eigenschaften: Für alle x, y ∈ E und λ ∈ K gilt<br />
(a) ‖x‖ ≥ 0;<br />
(b) ‖x‖ = 0 ⇔ x = 0;<br />
(c) ‖λx‖ = |λ| ‖x‖;<br />
(d) ‖x + y‖ ≤ ‖x‖ + ‖y‖.<br />
(Dreiecksungleichung)<br />
Diese Eigenschaften ähneln denen des Absolutbetrags | · | einer reellen oder komplexen<br />
Zahl, und in der Tat ist dieser eine Norm auf E = R bzw. E = C. Ein<br />
weiteres Beispiel ist die Supremumsnorm ‖ · ‖ u auf dem Vektorraum E = B(X) aller<br />
beschränkten Funktionen auf einer nichtleeren Menge X (siehe Bemerkungen 1.5).<br />
Ein normierter Vektorraum ist ein Paar (E, ‖ · ‖), bestehend aus einem Vektorraum<br />
E und einer Norm ‖ · ‖ auf E. Ist aus dem Kontext klar, um welche Norm es<br />
sich handelt, so schreibt man meist nur E anstelle des Paares (E, ‖ · ‖).<br />
Eine Folge (x j ) j in E heiße konvergent mit Grenzwert x ∈ E (in Zeichen : x j → x<br />
oder x = lim<br />
j→∞<br />
x j ), wenn es zu jedem ε > 0 ein j 0 = j 0 (ε) ∈ N gibt so, daß gilt:<br />
‖x − x j ‖ < ε für alle j ≥ j 0 .<br />
Sie heiße Cauchy-Folge, wenn es zu jedem ε > 0 ein j 0 = j 0 (ε) ∈ N gibt so, daß<br />
gilt:<br />
‖x j − x k ‖ < ε für alle j, k ≥ j 0 .<br />
42
E heiße vollständig, wenn jede Cauchy-Folge in E einen Grenzwert in E besitzt.<br />
Vollständige normierte Vektorräume heißen auch Banachräume.<br />
Beispiel. In der <strong>Analysis</strong> I (vergl. Satz 5.15 sowie die Bemerkung nach Satz 7.3)<br />
wurde gezeigt, daß (K, | · |) ein vollständiger 1-dimensionaler Vektorraum über K,<br />
K = R oder K = C, ist.<br />
Die Vollständigkeit eines normierten Vektorraums ist eine fundamentale Eigenschaft.<br />
Man kann beweisen, daß jeder normierte Vektorraum eine ”<br />
Vervollständigung“ besitzt,<br />
ähnlich wie sich R durch Vervollständigung aus Q gewinnen läßt.<br />
Ist (x n ) n∈N eine Folge in E, so versteht man unter der unendlichen Reihe ∞ ∑<br />
zunächst die Folge (s n ) n∈N der Partialsummen<br />
x k<br />
k=0<br />
s n :=<br />
n∑<br />
x k = x 0 + · · · + x n , n ∈ N,<br />
k=0<br />
k=0<br />
in E. Konvergiert diese gegen einen Grenzwert s ∈ E, so bezeichnet man diesen<br />
∑<br />
ebenfalls mit ∞ x k , ganz ähnlich wie für Zahlenreihen. Analog zum Begriff der ab-<br />
∑<br />
soluten Konvergenz bezeichnet man die Reihe ∞ x k in E als normal konvergent,<br />
∑<br />
falls die Reihe ∞ ∑<br />
‖x k ‖ konvergiert, d.h. falls ∞ ‖x k ‖ < ∞. Es gelten dann die<br />
k=0<br />
folgenden Analoga zu den entsprechenden Sätzen 5.17 und 8.1 aus der <strong>Analysis</strong> I:<br />
Satz 2.1 (Cauchy-Kriterium für Reihen) Sei E ein Banachraum. Dann ist eine<br />
Reihe ∑ k x k in E genau dann konvergent, wenn es zu jedem ε > 0 ein n(ε) ∈ N<br />
gibt, so daß ∥ ∥ ∥∥∥∥ ∑ m ∥∥∥∥<br />
x k < ε für alle m ≥ n ≥ n(ε).<br />
k=n<br />
Satz 2.2 Sei E ein Banachraum. Eine normal konvergente Reihe in E konvergiert<br />
auch im gewöhnlichen Sinn.<br />
Diese Sätze können fast wortgleich wie die analogen Sätze über Zahlenreihen bewiesen<br />
werden; man muß nur den Betrag |·| einer Zahl durch die Norm ‖·‖ auf E ersetzen<br />
und den Begriff der absoluten Konvergenz durch den der normalen Konvergenz.<br />
k=0<br />
k=0<br />
2.2 p-Normen auf K n und die Banachräume l p<br />
Sei wieder K = R oder K = C. Wir wollen nun eine wichtige Klasse von Normen<br />
auf dem K n einführen.<br />
43
2.2.1 Die p-Norm auf dem K n<br />
Ist x = (x 1 , . . .,x n ) ein Vektor im K n , so setzen wir<br />
falls 1 ≤ p < ∞, und<br />
Wir bemerken, daß<br />
‖x‖ p := (|x 1 | p + · · · + |x n | p ) 1/p ,<br />
‖x‖ ∞ := max<br />
j=1,...,n |x j|.<br />
‖x‖ ∞ = lim<br />
p→∞<br />
‖x‖ p ,<br />
was die Notation ‖ · ‖ ∞ rechtfertigt (Übung). Wir werden zeigen, daß für jedes p<br />
mit 1 ≤ p ≤ ∞ durch ‖ · ‖ p eine Norm auf dem n-dimensionalen K-Vektorraum<br />
K n gegeben ist. Hierzu erweist es sich als nützlich, zu einer etwas allgemeineren<br />
Situation überzugehen.<br />
Sei dazu A eine beliebige Menge der Mächtigkeit n ∈ N × . Die Menge K A aller<br />
Funktionen f : A → K, versehen mit der üblichen Addition sowie Multiplikation mit<br />
Skalaren aus dem Körper K, bildet dann einen n-dimensionalen K-Vektorraum. Ist<br />
nämlich A = {a 1 , . . ., a n } eine Abzählung der Menge A, so ist durch die Abbildung<br />
Φ : f ↦→ (f(a 1 ), . . .,f(a n ))<br />
ein linearer Isomorphismus Φ : K A → K n definiert, wie man sofort sieht. Setzen wir<br />
für f ∈ K A ‖f‖ p :=<br />
( ) 1/p<br />
∑<br />
|f(a)| p =<br />
a∈A<br />
|f(a j )| p ) 1/p<br />
,<br />
( n∑<br />
j=1<br />
falls 1 ≤ p < ∞, und<br />
so gilt offenbar zudem<br />
‖f‖ ∞ := max<br />
a∈A |f(a)|,<br />
‖f‖ p = ‖Φ(f)‖ p für alle f ∈ K A .<br />
Damit wird klar, daß es genügt zu zeigen, daß durch ‖ · ‖ p eine Norm auf dem<br />
Vektorraum K A definiert ist. Hierzu beobachten wir zuerst, daß sich die Höldersche<br />
Ungleichung aus Satz 10.22 (<strong>Analysis</strong> I) umschreiben läßt als<br />
(<br />
n∑<br />
n∑<br />
) 1/p ( n∑<br />
) 1/q<br />
|f(a j )g(a j )| ≤ |f(a j )| p |g(a j )| q ,<br />
j=1<br />
j=1<br />
j=1<br />
falls 1 < p, q mit 1 p + 1 q<br />
= 1, d.h. als<br />
(2.1) ‖fg‖ 1 ≤ ‖f‖ p ‖g‖ q , f, g ∈ K A .<br />
44
Diese Ungleichung bleibt, wie man leicht nachprüft, auch noch gültig für p = 1 und<br />
q = ∞ sowie p = ∞ und q = 1. Somit gilt diese Höldersche Ungleichung (2.1)<br />
wann immer p, q ∈ [1, ∞] konjugierte Exponenten sind, d.h. falls gilt<br />
1<br />
p + 1 q = 1.<br />
Dabei sei in diesem Zusammenhang 1 := 0 gesetzt. Beachte, daß für 1 < p < ∞<br />
∞<br />
der konjugierte Exponent zu p gegeben ist durch<br />
q =<br />
p<br />
p − 1 .<br />
Satz 2.3 (Minkowskische Ungleichung) Sei A eine endliche Menge, und sei<br />
1 ≤ p ≤ ∞. Sind f, g ∈ K A , so gilt<br />
(2.2) ‖f + g‖ p ≤ ‖f‖ p + ‖g‖ p .<br />
Insbesondere gilt damit auch<br />
‖x + y‖ p ≤ ‖x‖ p + ‖y‖ p für alle x, y ∈ K n .<br />
Beweis. Für p = 1 und p = ∞ ist die Ungleichung klar. Sei also 1 < p < ∞. Dann<br />
gilt<br />
∑<br />
|(f + g)(a)| p ≤ ∑ |f(a)| |(f + g)(a)| p−1 + ∑ |g(a)| |(f + g)(a)| p−1 .<br />
a∈A<br />
a∈A<br />
a∈A<br />
Wendet man auf diese beiden Summen jeweils die Höldersche Ungleichung an, so<br />
folgt wegen q(p − 1) = p offenbar<br />
∑<br />
|(f + g)(a)| p ≤ ‖f‖ p (‖f + g‖ p ) p/q + ‖g‖ p (‖f + g‖ p ) p/q .<br />
a∈A<br />
Mit p/q = p − 1 folgt hieraus<br />
also<br />
und damit die behauptete Ungleichung.<br />
‖f + g‖ p p ≤ (‖f‖ p + ‖g‖ p )‖f + g|| p−1<br />
p ,<br />
‖f + g‖ p ≤ ‖f‖ p + ‖g‖ p ,<br />
Q.E.D.<br />
Korollar 2.4 Für 1 ≤ p ≤ ∞ ist durch ‖ · ‖ p eine Norm auf dem K-Vektorraum<br />
K A (bzw. auf dem K n ) gegeben.<br />
Beweis. Sind f ∈ K A und λ ∈ K, so gilt offenbar ‖λf‖ p = |λ| ‖f‖ p . Ferner zeigt<br />
die Minkowskische Ungleichung, daß die Dreiecksungleichung für ‖ · ‖ p erfüllt ist.<br />
Um nachzuweisen, daß ‖ · ‖ p eine Norm ist, bleibt nur noch zu zeigen, daß ‖f‖ p = 0<br />
äquivalent zu f = 0 ist. Dies folgt aber unmittelbar aus der Definition. Q.E.D.<br />
45
2.2.2 Die Räume l p (A)<br />
Ist A eine endliche Menge, so bezeichnet man den Vektorraum K A , versehen mit der<br />
p-Norm ‖ · ‖ p , mit l p (A).<br />
Diese Definition läßt sich sogar auf den Fall unendlicher Menge A und damit auf<br />
den Fall unendlich-dimensionaler Räume ausdehnen, wie wir nun zeigen werden.<br />
Definitionen. Sei 1 ≤ p ≤ ∞, und sei A eine unendliche Menge. Ist E ⊂ A eine<br />
endliche Teilmenge, so setzen wir für jede Funktion f : A → K<br />
sowie<br />
‖f‖ E,p := ‖f| E ‖ p ,<br />
‖f‖ p := sup{‖f‖ E,p : E ⊂ A, E endlich}.<br />
Beachte: Es kann durchaus ‖f‖ p = ∞ sein, falls A unendlich ist.<br />
Wir werden uns hauptsächlich für den Fall abzählbarer Mengen A interessieren,<br />
insbesondere A = N und A = Z.<br />
Definitionen. f ∈ K A heiße p-summierbar, falls ‖f‖ p < ∞. Mit l p (A) bezeichnen<br />
wir die Menge aller p-summierbaren Abbildungen f : A → K. l ∞ (A) besteht offenbar<br />
aus der Menge B(A) aller beschränkten Abbildungen von A nach K, und es ist<br />
‖f‖ ∞ = sup |f(a)| = ‖f‖ u .<br />
a∈A<br />
Lemma 2.5<br />
(i) Ist 1 ≤ p < ∞, und ist f ∈ l p (A), so ist<br />
( { 1/p ∑<br />
‖f‖ p = sup |f(a)| p : E ⊂ A, E endlich})<br />
.<br />
a∈E<br />
(ii) Ist A abzählbar unendlich, und ist die Folge (a j ) j∈N eine bijektive Abzählung<br />
von A (d.h. die Abbildung N ∋ j ↦→ a j ∈ A ist bijektiv), so gilt<br />
⎧(<br />
) 1/p<br />
∞∑ ⎪⎨ |f(a j )| p , 1 ≤ p < ∞,<br />
‖f‖ p = j=0<br />
⎪⎩ sup |f(a j )| , p = ∞.<br />
j∈N<br />
Beweis. (i) Für E ⊂ A, |E| < ∞, und f ∈ l p (A) sei r E<br />
:= ∑ |f(a)| p . Da die<br />
a∈E<br />
Abbildung r ↦→ r 1/p und ihre Umkehrfunktion r ↦→ r p monoton wachsend auf [0, ∞[<br />
sind, folgt:<br />
‖f‖ p = sup{r 1/p<br />
E<br />
: E ⊂ A, |E| < ∞}<br />
= (sup{r E , E ⊂ A, |E| < ∞}) 1/p ,<br />
46
womit (i) bewiesen ist.<br />
(ii) Übungsaufgabe.<br />
Q.E.D.<br />
Satz 2.6 (Höldersche Ungleichung) Seien p, q ∈ [1, ∞] konjugierte Exponenten,<br />
und seien f ∈ l p (A), g ∈ l q (A). Dann liegt die Funktion fg in l 1 (A), und es<br />
gilt<br />
(2.3) ‖fg‖ 1 ≤ ‖f‖ p ‖g‖ q<br />
Beweis. Ist E ⊂ A endlich, so gilt mit (2.1)<br />
‖fg‖ E,1 ≤ ‖f‖ E,p ‖g‖ E,q ≤ ‖f‖ p ‖g‖ q .<br />
Bildet man hier das Supremum über alle endlichen Teilmengen E von A, so folgt<br />
(2.3). Q.E.D.<br />
Satz 2.7 (Minkowskische Ungleichung) Sei 1 ≤ p ≤ ∞. Sind f, g ∈ l p (A), so<br />
ist auch f + g ∈ l p (A), und es gilt:<br />
(2.4) ‖f + g‖ p ≤ ‖f‖ p + ‖g‖ p .<br />
Beweis. Ist E ⊂ A endlich, so gilt mit Satz 2.3<br />
‖f + g‖ E,p ≤ ‖f‖ E,p + ‖g‖ E,p ≤ ‖f‖ p + ‖g‖ p .<br />
Dies zeigt, daß mit f, g ∈ l p (A) auch f + g in l p (A) liegt, und bildet man wieder<br />
das Supremum über alle endlichen Teilmengen E von A, so folgt (2.4). Q.E.D.<br />
Da offenbar ‖λf‖ p = |λ|‖f‖ p ist für alle f ∈ l p (A) und λ ∈ K, so ist damit offenbar<br />
l p (A) ein K-Vektorraum, und ganz ähnlich wie in Korollar 2.4 folgert man, daß ‖·‖ p<br />
auch im Falle unendlicher Mengen A eine Norm auf l p (A) ist, d.h.<br />
(l p (A), ‖ · ‖ p ) bildet einen normierten Vektorraum über K.<br />
Theorem 2.8 Für jede endliche oder auch unendliche Menge A und 1 ≤ p ≤ ∞<br />
ist der normierte Raum (l p (A), ‖ · ‖ p ) vollständig.<br />
Beweis. Sei (f j ) j eine Cauchy-Folge in l p (A). Wir müssen zeigen, daß (f j ) j bzgl.<br />
der p-Norm einer Grenzfunktion f ∈ l p (A) entgegenstrebt.<br />
Da für jede endliche Teilmenge E ⊂ A und g ∈ l p (A) stets ‖g| E ‖ p ≤ ‖g‖ p ist, so ist<br />
insbesondere für jedes a ∈ A mit der Menge E := {a}<br />
|f j (a) − f k (a)| = ‖(f j − f k )| {a} ‖ p ≤ ‖f j − f k ‖ p ,<br />
47
d.h. (f j (a)) j ist eine Cauchy-Folge in K. Wegen der Vollständigkeit von K besitzt<br />
diese einen eindeutigen Grenzwert in K, welchen wir mit f(a) bezeichnen:<br />
(2.5) lim<br />
j→∞<br />
f j (a) =: f(a) für jedes a ∈ A.<br />
Wir zeigen, daß die hierdurch definierte Abbildung f : A → K p-summierbar ist,<br />
und daß ‖f j − f‖ p → 0 für j → ∞.<br />
Sei ε > 0, und wähle j 0 so groß, daß<br />
‖f j − f k ‖ p < ε ∀ j, k ≥ j 0 .<br />
Für jede endliche Teilmenge E von A folgt dann für j, k ≥ j 0 , falls p < ∞ :<br />
( ∑<br />
a∈E<br />
|f j (a) − f k (a)| p ) 1/p<br />
≤ ‖f j − f k ‖ p < ε.<br />
Läßt man hierin k gegen Unendlich streben, so folgt mittels der Grenzwertsätze für<br />
Zahlenfolgen und (2.5) für j ≥ j 0 :<br />
( ∑<br />
a∈E<br />
|f j (a) − f(a)| p ) 1/p<br />
≤ ε,<br />
also ‖f j − f‖ E,p ≤ ε. Wie man leicht sieht, gilt dies ebenfalls für p = ∞. Da j 0 nicht<br />
von E abhängt, folgt durch Supremumsbildung über alle endlichen Mengen E:<br />
‖f j − f‖ p ≤ ε, falls j ≥ j 0 .<br />
Damit haben wir gezeigt, daß ‖f j − f‖ p → 0 für j → ∞. .<br />
Wähle schließlich für ε = 1 ein j so, daß ‖f j −f‖ p ≤ 1. Für jede endliche Teilmenge<br />
E von A gilt dann<br />
‖f‖ E,p ≤ ‖f − f j ‖ E,p + ‖f j ‖ E,p ≤ ‖f j − f‖ p + ‖f j ‖ p ≤ 1 + ‖f j ‖ p ,<br />
folglich<br />
‖f‖ p ≤ 1 + ‖f j ‖ p < ∞.<br />
Somit ist f p-summierbar.<br />
Als unmittelbare Konsequenz erhalten wir<br />
Q.E.D.<br />
Korollar 2.9 K n , versehen mit der p-Norm, ist ein vollständiger normierter Vektorraum<br />
über K.<br />
Bemerkung 2.10 Ist A unendlich, so ist l p (A) ein unendlich-dimensionaler Vektorraum.<br />
48
Beweis. Für a ∈ A sei δ a die charakteristische Funktion der Menge {a}, d.h.<br />
{<br />
1, falls b = a,<br />
δ a (b) :=<br />
0, sonst.<br />
Z.B. bilden für K n ≃ l p ({1, . . ., n}) die Vektoren δ 1 , . . .,δ n gerade die kanonische<br />
Basis des K n . Die Funktionen δ a , a ∈ A, sind linear unabhängig in l p (A), denn:<br />
Ist 0 = ∑ a∈A<br />
λ a δ a eine endliche Linearkombination, so folgt für jedes b ∈ A:<br />
0 = ∑ a∈A<br />
λ a δ a (b) = λ b .<br />
Hieraus folgt die Behauptung.<br />
Q.E.D.<br />
Achtung: Ist A unendlich, so bilden die δ a , a ∈ A, keine Basis von l p (A) im Sinne<br />
der linearen Algebra. Z.B. liegt für A = N × die Funktion (d.h. Folge) f : N × →<br />
R, f(j) := 1/j, in l 2 (N × ), diese kann aber nicht als eine endliche Linearkombination<br />
der Funktionen δ k , k ∈ N × , dargestellt werden.<br />
Konvention. Wenn nicht ausdrücklich anders gesagt, werden wir in Zukunft den<br />
R n bzw. C n stets mit der Euklidischen Norm, d.h. der 2-Norm<br />
‖x‖ = ‖x‖ 2 =<br />
( n∑<br />
j=1<br />
|x j | 2 ) 1/2<br />
versehen.<br />
49
Kapitel 3<br />
Metrische Räume<br />
3.1 Definitionen und Beispiele<br />
Wir wollen uns nun der <strong>Analysis</strong> auf mehrdimensionalen Räumen zuwenden. Dazu<br />
werden wir zunächst den Begriff des (Euklidischen) Abstands zweier reeller oder<br />
komplexer Zahlen, welcher für die Konvergenztheorie reeller oder komplexer Zahlenfolgen<br />
von fundamentaler Bedeutung war, verallgemeinern.<br />
Definition. Sei X eine nichtleere Menge. Eine Metrik auf X ist eine Abbildung<br />
mit folgenden Eigenschaften:<br />
(i) d(x, y) ≥ 0 für alle x, y ∈ X.<br />
d : X × X → R<br />
(ii) d(x, y) = 0 genau dann, wenn x = y .<br />
(iii) d(x, y) = d(y, x) für alle x, y ∈ X.<br />
(iv) d(x, z) ≤ d(x, y) + d(y, z) für alle x, y, z ∈ X.<br />
(Symmetrie)<br />
(Dreiecksungleichung)<br />
Ein metrischer Raum ist ein Paar X = (X, d) bestehend aus einer nichtleeren<br />
Menge X und einer Metrik d auf X. Man nennt d(x, y) den Abstand oder die Distanz<br />
der Punkte x und y bzgl. der Metrik d. Sind Mißverständnisse ausgeschlossen,<br />
so werden wir gelegentlich auch die Menge X des metrischen Raumes X = (X, d)<br />
als metrischen Raum bezeichnen.<br />
Beispiele 3.1 a) Die Menge R der reellen Zahlen und die Menge C der komplexen<br />
Zahlen werden zu metrischen Räumen, wenn man als Abstand definiert<br />
d(x, y) := |x − y|<br />
für x, y ∈ R (bzw. x, y ∈ C).<br />
50
) Ist allgemeiner (E, ‖ · ‖) ein normierter Vektorraum über K = R oder K = C,<br />
so ist durch<br />
d(x, y) := ‖x − y‖, x, y ∈ E,<br />
eine Metrik auf E definiert. Dies folgt unmittelbar aus den Definitionen von<br />
Norm und Metrik. Z.B. folgt die Dreiecksungleichung für die Metrik d aus der<br />
für die Norm:<br />
d(x, z) = ‖x −z‖ = ‖(x −y)+(y −z)‖ ≤ ‖x −y‖+‖y −z‖ = d(x, y)+d(y, z).<br />
Diese Metrik d ist stets gemeint, wenn wir (E, ‖ · ‖) als metrischen Raum<br />
betrachten.<br />
Als Standardmetrik auf dem K n werden wir, wenn nicht anders gesagt, die<br />
Euklidische Metrik d(x, y) := ‖x − y‖ 2 wählen.<br />
c) Ist (X, d) ein metrischer Raum und ist Y eine nichtleere Teilmenge von X,<br />
so wird Y zu einem metrischen Raum, wenn man als Metrik d Y auf Y die<br />
Einschränkung d Y := d| Y ×Y von d auf Y × Y wählt. Man bezeichnet den<br />
metrischen Raum (Y, d Y ) dann auch als metrischen Teilraum von (X, d).<br />
d) Auf jeder nichtleeren Menge X kann man die sogenannte diskrete Metrik<br />
einführen durch<br />
{<br />
0, falls x = y,<br />
d(x, y) :=<br />
1, falls x ≠ y.<br />
Die für die <strong>Analysis</strong> wichtigsten metrischen Räume sind die normierten Vektorräume<br />
sowie Teilmengen solcher Vektorräume.<br />
Definition. Zwei Metriken d 1 und d 2 auf einer Menge X heißen äquivalent (in<br />
Zeichen: d 1 ∼ d 2 ) , wenn es Konstanten 0 < c 1 ≤ c 2 gibt so, daß<br />
(3.1) c 1 d 1 (x, y) ≤ d 2 (x, y) ≤ c 2 d 1 (x, y) ∀x, y ∈ X.<br />
Analog sagt man, zwei Normen ‖ · ‖ 1 und ‖ · ‖ 2 auf einem K-Vektorraum E seien<br />
äquivalent (in Zeichen: ‖ · ‖ 1 ∼ ‖ · ‖ 2 ) , wenn es Konstanten 0 < c 1 ≤ c 2 gibt so,<br />
daß<br />
(3.2) c 1 ‖x‖ 1 ≤ ‖x‖ 2 ≤ c 2 ‖x‖ 1 ∀x ∈ E.<br />
Bezeichnet d j (x, y) := ‖x − y‖ j , j = 1, 2, dann die jeweilige zugehörige Metrik, so<br />
gilt offenbar:<br />
Lemma 3.2 Die Metriken d 1 und d 2 sind genau dann äquivalent, wenn die zugehörigen<br />
Normen ‖ · ‖ 1 und ‖ · ‖ 2 äquivalent sind.<br />
51
Man sieht übrigens leicht, daß durch den Begriff der Äquivalenz von Normen bzw.<br />
Metriken jeweils Äquivalenzrelationen auf der Menge aller Normen auf einem Vektorraum<br />
E bzw. Metriken auf einer Menge X definiert werden.<br />
Satz 3.3 Seien (X 1 , d 1 ) und (X 2 , d 2 ) zwei metrische Räume. Für 1 ≤ p ≤ ∞ ist<br />
dann durch<br />
(<br />
)∥ ∥∥p<br />
d p ((x 1 , x 2 ), (y 1 , y 2 )) := ∥ d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 )<br />
⎧(<br />
)<br />
⎨<br />
1/p,<br />
d<br />
= 1 (x 1 , y 1 ) p + d 2 (x 2 , y 2 ) p falls 1 ≤ p < ∞<br />
⎩<br />
max{d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 )}, falls p = ∞<br />
eine Metrik auf dem kartesischen Produkt X 1 × X 2 definiert. Ferner sind je zwei<br />
dieser Metriken äquivalent.<br />
Beweis. Seien x = (x 1 , x 2 ), y = (y 1 , y 2 ) ∈ X 1 × X 2 . Offenbar ist d p (x, y) ≥ 0, und<br />
d p (x, y) = 0 genau dann, wenn ‖(d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 ))‖ p = 0. Dies ist äquivalent zu<br />
d 1 (x 1 , y 1 ) = d 2 (x 2 , y 2 ) = 0, folglich zu x 1 = y 1 und x 2 = y 2 , d.h. zu x = y. Ist ferner<br />
z = (z 1 , z 2 ) ∈ X 1 × X 2 , so gilt<br />
d j (x j , y j ) ≤ d j (x j , z j ) + d j (z j , y j ), j = 1, 2,<br />
woraus aufgrund der Definition der p-Norm auf R 2 folgt:<br />
‖(d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 ))‖ p<br />
≤ ‖(d 1 (x 1 , z 1 ) + d 1 (z 1 , y 1 ), d 2 (x 2 , z 2 ) + d 2 (z 2 , y 2 ))‖ p<br />
Damit ergibt sich die Dreiecksungleichung<br />
= ‖(d 1 (x 1 , z 1 ), d 2 (x 2 , z 2 )) + (d 1 (z 1 , y 1 ), d 2 (z 2 , y 2 ))‖ p<br />
≤ ‖(d 1 (x 1 , z 1 ), d 2 (x 2 , z 2 ))‖ p + ‖(d 1 (z 1 , y 1 ), d 2 (z 2 , y 2 ))‖ p<br />
d p (x, y) ≤ d p (x, z) + d p (z, y).<br />
Schließlich sind, wie man leicht zeigt, je zwei p-Normen auf dem R 2 äquivalent<br />
(Übung), womit die Äquivalenz der Metriken d p auf X 1 × X 2 folgt.<br />
Q.E.D.<br />
Beispiel 3.4 X 1 = R k , X 2 = R l , jeweils versehen mit der p-Norm. Für x =<br />
(x 1 , x 2 ), y = (y 1 , y 2 ) ∈ R k × R l ist dann für 1 ≤ p < ∞<br />
und<br />
d p (x, y) = (‖x 1 − y 1 ‖ p p + ‖x 2 − y 2 ‖ p p) 1/p = ‖x − y‖ p ,<br />
d ∞ (x, y) = max{‖x 1 − y 1 ‖ ∞ , ‖x 2 − y 2 ‖ ∞ } = ‖x − y‖ ∞ ,<br />
falls man den R k × R l mit R k+l identifiziert.<br />
Falls nicht ausdrücklich anders gesagt, werden wir der Einfachheit halber den Produktraum<br />
X 1 × X 2 zweier metrischer Räume (X 1 , d 1 ) und (X 2 , d 2 ) stets mit der<br />
Metrik d = d ∞ versehen, d.h.<br />
(3.3)<br />
d((x 1 , x 2 ), (y 1 , y 2 )) := max{d 1 (x 1 , y 1 ), d 2 (x 2 , y 2 )}.<br />
52
3.2 Die Topologie eines metrischen Raumes<br />
Definition. Sei (X, d) ein metrischer Raum. Sind a ∈ X sowie r > 0, so heißt<br />
B r (a) := {x ∈ X : d(x, a) < r}<br />
die offene Kugel mit Mittelpunkt a und Radius r. Gelegentlich nennt man B ε (a)<br />
auch die ε-Umgebung von a.<br />
Definition. Eine Teilmenge U ⊂ X heiße Umgebung des Punktes x ∈ X, falls<br />
ein ε > 0 existiert, so daß gilt:<br />
B ε (x) ⊂ U.<br />
Beachte: Betrachten wir die Teilmenge Y ⊂ X von X als metrischen Teilraum von<br />
X und bezeichnen die Kugeln in Y mit Br Y (a), d.h.<br />
so gilt offenbar<br />
B Y r (a) := {y ∈ Y : d Y (y, a) < r}, a ∈ Y,<br />
(3.4) B Y r (a) = B r(a) ∩ Y.<br />
Satz 3.5 (i) Ist U eine Umgebung von x und ist W ⊃ U, so ist auch W eine<br />
Umgebung von x.<br />
(ii) Sind U 1 und U 2 Umgebungen von x, so ist auch U 1 ∩ U 2 eine Umgebung von x.<br />
Beweis. (i) Per definitionem existiert ein ε > 0 mit B ε (x) ⊂ U ⊂ W.<br />
(ii) Seien ε 1 , ε 2 ∈ R + so, daß B ε1 (x) ⊂ U 1 und B ε2 (x) ⊂ U 2 ist. Für ε := min{ε 1 , ε 2 }<br />
gilt dann: B ε (x) ⊂ U 1 ∩ U 2 .<br />
Q.E.D.<br />
Satz 3.6 Sei (X, d) ein metrischer Raum. Dann gilt das Hausdorffsche Trennungsaxiom:<br />
Zu je zwei verschiedenen Punkten x, y ∈ X gibt es Umgebungen U von x und V von<br />
y, die disjunkt sind.<br />
Beweis. Sei ε := 1 2 d(x, y). Dann ist ε > 0, und U := B ε(x) und V := B ε (y) sind<br />
Umgebungen von x bzw. y. Ferner ist U ∩ V = ∅, denn für jedes z ∈ U ∩ V würde<br />
gelten:<br />
2ε = d(x, y) ≤ d(x, z) + d(z, y) < ε + ε = 2ε,<br />
was zu einem Widerspruch führt.<br />
Q.E.D.<br />
Definition. Eine Teilmenge U eines metrischen Raumes X heiße offen, wenn sie<br />
Umgebung jedes ihrer Punkte ist, d.h. wenn gilt:<br />
∀x ∈ U ∃ε > 0 : B ε (x) ⊂ U.<br />
53
Beispiele 3.7<br />
offen:<br />
(i) Für jeden Punkt a ∈ X und jedes r > 0 ist die Kugel B r (a)<br />
Ist nämlich x ∈ B r (a), so ist ε := r − d(x, a) > 0. Für y ∈ B ε (x) folgt damit:<br />
d.h. es ist B ε (x) ⊂ B r (a).<br />
d(y, a) ≤ d(y, x) + d(x, a) < ε + d(x, a) = r ,<br />
(ii) ”<br />
Offene Intervalle“ der Form ]a, b[ mit −∞ ≤ a < b ≤ +∞ sind offene Teilmengen<br />
des metrischen Raumes (R, d) (vgl. Beispiel 3.1):<br />
Ist nämlich x ∈]a, b[, und sind a und b endlich, so ist für<br />
ε := min{|a −x|, |b −x|} offenbar B ε (x) ⊂]a, b[; der allgemeine Fall kann leicht<br />
auf den obigen zurückgeführt werden.<br />
Dagegen sind Intervalle der Form [a, b[, ]a, b] und [a, b] nicht offen; z.B. liegt<br />
für kein ε > 0 die Kugel B ε (a) ganz in [a, b[.<br />
Bezeichnung. Ist X = (X, d) ein metrischer Raum, so bezeichnen wir mit<br />
die Menge aller offenen Mengen in X.<br />
T(X) := {U ⊂ X : U ist offen }<br />
Satz 3.8 T := T(X) besitzt die folgenden Eigenschaften:<br />
a) ∅, X ∈ T.<br />
b) Sind U, V ∈ T, so ist auch U ∩ V ∈ T.<br />
c) Sind U ι , ι ∈ I, in T, so ist auch ⋃ ι∈I U ι ∈ T.<br />
Beweis. a) Ist trivial.<br />
b) Sei x ∈ U ∩ V . Dann sind U und V Umgebungen von x, somit nach Satz 3.5(ii)<br />
auch U ∩ V . Damit ist U ∩ V offen.<br />
c) Sei x ∈ ⋃ U ι . Dann gibt es ein ι 0 mit x ∈ U ι0 . Wieder mit Satz 3.5 ist ⋃ U ι als<br />
ι∈I<br />
Obermenge von U ι0 eine Umgebung von x.<br />
ι∈I<br />
Q.E.D.<br />
Definition. Ist X eine nichtleere Menge, so bezeichnet man ein Mengensystem<br />
T ⊂ P(X) mit den Eigenschaften a) – c) aus Satz 3.8 als Topologie auf X. Das<br />
Paar (X, T) wird dann als topologischer Raum, und die Mengen U ∈ T als die<br />
offenen Mengen des topologischen Raumes (X, T) bezeichnet.<br />
54
Ist d eine Metrik auf X, so heißt T((X, d)) die durch d auf X induzierte Topologie.<br />
Diese werden wir stets auf X verwenden.<br />
Nach Satz 3.8 ist übrigens der Durchschnitt endlich vieler offener Mengen stets offen.<br />
Für unendliche Durchschnitte ist dies i.a. nicht so. Z.B. ist<br />
∞⋂<br />
[0, 1[= ] − 1 n , 1[ .<br />
n=1<br />
Satz 3.9 Zwei äquivalente Metriken d 1 und d 2 auf X erzeugen dieselbe Topologie,<br />
d.h. T(X, d 1 ) = T(X, d 2 ).<br />
Beweis. Seien 0 < c 1 ≤ c 2 so, daß<br />
c 1 d 1 (x, y) ≤ d 2 (x, y) ≤ c 2 d 1 (x, y) ∀x, y ∈ X.<br />
Bezeichnen wir mit B j r (a) := {x ∈ X, d j(x, a) < r}, j = 1, 2, die Kugeln bzgl. der<br />
beiden Metriken d 1 und d 2 , so folgt für jedes r > 0, a ∈ X<br />
so daß für jedes ε > 0 gilt:<br />
B 1 r (a) ⊂ B2 c 2 r (a),<br />
B 1 ε/c 2<br />
(a) ⊂ B 2 ε (a),<br />
Hieraus folgt unmittelbar die Behauptung.<br />
B2 r (a) ⊂ B1 1/c 1 r (a),<br />
B2 c 1 ε (a) ⊂ B1 ε (a).<br />
Q.E.D.<br />
Definition. Eine Teilmenge A eines metrischen Raumes (X, d) (oder allgemeiner<br />
eines topologischen Raumes) heiße abgeschlossen, wenn ihr Komplement A c :=<br />
X \ A offen ist.<br />
Beispiele 3.10 (i) Abgeschlossene Intervalle “der Gestalt [a, b] sind abgeschlossene<br />
Teilmengen von R, denn R \ [a, b] =] − ∞, a[ ∪ ]b, +∞[ ist ”<br />
offen.<br />
Ebenso sind Intervalle der Form [a, +∞[ und ] − ∞, a] abgeschlossen.<br />
(ii) Die ”<br />
abgeschlossenen Kugeln“<br />
B r (a) := {x ∈ X : d(x, a) ≤ r}, a ∈ X, r ≥ 0,<br />
eines metrischen Raumes X sind stets abgeschlossen.<br />
Ist nämlich y ∈ X \ B r (a), so ist<br />
Für z ∈ B ε (y) ist dann<br />
ε := d(y, a) − r > 0 .<br />
d(z, a) ≥ d(y, a) − d(z, y) > d(y, a) − ε = r .<br />
Somit ist B ε (y) ⊂ X \ B r (a), d.h. X \ B r (a) ist offen.<br />
55
(iii) Die Mengen ∅ und X sind stets abgeschlossen.<br />
(iv) Beliebige Durchschnitte und endliche Vereinigungen abgeschlossener Mengen<br />
sind abgeschlossen.<br />
(v) Ist die nichtleere Menge X mit der diskreten Metrik versehen, so sind alle<br />
Teilmengen von X offen (Übung). Folglich sind alle Teilmengen von X ebenso<br />
abgeschlossen. Eine Menge kann somit durchaus gleichzeitig offen und abgeschlossen<br />
sein!<br />
Satz 3.11 (Relativtopologie) Sei (X, d) ein metrischer Raum, und sei Y ⊂ X<br />
eine Teilmenge von X, welche wir mittels der eingeschränkten Metrik d Y (vgl. Beispiel<br />
3.1 c)) als metrischen Teilraum von X betrachten. d Y induziert eine Topologie<br />
auf Y, die sogenannte Relativtopologie von Y bzgl. X. Die offenen (bzw. abgeschlossenen)<br />
Teilmengen von Y lassen sich dann wie folgt charakterisieren:<br />
Eine Teilmenge N ⊂ Y ist genau dann offen (bzw. abgeschlossen) in Y , wenn es<br />
eine offene (bzw. abgeschlossene) Teilmenge M von X gibt mit N = M ∩ Y .<br />
Beweis. Wir zeigen die Aussage über die Offenheit von Teilmengen von Y . Die<br />
analoge Aussage über die Abgeschlossenheit folgt dann durch Komplementbildung.<br />
Ist M ⊂ X offen in X, und ist y ∈ N := M ∩ Y , so gibt es ein ε > 0 so, daß<br />
B ε (y) ⊂ M. Folglich ist nach (3.4) Bε Y (y) = B ε(y) ∩Y ⊂ N. Dies zeigt, daß N offen<br />
in Y ist.<br />
Ist umgekehrt N offen in<br />
⋃<br />
Y , so gibt es zu jedem a ∈ Y ein ε(a) > 0 so, daß<br />
Bε(a) Y (a) ⊂ N. Sei M := B ε(a) (a). Dann ist M offen in X, und nach (3.4) ist<br />
a∈N<br />
M ∩ Y = ⋃ (a) = N.<br />
Q.E.D.<br />
Bε(a) Y<br />
a∈N<br />
Definitionen. Seien (X, d) ein metrischer Raum und Y eine Teilmenge von X. Ein<br />
Punkt x ∈ X heiße Randpunkt von Y , wenn in jeder Umgebung von x sowohl ein<br />
Punkt von Y als auch ein Punkt des Komplements X \ Y liegt. Die Menge aller<br />
Randpunkte von Y nennt man den Rand von Y und bezeichnet ihn mit ∂Y .<br />
Ein Punkt x ∈ X heiße Berührungspunkt von Y, wenn in jeder Umgebung von x<br />
mindestens ein Punkt aus Y liegt. Die Menge aller Berührungspunkte von Y nennt<br />
man die abgeschlossene Hülle oder auch den Abschluß von Y und bezeichnet<br />
sie mit Y .<br />
Ein Punkt y ∈ Y heiße innerer Punkt von Y, wenn Y eine Umgebung von y ist.<br />
Die Menge aller inneren Punkte von Y nennt man das (offene) Innere von Y und<br />
bezeichnet sie mit Y 0 .<br />
56
Beispiele 3.12 (a) Wir haben gesehen, daß für r > 0 die Mengen B r (a) = {x ∈<br />
X : d(x, a) < r} und X \ B r (a) = {x ∈ X : d(x, a) > r} offen sind. Hieraus<br />
folgt<br />
∂B r (a) ⊂ {x ∈ X : d(x, a) = r}.<br />
Für X = R n kann man sogar zeigen (Übung):<br />
∂{x ∈ R n : ‖x‖ 2 < r} = {x ∈ R n : ‖x‖ 2 = r} .<br />
Es gibt jedoch auch metrische Räume, in denen die entsprechende Identität<br />
falsch ist (Übung)!<br />
(b) ∂Q = ∂(R \ Q) = R.<br />
Satz 3.13 Seien X ein metrischer Raum und Y ⊂ X. Dann gilt:<br />
(a) ∂Y = ∂(X \ Y ).<br />
(b) Y \ ∂Y ist offen, und es gilt Y \ ∂Y = Y 0 .<br />
(c) Y ∪ ∂Y ist abgeschlossen, und es gilt Y ∪ ∂Y = Y .<br />
(d) Es gilt ∂Y = Y \ Y 0 ; insbesondere ist ∂Y abgeschlossen.<br />
Beweis. (a) ist klar aufgrund der Definition des Randes.<br />
(b) Offenbar kann ein innerer Punkt von Y kein Randpunkt von Y sein, so daß<br />
Y 0 ⊂ Y \ ∂Y.<br />
Um die umgekehrte Inklusion zu zeigen beobachten wir, daß ein Punkt x ∈ X nicht<br />
in ∂Y liegt dann und nur dann, wenn es eine offene ε-Umgebung U von x gibt,<br />
welche entweder ganz in Y oder ganz in X \ Y liegt.<br />
Sei nun x ∈ Y \ ∂Y , und sei U eine solche offene Umgebung von x. Da x in Y liegt,<br />
muß dann U ganz in Y liegen, und da U offen ist, sind alle Punkte aus U innere<br />
Punkte von Y. Damit gilt U ⊂ Y 0 ⊂ Y \ ∂Y.<br />
Dies zeigt sowohl, daß Y \ ∂Y offen ist, als auch, daß Y \ ∂Y ⊂ Y 0 , womit (a)<br />
bewiesen ist.<br />
(c) Offenbar ist jeder Punkt aus Y und auch jeder Randpunkt von Y ein Berührungspunkt<br />
von Y, d.h. Y ∪ ∂Y ⊂ Y .<br />
Um die umgekehrte Inklusion zu zeigen betrachten wir zunächst das Komplement<br />
(Y ∪ ∂Y ) c von Y ∪ ∂Y in X. Es gilt mit (a)<br />
(Y ∪ ∂Y ) c = Y c ∩ (∂Y ) c = Y c \ ∂Y = Y c \ ∂Y c ,<br />
so daß die Menge (Y ∪ ∂Y ) c nach (b) offen ist. Folglich ist Y ∪ ∂Y abgeschlossen.<br />
Ist x ∈ (Y ∪ ∂Y ) c ⊂ Y c , so kann wegen der Offenheit von (Y ∪ ∂Y ) c insbesondere x<br />
kein Berührungspunkt von Y sein, d.h. es ist (Y ∪ ∂Y ) c ⊂ (Y ) c , bzw. Y ⊂ Y ∪ ∂Y.<br />
Die umgekehrte Inklusion hatten wir bereits gezeigt, so daß also Y = Y ∪ ∂Y gilt.<br />
57
(d) Mit (b) und (c) folgt<br />
∂Y = (Y ∪ ∂Y ) \ (Y \ ∂Y ) = Y \ Y 0 = Y ∩ (Y 0 ) c .<br />
Somit ist insbesondere ∂Y als Durchschnitt zweier abgeschlossener Mengen abgeschlossen.<br />
Damit ist auch (d) bewiesen.<br />
Q.E.D.<br />
Bemerkung: Man kann beweisen (Übung), daß Y die kleinste abgeschlossen Teilmenge<br />
A von X ist mit Y ⊂ A, d.h. es gilt<br />
⋂<br />
Y =<br />
C.<br />
Y ⊂C, C abgeschlossen<br />
Definitionen. Es seien A, B ⊂ X. A heiße dicht in B, falls A ∩ B = B ist. Beispielsweise<br />
ist Q = R, d.h. Q ist dicht in R.<br />
Der Abstand zweier nichtleerer Teilmengen A und B von X ist definiert durch<br />
d(A, B) := inf{d(a, b) : a ∈ A, b ∈ B}.<br />
Der Abstand des Punktes x ∈ X zu A ist definiert durch<br />
d(x, A) := d({x}, A) = inf{d(x, a) : a ∈ A}.<br />
3.3 Konvergenz in metrischen Räumen<br />
Sei X = (X, d) ein metrischer Raum.<br />
Definition. Eine Folge (x n ) n∈N von Punkten aus X heiße konvergent gegen a ∈ X,<br />
in Zeichen:<br />
lim<br />
n→∞ x n = a,<br />
wenn gilt: Zu jeder Umgebung U von a existiert ein N ∈ N so, daß x n ∈ U ist für<br />
alle n ≥ N.<br />
Da in jeder Umgebung eine ε-Umgebung enthalten ist, ist dies gleichbedeutend mit<br />
der Aussage: Zu jedem ε > 0 gibt es ein N = n(ε) ∈ N, so daß d(x n , a) < ε ist für<br />
alle n ≥ N, bzw. zu<br />
(3.5)<br />
lim d(x n, a) = 0 .<br />
n→∞<br />
Man sieht sofort mit Hilfe des Hausdorffschen Trennungsaxioms (Satz 3.6), daß<br />
eine konvergente Folge genau einen Grenzwert besitzt. Ferner führen nach Satz 3.9<br />
äquivalente Metriken zum selben Konvergenzbegriff.<br />
58
Satz 3.14 Sei (x k ) k∈N eine Folge von Punkten im R n . Ferner sei x k =<br />
(x k1 , . . .x kn ), k ∈ N. Dann konvergiert die Folge (x k ) k gegen a = (a 1 , . . .,a n ) ∈ R n<br />
dann und nur dann, wenn für jedes j = 1, . . .,n gilt:<br />
lim x kj = a j .<br />
k→∞<br />
Beweis. Aufgrund der Definition der l p - Normen sieht man leicht, daß<br />
max<br />
j=1,...,n |x kj − a j | ≤ d(x k , a) = ‖x k − a‖ 2 ≤ √ n max<br />
j=1,...,n |x kj − a j | .<br />
Somit ist lim d(x k , a) = 0 genau dann, wenn max |x kj − a j | → 0 für k → ∞, d.h.<br />
k→∞ j=1,...,n<br />
wenn<br />
|x kj − a j | → 0 für k → ∞, für jedes j = 1, . . .,n .<br />
Q.E.D.<br />
Mit Hilfe der Konvergenz von Folgen kann man die abgeschlossenen Mengen folgendermaßen<br />
charakterisieren.<br />
Satz 3.15 (Folgenkriterium für Abgeschlossenheit) Sei (X, d) ein metrischer<br />
Raum. Eine Teilmenge A ⊂ X ist genau dann abgeschlossen, wenn für jede Folge<br />
(x k ) k von Punkten x k ∈ A gilt:<br />
Konvergiert (x k ) k gegen einen Punkt x ∈ X, so ist x ∈ A .<br />
Beweis. Sei A abgeschlossen. Ist dann (x k ) k eine Folge in A mit x = lim x k , so wäre,<br />
falls x in A c läge, A c eine offene Umgebung von x. Folglich gäbe es ein N ∈ N mit<br />
x N ∈ A c , im Widerspruch zu unserer Annahme. Also ist notwendig x ∈ A.<br />
Zur Umkehrung: Das Folgenkriterium sei erfüllt. Wir wollen zeigen, daß dann A = A<br />
ist, woraus die Abgeschlossenheit von A folgt.<br />
Sei dazu x ∈ A. Dann ist x ein Berührungspunkt von A und wir finden insbesondere<br />
zu jedem k ∈ N, k ≥ 1, einen Punkt x k ∈ A in der Umgebung B 1/k (x) von x. Wegen<br />
d(x k , x) < 1 ist dann x = lim x k k, folglich x ∈ A. Dies zeigt, daß A ⊂ A ist, und die<br />
k→∞<br />
Inklusion A ⊂ A ist klar.<br />
Q.E.D.<br />
Bemerkung 3.16 Der Beweis lehrt zusätzlich, daß A ⊂ X abgeschlossen ist genau<br />
dann, wenn A = A ist.<br />
Definition. Die Folge (x k ) k von Punkten aus X heiße Cauchy-Folge, wenn gilt:<br />
Zu jedem ε > 0 gibt es ein N ∈ N, so daß d(x n , x m ) < ε ist für alle n, m ≥ N.<br />
Bemerkung 3.17 Jede konvergente Folge ist eine Cauchy-Folge (Beweis?).<br />
59
Definition. Ein metrischer Raum heiße vollständig, wenn in ihm jede Cauchy-<br />
Folge konvergiert.<br />
Satz 3.18 Sei (X, d) ein vollständiger metrischer Raum. Eine Teilmenge Y von X<br />
ist abgeschlossen in X genau dann, wenn sie als metrischer Teilraum von (X, d)<br />
vollständig ist.<br />
Beweis. Sei Y abgeschlossen. Ist (y n ) n eine Cauchy-Folge in Y , so konvergiert sie<br />
wegen der Vollständigkeit von X gegen ein x ∈ X, d.h. es ist lim y n = x. Damit ist<br />
n→∞<br />
aber nach Satz 3.15 x ∈ Y . Y ist also vollständig.<br />
Ist umgekehrt Y vollständig, und ist (y n ) n eine Folge in Y , welche gegen x ∈ X<br />
konvergiert, so ist sie auch eine Cauchy-Folge in Y und damit konvergent in Y .<br />
Wegen der Eindeutigkeit des Limes ist dann x ∈ Y , d.h. Y ist abgeschlossen.<br />
Beispiel 3.19 Die Banachräume C k (I).<br />
Q.E.D.<br />
Sei I = [a, b] ⊂ R ein kompaktes Intervall positiver Länge, und sei k ∈ N. Wir<br />
versehen den Raum C k (I) mit der Norm<br />
‖f‖ C k := max<br />
j=0,...,k ‖f(j) ‖ ∞<br />
(daß dies in der Tat eine Norm ist folgt unmittelbar aus der Tatsache, daß ‖ · ‖ ∞ =<br />
‖ · ‖ u eine Norm auf dem Raum C 0 (I) = C(I) ist).<br />
Betrachte zunächst den Fall k = 0. Man zeigt leicht, daß C(I) eine abgeschlossene<br />
Teilmenge des Banachraumes (l ∞ (I), ‖ · ‖ ∞ ) ist. Ist nämlich (f j ) j eine Folge in<br />
C(I), welche in l ∞ (I) gegen eine Grenzfunktion f ∈ l ∞ (I) konvergiert, so ist f als<br />
gleichmäßiger Limes einer Folge stetiger Funktionen selbst stetig (Satz 9.13, <strong>Analysis</strong><br />
I), d.h. f ∈ C(I). Somit ist C(I) nach Satz 3.18 vollständig, also ein Banachraum.<br />
Mittels Satz 1.19 und der Vollständigkeit von C(I) kann man dann leicht per Induktion<br />
nach k zeigen, daß (C k (I), ‖ · ‖ C k) ein Banachraum ist für jedes k ∈ N<br />
(Übung).<br />
Definitionen. Der Durchmesser einer Teilmenge A eines metrischen Raumes<br />
(X, d) ist definiert als<br />
diam(A) := sup{d(x, y) : x, y ∈ A} .<br />
Die Menge A heiße beschränkt, falls diam(A) < ∞ ist. Offenbar ist A genau dann<br />
beschränkt, wenn ein a ∈ X und ein r ∈ R + existieren so, daß A ⊂ B r (a) ist. Es<br />
gilt z.B.<br />
diam B r (a) ≤ 2r .<br />
60
3.4 Stetigkeit<br />
Es seien (X, d) und (Y, ̺) metrische Räume, sowie a ∈ X.<br />
Satz 3.20 Die folgenden Bedingungen sind für eine Abbildung f : X → Y äquivalent:<br />
(i) Für jede Folge (x n ) n in X mit lim x n = a gilt: lim f(x n ) = f(a), d.h.<br />
lim f(x n) = f( lim x n )<br />
n→∞ n→∞<br />
(ii) Zu jedem ε > 0 existiert ein δ = δ(ε) > 0, so daß<br />
̺(f(x), f(a)) < ε ist für alle x ∈ X mit d(x, a) < δ<br />
(Folgen − Stetigkeit).<br />
(ε − δ− Kriterium).<br />
(iii) Für jede Umgebung V von f(a) in Y ist U := f −1 (V ) eine Umgebung von a<br />
in X.<br />
Beweis. Wir beobachten zunächst, daß (ii) gleichbedeutend ist mit<br />
(ii ′ ) Zu jedem ε > 0 gibt es ein δ = δ(ε) > 0 mit<br />
)<br />
f(B δ (a)) ⊂ B ε (f(a)), d.h. mit B δ (a) ⊂ f<br />
(B −1 ε (f(a)) .<br />
Die Äquivalenz von (ii ′ ) und (iii) folgt nun sofort aus der Definition des Umgebungsbegriffs.<br />
Es bleibt die Äquivalenz von (i) und (ii ′ ) zu zeigen:<br />
Gilt (ii ′ ) nicht, so gibt es ein ε > 0 so, daß für jedes δ = 1/n, n ∈ N × , ein x n ∈<br />
B 1/n (a) existiert mit f(x n ) ∉ B ε (f(a)). Dann ist a = lim x n , während die Folge<br />
n→∞<br />
(f(x n )) n nicht gegen f(a) konvergiert. Somit ist f nicht Folgen-stetig.<br />
Gilt dagegen (ii ′ ), und ist (x n ) n eine Folge in X mit a = lim x n , so wähle zu gegebenem<br />
ε > 0 ein δ > 0 gemäß (ii ′ ) mit f(B δ (a)) ⊂ B ε (f(a)). Dann gibt es ein<br />
N ∈ N so, daß x n ∈ B δ (a) für alle n ≥ N, folglich f(x n ) ∈ B ε (f(a)). Somit ist<br />
lim<br />
n→∞ f(x n) = f(a).<br />
Q.E.D.<br />
Definitionen. Die Funktion f : X → Y heiße im Punkte a ∈ X stetig, wenn<br />
sie den Bedingungen von Satz 3.20 genügt. f heiße stetig, wenn f in jedem Punkt<br />
a ∈ X stetig ist.<br />
Ist A ⊂ X, so bezeichnet man x ∈ X als Häufungspunkt der Menge A, wenn<br />
jede Umgebung von x in X mindestens einen Punkt a ≠ x aus A enthält (man<br />
vergleiche dies mit dem Begriff des Berührungspunktes!).<br />
61
Seien f : A → Y eine Abbildung und x ∈ X ein Häufungspunkt von A.<br />
Dann bezeichnet man b ∈ Y als den Grenzwert der Abbildung f : A → Y für<br />
a → x, in Zeichen:<br />
b = lim<br />
a→x<br />
f(a) ,<br />
wenn es zu jedem ε > 0 ein δ > 0 gibt derart, daß ̺(f(a), b) < ε ist für alle<br />
a ∈ A \ {x} mit d(a, x) < δ.<br />
Beispiel. Die Menge der Häufungspunkte der Menge A =]0, 1[∪{2} in R ist gegeben<br />
durch [0, 1].<br />
Satz 3.21 Es seien (X, d), (Y, ̺), (Z, γ) metrische Räume, sowie f : X → Y und<br />
g : Y → Z Abbildungen. Ist f stetig in a ∈ X und g stetig in b := f(a) ∈ Y , so ist<br />
g ◦ f : X → Z stetig in a.<br />
Beweis. Es sei W eine Umgebung von g(b) in Z. Dann ist V = g −1 (W) eine Umgebung<br />
von b in Y, folglich U = f −1 (V ) eine Umgebung von a in X, jeweils wegen<br />
der Stetigkeit von g in b bzw. von f in a. Schließlich ist (g ◦ f) −1 (W) = U.<br />
Q.E.D.<br />
Definition. Sind (X, d), (Y, ̺) metrische Räume, so bezeichnen wir mit C(X, Y ) die<br />
Menge aller stetigen Funktionen von X nach Y .<br />
Satz 3.22 Eine Abbildung f : X → Y ist genau dann stetig, wenn für jede offene<br />
(abgeschlossene) Teilmenge M von Y ihr Urbild f −1 (M) offen (abgeschlossen) ist<br />
in X.<br />
Beweis. Sei f ∈ C(X, Y ). Ist U ⊂ Y offen, und ist a ∈ f −1 (U), so ist U eine Umgebung<br />
von f(a) ist. Wegen der Stetigkeit von f in a ist somit f −1 (U) eine Umgebung<br />
von a. Dies zeigt, daß f −1 (U) offen ist. Weiter ist f −1 (U c ) = (f −1 (U)) c . Dies zeigt,<br />
daß auch das Urbild einer abgeschlossenen Teilmenge von Y stets abgeschlossen ist.<br />
Sei umgekehrt f ∈ Y X so, daß das Urbild einer offenen Menge unter f stets offen<br />
ist. Seien ferner a ∈ X, ε > 0. Dann ist V = f −1 (B ε (f(a))) eine offene Menge mit<br />
a ∈ V , also eine Umgebung von a. Damit ist f nach Satz 3.20 stetig in a. Es folgt<br />
f ∈ C(X, Y ).<br />
Q.E.D.<br />
Beispiele 3.23 a) Seien (X, d) und (Y 1 , d 1 ), (Y 2 , d 2 ) metrische Räume, sowie<br />
f 1 : X → Y 1 , f 2 : X → Y 2 Abbildungen. Die Abbildung<br />
f = (f 1 , f 2 ) : X → Y 1 × Y 2<br />
ist genau dann stetig in x ∈ X, wenn beide Abbildungen f 1 und f 2 stetig sind<br />
in x.<br />
62
Beweis. Eine Folge (y k ) k = ((y k1 , y k2 )) k in Y 1 × Y 2 konvergiert genau dann<br />
gegen y = (y 1 , y 2 ) in Y 1 ×Y 2 , wenn lim y k1 = y 1 und lim y k2 = y 2 (vergl. dazu<br />
k→∞ k→∞<br />
(3.3), sowie den Beweis von Satz 3.14).<br />
Ist nun (x k ) k eine Folge in X mit lim x k = x ∈ X, so gilt somit: Die Folge<br />
k→∞<br />
f(x k ) konvergiert genau dann gegen f(x) in Y 1 ×Y 2 , wenn lim f 1 (x k ) = f 1 (x)<br />
k→∞<br />
und lim f 2 (x k ) = f 2 (x). Hieraus folgt die Behauptung. Q.E.D.<br />
k→∞<br />
b) Durch Iteration erhält man insbesondere:<br />
Eine Abbildung<br />
f = (f 1 , . . .,f n ) : X → K n<br />
ist genau dann stetig, wenn alle Komponenten f j : X → K, j = 1, . . ., n,<br />
stetig sind.<br />
c) Folgende Abbildungen sind stetig:<br />
(i) add: K × K → K, (x, y) ↦→ x + y,<br />
(ii) mult: K × K → K,<br />
(iii) quot: K × K × → K,<br />
(x, y) ↦→ xy,<br />
(x, y) ↦→ x y , wobei K× = K \ {0} sei.<br />
Beweis. Sei ((x k , y k )) k eine Folge in K 2 mit<br />
lim (x k, y k ) = (x, y) .<br />
k→∞<br />
Nach Satz 3.14 gilt dann lim x k = x, lim y k = y.<br />
k→∞ k→∞<br />
Daraus folgt<br />
lim (x k + y k ) = x + y, lim (x k y k ) = xy .<br />
k→∞ k→∞<br />
Ist zusätzlich y k ≠ 0 für alle k sowie y ≠ 0, so ist auch<br />
lim x ky −1<br />
k<br />
= xy −1 .<br />
k→∞<br />
Q.E.D.<br />
Korollar 3.24 Sei (X, d) ein metrischer Raum, und seien f, g : X → K stetige<br />
Funktionen. Dann sind auch die Funktionen<br />
f + g : X → K,<br />
fg : X → K<br />
stetig. Ist ferner g(x) ≠ 0 für alle x ∈ X, so ist auch<br />
stetig.<br />
f<br />
g : X → K<br />
63
Beweis. Nach a) ist die Abbildung<br />
(f, g) : X → K × K<br />
stetig. Ferner ist<br />
f + g = add ◦ (f, g), fg = mult ◦ (f, g),<br />
Die Behauptung folgt somit aus Satz 3.21 und c).<br />
f<br />
g<br />
= quot ◦ (f, g) .<br />
Q.E.D.<br />
d) Ein Monom auf dem K n vom Grad r ∈ N ist eine Funktion von K n nach K<br />
der Gestalt<br />
(x 1 , . . .,x n ) ↦→ x k 1<br />
1 x k 2<br />
2 . . .x kn<br />
n ,<br />
wobei k 1 , . . .,k n ∈ N mit k 1 + · · · + k n = r sind. Eine Polynomfunktion<br />
F : K n → K vom Grad ≤ r ist eine Linearkombination von Monomen vom<br />
Grad ≤ r,<br />
∑<br />
F(x 1 , . . .,x n ) = c k1 ...k n<br />
x k 1<br />
1 · · ·xkn n ,<br />
k 1 +···+k n≤r<br />
mit c k1 ...k n<br />
∈ K. Gibt es einen Koeffizienten c l1 ...l n<br />
≠ 0 mit l 1 + · · · + l n = r,<br />
so heißt F vom Grad r.<br />
Da die Koordinatenprojektionen<br />
p j : (x 1 , . . .,x n ) ↦→ x j<br />
für j = 1, . . .,n stetig sind, folgt durch wiederholte Anwendung von Korollar<br />
3.24, daß alle Polynomfunktionen auf dem K n stetig sind.<br />
Definition. Seien (X, d), (Y, ̺) metrische Räume. Eine Abbildung f : X → Y<br />
heiße gleichmäßig stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt, so daß für alle<br />
x 1 , x 2 ∈ X gilt:<br />
(3.6)<br />
Ist d(x 1 , x 2 ) < δ, so ist ̺(f(x 1 ), f(x 2 )) < ε.<br />
f : X → Y heißt Lipschitz-stetig, falls eine Konstante L ≥ 0 existiert mit<br />
̺(f(x 1 ), f(x 2 )) ≤ Ld(x 1 , x 2 ) für alle x 1 , x 2 ∈ X. Eine solche Abbildung ist offenbar<br />
gleichmäßig stetig.<br />
Satz 3.25 Sei X 0 dicht in X, und sei f : X 0 → Y gleichmäßig stetig. Ist Y<br />
vollständig, so gibt es genau eine stetige Abbildung<br />
˜f : X → Y mit ˜f|X0 = f.<br />
Man bezeichnet ˜f als die stetige Fortsetzung von f auf X. Diese ist ebenfalls<br />
gleichmäßig stetig.<br />
64
Beweis. Sei x ∈ X. Dann existiert eine Folge (x j ) j in X 0 mit x = lim x j . Somit ist<br />
(x j ) j eine Cauchy-Folge in X. Wegen der gleichmäßigen Stetigkeit von f ist dann<br />
die Folge (f(x j )) j eine Cauchy-Folge in Y :<br />
Ist nämlich ε > 0, so wähle δ > 0 wie in (3.6). Zu δ wähle k 0 ∈ N so, daß d(x j , x k ) < δ<br />
ist für alle j, k ≥ k 0 . Für diese j, k ist dann ̺(f(x j ), f(x k )) < ε.<br />
Wegen der Vollständigkeit von Y strebt somit f(x j ) einem Grenzwert in Y zu, den<br />
wir mit ˜f(x) bezeichnen: ˜f(x) := lim f(xj ).<br />
Dieser Grenzwert hängt nicht von der gewählten Folge (x j ) j ab, so daß ˜f als Funktion<br />
auf X wohldefiniert ist:<br />
Ist nämlich (y j ) j eine weitere Folge in X 0 mit x = lim y j , und ist ε > 0, so wähle δ > 0<br />
gemäß (3.6). Ist k 0 ∈ N so gewählt, daß d(x j , y j ) ≤ d(x j , x)+d(y j , x) < δ/2+δ/2 = δ<br />
gilt für alle j ≥ k 0 , so folgt<br />
̺(f(x j ), f(y j )) < ε ∀j ≥ k 0 .<br />
Somit ist lim ̺(f(x j ), f(y j )) = 0, woraus limf(x j ) = lim f(y j ) folgt.<br />
Die Funktion ˜f besitzt alle gewünschten Eigenschaften: Ist x ∈ X 0 , so gilt für die<br />
konstante Folge (x j ) j mit x j := x in X 0 : x = lim x j , also ˜f(x) = lim f(x j ) = f(x),<br />
d.h. ˜f ist eine Fortsetzung von f. Ferner ist ˜f gleichmäßig stetig:<br />
Ist ε > 0, so wähle wieder δ > 0 wie in (3.6). Sind x, y ∈ X mit d(x, y) < δ/3, so<br />
seien (x j ) j und (y j ) j Folgen in X 0 mit x = lim x j und y = lim y j . Dann ist für jedes<br />
j offenbar<br />
also<br />
̺( ˜f(x), ˜f(y)) ≤ ̺( ˜f(x), f(x j )) + ̺(f(x j ), f(y j )) + ̺(f(y j ), ˜f(y)),<br />
̺( ˜f(x), ˜f(y)) ≤ lim<br />
j<br />
̺(f(x j ), f(y j )).<br />
Wähle k 0 ∈ N so, daß gilt: d(x, x j ) < δ/3 und d(y, y j ) < δ/3 für j ≥ k 0 .<br />
Für j ≥ k 0 ist dann<br />
also ̺(f(x j ), f(y j )) < ε. Somit folgt<br />
d(x j , y j ) ≤ d(x j , x) + d(x, y) + d(y, y j ) < δ,<br />
̺( ˜f(x), ˜f(y)) ≤ ε.<br />
Da für jede stetige Fortsetzung g von f auf X gelten muß: g(x) = lim f(x j ), falls<br />
(x j ) j eine Folge in X 0 ist mit x = lim x j , ist die Eindeutigkeit von ˜f klar.<br />
Q.E.D.<br />
Bemerkung. Ist x ∈ X 0 , so ist ˜f(x) = f(x). Ist x ∈ X \ X 0 , so ist x ein Häufungspunkt<br />
von X 0 , und der Beweis zeigt, daß ˜f(x) = lim<br />
y→x<br />
f(y).<br />
Beispiel. f(x) = sin 1 x<br />
fortsetzen.<br />
ist stetig auf ]0, ∞[, läßt sich jedoch nicht stetig auf [0, ∞[<br />
65
3.5 Konvergenz von Funktionenfolgen<br />
Definition. Es seien (X, d), (Y, ̺) metrische Räume. Eine Funktionenfolge (f n ) n in<br />
Y X konvergiere punktweise (oder einfach) gegen f ∈ Y X , falls lim f n (x) = f(x)<br />
n→∞<br />
ist für alle x ∈ X. Sie konvergiere gleichmäßig gegen f, wenn es zu jedem ε > 0<br />
ein N = N(ε) ∈ N gibt mit<br />
̺(f(x), f n (x)) < ε für alle n ≥ N und alle x ∈ X .<br />
Satz 3.26 Es sei (f n ) n eine Funktionenfolge in C(X, Y ), welche gleichmäßig gegen<br />
f : X → Y konvergiert. Dann ist auch f ∈ C(X, Y ).<br />
Beweis. (Analog wie im Falle X = Y = R). Sei dazu ε > 0. Wegen der gleichmäßigen<br />
Konvergenz existiert ein N ∈ N so, daß<br />
̺(f(x), f N (x)) < ε 3<br />
ist für alle x ∈ X .<br />
Sei a ∈ X. Da f N in a stetig ist, gibt es ein δ > 0 mit<br />
̺(f N (x), f N (a)) < ε 3<br />
für alle x ∈ X mit d(x, a) < δ .<br />
Dann gilt für alle x ∈ X mit d(x, a) < δ:<br />
̺(f(x), f(a)) ≤<br />
̺(f(x), f N (x)) + ̺(f N (x), f N (a)) + ̺(f N (a), f(a))<br />
< ε 3 + ε 3 + ε 3 = ε . Q.E.D.<br />
3.6 Die Vervollständigung eines metrischen<br />
Raumes*<br />
In Anwendungen trifft man des öfteren metrische Räume an, welche nicht vollständig<br />
sind. Ein solches Beispiel kennen wir bereits: Die Menge Q der rationalen Zahlen,<br />
versehen mit der Metrik d(x, y) = |x − y|, x, y ∈ Q, ist nicht vollständig. Der<br />
Wunsch, Q zu ”<br />
vervollständigen“, führt letzendlich dann zur Menge R der reellen<br />
Zahlen, mit R = Q.<br />
Ganz ähnlich läßt sich jeder beliebige metrische Raum vervollständigen.<br />
Definition. Es seien (X 1 , d 1 ) und (X 2 , d 2 ) zwei metrische Räume. Eine Abbildung<br />
ϕ : X 1 → X 2 heiße abstandstreu oder isometrisch oder auch Isometrie von X 1<br />
nach X 2 , wenn gilt:<br />
66
d 2 (ϕ(x), ϕ(y)) = d 1 (x, y) für alle x, y ∈ X 1 .<br />
Offenbar ist eine Isometrie stets injektiv.<br />
Definition. Es sei X = (X, d) ein metrischer Raum. Ein vollständiger metrischer<br />
Raum Y = (Y, ̺) heiße Vervollständigung von X, wenn es eine Isometrie ϕ : X →<br />
Y gibt mit ϕ(X) = Y , d.h. wenn ϕ(X) dicht in Y ist.<br />
Bemerkung 3.27 Ist (Y, ̺) eine solche Vervollständigung von (X, d), so bildet ϕ<br />
den metrischen Raum X bijektiv und isometrisch auf den Teilraum ˜X = ϕ(X)<br />
von Y ab. Wir können daher die Räume (X, d) und ( ˜X, ̺ ˜X)<br />
als metrische Räume<br />
identifizieren“, d.h. o.B.d.A. annehmen, daß X bereits ein Teilraum von Y ist.<br />
”<br />
Dann ist Y der Abschluß von X (in Y ), d.h. Y = X.<br />
Satz 3.28 Es seien Y 1 = (Y 1 , ̺1) und Y 2 = (Y 2 , ̺2) zwei Vervollständigungen des<br />
metrischen Raumes X = (X, d). Dann gibt es eine bijektive Isometrie von Y 1 auf Y 2 .<br />
Beweis. Seien ϕ j : X → Y j Isometrien mit ϕ j (X) = Y j , j = 1, 2. Setze Z j :=<br />
ϕ j (X) ⊂ Y j , und betrachte die Abbildung<br />
ϕ := ϕ 2 ◦ ϕ −1<br />
1 : Z 1 → Z 2 ⊂ Y 2 .<br />
Als Komposition zweier Isometrien ist ϕ eine Isometrie, und folglich als solche<br />
gleichmäßig stetig. Es bezeichne ˜ϕ : Y 1 → Y 2 ihre stetige Fortsetzung nach Satz<br />
3.25. Dann ist auch ˜ϕ isometrisch. Dies folgt sofort aus der folgenden Tatsache:<br />
Ist (X, d) ein metrischer Raum, so ist die Metrik d : X ×X → R stetig als Funktion<br />
auf dem Produktraum X × X (Übung).<br />
Ganz analog besitzt die Isometrie<br />
ψ := ϕ 1 ◦ ϕ −1<br />
2 : Z 2 → Y 1<br />
eine Fortsetzung zu einer Isometrie ˜ψ : Y 2 → Y 1 .<br />
Dann ist jedoch ˜ψ ◦ ˜ϕ : Y 1 → Y 1 eine Isometrie mit<br />
˜ψ ◦ ˜ϕ| Z1 = ϕ 1 ◦ ϕ −1<br />
2 ◦ ϕ 2 ◦ ϕ −1<br />
1 = id | Z1 ,<br />
und da ˜ψ ◦ ˜ϕ stetig ist und Z 1 dicht in Y 1 liegt, folgt: ˜ψ ◦ ˜ϕ = id . Analog folgt auch<br />
˜ϕ ◦ ˜ψ = id , d.h. ˜ϕ ist eine bijektive Isometrie von Y 1 auf Y 2 , mit Umkehrabbildung<br />
˜ψ.<br />
Q.E.D.<br />
Dieser Satz zeigt, daß es bis auf Isometrie nur höchstens eine Vervollständigung eines<br />
metrischen Raumes gibt.<br />
67
Theorem 3.29 Jeder metrische Raum besitzt eine Vervollständigung.<br />
Bemerkung. Ist (X, d) ein metrischer Raum, so bezeichnet man oft mit (X, d) ”<br />
die“<br />
Vervollständigung von X, und nimmt o.B.d.A. gemäß Bemerkung 3.27 an, daß X<br />
der Abschluß von X ist.<br />
Beweis von Theorem 3.29.<br />
Es sei (X, d) ein metrischer Raum. Dann bezeichne Z die Menge aller Cauchy-Folgen<br />
in X.<br />
Sind nun ξ = (x n ) n∈N und η = (y n ) n∈N zwei Elemente von Z, so liest man aus der<br />
Ungleichung<br />
|d(x n , y n ) − d(x m , y m )| ≤ d(x n , x m ) + d(y m , y n )<br />
leicht ab, daß die Folge (d(x n , y n )) n∈N eine Cauchy-Folge in R bildet. Wir setzen<br />
̺′(ξ,<br />
η) := lim<br />
n→∞<br />
d(x n , y n ) .<br />
Man prüft nun leicht die folgenden Eigenschaften von ̺′ nach:<br />
(i) ̺′(ξ, η) ≥ 0 für alle ξ, η ∈ Z.<br />
(ii ′ ) ̺′(ξ, ξ) = 0 für alle ξ ∈ Z.<br />
(iii) ̺′(ξ, η) = ̺′(η, ξ) für alle ξ, η ∈ Z.<br />
(iv) ̺′(ξ, γ) ≤ ̺′(ξ, η) + ̺′(η, γ) für alle ξ, η, γ ∈ Z.<br />
Ferner ist ̺′(ξ, η) = ̺′((x n ) n , (y n ) n ) = 0 genau dann, wenn lim<br />
n→∞<br />
d(x n , y n ) = 0 ist. ̺′<br />
erfüllt also die Eigenschaften einer Metrik auf Z, bis auf die Eigenschaft (ii).<br />
Wir führen daher auf Z die folgende Relation ein:<br />
ξ ∼ η, falls ̺′(ξ,<br />
η) = 0 ist.<br />
Aus (i), (ii ′ ), (iii) und (iv) ersieht man leicht, daß hierdurch eine Äquivalenzrelation<br />
auf Z definiert wird, und wir setzen<br />
Y := Z/ ∼ .<br />
Sind x, y ∈ Y zwei Äquivalenzklassen, und sind ξ ∈ x, η ∈ y zwei Repräsentanten<br />
aus Z, so setzen wir<br />
̺(x, y) := ̺′(ξ,<br />
η) .<br />
Wiederum aus (i) – (iv) ersieht man, daß ̺ wohldefiniert ist. Sind nämlich beispielsweise<br />
ξ, ξ ′ ∈ x, η ∈ y, so ist<br />
̺′(ξ,<br />
η) ≤ ̺′(ξ,<br />
ξ ′ ) + ̺′(ξ ′ , η) = ̺′(ξ ′ , η) ,<br />
68
und ebenso ist ̺′(ξ ′ , η) ≤ ̺′(ξ, η), so daß ̺′(ξ, η) = ̺′(ξ ′ , η) ist.<br />
Aus der Definition von ̺ ergibt sich sofort, daß ̺ ebenfalls die Eigenschaften (i),<br />
(ii ′ ), (iii) und (iv) erfüllt. Zusätzlich gilt jedoch noch<br />
(ii) ̺(x, y) = 0 genau dann, wenn x = y, d.h. ̺ ist eine Metrik auf Y .<br />
Ist nämlich ̺(x, y) = 0, und sind ξ ∈ x, η ∈ y, so ist ̺′(ξ, η) = 0, d.h. ξ ∼ η und<br />
somit x = [ξ] = [η] = y .<br />
Weiter wird durch<br />
ϕ : X → Y, x ↦→ [(x) n ],<br />
eine Isometrie von X in Y definiert, denn es ist für x, y ∈ X<br />
̺([(x) n ], [(y) n ]) = ̺′((x)<br />
n , (y) n ) = lim<br />
n→∞<br />
d(x, y) = d(x, y) ;<br />
hier ist für x ∈ X mit (x) n die konstante Folge (x n ) n mit x n = x für alle n gemeint.<br />
Behauptung: ϕ(X) = Y .<br />
Ist nämlich x ∈ Y , so sei ξ = (x n ) n ∈ x . Dann ist<br />
̺(x, ϕ(x n )) = ̺′((x<br />
k ) k , (x n ) k ) = lim<br />
k→∞<br />
d(x k , x n ) .<br />
Sei ε > 0. Da (x k ) k eine Cauchy-Folge ist, gibt es ein N ∈ N, so daß d(x k , x n ) < ε<br />
ist für alle k, n ≥ N. Insbesondere ist für n ≥ N<br />
̺(x, ϕ(x n )) = lim<br />
k→∞<br />
d(x k , x n ) ≤ ε .<br />
Folglich ist lim n→∞̺(x, ϕ(x n )) = 0. Dies zeigt, daß jeder Punkt x von Y ein Berührungspunkt<br />
von ϕ(X) ist.<br />
Schließlich müssen wir noch die Vollständigkeit von Y nachweisen. Sei dazu (y n ) n<br />
eine Cauchy-Folge in Y . Da ϕ(X) dicht in Y ist, gibt es eine Folge (x n ) n in X mit<br />
ρ(y n , ϕ(x n )) < 1/(n + 1) .<br />
Hieraus folgt leicht, daß auch die Folge (ϕ(x n )) n eine Cauchy-Folge in Y ist. Da<br />
jedoch<br />
̺(ϕ(x n ), ϕ(x m )) = d(x n , x m )<br />
ist, ist die Folge ξ = (x n ) n somit eine Cauchy-Folge in X. Es sei y := [ξ] ∈ Y . Dann<br />
ist nach dem Beweis der vorangegangenen Behauptung<br />
y = lim<br />
n→∞<br />
ϕ(x n ) n in Y .<br />
Ferner ist offenbar lim n→∞ ρ(y n , ϕ(x n )) = 0, und somit auch<br />
Die Folge (y n ) n konvergiert also in Y .<br />
y = lim<br />
n→∞<br />
y n in Y .<br />
Q.E.D.<br />
69
Kapitel 4<br />
Stetige lineare Abbildungen<br />
zwischen normierten<br />
Vektorräumen<br />
Satz 4.1 Seien (V, ‖ · ‖ V ) und (W, ‖ · ‖ W ) normierte Vektorräume über K, sowie<br />
v ∈ V . Für eine lineare Abbildung T : V → W sind die folgenden Bedingungen<br />
äquivalent:<br />
(a) T ist stetig in 0 ∈ V .<br />
(b) T ist stetig in v.<br />
(c) T ist global stetig.<br />
(d) T ist eine beschränkte lineare Abbildung, d.h. es gibt eine Konstante C ≥ 0<br />
mit<br />
‖T(x)‖ W ≤ C‖x‖ V für alle x ∈ V.<br />
Beweis. (a) ⇐⇒ (b):<br />
Da ‖T(x) − T(v)‖ W = ‖T(x − v)‖ W = ‖T(x − v) − T(0)‖ W ist für alle x, v ∈ V ,<br />
folgt die Äquivalenz von (a) und (b) sofort aus dem ε − δ-Kriterium in Satz 3.20.<br />
Die Äquivalenz von (a),(b) mit (c) ist offensichtlich, da ja v ∈ V beliebig ist .<br />
(a) ⇒ (d): Ist T stetig in 0, so gibt es zu ε = 1 ein δ > 0 so, daß<br />
‖T(z)‖ W < 1 für alle z ∈ V mit ‖z‖ V < δ .<br />
Ist nun x ∈ V \ {0} beliebig, so setzen wir z :=<br />
folglich<br />
δ<br />
2‖x‖ V<br />
x. Dann ist ‖z‖ V = δ < δ, 2<br />
‖T(x)‖ W = ‖T( 2‖x‖ V<br />
z)‖ W = 2‖x‖ V<br />
‖T(z)‖ W < 2 δ δ δ ‖x‖ V .<br />
Somit gilt die Abschätzung in (d) mit C := 2/δ.<br />
70
(d) ⇒ (c): Aus der Abschätzung in (d) folgt:<br />
‖T(x) − T(v)‖ W ≤ C‖x − v‖ V , ∀x, v ∈ V,<br />
woraus sogar Lipschitz- Stetigkeit von T folgt.<br />
Q.E.D.<br />
Bemerkung 4.2 Um die Schreibweise zu erleichtern, werden wir in Zukunft die<br />
Norm ‖ · ‖ V auf einem normierten Vektorraum in der Regel einfach mit ‖ · ‖ bezeichnen,<br />
auch wenn es sich mitunter um Normen auf verschiedenen normierten<br />
Vektorräumen handeln wird, die wir so mit demselben Symbol belegen werden.<br />
Beispiele 4.3<br />
(a) Sei V = C([a, b]), versehen mit der Supremumsnorm<br />
‖f‖ ∞ = sup{|f(x)| : x ∈ [a, b]} .<br />
Sei I : C([a, b]) → C die durch das Integral definierte lineare Abbildung<br />
I(f) :=<br />
∫ b<br />
a<br />
f(x) dx, f ∈ C([a, b]) .<br />
Dann ist I stetig, denn es gilt die Abschätzung<br />
|I(f)| ≤ (b − a)‖f‖ ∞ .<br />
(b) Sei W der lineare Teilraum C 1 ([0, 1]) von C([0, 1]), versehen mit der Supremumsnorm,<br />
und sei<br />
D : C 1 ([0, 1]) → C([0, 1])<br />
die durch die Differentiation D(f) := f ′ gegebene lineare Abbildung. D ist<br />
nicht stetig:<br />
Für die Funktionen f n ∈ C 1 ([0, 1]), f n (x) = x n , n ∈ N, gilt nämlich: ‖f n ‖ ∞ =<br />
1, ‖D(f n )‖ ∞ = n. Es gibt daher keine Konstante C ∈ R + 0 mit ‖D(f n )‖ ∞ ≤<br />
C‖f n ‖ ∞ für alle n ∈ N.<br />
Definition. Es sei T : V → W eine stetige lineare Abbildung zwischen normierten<br />
Vektorräumen. Nach Satz 4.1 ist T beschränkt, so daß<br />
endlich ist. Es gilt dann offenbar<br />
‖T ‖ = ‖T ‖ op := sup{‖T(x)‖ : x ∈ V, ‖x‖ ≤ 1}<br />
(4.1) ‖T(x)‖ ≤ ‖T ‖ · ‖x‖ für alle x ∈ V ,<br />
71
(<br />
da für x ≠ 0 die Abschätzung ‖T<br />
x<br />
‖x‖<br />
)<br />
‖ ≤ ‖T ‖ zutrifft.<br />
Ferner ist ‖T ‖ offenbar die kleinste Konstante C, für welche die Abschätzung in Teil<br />
(d) von Satz 4.1 gilt.<br />
Z.B. ist ‖I‖ = 1, wobei I den identischen Operator x ↦→ x bezeichne.<br />
Wir bezeichnen eine stetige lineare Abbildung T : V → W auch als beschränkten<br />
linearen Operator, und schreiben anstelle von T(x) oftmals auch kurz Tx.<br />
L(V, W) bezeichne die Menge aller beschränkten linearen Operatoren T : V → W.<br />
Sind T, S ∈ L(V, W), λ ∈ K, x ∈ V , so gilt nach (4.1):<br />
‖(T + S)(x)‖<br />
‖(λT)(x)‖<br />
= ‖Tx + Sx‖ ≤ ‖Tx‖ + ‖Sx‖<br />
≤ ‖T ‖ ‖x‖ + ‖S‖ ‖x‖<br />
= (‖T ‖ + ‖S‖)‖x‖,<br />
= ‖λTx‖ = |λ| ‖Tx‖,<br />
woraus folgt: λT, T + S ∈ L(V, W), und<br />
‖λT ‖<br />
= |λ| ‖T ‖,<br />
‖T + S‖ ≤ ‖T ‖ + ‖S‖.<br />
Ferner ist offenbar ‖T ‖ = 0 genau dann, wenn Tx = 0 ∀x ∈ V , d.h. wenn T = 0.<br />
Dies zeigt, daß L(V, W) einen K-Vektorraum bildet, und daß ‖ · ‖ = ‖ · ‖ op eine<br />
Norm auf L(V, W) ist, die sogenannte Operatornorm. Diese werden wir stets auf<br />
L(V, W) verwenden.<br />
Beispiel 4.4 V = R n , W = R m .<br />
Bezeichnen e 1 , . . .,e n und f 1 , . . .,f m die kanonischen Basen des R n bzw. R m , und<br />
∑<br />
ist T ∈ L(R n , R m ), so gilt für x = n x k e k ∈ R n :<br />
k=1<br />
Tx =<br />
n∑<br />
x k Te k ,<br />
k=1<br />
wobei Te k sich eindeutig darstellen läßt als<br />
(4.2) Te k =<br />
m∑<br />
a jk f j , a jk ∈ R.<br />
j=1<br />
Somit ist<br />
(4.3) Tx =<br />
m∑<br />
j=1<br />
( n∑<br />
k=1<br />
a jk x k<br />
)<br />
f j .<br />
72
Daher identifiziert man in der linearen Algebra bekanntlich T ∈ L(R n , R m ) mit der<br />
m × n-Matrix A := (a jk ) j=1,...,m, und die Anwendung von T auf x läßt sich durch<br />
k=1,...,n<br />
Matrixmultiplikation von A mit dem Spaltenvektor t x darstellen, d.h.<br />
⎛ ⎞<br />
x 1<br />
(4.4)<br />
t (Tx) = A ·tx, t ⎜ ⎟<br />
x = ⎝ . ⎠ .<br />
x n<br />
Konvention: Wann immer wir eine lineare Abbildung T : R n → R m durch eine<br />
Matrix bezüglich der kanonischen Basen dieser Räume beschreiben, werden wir daher<br />
die Vektoren als Spaltenvektoren betrachten, und T durch Linksmultiplikation<br />
mit einer m × n-Matrix A darstellen:<br />
⎛ ⎞<br />
x 1<br />
⎜ ⎟<br />
(4.5) T(x) = A · x, x = ⎝ . ⎠.<br />
x n<br />
⎛ ⎞<br />
a 1k<br />
⎜ ⎟<br />
Schreiben wir die Matrix A in der Form A = (A 1 , . . .,A n ), wobei A k := ⎝ . ⎠ den<br />
a mk<br />
k-ten Spaltenvektor der Matrix A bezeichne, so gilt also<br />
⎛ ⎞<br />
n∑<br />
x 1<br />
⎜ ⎟<br />
(4.6) T(x) = A · x = x k A k , falls x = ⎝ . ⎠ .<br />
k=1<br />
x n<br />
Bemerkung. Ist V = W, und sind S, T ∈ L(V, V ), so ist auch S ◦ T ∈ L(V, V ),<br />
und man sieht leicht:<br />
(4.7) ‖S ◦ T ‖ ≤ ‖S‖ ‖T ‖ .<br />
L(V, V ) bildet bzgl. der Addition und Komposition beschränkter linearer Operatoren<br />
somit sogar eine normierte Algebra (d.h. eine Algebra (A, +, ·) über K, K = R<br />
oder K = C, versehen mit einer Norm ‖·‖, so daß (A, ‖·‖) ein normierter Vektorraum<br />
ist, und so daß für alle a, b ∈ A gilt: ‖a · b‖ ≤ ‖a‖ ‖b‖. Besitzt A ein Einselement I,<br />
so verlangt man zusätzlich ‖I‖ = 1).<br />
Ist W vollständig, so ist auch L(V, W) vollständig. Insbesondere ist L(V, V ) eine<br />
Banach-Algebra, d.h. eine vollständig normierte Algebra, falls V ein Banach-<br />
Raum ist.<br />
Satz 4.5 Ist V = K n , so ist jede lineare Abbildung T : K n → W stetig.<br />
73
Beweis. Es bezeichne e k = (0, . . .,0, 1, 0, . . ., 0) den k-ten Basisvektor der kanonischen<br />
Basis des K n . Setze w k := T(e k ) ∈ W, k = 1, . . .,n. Für x = (x 1 , . . .,x n ) =<br />
∑ n<br />
k=1 x ke k ∈ K n gilt dann (man vergleiche dies mit (4.6)):<br />
Tx =<br />
n∑<br />
x k w k ,<br />
k=1<br />
also<br />
‖Tx‖<br />
≤<br />
n∑<br />
‖x k w k ‖ =<br />
n∑<br />
‖w k ‖ |x k | ≤<br />
‖w k ‖ 2 ) 1/2<br />
‖x‖ 2 .<br />
( n∑<br />
k=1<br />
k=1<br />
k=1<br />
Es folgt<br />
‖Tx‖ ≤ C‖x‖ 2 , mit C :=<br />
( n∑<br />
k=1<br />
‖w k ‖ 2 ) 1/2<br />
.<br />
Somit ist T beschränkt und folglich stetig.<br />
Q.E.D.<br />
74
Kapitel 5<br />
Kompaktheit<br />
5.1 Kompakte metrische Räume<br />
Definition. Der metrische Raum (X, d) heiße Folgen-kompakt, wenn jede Folge<br />
(x n ) n in X (mindestens) eine konvergente Teilfolge besitzt.<br />
Eine Teilmenge Y ⊂ X heiße Folgen-kompakt, wenn Y als metrischer Teilraum<br />
von X Folgen-kompakt ist.<br />
Der Satz von Bolzano-Weierstraß aus der <strong>Analysis</strong> I läßt sich nun auch folgendermaßen<br />
formulieren:<br />
Jedes “kompakte“ Intervall [a, b] mit a, b ∈ R, a ≤ b, ist Folgen-kompakt.<br />
Satz 5.1 Sind (X 1 , d 1 ), (X 2 , d 2 ) zwei metrische Räume, und sind K 1 ⊂ X 1 und<br />
K 2 ⊂ X 2 Folgen-kompakte Teilmengen, so ist auch die Menge K 1 × K 2 Folgenkompakt<br />
in (X 1 × X 2 , d), wobei d die Metrik (3.3) auf X 1 × X 2 bezeichne.<br />
Beweis. Ist ((x n , y n )) n eine Folge in K 1 ×K 2 , so gibt es zunächst wegen der Folgen-<br />
Kompaktheit von K 1 eine aufsteigende Indexfolge (n j ) j so, daß die Teilfolge (x nj ) j<br />
von (x n ) n in K 1 konvergiert. Aus der Teilfolge (y nj ) j von (y n ) n in K 2 läßt sich dann<br />
wiederum eine in K 2 konvergente Teilfolge (y njk ) k auswählen. Setzen wir m k := n jk ,<br />
so finden wir damit insgesamt eine aufsteigende Indexfolge (m k ) k derart, daß die<br />
Teilfolge (x mk ) k von (x n ) n in K 1 und die Teilfolge (y mk ) k von (y n ) n in K 2 konvergiert.<br />
Hieraus folgert man, daß die Teilfolge ((x mk , y mk )) k von ((x n , y n )) n in K 1 ×K 2<br />
konvergiert.<br />
Q.E.D.<br />
Beispiel. Durch wiederholte Anwendung dieser Beobachtung erkennt man, daß jeder<br />
abgeschlossene Quader [a 1 , b 1 ] × · · · × [a n , b n ] im R n Folgen- kompakt ist.<br />
Definitionen. Sei Y ⊂ X. Eine Familie (U ι ) ι∈I von Teilmengen von X heiße Überdeckung<br />
von Y , wenn gilt<br />
Y ⊂ ⋃ ι∈I<br />
U ι .<br />
75
Sie heiße offene Überdeckung von Y , wenn zusätzlich alle U ι offen sind.<br />
Gibt es zu jedem ε > 0 eine endliche Überdeckung von Y aus Kugeln B ε (a j ), j =<br />
1, . . .m, welche allesamt den Radius ε haben, d.h.<br />
U =<br />
m⋃<br />
B ε (a j ),<br />
so heißt die Menge Y total beschränkt oder auch präkompakt.<br />
j=1<br />
Schließlich heiße der metrische Raum X separabel, wenn er eine abzählbare dichte<br />
Teilmenge enthält.<br />
Satz 5.2 Sei X = (X, d) ein Folgen-kompakter metrischer Raum. Dann gilt:<br />
(i) X ist vollständig.<br />
(ii) X ist beschränkt.<br />
(iii) X ist total beschränkt.<br />
(iv) X ist separabel.<br />
Beweis.<br />
(i) Sei (x n ) n eine Cauchy-Folge in X. Da X Folgen-kompakt ist, existiert eine<br />
konvergente Teilfolge (x nk ) k . Ist x = lim x nk , so konvergiert auch die gesamte<br />
k→∞<br />
Folge (x n ) n gegen x, denn:<br />
Ist ε > 0, so existieren ein N ∈ N sowie k 0 ∈ N so, daß d(x n , x m ) < ε/2 für<br />
alle m, n ≥ N, und d(x, x nk ) < ε/2 für alle k ≥ k 0 . Wähle k ≥ k 0 so groß, daß<br />
n k ≥ N. Für n ≥ N folgt dann d(x, x n ) ≤ d(x, x nk )+d(x nk , x n ) < ε/2+ε/2 =<br />
ε.<br />
(ii) Wäre X unbeschränkt, so gäbe es zwei Folgen (x n ) n und (y n ) n in X mit<br />
d(x n , y n ) → ∞ .<br />
Andererseits gibt es wegen der Folgen-Kompaktheit von X eine aufsteigende<br />
Folge (n k ) k in N so, daß beide Teilfolgen (x nk ) k und (y nk ) k in X konvergieren.<br />
Dies steht im Widerspruch zu<br />
d(x nk , y nk ) → ∞ für k → ∞ .<br />
76
(iii) Sei ε > 0 gegeben. Wir wählen einen Punkt a 0 ∈ X. Ist B ε (a 0 ) c ≠ ∅, so<br />
wählen wir a 1 ∈ B ε (a 0 ) c . Ist weiter (B ε (a 0 ) ∪ B ε (a 1 )) c ≠ ∅, so wählen wir<br />
a 2 ∈ (B ε (a 0 ) ∪ B ε (a 1 )) c , und fahren entsprechend fort. Dieses Verfahren muß<br />
abbrechen, denn andernfalls erhielten wir damit eine Folge (a n ) n in X, bei der<br />
der Abstand je zweier Folgenglieder stets größer als ε > 0 wäre, und welche<br />
somit keine konvergente Teilfolge besäße. Es muß also ein k ∈ N geben mit<br />
X = B ε (a 0 ) ∪ · · · ∪ B ε (a k ) .<br />
(iv) Wir wählen zu jedem ε = 1 n , n ∈ N× , eine endliche Überdeckung<br />
(B 1/n (a nj )) j=1,...,kn von X gemäß (iii), und setzen A := {a nj , n ∈ N × , j =<br />
1, . . ., k n }. Dann ist A abzählbar, und es ist A = X.<br />
Ist nämlich x ∈ X, so gibt es zu jedem n ∈ N × ein j n mit x ∈ B 1/n (a njn ).<br />
Folglich ist x = lim a njn .<br />
n→∞ Q.E.D.<br />
Eine keineswegs naheliegende, äquivalente Charakterisierung der Folgen-<br />
Kompaktheit wird durch folgende Definition gegeben:<br />
Definition. Eine Teilmenge K von (X, d) heiße kompakt, wenn es zu jeder offenen<br />
Überdeckung (U ι ) ι∈I von K endlich viele Indizes ι 1 , . . .,ι k ∈ I gibt mit<br />
K ⊂ U ι1 ∪ · · · ∪ U ιk ,<br />
d.h. wenn jede offene Überdeckung von K eine endliche Teilüberdeckung enthält.<br />
Theorem 5.3 Ein metrischer Raum (X, d) ist kompakt genau dann, wenn er<br />
Folgen-kompakt ist.<br />
Beweis. Wir beweisen beide zu zeigenden Implikationen durch Widerspruch.<br />
Sei zunächst X kompakt, und sei (x n ) n eine Folge in X. Angenommen, keine Teilfolge<br />
von (x n ) n konvergiert gegen einen Punkt von X. Dann besitzt jeder Punkt x ∈ X<br />
eine offene Umgebung U x , in der nur endlich viele Glieder der Folge liegen. Es gilt<br />
offenbar X = ⋃ U x . Da X kompakt ist, gibt es endlich viele Punkte x 1 , . . .,x m ∈ X<br />
mit X = m ⋃<br />
k=1<br />
x∈X<br />
nicht möglich ist.<br />
U xk . Dann lägen aber in ganz X nur endlich viele Folgenglieder, was<br />
Wir nehmen nun umgekehrt an, daß X Folgen-kompakt ist. Sei (U ι ) ι∈I eine offene<br />
Überdeckung von X. Angenommen, diese besitzt keine endliche Teilüberdeckung.<br />
Nach Satz 5.2 können wir für jedes n ∈ N × endlich viele Kugeln mit Radius 1/n<br />
wählen, welche X überdecken.<br />
77
Unsere Voraussetzung impliziert dann, daß mindestens eine dieser Kugeln mit Radius<br />
1/n nicht durch endlich viele der Mengen U ι überdeckt wird, sagen wir die Kugel<br />
B n = B 1/n (z n ).<br />
Da X Folgen-kompakt ist, besitzt die Folge (z n ) n eine konvergente Teilfolge (z nj ) j ,<br />
welche gegen ein z ∈ X konvergiert. Wähle den Index ι 0 ∈ I so, daß z ∈ U ι0 . Da U ι0<br />
offen ist, gibt es eine Kugel B = B ε (z), ε > 0, welche in U ι0 enthalten ist. Wähle N<br />
so groß, daß 2 N < ε. Dann existiert ein n = n j > N so, daß<br />
gilt. Für jedes x ∈ B n gilt dann:<br />
d(z n , z) < 1/N<br />
d(x, z) ≤ d(x, z n ) + d(z n , z) < 1 n + 1 N < 2 N < ε,<br />
d.h. es ist B n ⊂ B ⊂ U ι0 . Dies widerspricht der Wahl von B n (da danach B n sogar<br />
durch eine der Mengen U ι überdeckt wird). Dieser Widerspruch zeigt, daß X doch<br />
durch endlich viele der Mengen U ι überdeckt werden kann.<br />
Q.E.D.<br />
Satz 5.4 Sei (X, d) ein metrischer Raum, und sei A ⊂ X eine Teilmenge.<br />
(i) A ist kompakt in X genau dann, wenn A als metrischer Teilraum von (X, d)<br />
kompakt ist.<br />
(ii) Ist A kompakt, so ist A abgeschlossen in X.<br />
(iii) Ist (X, d) kompakt, so ist A kompakt genau dann, wenn A abgeschlossen ist in<br />
X.<br />
Beweis.<br />
(i) Dies folgt sofort aus der Definition der Kompaktheit und der Tatsache, daß<br />
V ⊂ A offen im metrischen Teilraum A ist genau dann, wenn es eine offene<br />
Teilmenge U von X gibt mit V = A ∩ U (vergl. Satz 3.11).<br />
(ii) Ist A kompakt, so ist A Folgen-kompakt. Ist somit (a n ) n eine Folge in A, welche<br />
gegen ein x ∈ X konvergiert, so besitzt diese eine in A konvergente Teilfolge.<br />
Folglich ist x ∈ A, und damit A abgeschlossen.<br />
(iii) Sei (X, d) kompakt, und sei A abgeschlossen in X. Ist dann (U ι ) ι∈I eine offene<br />
Überdeckung von A, so ist durch die Mengen U ι , ι ∈ I, und A c eine offene<br />
Überdeckung von X gegeben. Da X kompakt ist, gibt es folglich ι 1 , . . .,ι k ∈ I<br />
mit<br />
A c ∪ U ι1 ∪ · · · ∪ U ιk ⊃ A .<br />
78
Hieraus folgt U ι1 ∪ · · · ∪ U ιk ⊃ A. Somit ist A kompakt.<br />
Die Umkehrung ist nach (ii) klar.<br />
Q.E.D.<br />
Wir haben gesehen, daß jede kompakte Teilmenge von X abgeschlossen und beschränkt<br />
ist. Die Umkehrung hiervon gilt i.a. jedoch nicht.<br />
Beispiel 5.5 Wir betrachten N mit der diskreten Metrik<br />
{<br />
0, falls x = y,<br />
d(x, y) =<br />
1, falls x ≠ y.<br />
Dann ist (N, d) abgeschlossen und beschränkt, die Folge (n) n∈N beispielsweise enthält<br />
jedoch keine konvergente Teilfolge (eine solche müßte ab einem gewissen Index konstant<br />
sein).<br />
Im R n gilt jedoch das<br />
Theorem 5.6 (Satz von Heine-Borel) Eine Teilmenge A ⊂ R n ist genau dann<br />
kompakt, wenn sie abgeschlossen und beschränkt ist.<br />
Beweis. Es bleibt nur noch eine Richtung zu zeigen.<br />
Sei also A abgeschlossen und beschränkt. Wir zeigen, daß A kompakt ist. Da A<br />
beschränkt ist, können wir ein R > 0 so wählen, daß für jedes a = (a 1 , . . ., a n ) ∈ A<br />
gilt:<br />
max<br />
j=1,...,n |a j| ≤ R ,<br />
d.h. A liegt im Würfel W := [−R, R] n . Dieser ist aber nach dem Satz 5.1 folgenden<br />
Beispiel Folgen-kompakt, also kompakt. Somit ist A eine abgeschlossene Teilmenge<br />
einer kompakten Menge, folglich nach Satz 5.4 (iii) kompakt.<br />
Q.E.D.<br />
Wir können nun einige Sätze, welche wir für stetige Funktionen auf kompakten<br />
Intervallen bewiesen hatten, erheblich verallgemeinern.<br />
Theorem 5.7 Es seien X, Y metrische Räume und f ∈ C(X, Y ). Ist K ⊂ X<br />
kompakt, so ist auch f(K) ⊂ Y kompakt.<br />
Beweis. Sei (U ι ) ι∈I eine offene Überdeckung von f(K). Nach Satz 3.22 sind die<br />
Mengen V ι := f −1 (U ι ) offen in X, und es gilt: K ⊂ ⋃ V ι . Da K kompakt ist, gibt<br />
es endlich viele Indizes ι 1 , . . .,ι m mit K ⊂ m ⋃<br />
k=1<br />
ι∈I<br />
V ιk . Hieraus folgt f(K) ⊂ ⋃ m<br />
k=1 U ι k<br />
.<br />
Q.E.D.<br />
79
Satz 5.8 Seien X ein kompakter metrischer Raum und f ∈ C(X, R). Dann ist<br />
die Funktion f beschränkt und nimmt ihr Maximum und Minimum an, d.h. es gibt<br />
Punkte p, q ∈ X mit<br />
f(p) = sup{f(x) : x ∈ X}, f(q) = inf{f(x) : x ∈ X} .<br />
Beweis. Nach Theorem 5.7 ist K := f(X) ⊂ R kompakt, also abgeschlossen und<br />
beschränkt. Sei α = sup(K). Dann ist α ∈ R, und es existiert eine Folge (a n ) n in K<br />
mit α = lim a n . Folglich ist α ∈ K. Dies beweist die Behauptung über das Maximum<br />
von f, und diejenige über das Minimum wird analog bewiesen.<br />
Q.E.D.<br />
Satz 5.9 Seien (X, d), (Y, ̺) metrische Räume. Ist X kompakt, so ist jede stetige<br />
Funktion f ∈ C(X, Y ) gleichmäßig stetig.<br />
Beweis. Sei ε > 0. Da f stetig ist, gibt es zu jedem z ∈ X ein δ(z) > 0 so, daß gilt:<br />
Da X kompakt ist, und da X = ⋃<br />
̺(f(x), f(z)) < ε 2 für alle x ∈ B δ(z)(z) .<br />
z∈X<br />
X =<br />
B δ(z)/2 (z), gibt es Punkte z 1 , . . .,z k ∈ X mit<br />
k⋃<br />
B δ(zj )/2(z j ) .<br />
j=1<br />
Sei δ := 1 2 min{δ(z 1), . . .,δ(z k )}. Seien nun x, y zwei beliebige Punkte in X mit<br />
d(x, y) < δ. Zu x gibt es ein j ∈ {1, . . ., k} mit x ∈ B δ(zj )/2(z j ). Mittels der Dreiecksungleichung<br />
folgt dann: y ∈ B δ(zj )(z j ). Somit erhalten wir<br />
̺(f(x), f(z j )) < ε 2 und ̺(f(y), f(z j)) < ε 2 ,<br />
also<br />
̺(f(x), f(y)) < ε .<br />
Q.E.D.<br />
80
5.2 Äquivalenz der Normen auf dem R n<br />
Wir haben bereits in den Übungen gesehen, daß alle p-Normen auf dem R n äquivalent<br />
sind, und somit auch dieselbe Topologie und denselben Konvergenzbegriff<br />
induzieren. Allgemeiner gilt sogar<br />
Satz 5.10 Je zwei Normen auf dem R n sind äquivalent.<br />
Beweis. Sei ‖·‖ eine beliebige, feste Norm auf dem R n . Wir zeigen, daß ‖·‖ ∼ ‖·‖ ∞<br />
ist, woraus die Behauptung folgt.<br />
Es bezeichne e 1 , . . ., e n die kanonische Basis des R n . Für x = (x 1 , . . .,x n ) =<br />
∑ n<br />
j=1 x je j ∈ R n folgt:<br />
(5.1) ‖x‖ ≤<br />
n∑<br />
‖x j e j ‖ =<br />
j=1<br />
n∑<br />
|x j | ‖e j ‖ ≤ c 2 ‖x‖ ∞ ,<br />
j=1<br />
∑<br />
mit c 2 := n ‖e j ‖.<br />
j=1<br />
Aus (5.1) folgt insbesondere, daß die Abbildung ‖ · ‖ : (R n , ‖ · ‖ ∞ ) → R stetig ist, da<br />
| ‖x‖ − ‖y‖ | ≤ ‖x − y‖ ≤ c 2 ‖x − y‖ ∞ .<br />
Es bezeichne nun S := {x ∈ R n : ‖x‖ ∞ = 1} die ”<br />
Einheitssphäre“ bzgl. der Maximumsnorm<br />
(welche geometrisch eine Würfelfläche ist). S ist abgeschlossen und<br />
beschränkt, und somit kompakt.<br />
Nach Satz 5.8 nimmt die Abbildung ‖ · ‖ daher auf S ihr Minimum an, d.h. es gibt<br />
ein y 0 ∈ S mit<br />
‖y 0 ‖ ≤ ‖y‖ für alle y ∈ S .<br />
Es ist aber c 1 := ‖y 0 ‖ > 0, da andernfalls y 0 = 0 wäre und somit y ∉ S . Für<br />
beliebiges x ∈ R n , x ≠ 0, folgt:<br />
‖x‖ =<br />
( ) x ∣∣∣ ∣ ∣∣ ∣∣ ∣∣ ∣∣ x<br />
∣∣ ∣∣ ∣∣<br />
∣∣ ‖x‖ ∞ = ‖x‖∞<br />
‖x‖ ∞<br />
‖x‖ ∞<br />
≥ ‖x‖ ∞ c 1 .<br />
Zusammen mit (5.1) folgt daher (für beliebiges x ∈ R n ):<br />
c 1 ‖x‖ ∞ ≤ ‖x‖ ≤ c 2 ‖x‖ ∞ .<br />
Q.E.D.<br />
81
Kapitel 6<br />
Zusammenhang<br />
Definition. Ein metrischer Raum (X, d) heiße zusammenhängend, wenn es kein<br />
Paar nichtleerer offener Mengen A und B in X gibt mit X = A ∪B und A ∩B = ∅.<br />
Eine Teilmenge von X heiße zusammenhängend, wenn sie als metrischer Teilraum<br />
von X zusammenhängend ist.<br />
Satz 6.1 Sei M ⊂ X. Folgende Aussagen sind äquivalent:<br />
(i) M ist zusammenhängend.<br />
(ii) ∅ und M sind die einzigen Teilmengen von M, welche in der Relativtopologie<br />
von M sowohl offen als auch abgeschlossen sind.<br />
Beweis. Sei o.B.d.A. M = X. Ist X zusammenhängend, und ist ∅ ≠ A ⊂ X offen<br />
und abgeschlossen, so gilt dasselbe für B = A c . Ferner ist A ∪ B = X, A ∩ B = ∅.<br />
Somit muß B = ∅ sein, d.h. A = X.<br />
Gilt umgekehrt (ii), und sind A, B offen in X mit A ∪ B = X, A ∩ B = ∅, so ist<br />
wegen A = B c die Menge A sowohl offen als auch abgeschlossen. Ist A ≠ ∅, so muß<br />
nach (ii) folglich A = X sein, d.h. B = ∅.<br />
Q.E.D.<br />
Theorem 6.2 Sei M eine zusammenhängende Teilmenge des metrischen Raumes<br />
(X, d), und sei f eine stetige Abbildung von X in den metrischen Raum (Y, ̺). Dann<br />
ist das Bild f(M) zusammenhängend.<br />
Beweis. Indem wir Y durch f(M) ersetzen, dürfen wir o.B.d.A. annehmen, daß f<br />
surjektiv ist.<br />
Falls dann Y nicht zusammenhängend ist, so gibt es nichtleere offene Teilmengen<br />
A, B in Y mit Y = A ∪ B und A ∩ B = ∅. Dann ist<br />
X = f −1 (Y ) = f −1 (A) ∪ f −1 (B),<br />
f −1 (A) ∩ f −1 (B) = f −1 (A ∩ B) = f −1 (∅) = ∅,<br />
wobei die Mengen f −1 (A) und f −1 (B) nichtleer und, nach Satz 3.22, offen sind.<br />
Somit ist X nicht zusammenhängend.<br />
Q.E.D.<br />
82
Satz 6.3 Eine nichtleere Teilmenge M von R ist zusammenhängend dann und nur<br />
dann, wenn sie ein Intervall ist.<br />
Beweis. Per ”<br />
Kontraposition“:<br />
Wir nehmen zunächst an, daß M kein Intervall ist. Dann gibt es Punkte a < x < b<br />
mit a, b ∈ M und x ∉ M. Die Mengen A := M∩] − ∞, x[ und B := M∩]x, ∞[ sind<br />
dann offen in M, nichtleer, und es ist A ∪ B = M, A ∩ B = ∅. Somit ist M nicht<br />
zusammenhängend.<br />
Sei nun umgekehrt M ⊂ R nicht zusammenhängend. Dann gibt es nichtleere, in M<br />
offene Teilmengen A, B von M mit M = A ∪ B und A ∩ B = ∅. Wähle Punkte<br />
a ∈ A, b ∈ B. Es sei o.B.d.A. a < b. Wir zeigen, daß dann [a, b] ⊄ M, so daß M<br />
kein Intervall ist. Angenommen, es wäre [a, b] ⊂ M. Sei dann<br />
c := sup A ∩ [a, b].<br />
Dann ist c ∈ [a, b] ⊂ M, und, da A abgeschlosssen in M ist, ist auch c ∈ A. Da b ∈ B<br />
ist, folgt: c ∈ A ∩ [a, b[. Aufgrund der Offenheit von A in M gibt es andererseits ein<br />
ε > 0 so, daß c + ε ∈ A ∩ [a, b[, was der Definition von c widerspricht.<br />
Q.E.D.<br />
Korollar 6.4 (Verallgemeinerter Zwischenwertsatz) Sei (X, d) ein zusammenhängender<br />
metrischer Raum, und sei f ∈ C(X, R). Sind dann a, b ∈ X, und<br />
ist f(a) ≤ f(b), so gibt es zu jedem y ∈ [f(a), f(b)] ein x ∈ X mit f(x) = y.<br />
Beweis. Da f(X) zusammenhängend in R ist, ist f(X) ein Intervall. Somit ist<br />
[f(a), f(b)] ⊂ f(X).<br />
Q.E.D.<br />
Definition. Sei A eine Teilmenge des metrischen Raumes (X, d). Zur Erinnerung;<br />
Ein Weg in A ist eine stetige Abbildung γ : [a, b] → A. γ verbinde die Punkte x<br />
und y aus A, falls γ(a) = x und γ(b) = y.<br />
Die Menge A heiße wegzusammenhängend, falls je zwei Punkte aus A durch einen<br />
Weg in A verbunden werden können.<br />
Satz 6.5 Jede wegzusammenhängende Teilmenge A von X ist zusammenhängend.<br />
Beweis. Sei o.B.d.A. A = X. Ist X nicht zusammenhängend, so gibt es nichtleere<br />
offene Teilmengen U 1 , U 2 von X mit U 1 ∪U 2 = X und U 1 ∩U 2 = ∅. Seien x 1 ∈ U 1 und<br />
x 2 ∈ U 2 . Wäre nun X wegzusammenhängend, so gäbe es einen Weg γ : [a, b] → X<br />
mit γ(a) = x 1 und γ(b) = x 2 . Setze V j = γ −1 (U j ) ⊂ [a, b], j = 1, 2. Dann ist<br />
a ∈ V 1 , b ∈ V 2 . Ferner ist V j offen in [a, b], und V 1 ∪ V 2 = [a, b], V 1 ∩ V 2 = ∅. Folglich<br />
wäre das Intervall [a, b] nicht zusammenhängend, im Widerspruch zu Satz 6.3.<br />
Q.E.D.<br />
Bemerkungen. a) In vielen Fällen ist der Wegzusammenhang einer Menge erheblich<br />
leichter nachzuweisen als ihr Zusammenhang.<br />
b) Die Umkehrung von Satz 6.5 gilt jedoch nicht: es gibt z.B. zusammenhängende<br />
Teilmengen in R 2 , welche nicht wegzusammenhängend sind.<br />
83
Kapitel 7<br />
Differentialrechnung in mehreren<br />
Veränderlichen<br />
7.1 Partielle Ableitungen<br />
Es sei (F, ‖ · ‖) ein normierter reeller Vektorraum. Für ξ ∈ F und t ∈ R, t ≠ 0,<br />
wollen wir anstelle von 1 t ξ auch ξ t schreiben.<br />
Definition. Es sei I ⊂ R offen. Eine Abbildung f : I → F heiße im Punkte t 0 ∈ I<br />
differenzierbar, wenn der Grenzwert<br />
f(t) − f(t 0 )<br />
lim<br />
t→t 0 t − t 0<br />
= lim<br />
h→0<br />
f(t 0 + h) − f(t 0 )<br />
h<br />
in F existiert, d.h. wenn es ein a ∈ F gibt mit<br />
∥ ∥∥∥ f(t) − f(t 0 )<br />
lim<br />
− a<br />
t→t 0 t − t 0<br />
∥ = 0 .<br />
Wie im Falle einer reell- oder komplexwertigen Funktion (d.h. F = R oder F = C)<br />
sieht man leicht, daß der Grenzwert eindeutig ist. Wir bezeichnen ihn mit df (t dt 0)<br />
(gelegentlich auch mit f(t ˙ 0 )). Der Vektor df (t f(t)−f(t<br />
dt 0) = lim 0 )<br />
t→t0 t−t 0<br />
∈ F heißt die<br />
(Newton-) Ableitung von f in t 0 .<br />
Geometrische Interpretation. Im “Regelfall“ wird das Bild der Abbildung f ∈<br />
F I eine Kurve im Raum F beschreiben, und der Vektor a = df (t dt 0) liegt anschaulich<br />
tangential zur Spur f(I) der Kurve f im Punkte f(t 0 ).<br />
84
= f(t 0 + h) − f(t 0 )<br />
h<br />
.<br />
Man sieht ebenfalls wieder leicht ein, daß f ∈ F I im Punkte t 0 differenzierbar ist<br />
und die Ableitung a = df<br />
dt (t 0) besitzt genau dann, wenn die affin lineare Abbildung<br />
g : t ↦→ f(t 0 ) + (t − t 0 )a<br />
von R in F tangential an f im Punkte t 0 ist, d.h. wenn<br />
ist (für t in einer Umgebung von t 0 ) mit<br />
d.h.<br />
f(t) = f(t 0 ) + (t − t 0 )a + ϕ(t − t 0 )<br />
ϕ(t − t 0 )<br />
lim<br />
t→t 0 |t − t 0 |<br />
= 0 ,<br />
ϕ(t − t 0 ) = o(|t − t 0 |).<br />
Falls a ≠ 0 ist, so bezeichnet man das Bild g(R) von g als die Tangente an die<br />
parametrisierte Kurve f in t 0 . Offenbar ist g(R) diejenige Gerade im Vektorraum<br />
F, welche parallel zum eindimensionalen Unterraum R f(t ˙ 0 ) durch den Punkt f(t 0 )<br />
verläuft.<br />
Im Falle F = R n schreiben wir f : I → R n als f = (f 1 , . . .,f n ). Dann ist nach<br />
Satz 3.14 f in t 0 ∈ I differenzierbar genau dann, wenn alle Komponentenfunktionen<br />
f 1 , . . .,f n in t 0 differenzierbar sind, und es gilt dann:<br />
(7.1)<br />
df<br />
dt (t 0) = ( df 1<br />
dt (t 0), . . ., df n<br />
dt (t 0)) .<br />
Beispiele: a) Sei f : R → R 3 gegeben durch f(t) := (t, sin t, te t ). Dann ist<br />
df<br />
dt (t) = (1, cost, (1 + t)et ).<br />
85
) Sei f(t) = (t, f 2 (t)). Dann ist df<br />
dt (t 0) = (1, f ′ 2 (t 0)):<br />
Es seien nun E und F zwei normierte reelle Vektorräume.<br />
Definition. Es sei f : U → F eine Abbildung der offenen Teilmenge U von E in<br />
F. Ferner sei e ∈ E ein Vektor. Nehmen wir an, daß e ≠ 0 ist, so definiert e eine<br />
” Richtung“ im Vektorraum E. f heiße dann im Punkte x 0 ∈ U in Richtung von e<br />
oder partiell nach e differenzierbar, wenn die Abbildung t ↦→ f(x 0 +te) in t = 0<br />
differenzierbar ist. Der Grenzwert<br />
a = lim<br />
t→0<br />
f(x 0 + te) − f(x 0 )<br />
t<br />
ist die partielle Ableitung von f nach e im Punkte x 0 . Wir schreiben dafür<br />
a = ∂f<br />
∂e (x 0).<br />
Bemerkung. Da die Abbildung t ↦→ x 0 + te von R in E stetig ist, ist I := {t ∈ R :<br />
x 0 + te ∈ U} eine offene Umgebung von 0 in R, so daß die Definition Sinn macht.<br />
Beispiel: Sei f : R 2 → R gegeben durch f(x, y) := x 2 + e xy , und sei e := (2, 3).<br />
Dann ist z.B. f((1, 0)+ te) = f((1, 0) + (2t, 3t)) = f(1 + 2t, 3t) = (1 + 2t) 2 + e 3t+6t2 ,<br />
also<br />
∂f<br />
∂e (1, 0) = (4(1 + 2t) + (3 + 12t)e3t+6t2 ) ∣ ∣<br />
t=0<br />
= 7.<br />
Der Fall E = R n :<br />
Hier bezeichne e 1 , . . ., e n die kanonische Basis des R n , d.h. es sei e i der i-te Einheitsvektor<br />
} i-te{{ Stelle}<br />
e i = (0, . . ., 0, 1, 0, . . ., 0) .<br />
Dann schreibt man für ∂f<br />
∂e i<br />
auch ∂f<br />
∂x i<br />
oder D i f und bezeichnet ∂f<br />
∂x i<br />
(x) als die partielle<br />
Ableitung von f nach der i-ten Koordinate im Punkte x. Es ist also<br />
∂f<br />
∂x i<br />
(x 1 , . . ., x n )<br />
∈ F<br />
= lim<br />
h→0<br />
f(x 1 , . . .,x i−1 , x i + h, x i+1 , . . .,x n ) − f(x 1 , . . .,x i , . . ., x n )<br />
h<br />
86
d.h. wir können bei festgehaltenen Koordinaten x 1 , . . .,x i−1 , x i+1 , . . .,x n die partielle<br />
Ableitung ∂f<br />
∂x i<br />
(x) als ”<br />
gewöhnliche“ Ableitung der Abbildung<br />
im Punkte x i ∈ R auffassen.<br />
f (i) : t ↦→ f(x 1 , . . ., x i−1 , t, x i+1 , . . .,x n )<br />
Definition. Sei U ⊂ R n offen. Eine Abbildung f : U → F heiße partiell differenzierbar,<br />
falls ∂f<br />
∂x i<br />
(x) für alle x ∈ U und i = 1, . . ., n existiert. f heiße stetig<br />
partiell differenzierbar, falls zusätzlich alle partiellen Ableitungen ∂f<br />
∂x i<br />
: U → F,<br />
i = 1, . . .,n, stetig sind.<br />
Beispiel 7.1 Sei r : R n → R gegeben durch<br />
√<br />
r(x) := ‖x‖ 2 = x 2 1 + · · · + x 2 n .<br />
r ist in R n \ {0} partiell differenzierbar, und es gilt<br />
∂r<br />
∂x i<br />
(x) = x i<br />
‖x‖ 2<br />
, für x = (x 1 , . . .,x n ) ≠ 0 .<br />
Halten wir nämlich x 1 , . . ., x i−1 , x i+1 , . . .,x n fest, so ist die Abbildung<br />
t ↦→ √ x 2 1 + · · · + t2 + · · · + x 2 n für alle t differenzierbar, falls nicht alle x j mit j ≠ i<br />
null sind, und andernfalls für t ≠ 0, und die Ableitung nach t für t = x i ist<br />
∂r<br />
∂x i<br />
(x) = 1 2 (x2 1 + · · · + x 2 i + · · · + x 2 n) −1 2 · 2xi = x i<br />
‖x‖ 2<br />
.<br />
Partielle Ableitungen höherer Ordnung einer Abbildung f : U → F, U ⊂ R n offen,<br />
definiert man rekursiv:<br />
Definition. f : U → F heiße (k + 1)-mal partiell differenzierbar, wenn f<br />
k-mal partiell ( ( differenzierbar )) ) ist und alle partiellen Ableitungen k-ter Ordnung<br />
∂ ∂ ∂<br />
∂x ik<br />
(· · ·<br />
∂x i2 ∂x i1<br />
f · · · : U → F (mit i 1 , . . .,i k ∈ {1, . . .,n}), partiell differenzierbar<br />
sind.<br />
87
Die Funktion f : U → F heiße k-mal stetig partiell differenzierbar, wenn sie<br />
k-mal partiell differenzierbar ist und alle partiellen Ableitungen der Ordnung ≤ k<br />
stetig auf U sind.<br />
Sind i 1 , . . .,i k ∈ {1, . . .,n}, so schreibt man für<br />
∂<br />
(· · ·( ∂ ( ∂ f)) · · ·)<br />
∂x ik ∂x i2 ∂x i1<br />
auch<br />
∂ k<br />
∂x ik . . .∂x i1<br />
f .<br />
C k (U, F) bezeichne den Vektorraum aller k-mal stetig partiell differenzierbaren<br />
Funktionen f : U → F.<br />
Beispiel. Für die Funktion r : R n → R aus Beispiel 7.1 ist für x ≠ 0 und i ≠ j<br />
( )<br />
∂ 2 r ∂ 1 −1<br />
(x) = x i (x) = x i<br />
∂x j ∂x i ∂x j r r(x) 2<br />
∂r<br />
(x) = − x ix j<br />
,<br />
∂x j ‖x‖ 3 2<br />
und für i = j<br />
∂ 2 r<br />
∂x 2 i<br />
:=<br />
=<br />
∂ 2 r<br />
∂x i ∂x i<br />
= 1<br />
‖x‖ 2<br />
+ x i<br />
∂<br />
1<br />
‖x‖ 2<br />
−<br />
x2 i<br />
‖x‖ 3 2<br />
∂x i<br />
( 1<br />
r<br />
= ‖x‖2 2 − x2 i<br />
‖x‖ 3 2<br />
.<br />
)<br />
(x)<br />
Offenbar ist hier<br />
∂ 2 r<br />
∂x j ∂x i<br />
= ∂2 r<br />
∂x i ∂x j<br />
. Gilt dies wohl allgemein?<br />
7.2 Totale Differenzierbarkeit<br />
Es seien nun E und F zwei normierte reelle Vektorräume, sowie U eine offene Teilmenge<br />
von E und x 0 ∈ U.<br />
Ist die Abbildung f : U → F in Richtung des Vektors e ∈ E \ {0} differenzierbar,<br />
so gilt:<br />
(7.2)<br />
f(x 0 + te) = f(x 0 ) + t ∂f<br />
∂e (x 0) + ϕ(t)<br />
für t nahe 0, mit ϕ(t) = o(|t|). Dies bedeutet, daß sich f entlang der affinen Geraden<br />
{x 0 +te : t ∈ R} durch x 0 in Richtung von e “immer besser“ durch die affin-lineare<br />
Abbildung x 0 + te ↦→ f(x 0 ) + t ∂f<br />
∂e (x 0) approximieren läßt, je kleiner |t| wird.<br />
Analog definieren wir:<br />
Definition. Die Abbildung f : U → F heiße im Punkte x 0 ∈ U (total) differenzierbar,<br />
falls es eine stetige lineare Abbildung A ∈ L(E, F) gibt so, daß für alle<br />
x ∈ U gilt:<br />
(7.3) f(x) = f(x 0 ) + A(x − x 0 ) + ϕ(x − x 0 )<br />
88
wobei ϕ eine Funktion auf der Nullumgebung −x 0 + U ist mit<br />
(7.4)<br />
ϕ(x − x 0 ) = o(‖x − x 0 ‖), d.h. lim<br />
x→x0<br />
ϕ(x − x 0 )<br />
‖x − x 0 ‖ = 0.<br />
Äquivalent dazu ist:<br />
(7.5)<br />
f(x 0 + ξ) = f(x 0 ) + Aξ + ϕ(ξ)<br />
für alle ξ in einer Umgebung der Null, wobei ϕ eine auf einer Umgebung der Null<br />
definierte Funktion ist mit<br />
(7.6) ϕ(ξ) = o(‖ξ‖), d.h. lim<br />
ξ→0<br />
ϕ(ξ)<br />
‖ξ‖ = 0 .<br />
f besitzt dann also nahe x 0 eine“gute“ Approximation durch die stetige, affin-lineare<br />
Abbildung g : E → F,<br />
g(x) := f(x 0 ) + A(x − x 0 ), x ∈ E,<br />
deren Graphen wir auch als den affinen Tangentialraum an den Graphen von f<br />
im Punkte (x 0 , f(x 0 )) bezeichnen.<br />
Die lineare Abbildung A ∈ L(E, F) heißt dann die Ableitung von f im Punkte<br />
x 0 und wird mit Df(x 0 ) bezeichnet.<br />
Die Ableitung im Punkte x 0 ist eindeutig: Sind nämlich A, B ∈ L(E, F) mit<br />
f(x 0 + ξ) = f(x 0 ) + Aξ + ϕ(ξ)<br />
= f(x 0 ) + Bξ + ˜ϕ(ξ)<br />
und<br />
ϕ(ξ)<br />
lim<br />
ξ→0 ‖ξ‖ = lim<br />
ξ→0<br />
˜ϕ(ξ)<br />
‖ξ‖ = 0,<br />
89
so ist (A − B)ξ = ψ(ξ) := ˜ϕ(ξ) − ϕ(ξ) für alle ξ in einer Nullumgebung, mit<br />
= 0. Für beliebiges η ∈ E \ {0} folgt dann aber wegen der Linearität von<br />
lim<br />
ξ→0<br />
ψ(ξ)<br />
‖ξ‖<br />
A − B<br />
also<br />
Somit ist A − B = 0.<br />
(A − B)η = ψ(tη)<br />
t<br />
für genügend kleines t ∈ R ,<br />
ψ(tη) ψ(tη)<br />
(A − B)η = lim = ‖η‖ lim<br />
t→0 t t→0 ‖tη‖ sign(t) = 0 .<br />
Bemerkung. Die Differenzierbarkeit in einem festen Punkt x 0 ist offenbar eine<br />
lokale Eigenschaft einer Funktion, d.h. stimmen die Funktionen f und g auf einer<br />
Umgebung von x 0 überein, so ist f in x 0 differenzierbar genau dann, wenn g in x 0<br />
differenzierbar ist, und es gilt dann: Df(x 0 ) = Dg(x 0 ).<br />
Satz 7.2 (Beziehung zwischen partieller und totaler Ableitung) Die Abbildung<br />
f : U → F sei im Punkte x 0 ∈ U ⊂ E total differenzierbar. Dann ist f in<br />
Richtung jedes Vektors e ≠ 0 aus E im Punkte x 0 partiell differenzierbar, und es<br />
gilt:<br />
∂f<br />
∂e (x 0) = Df(x 0 )e .<br />
Ferner ist f im Punkte x 0 stetig.<br />
Beweis. Sei A = Df(x 0 ) ∈ L(E, F). Nach (7.5) ist dann<br />
f(x 0 + te) = f(x 0 ) + A(te) + ϕ(te) = f(x 0 ) + t(Ae) + ψ(t) ,<br />
ψ(t)<br />
mit ψ(t) := ϕ(te). Mit (7.6) folgert man aber wie zuvor, daß lim = 0. Somit ist<br />
t→0 t<br />
f partiell nach e im Punkte x 0 differenzierbar, und ∂f (x ∂e 0) = Ae = Df(x 0 )e.<br />
Die Stetigkeit von f in x 0 folgt ebenfalls sofort aus (7.5) und (7.6), denn da A<br />
stetig und linear ist, ist lim ξ→0 A(ξ) = A(0) = 0, und (7.6) impliziert offenbar<br />
lim ξ→0 ϕ(ξ) = 0, so daß<br />
lim<br />
ξ→0 f(x 0 + ξ) = f(x 0 ).<br />
Q.E.D.<br />
Die totale Differenzierbarkeit von f im Punkte x 0 ist eine erheblich stärkere Eigenschaft<br />
als ihre partielle Differenzierbarkeit in x 0 . Selbst die Existenz sämtlicher<br />
Richtungsableitungen von f in x 0 genügt im allgemeinen nicht für ihre totale Differenzierbarkeit<br />
in x 0 , wie folgendes Beispiel zeigt:<br />
90
Beispiel 7.3 Sei<br />
f : R 2 → R, f(x, y) =<br />
x3<br />
für (x, y) ≠ 0, f(0) = 0.<br />
x 2 + y2 Sei e θ = (cosθ, sin θ) mit θ ∈ [0, 2π[ ein Einheitsvektor im R 2 . Dann ist<br />
f(0 + te θ ) = t cos 3 θ, t ∈ R,<br />
d.h. f ist linear entlang jeder Geraden durch den Ursprung. Damit ist f partiell<br />
nach e differenzierbar in 0, mit<br />
Insbesondere ist<br />
∂f<br />
∂e θ<br />
(0) = cos 3 θ.<br />
∂f ∂f<br />
(0) = 1,<br />
∂x<br />
(0) = 0.<br />
∂y<br />
Wäre nun f in 0 total differenzierbar mit Ableitung A ∈ L(R 2 , R), so wäre für (x, y)<br />
nahe 0<br />
f(x, y) = a 1 x + a 2 y + o(‖(x, y)‖),<br />
falls A · (x, y) = a 1 x + a 2 y, mit a 1 , a 2 ∈ R. Insbesondere wäre nach Satz 7.2<br />
∂f<br />
∂e θ<br />
(0) = A · e θ = a 1 cosθ + a 2 sin θ.<br />
Für θ = 0 und θ = π 2<br />
erhielten wir<br />
also a 1 = 1, a 2 = 0, und somit<br />
∂f<br />
∂x (0) = a 1,<br />
∂f<br />
∂y (0) = a 2,<br />
∂f<br />
∂e θ<br />
(0) = cosθ.<br />
Für θ ≠ 0 steht dies im Widerspruch zu ∂f<br />
∂e θ<br />
(0) = cos 3 θ.<br />
Bemerkungen 7.4 a) Ist f : U → F im Punkte x 0 ∈ U stetig, und gibt es eine<br />
lineare Abbildung A : E → F (welche nicht als stetig vorausgesetzt werde), so daß<br />
(7.4), (7.5) gilt, so ist A automatisch stetig.<br />
Es ist nämlich<br />
Aξ = f(x 0 + ξ) − f(x 0 ) − ϕ(ξ) ,<br />
und wegen der Stetigkeit von f in x 0 und (7.5) ist<br />
lim Aξ = 0 .<br />
ξ→0<br />
91
1<br />
0.5<br />
0<br />
-0.5<br />
-1<br />
1<br />
0.5<br />
0<br />
x<br />
-0.5<br />
-1<br />
1<br />
0.5<br />
0<br />
y<br />
-0.5<br />
-1<br />
Damit ist A stetig in 0, folglich global stetig.<br />
b) Sei T : E → F eine lineare Abbildung, und x 0 ∈ E. Nach Satz 7.2 und Bemerkung<br />
a) ist T genau dann differenzierbar in x 0 , wenn T stetig ist. In diesem Fall ist<br />
wegen<br />
T(x 0 + ξ) = Tx 0 + Tξ<br />
offenbar DT(x 0 ) = T für alle x 0 ∈ E.<br />
c) Ist I ⊂ R eine offene Teilmenge, und ist f : I → F eine Abbildung, so haben<br />
wir für f sowohl den Begriff der Newton“-Ableitung df (t ” dt 0) ∈ F im Punkte t 0 ∈ I<br />
definiert, wie auch den der totalen Ableitung Df(t 0 ) ∈ L(R, F).<br />
Beide Begriffe lassen sich in Einklang bringen, wenn wir den Raum L(R, F) wie<br />
folgt mit F identifizieren:<br />
Für η ∈ F definieren wir die lineare Abbildung T η ∈ L(R, F) mittels<br />
T η (t) := tη, t ∈ R.<br />
Da es zu jedem T ∈ L(R, F) genau ein η ∈ F mit T = T η , nämlich η = T(1) gibt,<br />
wird durch die Abbildung η ↦→ T η ein Isomorphismus von F auf L(R, F) definiert.<br />
Identifizieren wir F mit L(R, F) auf diese Weise, so ist offenbar d dt f(t 0) = Df(t 0 ).<br />
Genauer bedeutet dies:<br />
Df(t 0 ) = T d<br />
dt f(t 0) .<br />
d) In Analogie zum eindimensionalen Fall werden ab jetzt die totale Ableitung Df<br />
einer Funktion f : U → F, U ⊂ E, oft auch wieder mit f ′ bezeichnen.<br />
Definition. Ist U ⊂ E offen, und ist f : U → F in jedem Punkt von U differenzierbar,<br />
so heiße f (total) differenzierbar (in U). Ist zusätzlich die Ableitung<br />
f ′ : U → L(E, F), x ↦→ f ′ (x) = Df(x 0 )<br />
92
eine stetige Funktion auf U, so heiße f stetig differenzierbar. Dabei sei der Raum<br />
L(E, F) stets mit der Operatornorm versehen (vgl. Kapitel 4).<br />
7.3 Der Fall E = R n , F = R m<br />
Die lineare Abbildung A ∈ L(R n , R m ) kann hier bzgl. der kanonischen Basen des R n<br />
bzw. R m durch eine m × n-Matrix (a ij ) i=1,...,m beschrieben werden. Fassen wir die<br />
j=1,...,n<br />
Elemente des R n bzw. R m unserer Konvention folgend als Spaltenvektoren auf, so<br />
wird die Abbildung einfach durch Matrizen-Multiplikation von links gegeben (vergl.<br />
(4.4)),<br />
⎛<br />
⎞ ⎛ ⎞<br />
a 11 a 12 . . . a 1n ξ 1<br />
⎜<br />
⎟ ⎜ ⎟<br />
A(ξ) = ⎝ .<br />
⎠ · ⎝ . ⎠ .<br />
a m1 a m2 . . . a mn ξ n<br />
Im folgenden identifizieren wir die lineare Abbildung A ∈ L(R n , R m ) mit der sie<br />
beschreibenden Matrix.<br />
⎛ ⎞ ⎛ ⎞<br />
f 1<br />
ϕ 1<br />
⎜ ⎟ ⎜ ⎟<br />
Sind f = ⎝ . ⎠ , bzw. ϕ = ⎝ . ⎠ die Komponentendarstellungen von f bzw. ϕ,<br />
f m ϕ m<br />
so schreibt sich die Gleichung (7.2) ausführlich als<br />
(7.7)<br />
n∑<br />
f i (x 0 + ξ) = f i (x 0 ) + a ij ξ j + ϕ i (ξ), i = 1, . . .,m .<br />
j=1<br />
Hieran erkennt man auch, daß die Abbildung f genau dann im Punkte x 0 differenzierbar<br />
ist, wenn alle Komponentenfunktionen f i in x 0 differenzierbar sind.<br />
Satz 7.5 Seien U ⊂ R n offen und f : U → R m eine Abbildung, die im Punkte<br />
x 0 ∈ U differenzierbar ist. Identifizieren wir die Ableitung f ′ (x 0 ) ∈ L(R n , R m ) mit<br />
der m × n-Matrix A = (a ij ), so gilt:<br />
a ij = ∂f i<br />
∂x j<br />
(x 0 ) .<br />
Bezeichnung. Man bezeichnet die Matrix<br />
( ) ∂fi<br />
J f (x 0 ) := (x 0 )<br />
∂x j<br />
i=1,...,m,<br />
j=1,...,n<br />
auch als die Jacobi-Matrix (oder auch Funktional-Matrix) von f im Punkte x 0 .<br />
93<br />
,
Es gilt also:<br />
(7.8) f ′ (x 0 ξ) = J f (x 0 ) · ξ, ξ ∈ R n .<br />
Beweis. Nach (7.7) gilt für k = 1, . . .,n:<br />
ϕ<br />
mit lim i (te k )<br />
t→0 |t|<br />
f i (x 0 + te k ) = f i (x 0 ) + ta ik + ϕ i (te k ), i = 1, . . .,m ,<br />
= 0. Hieraus folgt sofort<br />
∂f i<br />
∂x k<br />
(x 0 ) = ∂f i<br />
∂e k<br />
(x 0 ) = a ik .<br />
Q.E.D.<br />
Beispiel 7.6 Sei f : R 3 → R 2 gegeben durch<br />
( ) xy − z<br />
f(x, y, z) := .<br />
y cosx<br />
Dann ist<br />
J f (x, y, z) =<br />
( y x −1<br />
−y sin x cosx 0<br />
)<br />
.<br />
Wie läßt sich nun die Differenzierbarkeit einer Funktion f : U → R m nachweisen?<br />
Beispiel 7.3 lehrt, daß die Existenz aller partiellen Ableitungen von f im Punkte<br />
x 0 i.a. nicht ausreicht, um auf die Differenzierbarkeit von f in x 0 zu schließen.<br />
Verlangen wir jedoch zusätzlich, daß die partiellen Ableitungen in einer Umgebung<br />
von x 0 existieren und in x 0 stetig sind, so ist f in der Tat in x 0 differenzierbar.<br />
Theorem 7.7 (Hinreichende Bedingung für totale Differenzierbarkeit)<br />
Sei U ⊂ R n offen, und sei f : U → R m eine in U partiell differenzierbare Funktion.<br />
Sind alle partiellen Ableitungen ∂f i<br />
∂x j<br />
, i = 1, . . .,m, j = 1, . . ., n, stetig im Punkt x 0 ,<br />
so ist f in x 0 total differenzierbar.<br />
Beweis. Da f = t (f 1 . . .f m ) in x 0 differenzierbar ist genau dann, wenn dies für alle<br />
Komponentenfunktionen f i zutrifft, genügt es, den Fall m = 1 zu betrachten.<br />
Wir wählen ε > 0 so, daß B ε (x 0 ) ⊂ U ist. Für ξ = t (ξ 1 . . .,ξ n ) ∈ R n mit ‖ξ‖ < ε<br />
definieren wir Punkte<br />
z (i) := x 0 +<br />
i∑<br />
ξ k e k , i = 0, . . .,n .<br />
k=1<br />
94
Dann ist z (0) = x 0 , z (n) = x 0 + ξ. Da sich z (i−1) und z (i) nur in der i-ten Koordinate<br />
unterscheiden, gibt es nach dem Mittelwertsatz für differenzierbare Funktionen einer<br />
Veränderlichen ein θ i ∈ [0, 1] mit<br />
f(z (i) ) − f(z (i−1) ) = f(z (i−1) + ξ i e i ) − f(z (i−1) ) = ∂f<br />
∂x i<br />
(y (i) )ξ i ,<br />
mit y (i) := z (i−1) + θ i ξ i e i . Es folgt<br />
also<br />
mit<br />
f(x 0 + ξ) − f(x 0 ) =<br />
ϕ(ξ) :=<br />
n∑<br />
(f(z (i) ) − f(z (i−1) )) =<br />
i=1<br />
f(x 0 + ξ) = f(x 0 ) +<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
∂f<br />
∂x i<br />
(x 0 )ξ i + ϕ(ξ)<br />
( ∂f<br />
(z (i−1) + θ i ξ i e i ) − ∂f )<br />
(x 0 ) ξ i .<br />
∂x i ∂x i<br />
∂f<br />
∂x i<br />
(y (i) )ξ i ,<br />
Da mit ξ → 0 die Punkte z (i−1) +θ i ξ i e i gegen x 0 streben, folgt aufgrund der Stetigkeit<br />
von ∂f<br />
∂x i<br />
in x 0 :<br />
( ∂f<br />
lim (z (i−1) + θ i ξ i e i ) − ∂f )<br />
(x 0 ) = 0.<br />
ξ→0 ∂x i ∂x i<br />
Folglich ist lim<br />
ξ→0<br />
ϕ(ξ)<br />
‖ξ‖ = 0 . Q.E.D.<br />
Bemerkung 7.8 Ist E = R n , F = R m , so gelten nach den Sätzen 7.2 und 7.7<br />
folgende Implikationen (vgl. auch die entsprechende Übung):<br />
f ist stetig partiell differenzierbar ⇐⇒ f ist stetig differenzierbar<br />
⇒ f ist differenzierbar<br />
⇒ f ist stetig.<br />
Die Umkehrungen der einseitigen Implikationen gelten i.a. nicht.<br />
Definition. Sei U ⊂ R n offen. Ist f : U → R partiell differenzierbar, so heißt der<br />
Zeilenvektor<br />
( ∂f<br />
gradf(x) := (x), . . ., ∂f )<br />
(x)<br />
∂x 1 ∂x n<br />
der Gradient von f im Punkte x ∈ U. Man schreibt dafür auch<br />
∇f(x)<br />
(sprich: “Nabla f“).<br />
95
Ist f in x (total) differenzierbar, so ist ∇f(x) offenbar gerade die Jacobi-Matrix<br />
J f (x) von f in x. Wir schreiben daher dafür gelegentlich auch f ′ (x).<br />
Ist f in U differenzierbar, so ist die Abbildung<br />
v := ∇f : U → R n , x ↦→ v(x) := ∇f(x),<br />
ein Vektorfeld auf U, d.h. eine Abbildung, welche jedem Punkt x ∈ U einen Vektor<br />
v(x) ∈ R n zuordnet.<br />
∑<br />
Es bezeichne 〈x, y〉 = n x j y j = x · ty das Euklidische Skalarprodukt auf dem R n ,<br />
sowie<br />
j=1<br />
S n−1 := {e ∈ R n : ‖e‖ 2 = 1}<br />
die Einheitssphäre im R n . Ist f differenzierbar, und ist e ∈ R n ein Einheitsvektor,<br />
d.h. ist e ∈ S n−1 , so gilt offenbar<br />
(7.9)<br />
∂f<br />
(x) = 〈∇f(x), e〉 .<br />
∂e<br />
Satz 7.9 (Geometrische Kennzeichnung des Gradienten) Sei U ⊂ R n eine<br />
nichtleere, offene Teilmenge des R n , sei f : U → R differenzierbar und sei x ∈ U so,<br />
daß ∇f(x) ≠ 0. Bezeichnen wir mit γ :=<br />
∇f(x)<br />
‖∇f(x)‖ 2<br />
den Einheitsvektor in Richtung<br />
des Gradienten von f in x, so gilt<br />
(7.10)<br />
∂f<br />
{ ∂f<br />
}<br />
∂γ (x) = max ∂e (x) : e ∈ Sn−1 .<br />
Der Gradient ∇f(x 0 ) zeigt somit in Richtung des stärksten Anstiegs der Funktion<br />
f, wenn man sich von x 0 fortbewegt!<br />
Beweis. Aufgrund der Cauchy-Schwarzschen Ungleichung aus der Linearen Algebra<br />
(bzw. der Hölderschen Ungleichung) gilt für e ∈ S n−1 mit (7.9)<br />
Ferner ist<br />
∂f<br />
∂e (x) ≤ ‖∇f(x)‖ 2‖e‖ 2 = ‖∇f(x)‖ 2 .<br />
∂f<br />
(x) = 〈∇f(x), γ〉 = ‖∇f(x)‖−1 2<br />
∂γ 〈∇f(x), ∇f(x)〉 = ‖∇f(x)‖ 2.<br />
Hieraus folgt die Behauptung.<br />
Q.E.D.<br />
96
7.4 Rechenregeln für die Ableitung<br />
Satz 7.10 (Kettenregel) Es seien E, F und G drei normierte reelle Vektorräume,<br />
U eine offene Umgebung von x 0 ∈ E und f : U → F eine Abbildung, V eine offene<br />
Umgebung von y 0 = f(x 0 ) in F sowie g : V → G.<br />
Ist f differenzierbar in x 0 , und ist g differenzierbar in y 0 , so ist die Abbildung h =<br />
g ◦f : U → G (welche in einer Umgebung von x 0 definiert ist) differenzierbar in x 0 ,<br />
und es gilt:<br />
h ′ (x 0 ) = g ′ (f(x 0 )) ◦ f ′ (x 0 ) .<br />
Man beachte, daß g ′ (f(x 0 )) ∈ L(F, G) und f ′ (x 0 ) ∈ L(E, F), so daß g ′ (f(x 0 )) ◦<br />
f ′ (x 0 ) ∈ L(E, G).<br />
Beweis. Nach Voraussetzung ist<br />
f(x 0 + ξ) = f(x 0 ) + Aξ + ϕ(ξ),<br />
g(y 0 + η) = g(y 0 ) + Bη + ψ(η),<br />
mit A := f ′ (x 0 ) ∈ L(E, F), B := g ′ (y 0 ) ∈ L(F, G), wobei<br />
ϕ(ξ) ψ(η)<br />
lim = 0, lim<br />
ξ→0 ‖ξ‖ η→0 ‖η‖ = 0 .<br />
Setzt man speziell η := f(x 0 + ξ) − f(x 0 ) = Aξ + ϕ(ξ), so ergibt sich<br />
(g ◦ f)(x 0 + ξ) = g(f(x 0 ) + η) = g(y 0 + η)<br />
= g(f(x 0 )) + B(Aξ + ϕ(ξ)) + ψ(Aξ + ϕ(ξ))<br />
= (g ◦ f)(x 0 ) + (B ◦ A)ξ + χ(ξ),<br />
mit<br />
Da B stetig ist, ist<br />
χ(ξ) := Bϕ(ξ) + ψ(Aξ + ϕ(ξ)) .<br />
( )<br />
Bϕ(ξ) ϕ(ξ)<br />
lim<br />
ξ→0 ‖ξ‖<br />
= lim B = B(0) = 0 .<br />
ξ→0 ‖ξ‖<br />
ϕ(ξ)<br />
Ferner können wir wegen lim<br />
ξ→0<br />
‖ξ‖<br />
weiter ψ(η) = ‖η‖ψ 1 (η) mit lim<br />
η→0<br />
ψ 1 (η) = 0 ist, folgt:<br />
= 0 o.B.d.A. annehmen, daß ‖ϕ(ξ)‖ ≤ ‖ξ‖ ist. Da<br />
‖ψ(Aξ + ϕ(ξ))‖ ≤ (‖A‖ + 1)‖ξ‖ ‖ψ 1 (Aξ + ϕ(ξ))‖,<br />
also<br />
ψ(Aξ + ϕ(ξ))<br />
lim = 0 .<br />
ξ→0 ‖ξ‖<br />
97
χ(ξ)<br />
Somit ist lim = 0, d.h. g ◦ f ist differenzierbar in x<br />
ξ→0<br />
‖ξ‖ 0, und (g ◦ f) ′ (x 0 ) = B ◦ A =<br />
g ′ (y 0 ) ◦ f ′ (x 0 ).<br />
Q.E.D.<br />
Der Fall E = R m , F = R n , G = R p . In diesem Fall läßt sich die Kettenregel wie<br />
folgt schreiben:<br />
(7.11) J g◦f (x) = J g (f(x)) · J j (x),<br />
d.h. mit y := f(x) gilt<br />
(7.12)<br />
∂h l<br />
∂x j<br />
(x) =<br />
n∑<br />
k=1<br />
∂g l<br />
∂y k<br />
(y) ∂f k<br />
∂x j<br />
(x), l = 1, . . ., p, j = 1, . . .,m ,<br />
Beispiel. Polarkoordinaten im R 2 .<br />
Sei Φ :]0, ∞[×R → R 2 gegeben durch<br />
Φ(r, θ) :=<br />
( )<br />
r cosθ<br />
,<br />
r sin θ<br />
d.h. (x, y) = (r cosθ, r sin θ). Φ ist differenzierbar, mit Jacobi-Matrix<br />
( ∂x<br />
) ( )<br />
∂x<br />
J Φ (r, θ) =<br />
∂r ∂θ cosθ −r sin θ<br />
=<br />
.<br />
sin θ r cosθ<br />
∂y<br />
∂r<br />
∂y<br />
∂θ<br />
Ist f : R 2 → R differenzierbar, und stellt g := f ◦ Φ die Funktion f in Polarkoordinaten<br />
dar (wobei man dann meist nur θ ∈]0, 2π[ wählt, um Injektivität von Φ zu<br />
gewährleisten), so gilt nach der Kettenregel<br />
(<br />
mit J f (x, y) =<br />
∂f<br />
∂x<br />
J g (r, θ) = J f (Φ(r, θ)) · J Φ (r, θ),<br />
(x, y),<br />
∂f<br />
∂y (x, y) ). Es folgt<br />
∂g ∂f<br />
(r, θ) =<br />
∂r ∂x<br />
∂g ∂f<br />
(r, θ) =<br />
∂θ ∂x<br />
falls (x, y) := (r cosθ, r sin θ).<br />
∂f<br />
(x, y)∂x(r, θ) +<br />
∂r ∂y<br />
(x, y)∂y(r, θ)<br />
∂r<br />
= cosθ ∂f ∂f<br />
(x, y) + sin θ (x, y),<br />
∂x ∂y<br />
∂f<br />
(x, y)∂x(r, θ) +<br />
∂θ ∂y<br />
(x, y)∂y(r, θ)<br />
∂θ<br />
= −r sin θ ∂f (x, y) + r cos θ∂f (x, y),<br />
∂x ∂y<br />
98
Satz 7.11 Es seien E, F und G normierte reelle Vektorräume und U ⊂ E offen.<br />
Ferner seien f, g : U → F Abbildungen, welche im Punkte x 0 ∈ U differenzierbar<br />
sind.<br />
(i) Dann sind auch die Abbildungen f +g und αf (α ∈ R) in x 0 differenzierbar, und<br />
es gilt:<br />
(7.13)<br />
(f + g) ′ (x 0 ) = f ′ (x 0 ) + g ′ (x 0 ) ,<br />
(αf) ′ (x 0 ) = αf ′ (x 0 ) .<br />
(ii) Ist auf F zusätzlich ein Produkt ” · “ mit Werten in G definiert, d.h. eine<br />
Abbildung (a, b) ↦→ a·b von F ×F in G, welche linear in a und in b ist, d.h. bilinear,<br />
und gibt es eine Konstante C ≥ 0, so daß für alle a, b ∈ F gilt:<br />
so gilt die Produktregel:<br />
‖a · b‖ ≤ C‖a‖ ‖b‖ ,<br />
Die Abbildung f · g : U → G, x ↦→ f(x) · g(x), ist in x 0 differenzierbar, und es gilt<br />
für alle ξ ∈ E:<br />
(7.14) (f · g) ′ (x 0 )ξ = f(x 0 ) · (g ′ (x 0 )ξ) + (f ′ (x 0 )ξ) · g(x 0 ) .<br />
Beweis. (i) läßt sich leicht direkt mittels der Definition der Ableitung zeigen. Wir<br />
wollen hier jedoch einmal (i) (für die Summe von f und g) und (ii) mit Hilfe der<br />
Kettenregel beweisen:<br />
Dazu betrachten wir F ×F als normierten Raum, versehen mit der Norm ‖(a, b)‖ ∞ =<br />
max(‖a‖, ‖b‖), (a, b) ∈ F × F. Die Abbildung (f, g) : U → F × F, x ↦→ (f(x), g(x)),<br />
ist dann differenzierbar in x 0 . Nach Voraussetzung ist nämlich<br />
ϕ(ξ)<br />
mit lim<br />
ξ→0<br />
‖ξ‖<br />
= lim ψ(ξ)<br />
ξ→0<br />
‖ξ‖<br />
f(x 0 + ξ) = f(x 0 ) + f ′ (x 0 )ξ + ϕ(ξ),<br />
g(x 0 + ξ) = g(x 0 ) + g ′ (x 0 )ξ + ψ(ξ) ,<br />
= 0. Somit ist<br />
(f, g)(x 0 + ξ) = (f, g)(x 0 ) + (f ′ (x 0 ), g ′ (x 0 ))ξ + (ϕ(ξ), ψ(ξ)) ,<br />
falls wir die stetige lineare Abbildung (f ′ (x 0 ), g ′ (x 0 )) ∈ L(E, F ×F) definieren durch<br />
(f ′ (x 0 ), g ′ (x 0 ))ξ := (f ′ (x 0 )ξ, g ′ (x 0 )ξ), ξ ∈ E.<br />
Offenbar ist lim<br />
ξ→0<br />
‖(ϕ(ξ), ψ(ξ))‖ ∞ /‖ξ‖ = 0. Wir sehen damit insbesondere, daß<br />
(7.15)<br />
(f, g) ′ (x 0 ) = (f ′ (x 0 ), g ′ (x 0 )) .<br />
99
Wir bezeichnen nun mit add : F ×F → F und mult : F ×F → G die Abbildungen<br />
(a, b) ↦→ a + b und (a, b) ↦→ a · b. Es ist für (a 0 , b 0 ), (ξ, η) ∈ F × F<br />
add ((a 0 , b 0 ) + (ξ, η)) = add (a 0 , b 0 ) + ξ + η<br />
mult ((a 0 , b 0 ) + (ξ, η)) = (a 0 + ξ) · (b 0 + η)<br />
= mult (a 0 , b 0 ) + a 0 · η + ξ · b 0 + ξ · η ,<br />
wobei ‖ξ · η‖ ≤ C‖ξ‖ ‖η‖ ≤ C‖(ξ, η)‖ 2 ∞ . Insbesondere ist lim<br />
(ξ,η)→0<br />
ξ·η<br />
‖(ξ,η)‖ ∞<br />
= 0.<br />
Wir sehen also, daß die Abbildungen add und mult auf F × F differenzierbar sind,<br />
und daß<br />
(7.16)<br />
(7.17)<br />
add ′ (a 0 , b 0 )(ξ, η) = add (ξ, η) = ξ + η ,<br />
mult ′ (a 0 , b 0 )(ξ, η) = a 0 · η + ξ · b 0<br />
ist für alle (a 0 , b 0 ), (ξ, η) ∈ F × F.<br />
Da f + g = add ◦(f, g), f ·g = mult ◦ (f, g) ist, folgt aus (7.15) - (7.17) mittels der<br />
Kettenregel:<br />
(f + g) ′ (x 0 )ξ = (add ) ′ (f(x 0 ), g(x 0 ))(f ′ (x 0 )ξ, g ′ (x 0 )ξ)<br />
= f ′ (x 0 )ξ + g ′ (x 0 )ξ = (f ′ (x 0 ) + g ′ (x 0 ))ξ,<br />
(f · g) ′ (x 0 )ξ = (mult ) ′ (f(x 0 ), g(x 0 ))(f ′ (x 0 )ξ, g ′ (x 0 )ξ)<br />
= f(x 0 ) · (g ′ (x 0 )ξ) + (f ′ (x 0 )ξ) · g(x 0 ) .<br />
Bemerkung. Setzen wir für beliebiges ξ ∈ E<br />
∂f<br />
∂ξ (x) := d ∣ f(x + tξ),<br />
dt t=0<br />
Q.E.D.<br />
so ist nach der Kettenregel<br />
∂f<br />
∂ξ (x) = f ′ (x)ξ<br />
(dies liefert übrigens einen alternativen Beweis zu Satz 7.2). Damit läßt sich die<br />
Produktregel (7.14) besonders schön durch folgende Regel für Richtungsableitungen<br />
darstellen: Für alle ξ ∈ E gilt<br />
(7.18)<br />
∂(f · g)<br />
∂ξ<br />
(x) = f(x) · ∂g ∂f<br />
(x) + (x) · g(x).<br />
∂ξ ∂ξ<br />
100
7.5 Der verallgemeinerte Mittelwertsatz<br />
Wir werden später folgende höherdimensionale Variante des Mittelwertsatzes benötigen.<br />
Satz 7.12 (Schrankensatz) Es seien I ⊂ R offen und f : I → F eine stetig<br />
differenzierbare Funktion mit Werten im Banachraum F. Liegt das Intervall [a, b]<br />
in I, und ist<br />
‖f ′ (t)‖ ≤ m<br />
für alle t ∈ [a, b], so ist<br />
‖f(b) − f(a)‖ ≤ m(b − a) .<br />
Beweis. Ist F = R (oder F = C), so können wir wie folgt argumentieren:<br />
Da f ′ stetig ist, ist f ′ über dem Intervall [a, b] integrierbar, und nach dem Hauptsatz<br />
der Differential- und Integralrechnung ist<br />
(7.19)<br />
f(b) − f(a) =<br />
∫ b<br />
a<br />
f ′ (t)dt .<br />
Hieraus folgt aufgrund der Dreiecksungleichung für Integrale:<br />
(7.20)<br />
|f(b) − f(a)| ≤<br />
∫ b<br />
|f ′ (t)|dt ≤<br />
∫ b<br />
a<br />
a<br />
m dt = m(b − a) .<br />
Dieses Argument läßt sich auf den Fall eines beliebigen Banachraumes F übertragen.<br />
Dazu sei angemerkt, daß sich die in Kapitel 1 beschriebene Integrationstheorie<br />
beinahe wortwörtlich auf den Fall von Funktionen mit Werten in F anwenden läßt:<br />
Wir benötigen dazu allerdings nur die folgenden Eigenschaften:<br />
Eine Funktion f : [a, b] → F heiße dazu Treppenfunktion, wenn es eine Zerlegung<br />
a = x 0 < x 1 < . . .x m = b des Intervalls [a, b] gibt sowie Vektoren ξ 1 , . . .,ξ m ∈ F so,<br />
daß f(x) = ξ i für alle x ∈]x i−1 , x i [.<br />
Das Integral einer solchen Treppenfunktion ist der Vektor ∫ ∑<br />
f(x) dx := m (x i −<br />
x i−1 )ξ i ∈ F. Ist f : [a, b] → F der gleichmäßige Limes einer Folge von Treppenfunktionen<br />
f n : [a, b] → F, so weist man analog wie für R-wertige Regelfunktionen nach,<br />
daß die Folge der Integrale<br />
∫ b<br />
a<br />
f n dx eine Cauchy-Folge in F bildet. Diese konvergiert<br />
aufgrund der Vollständigkeit von F gegen einen Vektor ξ = lim<br />
man schreibt ξ =:<br />
∫ b<br />
a<br />
n→∞<br />
b<br />
i=1<br />
∫<br />
f n dx ∈ F, und<br />
f(x) dx. Die Klasse der F-wertigen Regelfunktionen wird nun<br />
101<br />
a
analog wie im Falle F = R definiert, und man weist die gleichen Regeln für den Umgang<br />
mit solchen F-wertigen integrierbaren Funktionen nach wie für den Fall F = R<br />
– man muß dazu in den entsprechenden Beweisen lediglich den Absolutbetrag | · |<br />
durch die Norm ‖ · ‖ auf F ersetzen. Insbesondere sieht man mittels Satz 5.9, daß<br />
wieder jede stetige Funktion f : [a, b] → F auf [a, b] integrierbar ist, und daß auch in<br />
dieser Situation der Hauptsatz der Differential- und Integralrechnung gültig bleibt.<br />
Damit bleibt auch für einen allgemeinen Banachraum (7.19) gültig, und mittels der<br />
Dreiecksungleichung für F-wertige Integrale folgt in Analogie zu (7.20)<br />
‖f(b) − f(a)‖ ≤<br />
∫ b<br />
‖f ′ (t)‖dt ≤<br />
∫ b<br />
a<br />
a<br />
mdt = m(b − a) .<br />
Q.E.D.<br />
Bemerkungen 7.13 (i) Die Vollständigkeit des normierten Raumes F in Satz 7.12<br />
ist für die Gültigkeit des Satzes nicht wirklich erforderlich. Bezeichnet nämlich F<br />
die Vervollständigung von F aus Kapitel 3.6, so zeigt man leicht, daß F die Struktur<br />
eines Banachraumes besitzt, welcher F als dichten linearen Teilraum enthält. Satz<br />
7.12 läßt sich damit auf Funktionen f : I → F anwenden, also insbesondere auch<br />
auf Funktionen f : I → F ⊂ F.<br />
(ii) Man kann ferner zeigen, daß in Satz 7.12 die Differenzierbarkeit von f genügt<br />
(siehe z.B. [AE]).<br />
Wir betrachten nun wieder normierte Vektorräume E und F.<br />
Satz 7.14 Es sei U ⊂ E eine offene, zusammenhängende und nichtleere Teilmenge<br />
von E. Ist f : U → F differenzierbar, so ist f ′ = 0 genau dann, wenn f konstant<br />
ist.<br />
Beweis. Ist f konstant, so ist wegen f(x 0 + ξ) = f(x 0 ) + 0 · ξ trivialerweise f ′ = 0.<br />
Sei nun umgekehrt f ′ = 0. Dann ist f offenbar sogar stetig differenzierbar. Wir<br />
wählen p ∈ U fest und setzen η := f(p) und<br />
A := {x ∈ U : f(x) = η} = f −1 ({η}).<br />
Da {η} abgeschlossen in F und f stetig ist, ist A abgeschlossen in U. Ferner ist<br />
wegen p ∈ A die Menge A nichtleer.<br />
Um zu zeigen, daß A = U ist, d.h. f(x) = η für alle x ∈ U, genügt es nach Satz<br />
6.1(ii) zu zeigen, daß A auch offen in U ist.<br />
Sei dazu x 0 ∈ A. Dann gibt es ein ε > 0 mit B 2ε (x 0 ) ⊂ U. Sei y ∈ B ε (x 0 ), und<br />
z = y −x 0 . Dann ist für |t| < 2 der Punkt x 0 +tz in B 2ε (x 0 ). Für t ∈ I :=] −2, 2[ ist<br />
102
dann durch ϕ(t) := f(x 0 + tz) eine stetig differenzierbare Funktion auf I gegeben,<br />
und nach der Kettenregel ist<br />
ϕ ′ (t) = f ′ (x 0 + tz)z = 0 für t ∈ I .<br />
Mit Hilfe des Mittelwertsatzes 7.12 folgt hieraus:<br />
ϕ(a) = ϕ(b) für alle a, b ∈ I mit a ≤ b .<br />
Insbesondere ist f(y) = ϕ(1) = ϕ(0) = f(x 0 ) = η, und damit B ε (x 0 ) ⊂ A. Folglich<br />
ist A offen in U.<br />
Q.E.D.<br />
Bemerkung. Ist U in Satz 7.14 nicht zusammenhängend (und dim F > 0), so folgt<br />
aus f ′ = 0 keineswegs, daß f konstant ist. Dann läßt sich U nämlich schreiben als<br />
U = U 1 ∪U 2 , mit nichtleeren, disjunkten, offenen Teilmengen U 1 und U 2 , und wählen<br />
wir η 1 , η 2 ∈ F mit η 1 ≠ η 2 , so ist die durch<br />
{<br />
η 1 , falls x ∈ U 1 ,<br />
f(x) :=<br />
η 2 , falls x ∈ U 2 ,<br />
auf U definierte Funktion differenzierbar, nicht konstant, und f ′ = 0.<br />
7.6 Partielle Ableitungen höherer Ordnung<br />
und die Taylorapproximation<br />
Wir betrachten in diesem Paragraphen Funktionen f : U → R m , wobei U eine offene<br />
Teilmenge des R n sei. Für eine allgemeinere Diskussion höherer (totaler) Ableitungen<br />
von Funktionen zwischen beliebigen normierten Vektorräumen sowie der Taylorschen<br />
Formel in diesem allgemeinen Rahmen sei auf Anhang A verwiesen.<br />
Am Ende von Paragraph 7.1 hatten wir die Frage gestellt, ob stets<br />
∂ 2 f<br />
∂x i ∂x j<br />
= ∂2 f<br />
∂x j ∂x i<br />
gilt. Dies ist, wie wir in den Übungen sehen werden, i.a. falsch. Der folgende Satz<br />
zeigt jedoch, daß die obige Identität dann gilt, wenn eine der partiellen Ableitungen<br />
∂ 2 f ∂<br />
∂x i ∂x j<br />
oder<br />
2 f<br />
∂x j ∂x i<br />
stetig ist.<br />
Zur Vereinfachung der Notation schreiben wir zukünftig auch kurz<br />
∂ ik ...i k<br />
f := ∂ ( ( ))<br />
∂ ∂<br />
. . . f ,<br />
∂x i1 ∂x ik−1 ∂x ik<br />
z.B.<br />
∂ i f = ∂f<br />
∂x i<br />
, ∂ ij f = ∂2 f<br />
∂x i ∂x j<br />
.<br />
103
Theorem 7.15 (von H.A. Schwarz) Die Funktion f : U → R m besitze auf U die<br />
partiellen Ableitungen ∂ i f, ∂ j f und ∂ ji f. Ferner sei ∂ ji f im Punkte a ∈ U stetig.<br />
Dann existiert auch ∂ ij f(a), und es gilt<br />
∂ ij f(a) = ∂ ji f(a).<br />
Der Beweis beruht auf einem 2-dimensionalen Analogon des Mittelwertsatzes einer<br />
Veränderlichen.<br />
Lemma 7.16 Sei r > 0, und bezeichne Q das offene Quadrat Q =] − r, r[ 2 ⊂ R 2 .<br />
Die Funktion ϕ : Q → R besitze die partiellen Ableitungen ∂ 1 ϕ und ∂ 21 ϕ. Dann gibt<br />
es für jedes (x, y) ∈ Q mit x ≠ 0, y ≠ 0 einen Punkt (ξ, η) ∈ Q mit<br />
(7.21) ϕ(x, y) − ϕ(x, 0) − ϕ(0, y) + ϕ(0, 0) = ∂ 21 ϕ(ξ, η)xy.<br />
Beweis. Sei u(x) := ϕ(x, y) −ϕ(x, 0). Zweimalige Anwendung des Mittelwertsatzes<br />
aus der <strong>Analysis</strong> I liefert dann ein ξ zwischen 0 und x und ein η zwischen 0 und y<br />
so, daß die linke Seite von (7.21) geschrieben werden kann als<br />
Beweis von Satz 7.15<br />
u(x) − u(0) = xu ′ (ξ)<br />
= x(∂ 1 ϕ(ξ, y) − ∂ 1 ϕ(ξ, 0))<br />
= xy ∂ 21 ϕ(ξ, η).<br />
Q.E.D.<br />
Es genügt, ihn für den Fall m = 1 zu beweisen, d.h. für reellwertiges f. Für genügend<br />
kleines r > 0 ist dann die Funktion<br />
ϕ(x, y) := f(a + xe i + ye j )<br />
auf dem Quadrat Q =] − r, r[ 2 wohldefiniert. Ferner existieren laut Voraussetzung<br />
an f die partiellen Ableitungen ∂ 1 ϕ, ∂ 2 ϕ und ∂ 21 ϕ auf Q, und ∂ 21 ϕ ist im Punkte<br />
(0, 0) stetig. Wir müssen zeigen, daß ∂ 12 ϕ in (0, 0) existiert, und daß gilt:<br />
∂ 12 ϕ(0, 0) = ∂ 21 ϕ(0, 0).<br />
Sei dazu ε > 0 gegeben. Da ∂ 21 ϕ in (0, 0) stetig ist, existiert eine Umgebung V von<br />
(0, 0) in Q so, daß für alle (x ′ , y ′ ) ∈ V<br />
|∂ 21 ϕ(x ′ , y ′ ) − ∂ 21 ϕ(0, 0)| < ε.<br />
Sei o.B.d.A. V von der Gestalt V =] − δ, δ[ 2 , mit 0 < δ < r. Nach (7.21) gilt dann<br />
für jedes (x, y) ∈ V mit x ≠ 0, y ≠ 0<br />
ϕ(x, y) − ϕ(x, 0) − ϕ(0, y) + ϕ(0, 0)<br />
∣<br />
− ∂ 21 ϕ(0, 0)<br />
xy<br />
∣ < ε.<br />
104
Wegen<br />
ϕ(x, y) − ϕ(x, 0)<br />
lim<br />
= ∂ 2 ϕ(x, 0)<br />
y→0 y<br />
folgt hieraus ∣ ∣∣∣ ∂ 2 ϕ(x, 0) − ∂ 2 ϕ(0, 0)<br />
− ∂ 21 ϕ(0, 0)<br />
x<br />
∣ ≤ ε<br />
für alle x ≠ 0 mit |x| < δ.<br />
∂<br />
Dies zeigt, daß lim 2 ϕ(x,0)−∂ 2 ϕ(0,0)<br />
x→0 x<br />
= ∂ 12 ϕ(0, 0) existiert und gleich ∂ 21 ϕ(0, 0) ist.<br />
Q.E.D.<br />
Durch mehrmalige Anwendung des Satzes von Schwarz sieht man, daß bei einer<br />
C k -Funktion f die Reihenfolge der partiellen Ableitungen<br />
∂ ∂<br />
∂x ik<br />
. . .<br />
∂x i1<br />
f keine Rolle<br />
spielt.<br />
Korollar 7.17 Sei f ∈ C k (U, R m ), und seien i 1 , . . .,i k ∈ {1, . . .,n}. Dann gilt für<br />
jede Permutation π der Indizes 1, . . .,k<br />
∂ i1 ...i k<br />
f = ∂ iπ(1) ...i π(k)<br />
f.<br />
Wir können nun die Taylorformel für Funktionen einer Veränderlichen leicht auf den<br />
höherdimensionalen Fall übertragen.<br />
Sei dazu f ∈ C p+1 (U, R), und seien a, x Punkte in U, deren Verbindungsstrecke<br />
[a, x] := {(1 − t)a + tx : t ∈ [0, 1]}<br />
in U liegt.<br />
Wir betrachten die Hilfsfunktion F : [0, 1] → R mit<br />
F(t) := f(a + th), h := x − a.<br />
Dann ist F ∈ C p+1 ([0, 1], R), denn es gelten folgende Formeln für die Ableitungen<br />
von F, wie man sofort durch wiederholte Anwendung der Kettenregel sieht:<br />
(7.22)<br />
F ′ (t) =<br />
F ′′ (t) =<br />
.<br />
F (k) (t) =<br />
n∑<br />
∂ i f(a + th)h i ,<br />
i=1<br />
n∑<br />
i=1 j=1<br />
n∑<br />
∂ j ∂ i f(a + th)h i h j ,<br />
n∑ n∑<br />
· · · ∂ i1 . . .∂ ik f(a + th)h i1 . . .h ik .<br />
i 1 =1 i k =1<br />
105
Zur Vereinfachung der Schreibweise führen wir folgende Bezeichnungen ein:<br />
Für einen beliebigen Punkt x ∈ U und Vektor ξ = (ξ 1 , . . .,ξ n ) ∈ R n setzen wir<br />
n∑ n∑<br />
(7.23) f (k) (x)ξ k := · · · ∂ i1 . . .∂ ik f(x)ξ i1 . . .ξ ik .<br />
i 1 =1<br />
f (k) (x)ξ k ist ein homogenes Polynom vom Grad k. Speziell ist für k = 1<br />
n∑<br />
f (1) (x)ξ 1 = ∂ i f(x)ξ i = f ′ (x)ξ.<br />
Mit diesen Bezeichnungen gilt dann<br />
i k =1<br />
(7.24) F (k) (t) = f (k) (a + th)h k .<br />
i=1<br />
Wir definieren nun das Taylorpolynom p-ter Ordnung von f in a durch<br />
p∑ 1<br />
(7.25) T p,a f(x) :=<br />
k! f(k) (a)(x − a) k .<br />
k=0<br />
Bemerkungen 7.18 (a) Sei U ⊂ R n offen, und sei f ∈ C k (U, R). Für einen<br />
∑<br />
Multiindex α ∈ N n definiert man seine Länge |α| := n α j sowie α! :=<br />
α 1 ! · · ·α n !. Ist ξ ∈ R n , so setzt man ferner ξ α := ξ α 1<br />
( ) 1 · · ·ξn αn . Schließlich sei<br />
α1<br />
)<br />
∂ α ∂<br />
:=<br />
∂x 1<br />
· · ·(<br />
∂ αn.<br />
∂x n<br />
Dann gilt (Übung!)<br />
j=1<br />
(7.26)<br />
1<br />
k! f(k) (x)ξ k =<br />
∑<br />
{α∈N n :|α|=k}<br />
∂ α f(x)<br />
ξ α .<br />
α!<br />
(b) Nimmt f Werte im R m an, so können wir f (k) (x)ξ k analog definieren durch<br />
n∑ n∑<br />
f (k) (x)ξ k := · · · ξ i1 · · ·ξ ik ∂ i1 . . .∂ ik f(x)<br />
i 1 =1<br />
i k =1<br />
= (f (k)<br />
1 (x)ξ k , . . .,f (k)<br />
n (x)ξk ),<br />
und wir definieren das Taylorpolynom analog durch (7.25).<br />
Theorem 7.19 (Taylorformel) Sei f ∈ C p+1 (U, R m ), und seien a, x Punkte in<br />
U, deren Verbindungsstrecke in U liegt. Dann gilt:<br />
(7.27) f(x) = T p,a f(x) + R p,a (x),<br />
wobei das Restglied durch das Integral<br />
(7.28) R p,a (x) = 1 p!<br />
gegeben ist.<br />
∫ 1<br />
0<br />
(1 − t) p f (p+1) (a + t(x − a))(x − a) p+1 dt<br />
106
Beweis. Wir dürfen nach Bemerkung 7.18 o.B.d.A. m = 1 annehmen. Nach der<br />
1-dimensionalen Taylorformel ist nun<br />
F(1) =<br />
p∑<br />
k=0<br />
F (k) (0)<br />
k!<br />
+ R p ,<br />
mit<br />
Nun ist nach (7.24)<br />
sowie<br />
R p = 1 p!<br />
∫ 1<br />
0<br />
R p = 1 p!<br />
F (k) (0)<br />
k!<br />
∫ 1<br />
0<br />
(1 − t) p F (p+1) (t)dt.<br />
= 1 k! f(k) (a)(x − a) k<br />
(1 − t) p f (p+1) (a + t(x − a))(x − a) p+1 dt.<br />
Ferner ist F(1) = f(x). Damit ergibt sich die Behauptung.<br />
Q.E.D.<br />
Bemerkung 7.20 Ist f in Theorem 7.19 reellwertig, so läßt sich das Restglied auch<br />
darstellen in der Form<br />
(7.29) R p,a (x) =<br />
mit einem geeigneten ξ ∈ [a, x].<br />
1<br />
(p + 1)! f(p+1) (ξ)(x − a) p+1 ,<br />
In diesem Fall gibt es nämlich ein θ ∈ [0, 1] so, daß<br />
R p =<br />
1<br />
(p + 1)! F (p+1) (θ).<br />
Die Identität (7.29) folgt, indem man ξ := a + θ(x − a) wählt.<br />
Korollar 7.21 (Taylor-Approximation) Ist f ∈ C p (U, R m ) und ist a ∈ U, so<br />
gilt<br />
(7.30) f(x) = T p,a f(x) + o(‖x − a‖ p ) für x → a,<br />
d.h. es ist<br />
‖f(x) − T p,a f(x)‖<br />
lim<br />
= 0.<br />
x→a ‖x − a‖ p<br />
107
Beweis. Es sei o.B.d.A. m = 1. Nach Theorem 7.19 ist<br />
f(x) = T p−1,a f(x) + R p−1,a (x)<br />
= T p,a f(x) + ϕ(x),<br />
wobei<br />
ϕ(x) = R p−1,a (x) − 1 p! f(p) (a)(x − a) p .<br />
Nach Bemerkung 7.20 gibt es ferner ein ξ ∈ [a, x] mit<br />
ϕ(x) = 1 p! [fp (ξ)(x − a) p − f (p) (a)(x − a) p ].<br />
Wir müssen zeigen, daß ϕ(x) = o(‖x − a‖ p ) ist. Zu ε > 0 wähle dazu eine Kugel<br />
B δ (a) ⊂ U so, daß für alle y ∈ B δ (a) gilt:<br />
Q(y) := 1 p!<br />
n∑ n∑<br />
· · · |∂ i1 . . .∂ ip f(y) − ∂ i1 . . .∂ ip f(a)| < ε.<br />
i 1 =1 i p=1<br />
Beachtet man noch, daß<br />
|(x i1 − a i1 ) . . .(x ip − a ip )| ≤ ‖x − a‖ p ∞ ≤ ‖x − a‖p<br />
ist, so folgt für x ∈ B δ (a):<br />
‖ϕ(x)‖ ≤ 1 n∑ n∑<br />
· · · |∂ i1 . . . ∂ ip f(ξ) − ∂ i1 . . .∂ ip f(a)| · |(x i1 − a i1 ) . . .(x ip − a ip )|<br />
p!<br />
i 1 =1 i p=1<br />
≤ Q(ξ)‖x − a‖ p ≤ ε‖x − a‖ p ,<br />
also ‖ϕ(x)‖<br />
‖x−a‖ p ≤ ε für alle x ≠ a mit ‖x − a‖ < δ.<br />
Q.E.D.<br />
Das Taylorpolynom 1. Ordnung<br />
f(a) + f ′ (a)(x − a)<br />
liefert die in der Definition der totalen Ableitung beschriebene ”<br />
lineare Approximation“<br />
der Funktion f nahe dem Punkt a. Für beliebiges p stellt T p,a f ein Polynom<br />
vom Grade ≤ p dar, welches f in der Nähe von a nach (7.30) derart approximiert,<br />
daß der Fehler f(x) − T p,a f(x) für x → a schneller als ‖x − a‖ p gegen Null strebt.<br />
108
7.7 Die Hesse-Form<br />
Definition. Sei U ⊂ R n offen, und sei f ∈ C 2 (U, R). Für a ∈ U heißt die durch<br />
f (2) (a)x 2 =<br />
n∑<br />
∂ ij f(a)x i x j , x ∈ R n ,<br />
i,j=1<br />
definierte quadratische Form auf dem R n die Hesse-Form von f in a, und die<br />
symmetrische n × n-Matrix<br />
⎛<br />
⎞<br />
∂ 11 f(a) . . . ∂ 1n f(a)<br />
f ′′ ⎜<br />
⎟<br />
(a) = H f (a) := ⎝ . . ⎠<br />
∂ n1 f(a) . . . ∂ nn f(a)<br />
die Hesse-Matrix. Wir nennen diese Matrix auch die zweite Ableitung von f<br />
in a.<br />
Betrachten wir hier die Vektoren des R n wieder als Spaltenvektoren, so gilt also<br />
f (2) (a)x 2 = t x · H f (a) · x = 〈 x, f ′′ (a)x〉 ,<br />
falls 〈x, y〉 = ∑ n<br />
j=1 x jy j wieder das Euklidische Skalarprodukt auf dem R n bezeichnet.<br />
Für das Taylorpolynom 2. Ordnung der Funktion f im Punkte a erhält man<br />
nun die Darstellung<br />
(7.31) T 2,a f(x) = f(a) + f ′ (a)(x − a) + 1 t (x − a) · f ′′ (a) · (x − a),<br />
2<br />
wobei hier f ′ (a) als Kurzschreibweise für den Gradienten ∇f(a) steht.<br />
Beispiel. f(x, y) = x y auf R + × R.<br />
Da f(x, y) = e y log x ist, ist<br />
∂f<br />
∂x = yxy−1 ,<br />
∂ 2 f<br />
∂x 2 = y(y − 1)x y−2 ,<br />
∂ 2 f<br />
∂y 2 = x y (log x) 2 .<br />
∂f<br />
∂y = xy log x,<br />
∂ 2<br />
∂x∂y f =<br />
Für a = (1, 1) ergibt sich f ′ (1, 1) = (1, 0),<br />
f ′′ (1, 1) =<br />
∂2<br />
∂y∂x f = xy−1 (1 + y log x),<br />
( )<br />
0 1<br />
.<br />
1 0<br />
Damit ist das Taylorpolynom 2. Ordnung von f in (1,1) gegeben durch<br />
T 2,(1,1) f(x, y) = 1 + (x − 1) + (x − 1)(y − 1).<br />
109
7.7.1 Schmiegequadriken<br />
Ist die Hesse-Matrix f ′′ (a) nicht die Nullmatrix, so ist der Graph des Taylorpolynoms<br />
T 2,a f von f eine sogenannte Quadrik im R n+1 . Wegen<br />
f(x) − T 2,a f(x) = o(‖x − a‖ 2 )<br />
wird diese auch als die Schmiegequadrik an den Graphen von f im Punkte<br />
(a, f(a)) bezeichnet. Diese hat im Punkte (a, f(a)) dieselbe Tangentialhyperebene<br />
wie der Graph von f, und auch dieselbe Krümmung; letzteres wird in der Differentialgeometrie<br />
präzisiert.<br />
In der Linearen Algebra wird gezeigt, daß man im Fall n = 2 jede Schmiegequadrik<br />
durch eine affine Koordinatentransformation in eine der folgenden Normalformen<br />
bringen kann:<br />
(E) z = ±(x 2 + y 2 )<br />
(H) z = x 2 − y 2<br />
(P) z = ±x 2<br />
(elliptisches Paraboloid)<br />
(hyperbolisches Paraboloid)<br />
(parabolischer Zylinder)<br />
2<br />
1<br />
0.5<br />
0.25<br />
1.5<br />
0.2<br />
0<br />
1<br />
0.15<br />
-0.5<br />
0.1<br />
0.5<br />
-1<br />
-1<br />
0.05<br />
-1<br />
-1<br />
-0.5<br />
-0.5<br />
0<br />
-1<br />
-0.5<br />
0<br />
y<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
x<br />
-0.5<br />
y<br />
0<br />
0.5<br />
1<br />
1<br />
0.5<br />
0<br />
x<br />
-0.5<br />
-1<br />
0<br />
0.4<br />
0.2<br />
0<br />
x<br />
-0.2<br />
-0.4<br />
1<br />
0<br />
y<br />
0.5<br />
Allgemeiner heißt eine quadratische Form<br />
Q : R n → R,<br />
Q(x) = t xAx,<br />
und die sie repräsentierende symmetrische Matrix A, bekanntlich<br />
positiv definit, falls Q(x) > 0 ist für alle x ≠ 0 (in Zeichen: Q > 0),<br />
negativ definit, falls Q(x) < 0 ist für alle x ≠ 0, (in Zeichen: Q < 0),<br />
positiv semidefinit, falls Q(x) ≥ 0 ist für alle x ≠ 0, (in Zeichen: Q ≥ 0),<br />
negativ semidefinit, falls Q(x) ≤ 0 ist für alle x ≠ 0, (in Zeichen: Q > 0),<br />
(in Zei-<br />
indefinit, falls Q sowohl positive als auch negative Werte annimmt<br />
chen: Q ≷ 0).<br />
110
Da sich die symmetrische Matrix A mittels einer orthogonalen Koordinatentransformation<br />
diagonalisieren läßt, sind diese Eigenschaften äquivalent zu den folgenden<br />
Eigenschaften der Eigenwerte (EW) von A :<br />
Q > 0 ⇐⇒ alle EW sind > 0,<br />
Q < 0 ⇐⇒ alle EW sind < 0,<br />
Q ≥ 0 ⇐⇒ alle EW sind ≥ 0,<br />
Q ≤ 0 ⇐⇒ alle EW sind ≤ 0,<br />
Q ≷ 0 ⇐⇒ A hat EW > 0 und < 0.<br />
7.8 Lokale Extrema<br />
Sei f : X → R, wobei X ⊂ R n sei. f besitze in a ∈ X ein lokales Maximum<br />
bzw. Minimum, falls es in X eine Umgebung V von a gibt, so daß f(x) ≤ f(a)<br />
bzw. f(x) ≥ f(a) für alle x ∈ V. Kann V so gewählt werden, daß sogar f(x) < f(a)<br />
bzw. f(x) > f(a) für alle x ∈ V \ {a} gilt, so heißt a Stelle eines isolierten lokalen<br />
Maximums bzw. Minimums von f.<br />
Satz 7.22 (Notwendiges Kriterium) Sei U ⊂ R n offen. Hat f : U → R in<br />
a ∈ U ein lokales Extremum, d.h. ein lokales Maximum oder Minimum, und ist f<br />
in a partiell differenzierbar, so gilt<br />
(7.32) ∂ 1 f(a) = · · · = ∂ n f(a) = 0.<br />
Für eine in a differenzierbare Funktion f besagt (7.32), daß f ′ (a) = 0 ist.<br />
Beweis. Die durch g(t) := f(a + te k ) in einem genügend kleinen Intervall um 0<br />
erklärte Funktion g hat in t = 0 ein lokales Extremum. Somit ist 0 = g ′ (0) =<br />
Df(a)e k = ∂ k f(a) für k = 1, . . ., n.<br />
Q.E.D.<br />
Punkte a mit f ′ (a) = 0 bezeichnet man auch als kritische oder stationäre Punkte<br />
von f.<br />
Satz 7.23 (Hinreichendes Kriterium) Seien U ⊂ R n offen und sei f : U → R<br />
eine C 2 -Funktion. Ist a ∈ U ein kritischer Punkt von f, d.h. ist f ′ (a) = 0, so gilt:<br />
f ′′ (a) > 0 =⇒ f hat in a ein isoliertes lokales Minimum;<br />
f ′′ (a) < 0 =⇒ f hat in a ein isoliertes lokales Maximum;<br />
f ′′ (a) ≷ 0 =⇒ f hat in a kein lokales Extremum.<br />
111
Beweis. Sei zunächst f ′′ (a) > 0. Wegen f ′ (a) = 0 folgt dann für alle genügend<br />
kleinen Vektoren ξ ∈ R n mittels Taylor-Approximation (vgl. Satz 7.21)<br />
wobei<br />
f(a + ξ) = f(a) + 1 t ξf ′′ (a)ξ + R(ξ),<br />
2<br />
R(ξ)<br />
lim<br />
ξ→0 ‖ξ‖ = 0. 2<br />
Die stetige Funktion ξ ↦→ t ξf ′′ (a)ξ nimmt wegen f ′′ (a) > 0 auf der kompakten<br />
Einheitssphäre S := {ξ : ‖ξ‖ = 1} ein strikt positives Minimum m > 0 an. Schreibt<br />
man einen beliebigen Vektor als ξ = ‖ξ‖e, mit einem Einheitsvektor e ∈ S, so folgt<br />
damit für alle ξ<br />
t ξf ′′ (a)ξ ≥ m‖ξ‖ 2 .<br />
Wähle nun ε > 0 so klein, daß B ε (a) ⊂ U, und so daß für ‖ξ‖ < ε stets<br />
gilt. Für alle a + ξ ∈ B ε (a) folgt dann<br />
|R(ξ)| ≤ m 4 ‖ξ‖2<br />
f(a + ξ) ≥ f(a) + m 2 ‖ξ‖2 − m 4 ‖ξ‖2 = f(a) + m 4 ‖ξ‖2 .<br />
Dies zeigt, daß f in der Kugel B ε (a) genau im Punkte a ein Minimum annimmt.<br />
Im Fall f ′′ (a) > 0 ist damit die Behauptung bewiesen, und der Fall f ′′ (a) < 0 wird<br />
durch den Übergang zu −f auf den vorherigen Fall zurückgeführt.<br />
Ist schließlich f ′′ (a) indefinit, so gibt es Vektoren v und w mit t vf ′′ (a)v > 0 bzw.<br />
t wf ′′ (a)w < 0. Betrachten wir dann die Funktionen<br />
g v (t) := f(a + tv)<br />
g w (t) := f(a + tw),<br />
die auf einem genügend kleinen Intervall um 0 ∈ R definiert sind, so ist nach der<br />
Kettenregel g v ′′(0)<br />
= t vf ′′ (a)v > 0 und g w ′′(0) = t wf ′′ (a)w < 0, wobei t = 0 jeweils<br />
ein kritischer Punkt ist. Somit hat g v in 0 ein isoliertes lokales Mimimum, g w ein<br />
isoliertes lokales Maximum, und f daher in a kein lokales Extremum. Q.E.D.<br />
Beispiel. Die Funktion f(x, y) := y 2 (x−1)+x 2 (x+1) auf R 2 soll auf lokale Extrema<br />
untersucht werden. Es ist<br />
f ′ (x, y) = (y 2 + 3x 2 + 2x, 2(x − 1)y).<br />
Die Bedingung f ′ (x, y) = (0, 0) ergibt als stationäre Punkte P 1 := (0, 0) und P 2 :=<br />
(− 2 , 0). Die zweite Ableitung von f ist gegeben durch die Hesse-Matrix<br />
3<br />
( )<br />
6x + 2 2y<br />
f ′′ (x, y) =<br />
.<br />
2y 2(x − 1)<br />
112
( )<br />
2 0<br />
Somit ist f ′′ (P 1 ) = indefinit, so daß in P<br />
0 −2<br />
1 kein lokales Extremum vorliegt<br />
( )<br />
−2 0<br />
(sondern ein sogenannter Sattelpunkt), und f ′′ (P 2 ) =<br />
0 − 10 , so daß in P 2 ein<br />
3<br />
lokales Maximum vorliegt.<br />
113
Kapitel 8<br />
Der Banachsche Fixpunktsatz<br />
In vielen Situationen in der Mathematik steht man vor dem Problem, die Existenz<br />
eines gewissen Objektes, wie z.B. die Lösung eine Gleichung, nachzuweisen, ohne dieses<br />
”<br />
explizit“ berechnen zu können. Hier helfen oftmals sogenannte Fixpunktsätze<br />
weiter. Einer der bedeutendsten Sätze dieser Art ist der Kontraktionssatz von Banach.<br />
Definition. Es sei (M, d) ein metrischer Raum. Eine Abbildung S : M → M heiße<br />
kontrahierend oder eine Kontraktion, wenn es eine Zahl θ ∈ [0, 1[ gibt mit<br />
d(S(x), S(y)) ≤ θ d(x, y) für alle x, y ∈ M .<br />
Ein Punkt x ∈ M heiße Fixpunkt von S, wenn gilt S(x) = x.<br />
Man beachte, daß jede Kontraktion Lipschitz-stetig ist.<br />
Theorem 8.1 (Banachscher Fixpunktsatz) Sei S eine Kontraktion des vollständigen<br />
metrischen Raumes (M, d). Dann besitzt S einen eindeutigen Fixpunkt<br />
x.<br />
Ist x 0 ein beliebiger Punkt in M, und definieren wir die Folge (x n ) n rekursiv durch<br />
x n := S(x n−1 ), n = 1, 2, . . ., so ist lim<br />
n→∞<br />
x n = x, und es gilt<br />
(8.1) d(x, x n ) ≤ θ<br />
1 − θ d(x n−1, x n ) ≤ θn<br />
1 − θ d(x 0, x 1 ) .<br />
Beweis. Wir zeigen zuerst, daß S höchstens einen Fixpunkt besitzt. Sind nämlich<br />
x 1 und x 2 zwei Fixpunkte von S, so gilt:<br />
d(x 1 , x 2 ) = d(S(x 1 ), S(x 2 )) ≤ θd(x 1 , x 2 ),<br />
mit 0 ≤ θ < 1. Es folgt d(x 1 , x 2 ) = 0, also x 1 = x 2 .<br />
Um die Existenz eines Fixpunktes nachzuweisen, wählen wir einen beliebigen Punkt<br />
x 0 in M, und definieren rekursiv die Folge (x n ) n wie im Theorem. Dann gilt für<br />
k > 1<br />
d(x k , x k+1 ) = d(S(x k−1 ), S(x k )) ≤ θd(x k−1 , x k ) ,<br />
114
woraus per Iteration folgt:<br />
d(x k+j , x k+j+1 ) ≤ θ j+1 d(x k−1 , x k ), j ≥ 0 .<br />
Für p > n ≥ 1 folgt hieraus mittels der Dreiecksungleichung<br />
(8.2)<br />
d(x n , x p ) ≤<br />
p−n−1<br />
∑<br />
j=0<br />
Sei ε > 0. Da 0 ≤ θ < 1, gibt es ein n 0 ∈ N mit<br />
≤<br />
d(x n+j , x n+j+1 ) ≤<br />
p−n−1<br />
∑<br />
j=0<br />
θ<br />
1 − θ d(x n−1, x n ) ≤ θn<br />
1 − θ d(x 0, x 1 ) .<br />
θ n<br />
1 − θ d(x 0, x 1 ) < ε für alle n ≥ n 0 .<br />
θ j+1 d(x n−1 , x n )<br />
Somit ist (x n ) n eine Cauchy-Folge im vollständigen metrischen Raum M und konvergiert<br />
folglich gegen einen Punkt x ∈ M. Da S als Kontraktion stetig ist, ist<br />
S(x) = lim<br />
n→∞<br />
S(x n ) = lim<br />
n→∞<br />
x n+1 = x ,<br />
d.h. x ist ein Fixpunkt von S. Die Stetigkeit der Metrik als Abbildung von M × M<br />
nach R impliziert schließlich<br />
d(x n , x) = lim<br />
p→∞<br />
d(x n , x p ),<br />
so daß sich die gewünschten Abschätzungen in Theorem 8.1 unmittelbar aus (8.2)<br />
ergeben.<br />
Q.E.D.<br />
Bemerkung 8.2 Setzen wir S 1 := S, und S n := S ◦ S n−1 für n > 1, um die Iterierten<br />
von S zu beschreiben, so läßt sich die Folge (x n ) n in Theorem 8.1 schreiben<br />
als (S n (x 0 )) n . Der Banachsche Fixpunktsatz liefert nicht nur die Existenz eines Fixpunktes<br />
sowie dessen Eindeutigkeit, sondern sogar ein iteratives Verfahren, um diesen<br />
aufzufinden. Ferner wird eine Formel zur Abschätzung des Fehlers d(x, S n (x 0 ))<br />
geliefert, den man begeht, wenn man anstelle des Fixpunktes x den Punkt S n (x 0 )<br />
aus dem n-ten Iterationsschritt wählt.<br />
115
Kapitel 9<br />
Der Satz über implizite<br />
Funktionen<br />
9.1 Einleitende Beispiele<br />
Ein Problem, auf welches man in der Mathematik, aber auch in vielen Anwendungen<br />
des öfteren stößt, ist das der ”<br />
Auflösung“ eines Systems von Gleichungen nach<br />
gewissen ”<br />
Unbekannten“ y 1 , . . .,y m .<br />
Typischerweise handelt es sich um Gleichungen der Form<br />
(9.1)<br />
F 1 (x 1 , . . .,x k , y 1 , . . ., y m ) = 0<br />
.<br />
F n (x 1 , . . .,x k , y 1 , . . ., y m ) = 0<br />
in den Variablen x 1 , . . .,x k , y 1 , . . .,y m (welche auf einer Teilmenge des R k × R m<br />
definiert sind), welche man für gegebene Werte von x 1 , . . .,x k nach y 1 , . . .,y m<br />
“auflösen“ möchte. Im Idealfall hofft man dabei, daß es zu festem x 1 , . . .,x k nur<br />
genau eine Lösung y 1 = y 1 (x 1 , . . .,x k ), . . .,y m = y m (x 1 , . . .,x k ) gibt, wodurch dann<br />
Funktionen<br />
g i : (x 1 , . . ., x k ) ↦→ y i (x 1 , . . .,x k ), i = 1, . . .,m,<br />
mit<br />
F j (x 1 , . . .,x k , g 1 (x 1 , . . .,x k ), . . .,g m (x 1 , . . ., x k )) = 0,<br />
j = 1, . . .,n,<br />
definiert werden.<br />
Beispiele 9.1 a) Die Gleichung x 2 + y 2 = r 2 auf R × R definiert den Kreis mit<br />
Radius r ≥ 0 und Mittelpunkt (0, 0). Diese läßt sich umschreiben in<br />
F(x, y) := r 2 − (x 2 + y 2 ) = 0.<br />
116
Löst man nach y auf, so erhält man<br />
y = ± √ r 2 − x 2 , falls |x| ≤ r .<br />
Für |x| > r erhält man dagegen keine reelle Lösung y. Setzt man g + (x) :=<br />
√<br />
r2 − x 2 , g − (x) := − √ r 2 − x 2 , |x| ≤ r, so erhält man hier sogar zwei stetige<br />
Funktionen g + und g − auf I = [−r, r] mit<br />
F(x, g + (x)) = 0 und F(x, g − (x)) = 0, x ∈ I .<br />
Insbesondere gibt es z.B. nur genau eine stetige Lösungsfunktion g mit F(x, g(x)) =<br />
0 für x ∈ I und (0, g(0)) = (0, r), nämlich g + .<br />
Für r = 0 schrumpft das Lösungsintervall I übrigens zusammen auf die einpunktige<br />
Menge I = {0} so, daß wir hier auf keiner noch so kleinen Umgebung der 0 eine<br />
Lösungsfunktion g finden können.<br />
b) Sind die Funktionen F 1 , . . .,F n in (9.1) linear, so läßt sich (9.1) kürzer schreiben<br />
als<br />
(9.2) B · x + A · y = 0 ,<br />
⎛ ⎞ ⎛ ⎞<br />
x 1 y 1<br />
⎜ ⎟ ⎜ ⎟<br />
mit x = ⎝ . ⎠ , y = ⎝ . ⎠, wobei A = (a ij ) i=1,...,n und B = (b il ) i=1,...,n<br />
j=1,...,m<br />
l=1,...,k<br />
x k y m<br />
n × m-bzw. n × k-Matrizen sind. (9.2) ist äquivalent zu<br />
gewisse<br />
(9.3)<br />
A · y = −B · x .<br />
Hinreichend für die Auflösbarkeit dieser Gleichung nach y ist dann die Invertierbarkeit<br />
der durch die Matrix A definierten linearen Abbildung. Dazu muß insbesondere<br />
n = m sein. Ist dann A invertierbar, so ist (9.3) äquivalent zu<br />
y = −A −1 · B · x .<br />
Dieses Beispiel unterstreicht das heuristische Prinzip, wonach man i.a. gerade n<br />
Gleichungen benötigt, um nach n Variablen y 1 , . . .,y n<br />
” aufzulösen“.<br />
117
Wir setzen daher ab jetzt stets n = m voraus.<br />
c) Für x, y ∈ R sei<br />
F(x, y) := y + e y − x.<br />
Mit Hilfe des Zwischenwertsatzes (genauer Satz 9.10, Anal. I) sieht man leicht, daß<br />
es eine eindeutige, stetige Funktion g : R → R mit F(x, g(x)) = 0 gibt. Offenbar ist<br />
nämlich g die Umkehrfunktion der stetigen, streng isotonen Funktion h : y ↦→ y+e y ,<br />
welche nach Satz 9.11 (Anal. I) ebenfalls stetig ist.<br />
Leider läßt sich g nicht “explizit“ angeben, d.h. als Ausdruck in wohlbekannten<br />
Funktionen. Wir werden sehen, daß sich trotzdem wichtige Eigenschaften der durch<br />
F(x, g(x)) = 0 ”<br />
implizit“ definierten Funktion g, wie z.B. Stetigkeit, Differenzierbarkeit<br />
etc., aus entsprechenden Eigenschaften der Funktion F herleiten lassen.<br />
Wir kehren nun zum Gleichungssystem (9.1) zurück und beobachten zunächst, daß<br />
sich dieses für n = m in die Form<br />
(9.4)<br />
F(x, y) = 0<br />
bringen läßt, wenn wir setzen:<br />
x := (x 1 , . . .,x k ) ∈ R k ,<br />
y := (y 1 , . . .,y n ) ∈ R n ,<br />
F := (F 1 , . . ., F n ).<br />
9.2 Satz über implizite Funktion und Satz über<br />
Umkehrfunktionen<br />
Wir wollen sogar folgende, allgemeinere Situation betrachten:<br />
Es seien X, Y und Z normierte Vektorräume (welche in (9.4) den Räumen R k , R n<br />
und R n entsprechen), sowie (a, b) ∈ X × Y . X × Y werde mit der Norm ‖(x, y)‖ :=<br />
‖(x, y)‖ ∞ = max(‖x‖ X , ‖y‖ Y ), (x, y) ∈ X × Y , versehen.<br />
Definition. Sind U eine Teilmenge von X × Y mit (a, b) ∈ U sowie F : U → Z<br />
eine Abbildung, und ist {x ∈ X : (x, b) ∈ U} eine Umgebung von a in X, so heiße<br />
F in (a, b) partiell nach der 1. Variablen differenzierbar, falls die Abbildung<br />
F(·, b) : x ↦→ F(x, b) im Punkte a differenzierbar ist. Man schreibt dann für diese<br />
partielle Ableitung<br />
D 1 F(a, b) := (F(·, b)) ′ (a),<br />
oder auch F ′ x(a, b).<br />
Analog wird die partielle Ableitung D 2 F(a, b) = F ′ y (a, b) := (F(a, ·))′ (b) definiert.<br />
Ist F im Punkte (a, b) total differenzierbar, so ist offenbar für alle (ξ, η) ∈ X × Y<br />
118
(9.5)<br />
DF(a, b)(ξ, η) = DF(a, b)(ξ, 0) + DF(a, b)(0, η)<br />
= D 1 F(a, b)ξ + D 2 F(a, b)η .<br />
Definition. Ein beschränkter linearer Operator T ∈ L(Y, Z) heiße regulär, falls es<br />
einen beschränkten linearen Operator T −1 ∈ L(Z, Y ) gibt mit T ◦ T −1 = I Z , T −1 ◦<br />
T = I Y , wobei I Z bzw. I Y den identischen Operator auf Z bzw. Y bezeichne.<br />
Bemerkung. In vielen Anwendungen ist Y = Z = R n . Dann ist T ∈ L(R n , R n )<br />
regulär dann und nur dann, wenn T invertierbar ist, d.h. wenn det T ≠ 0.<br />
Satz 9.2 (Differenzierbarkeit der auflösenden Funktion) Sei (a, b) ∈ X ×Y ,<br />
und seien U 1 eine offene Umgebung von a in X und U 2 eine offene Umgebung von b<br />
in Y . Ferner sei F : U 1 × U 2 → Z eine Abbildung mit F(a, b) = 0, welche im Punkt<br />
(a, b) differenzierbar ist. Weiter sei g : U 1 → U 2 eine stetige Abbildung mit g(a) = b<br />
sowie<br />
F(x, g(x)) = 0 für alle x ∈ U 1 .<br />
Ist dann die partielle Ableitung F y ′ (a, b) ∈ L(Y, Z) regulär, so ist g im Punkte a<br />
differenzierbar, und es gilt:<br />
(9.6)<br />
g ′ (a) = −(F y ′ (a, b))−1 ◦ F x ′ (a, b) .<br />
Beweis. Sei o.B.d.A. (a, b) = (0, 0), und somit insbesondere g(0) = 0 (ansonsten<br />
betrachte man die Hilfsfunktion ˜F(x, y) := F(a + x, b + y)). Wir setzen<br />
A := F x ′(0, 0) ∈ L(X, Z), B := F y ′ (0, 0) ∈ L(Y, Z). Da F in (0, 0) differenzierbar<br />
ist, ist<br />
F(x, y) = Ax + By + ϕ(x, y) ,<br />
wobei ϕ : U 1 × U 2 → Z eine Funktion ist mit<br />
ϕ(x, y) = o(‖(x, y)‖) .<br />
Nach Voraussetzung ist F(x, g(x)) = 0 für alle x ∈ U 1 , und damit 0 = Ax+Bg(x)+<br />
ϕ(x, g(x)), also<br />
(9.7) g(x) = −B −1 Ax − B −1 ϕ(x, g(x)) für alle x ∈ U 1 ,<br />
mit B −1 ∈ L(Z, Y ) .<br />
Sei ε > 0. Da ϕ(x, y) = o(‖(x, y)‖) ist, gibt es ein δ > 0 so, daß<br />
‖ϕ(x, y)‖ ≤ ε‖(x, y)‖ ≤ ε(‖x‖ + ‖y‖)<br />
119
ist für alle (x, y) mit ‖(x, y)‖ < δ. Ferner gibt es wegen der Stetigkeit von g in 0 ein<br />
δ 1 < δ so, daß gilt:<br />
‖g(x)‖ < δ für alle x mit ‖x‖ < δ 1 .<br />
Damit ist für ‖x‖ < δ 1 offenbar ‖(x, g(x))‖ < δ, also<br />
und damit<br />
‖ϕ(x, g(x))‖ ≤ ε(‖x‖ + ‖g(x)‖)<br />
(9.8)<br />
‖B −1 ϕ(x, g(x))‖ ≤ ‖B −1 ‖ε(‖x‖ + ‖g(x)‖) .<br />
Für ε := 1<br />
2‖B −1 ‖<br />
Somit gibt es ein δ 0 > 0 mit<br />
erhalten wir nach (9.7) insbesondere<br />
‖g(x)‖ ≤ ‖B −1 A‖ ‖x‖ + 1 2 ‖x‖ + 1 2 ‖g(x)‖ .<br />
(9.9)<br />
‖g(x)‖ ≤ K ‖x‖ , für ‖x‖ < δ 0 ,<br />
mit K := 2‖B −1 A‖ + 1.<br />
Wir setzen nun ψ(x) := −B −1 ϕ(x, g(x)). Damit ist nach (9.7)<br />
g(x) = −B −1 Ax + ψ(x) ,<br />
und der Satz ist bewiesen, wenn gezeigt wird, daß ψ(x) = o(‖x‖) ist, d.h. daß<br />
ψ(x)<br />
lim<br />
x→0 ‖x‖ = 0 .<br />
Aus (9.8) und (9.9) folgt jedoch, daß es zu jedem ε ′ > 0 ein δ ′ > 0 mit δ ′ < δ 0 gibt<br />
so, daß ‖ψ(x)‖ ≤ ε ′ ‖x‖ gilt für alle x mit ‖x‖ < δ ′ .<br />
Q.E.D.<br />
Bemerkungen 9.3 (i) Man überlege sich einmal, daß für die Abbildung F in Beispiel<br />
9.1 a) die Bedingung F y ′ ∂F<br />
(a, b) = (a, b) ≠ 0 (für a, b mit ∂y a2 + b 2 = r 2 )<br />
hinreichend und notwendig dafür ist, daß es auf einer Umgebung von a eine stetige<br />
Funktion g gibt mit g(a) = b und F(x, g(x)) = 0, und daß in Beispiel b) die<br />
Regularität von F y(a, ′ b) äquivalent zur Regularität der Matrix A ist.<br />
(ii) Für die in Beispiel 9.1 c) implizit definierte Funktion erhalten wir aus Satz 9.2:<br />
g ist differenzierbar auf ganz R, und es gilt:<br />
∂F<br />
g ′ (x, g(x))<br />
∂x<br />
(x) = −<br />
∂F<br />
(x, g(x)) = 1<br />
1 + e . g(x) ∂y<br />
120
Da die rechte Seite differenzierbar ist, ist damit g sogar zweimal differenzierbar, und<br />
per Induktion erkennt man, daß g sogar beliebig oft differenzierbar ist.<br />
(iii) Formel (9.6) ergibt sich sofort mit der Kettenregel aus f(x) := F(x, g(x)) ≡ 0,<br />
falls man bereits weiß, daß g differenzierbar ist: Es ist dann nämlich<br />
0 = f ′ (x) = F ′ x (x, g(x)) + F ′ y (x, g(x)) ◦ g′ (x),<br />
woraus (9.6) durch Auflösen nach g ′ (x) folgt.<br />
Theorem 9.4 (Satz über implizite Funktionen) Es seien X, Y und Z Banachräume,<br />
U 1 ⊂ X und U 2 ⊂ Y offene Mengen, sowie F : U 1 × U 2 → Z eine<br />
stetig differenzierbare Abbildung. Sei (a, b) ∈ U 1 × U 2 mit F(a, b) = 0, und sei<br />
F y ′ (a, b) ∈ L(Y, Z) regulär.<br />
Dann gibt es offene Umgebungen V 1 ⊂ U 1 von a und V 2 ⊂ U 2 von b derart, daß es<br />
zu jedem x ∈ V 1 genau ein y ∈ V 2 gibt mit F(x, y) = 0. Bezeichnen wir dieses y mit<br />
g(x), so ist die dadurch definierte Funktion g : V 1 → V 2 stetig, und es gilt:<br />
F(x, g(x)) = 0 für alle x ∈ V 1 .<br />
Beweis. Der Beweis soll in zwei Schritten erfolgen.<br />
1. Schritt: Reduktion auf ein Fixpunktproblem<br />
Es sei o.B.d.A. (a, b) = (0, 0). Wir setzen B := F y ′ (0, 0) ∈ L(Y, Z), und definieren<br />
die Abbildung G : U 1 × U 2 → Y durch<br />
Offenbar gilt dann:<br />
G(x, y) := y − B −1 ◦ F(x, y) .<br />
(9.10)<br />
F(x, y) = 0 genau dann, wenn G(x, y) = y .<br />
Ferner ist nach der Kettenregel<br />
G ′ y (x, y) = I − B−1 ◦ F y ′ (x, y) ,<br />
also G ′ y (0, 0) = I − B−1 ◦ B = 0. Für G gilt also<br />
G ′ y(0, 0) = 0,<br />
G(0, 0) = 0.<br />
Da G ′ y stetig ist, können wir somit Nullumgebungen W 1 ⊂ U 1 und W 2 ⊂ U 2 so<br />
wählen, daß gilt:<br />
(9.11)<br />
‖G ′ y(x, y)‖ ≤ 1 2<br />
für alle (x, y) ⊂ W 1 × W 2 .<br />
121
Wir wählen R > 0 so, daß V 2 := B R (0) ⊂ W 2 ist.<br />
Da G stetig ist mit G(0, 0) = 0, gibt es ferner ein r > 0 so, daß V 1 := B r (0) ⊂ W 1<br />
ist und<br />
(9.12)<br />
sup<br />
x∈V 1<br />
‖G(x, 0)‖ ≤ R 4 .<br />
Aus (9.11) und (9.12) folgern wir mit Hilfe des Schrankensatzes, daß für alle x ∈ V 1<br />
und y 1 , y 2 , y ∈ V 2 gilt:<br />
(9.13)<br />
‖G(x, y 1 ) − G(x, y 2 )‖ ≤ 1 2 ‖y 1 − y 2 ‖<br />
und<br />
(9.14)<br />
‖G(x, y)‖ ≤ 3 4 R .<br />
In der Tat, setzen wir für y 1 , y 2 ∈ V 2 = B R (0) und x ∈ V 1<br />
ϕ(t) := G(x, (1 − t)y 1 + ty 2 ) ,<br />
so ist ϕ(t) in einer offenen Umgebung des Intervalls [0, 1] definiert (da<br />
‖(1 − t)y 1 + ty 2 ‖ ≤ (1 − t)‖y 1 ‖ + |t| ‖y 2 ‖ < |1 − t|R + |t|R = (|1 − t| + |t|)R) und es<br />
ist nach der Kettenregel<br />
ϕ ′ (t) = G ′ y(x, (1 − t)y 1 + ty 2 )(y 2 − y 1 ) ,<br />
also nach (9.11)<br />
‖ϕ ′ (t)‖ ≤ 1 2 ‖y 2 − y 1 ‖ für t ∈ [0, 1] .<br />
Da ϕ(0) = G(x, y 1 ), ϕ(1) = G(x, y 2 ), so folgt (9.13) mit Satz 7.12.<br />
Mit (9.12) und (9.13) folgert man für y ∈ V 2 und x ∈ V 1 :<br />
‖G(x, y)‖ ≤ ‖G(x, y) − G(x, 0)‖ + ‖G(x, 0)‖<br />
≤ 1 2 ‖y‖ + R 4 ≤ R 2 + R 4 = 3 4 R .<br />
Aus (9.13) folgt übrigens sofort, daß es zu gegebenem x ∈ V 1 höchstens ein y ∈ V 2<br />
geben kann mit F(x, y) = 0 :<br />
Sind nämlich y 1 , y 2 ∈ V 2 so, daß F(x, y 1 ) = F(x, y 2 ) = 0, so ist G(x, y 1 ) = y 1 und<br />
G(x, y 2 ) = y 2 , also nach (9.13) ‖y 1 − y 2 ‖ ≤ 1 2 ‖y 1 − y 2 ‖. Hieraus folgt y 1 = y 2 .<br />
2. Schritt: Konstruktion eines Fixpunktes<br />
Wir versuchen nun, eine stetige Funktion g auf V 1 zu konstruieren mit g(0) = 0 und<br />
F(x, g(x)) = 0, oder, dazu äquivalent,<br />
(9.15)<br />
g(0) = 0 und G(x, g(x)) = g(x) für alle x ∈ V 1 .<br />
122
Zusammen mit der obigen Beobachtung hätten wir dann Theorem 9.4 bewiesen.<br />
Wir wollen uns dazu einen geeigneten metrischen Raum F von stetigen Funktionen<br />
f : V 1 → V 2 mit f(0) = 0 verschaffen, welcher unter der Abbildung<br />
f ↦→ S(f),<br />
S(f)(x) := G(x, f(x)),<br />
invariant bleibt, d.h. S(f) ∈ F für alle f ∈ F. Die Bedingung G(x, g(x)) = g(x)<br />
bedeutet dann gerade, daß g ein Fixpunkt von S ist, d.h. daß<br />
S(g) = g<br />
ist.<br />
Es bezeichne C b (V 1 , Y ) den Raum aller stetigen, beschränkten Abbildungen f : V 1 →<br />
Y , versehen mit der Supremumsnorm<br />
‖f‖ ∞ := sup{‖f(x)‖ : x ∈ V 1 } .<br />
Lemma 9.5 (C b (V 1 , Y ), ‖ · ‖ ∞ ) ist vollständig.<br />
Beweis. Sei (f n ) n eine Cauchy-Folge in C b (V 1 , Y ). Für jedes x ∈ V 1 ist dann die Folge<br />
(f n (x)) n eine Cauchy-Folge in Y . Aufgrund der Vollständigkeit von Y konvergiert<br />
sie gegen einen Punkt f(x) ∈ Y . Wir zeigen, daß die dadurch definierte Funktion<br />
f : V 1 → Y in C b (V 1 , Y ) liegt und der Grenzwert der Folge (f n ) n ist.<br />
Sei ε > 0. Dann existiert ein n 0 ∈ N so, daß ‖f n − f m ‖ ∞ ≤ ε ist für n 0 ≤ n ≤ m.<br />
Für n ≥ n 0 ist damit für alle x ∈ V 1<br />
‖f n (x) − f(x)‖ = lim<br />
m→∞ ‖f n(x) − f m (x)‖ ≤ ε .<br />
Dies zeigt, daß f der gleichmäßige Limes der Folge (f n ) n ist. Damit ist f offenbar<br />
beschränkt, und nach Satz 3.26 auch stetig.<br />
Wir setzen nun<br />
F := {f ∈ C b (V 1 , Y ) : ‖f‖ ∞ ≤ 3 R und f(0) = 0} .<br />
4<br />
Q.E.D.<br />
Offenbar ist F eine abgeschlossene Teilmenge von C b (V 1 , Y ) und somit als metrischer<br />
Teilraum (welcher die Metrik<br />
d(f, g) := ‖f − g‖ ∞ = sup<br />
x∈V 1<br />
‖f(x) − g(x)‖<br />
trägt), vollständig. Ist f ∈ F, so ist aufgrund der Stetigkeit von G auch die Funktion<br />
S(f) : V 1 → Y stetig, und wegen G(0, 0) = 0 ist auch S(f)(0) = G(0, f(0)) = 0.<br />
Ferner ist nach (9.14) ‖S(f)‖ ∞ ≤ 3 R. Somit gilt in der Tat<br />
4<br />
(9.16)<br />
S(F) ⊂ F .<br />
123
Sind f 1 , f 2 ∈ F, so folgt zusätzlich aus (9.13): für alle x ∈ V 1 ist<br />
‖S(f 1 )(x) − S(f 2 )(x)‖<br />
= ‖G(x, f 1 (x)) − G(x, f 2 (x))‖<br />
≤ 1 2 ‖f 1(x) − f 2 (x)‖,<br />
und folglich<br />
(9.17)<br />
d(S(f 1 ), S(f 2 )) ≤ 1 2 d(f 1, f 2 ), für alle f 1 , f 2 ∈ F .<br />
Die Abbildung S ist somit kontrahierend.<br />
Folglich gibt es nach dem Banachschen Fixpunktsatz (genau) eine Funktion g ∈<br />
F ⊂ C b (V 1 , Y ) mit S(g) = g, d.h. welche (9.15) erfüllt.<br />
Q.E.D.<br />
Im Beweis des Satzes über implizite Funktion könnte man übrigens das Iterationsverfahren<br />
mit der Funktion f 0 := 0 starten. Als Ergänzung zu Theorem 9.4 erwähnen<br />
wir noch<br />
Lemma 9.6 Unter den Voraussetzungen von Theorem 9.4 gibt es ein ε > 0 so, daß<br />
F ′ y (x, y) regulär ist für alle (x, y) ∈ B ε(a) × B ε (b) ⊂ U 1 × U 2 .<br />
Ferner ist die Abbildung (x, y) ↦→ (F ′ y(x, y)) −1 ∈ L(Z, Y ) stetig auf B ε (a) × B ε (b).<br />
Beweis. Wir führen hier nur den Beweis im Falle endlich dimensionaler Räume<br />
X, Y und Z. Dann folgt die Aussage leicht aus der Stetigkeit der Funktion<br />
δ(x, y) := det(F y ′ (x, y)) .<br />
Da δ(a, b) ≠ 0 ist, gilt damit auch δ(x, y) ≠ 0 für alle (x, y) ∈ U 1 × U 2 , welche nahe<br />
genug bei (a, b) liegen.<br />
Der Beweis im allgemeinen Fall wird in Anhang B nachgeliefert.<br />
Q.E.D.<br />
Korollar 9.7 Unter den Voraussetzungen des Satzes über implizite Funktionen<br />
können die Umgebungen V 1 und V 2 in Theorem 9.4 so klein gewählt werden, daß<br />
die auflösende Funktion g : V 1 → V 2 sogar stetig differenzierbar ist.<br />
Beweis. Mittels Lemma 9.6 folgert man aus Satz 9.2 sofort, daß die Funktion g aus<br />
Theorem 9.4 in einer Umgebung des Punktes a differenzierbar ist. Formel (9.6) zeigt<br />
dann, daß g sogar stetig differenzierbar ist.<br />
Q.E.D.<br />
Aus dem Satz über implizite Funktionen erhält man nun leicht auch folgendes fundamentales<br />
Resultat:<br />
124
Theorem 9.8 (Satz über Umkehrfunktionen) Es seien X und Y Banachräume,<br />
a ein Punkt aus X und U eine offene Umgebung von a in X. Sei ferner<br />
f : U → Y eine stetig differenzierbare Funktion derart, daß f ′ (a) ∈ L(X, Y ) regulär<br />
ist.<br />
Dann gibt es eine offene Umgebung V 1 von a in U sowie eine offene Umgebung<br />
V 2 von b := f(a) in Y so, daß f die Menge V 1 bijektiv auf V 2 abbildet und die<br />
Umkehrabbildung<br />
g := (f| V1 ) −1 : V 2 → V 1<br />
stetig differenzierbar ist. Es gilt dann ferner<br />
g ′ (b) = (f ′ (a)) −1 .<br />
Beweis. Um g zu finden, müssen wir die Gleichung f(x) − y = 0 nach x auflösen.<br />
Wir definieren daher die Abbildung F : U × Y → Y durch<br />
F(x, y) := f(x) − y .<br />
Offenbar ist F stetig differenzierbar, und F(a, b) = 0. Ferner ist<br />
F ′ x (a, b) = f ′ (a) ∈ L(X, Y )<br />
regulär. Wir dürfen somit den Satz über implizite Funktionen auf F anwenden.<br />
Danach gibt es eine offene Umgebung V 2 von b in Y sowie eine offene Umgebung V 1<br />
′<br />
von a in U derart, daß es zu jedem y ∈ V 2 genau ein x ∈ V 1 ′ gibt mit F(x, y) = 0, und<br />
daß die dadurch definierte Funktion y ↦→ x = g(y) auf V 2 stetig ist. Nach Korollar<br />
9.7 darf man überdies annehmen, daß g : V 2 → V 1 ′ stetig differenzierbar ist.<br />
Für unsere Funktion f bedeutet dies insbesondere: Zu jedem y ∈ V 2 gibt es genau<br />
ein x ∈ V 1, ′ nämlich x = g(y), mit f(x) = y.<br />
Somit gilt<br />
V 1 := g(V 2 ) = {x ∈ V 1 ′ : f(x) ∈ V 2} = V 1 ′ ∩ f −1 (V 2 ),<br />
und f : V 1 → V 2 ist bijektiv mit Umkehrabbildung g : V 2 → V 1 . Da f stetig ist, ist<br />
zudem V 1 offen.<br />
Schließlich folgt aus g ◦ f(x) = x für x ∈ V 1 mit Hilfe der Kettenregel:<br />
d.h. insbesondere<br />
g ′ (f(x)) ◦ f ′ (x) = I ,<br />
g ′ (b) = (f ′ (a)) −1 .<br />
Q.E.D.<br />
Definition. Eine bijektive stetig differenzierbare Abbildung f : U → V einer offenen<br />
Teilmenge U ⊂ X auf eine offene Teilmenge V ⊂ Y heiße ein C 1 - Diffeomorphismus,<br />
wenn die Umkehrabbildung f −1 : V → U ebenfalls stetig differenzierbar ist.<br />
In Theorem 9.8 ist damit die eingeschränkte Abbildung f| V1 : V 1 → V 2 ein C 1 -<br />
Diffeomorphismus.<br />
125
Anhang A: Totale Ableitungen<br />
höherer Ordnung<br />
Es seien wieder E und F zwei normierte Vektorräume über R, sowie U ⊂ E eine<br />
offene Teilmenge von E und f : U → F eine Abbildung.<br />
Ist f differenzierbar, so ist Df : U → L(E, F) eine Abbildung mit Werten im<br />
normierten Vektorraum L(E, F). Ist diese im Punkte x 0 ∈ U differenzierbar, so<br />
heiße f zweimal im Punkte x 0 differenzierbar, und die Ableitung D(Df)(x 0 )<br />
wird mit D 2 f(x 0 ) oder f ′′ (x 0 ) bezeichnet. Dies ist ein Element von L(E, L(E, F)).<br />
Definition. Sei L 0 (E, F) = F und L n (E, F) := L(E, L n−1 (E, F)) für n ≥ 1. Eine<br />
Abbildung f : U → F heiße n-mal (total) differenzierbar auf U (n ≥ 1), wenn<br />
es für k = 0, 1, . . ., n − 1 differenzierbare Funktionen f (k) : U → L k (E, F) gibt, so<br />
daß gilt:<br />
f (k+1) = D(f (k) ), k = 0, . . .,n − 2, und f (0) = f.<br />
Die Abbildung f (n) := D(f (n−1) ) : E → L n (E, F) heißt die n-te Ableitung von f,<br />
und wird auch mit D n f bezeichnet.<br />
Die Abbildung f heiße im Punkte x 0 ∈ U n-mal differenzierbar, wenn es<br />
eine Umgebung V von x 0 in U gibt, auf der sie (n − 1)-mal differenzierbar, ist und<br />
zusätzlich die (n − 1)− te Ableitung f (n−1) in x 0 differenzierbar ist.<br />
Die Abbildung f heiße n-mal stetig differenzierbar, wenn die n-te Ableitung<br />
f (n) stetig auf U ist. Die Menge aller n-mal stetig differenzierbaren Abbildungen von<br />
U in F wird mit C n (U, F) bezeichnet. Offenbar bildet C n (U, F) einen Vektorraum<br />
über R.<br />
Definition. Eine bilineare Abbildung B : E × E → F heiße beschränkt, wenn es<br />
eine Konstante C > 0 gibt so, daß gilt:<br />
(1)<br />
‖B(x, y)‖ ≤ C‖x‖ ‖y‖ für alle x, y ∈ E .<br />
Die Norm ‖B‖ von B wird definiert durch<br />
‖B‖ :=<br />
sup ‖B(x, y)‖ .<br />
‖x‖≤1,‖y‖≤1<br />
Ganz ähnlich wie für beschränkte lineare Abbildungen von E nach F zeigt man, daß<br />
eine bilineare Abbildung B stetig ist genau dann, wenn sie beschränkt ist, und daß<br />
‖B‖ die kleinste Konstante C ist, für die (1) gilt.<br />
126
Mit M 2 (E, F) bezeichnen wir die Menge aller beschränkten bilinearen Abbildungen<br />
von E × E in F. Offenbar bildet M 2 (E, F) einen R-Vektorraum.<br />
Ist Φ ∈ L 2 (E, F) = L(E, L(E, F)), so setzen wir<br />
˜Φ(x, y) := Φ(x)(y) ∈ F, x, y ∈ E .<br />
Offenbar ist dann ˜Φ linear in x und in y, d.h. bilinear. Ferner gilt<br />
‖˜Φ(x, y)‖ ≤ ‖Φ(x)‖ op ‖y‖ ≤ ‖Φ‖ op ‖x‖ ‖y‖,<br />
d.h. ˜Φ ist beschränkt. Somit ist ˜Φ ∈ M 2 (E, F), und es gilt: ‖˜Φ‖ ≤ ‖Φ‖ op . Umgekehrt<br />
gilt für x, y ∈ E<br />
‖Φ(x)(y)‖ = ‖˜Φ(x, y)‖ ≤ ‖˜Φ‖ ‖x‖ ‖y‖,<br />
woraus folgt: ‖Φ‖ op ≤ ‖Φ‖.<br />
Offenbar ist die Abbildung ι : Φ ↦→ ˜Φ auch linear, so daß<br />
ι : L 2 (E, F) → M 2 (E, F)<br />
eine lineare Isometrie ist. ι ist auch surjektiv, denn ist B ∈ M 2 (E, F), und setzen<br />
wir<br />
Φ(x)(y) := B(x, y), x, y ∈ E ,<br />
so wird hierdurch ein Element Φ ∈ L(E, (E; F)) definiert mit ˜Φ = B.<br />
Wir erkennen also insgesamt, daß sich der normierte Raum L 2 (E, F) mittels ι<br />
mit dem Raum M 2 (E, F) identifizieren läßt, was wir im folgenden stets tun wollen.<br />
Insbesondere werden wir die zweite Ableitung f ′′ (x 0 ) von f in x 0 als eine beschränkte<br />
bilineare Abbildung von E × E in F betrachten, d.h. wir schreiben für<br />
(f ′′ (x 0 )(ξ))(η), ξ, η ∈ E, auch kurz f ′′ (x 0 )(ξ, η).<br />
Allgemeiner werden wir L n (E, F) mit dem Raum M n (E, F) aller beschränkten<br />
n-linearen Abbildungen von E n = E × · · · × E nach F identifizieren vermöge der<br />
Definition<br />
˜Φ(x 1 , x 2 , . . ., x n ) = (· · ·((Φ(x 1 ))(x 2 )) . . .(x n )) ,<br />
d.h. wir werden die n-te Ableitung f (n) (x 0 ) von f in x 0 als eine beschränkte,<br />
n-lineare Abbildung von E n nach F betrachten (dabei heiße die n-lineare<br />
Abbildung B : E n → F beschränkt, wenn es eine Konstante C ≥ 0 gibt mit<br />
für alle x 1 , . . .,x n ∈ E).<br />
‖B(x 1 , . . .,x n )‖ ≤ C ‖x 1 ‖ · · · ‖x n ‖<br />
Definition. B ∈ L 2 (E, F) ( ∼ = M 2 (E, F)) heiße symmetrisch, wenn gilt:<br />
B(x, y) = B(y, x) für alle x, y ∈ E .<br />
127
Satz 1 Sei F vollständig. Ist f : U → F zweimal stetig differenzierbar, und ist<br />
x 0 ∈ U, so ist f ′′ (x 0 ) eine symmetrische bilineare Abbildung.<br />
Beweis. Wie im Beweis des Mittelwertsatzes wollen wir den Hauptsatz der<br />
Differential- und Integralrechnung (für F-wertige Funktionen) verwenden.<br />
Sei o.B.d.A. x 0 = 0, und sei r > 0 so, daß B 2r (0) ⊂ U. Wir fixieren ξ, η ∈ B r (0).<br />
Dann ist ξ + tη ∈ U für alle t in einer Umgebung des Intervalls [0, 1] in R, und für<br />
die Abbildung g(t) = f(ξ + tη) gilt nach der Kettenregel:<br />
Nach dem Hauptsatz gilt folglich:<br />
Ebenso ist<br />
also<br />
g ′ (t) = f ′ (ξ + tη)(η), t ∈ [0, 1] .<br />
f(ξ + η) − f(ξ) = g(1) − g(0) =<br />
f(η) − f(0) =<br />
f(ξ + η) − f(ξ) − f(η) + f(0) =<br />
∫ 1<br />
0<br />
∫ 1<br />
0<br />
∫ 1<br />
0<br />
f ′ (tη)(η)dt,<br />
f ′ (ξ + tη)(η)dt .<br />
(f ′ (ξ + tη) − f ′ (tη))(η)dt .<br />
Für jedes z = tη betrachten wir nun die Abbildung h : s ↦→ f ′ (sξ + z)(η) von [0, 1]<br />
in F. h ist dann stetig differenzierbar, und aus der Kettenregel ergibt sich:<br />
Aus dem Hauptsatz folgt also<br />
d.h.<br />
h ′ (s) = (f ′′ (sξ + z)(ξ))(η) = f ′′ (sξ + tη)(ξ, η) .<br />
f ′ (ξ + tη) − f ′ (tη) = h(1) − h(0) =<br />
∫ 1<br />
0<br />
f ′′ (sξ + tη)(ξ, η)ds ,<br />
(2)<br />
f(ξ + η) −<br />
=<br />
f(ξ) − f(η) + f(0)<br />
∫ 1<br />
(∫ 1<br />
)<br />
f ′′ (sξ + tη)(ξ, η)ds dt .<br />
0 0<br />
Berücksichtigen wir, daß die linke Seite in ξ und η symmetrisch ist, so erhalten<br />
wir<br />
∫ 1<br />
(∫ 1<br />
) ∫ 1<br />
(∫ 1<br />
)<br />
f ′′ (sξ + tη)(ξ, η)ds dt = f ′′ (sξ + tη)(η, ξ)dt ds .<br />
0<br />
0<br />
128<br />
0<br />
0
Dieselbe Formel bleibt auch für εξ und εη gültig, falls 0 < ε ≤ 1 ist, und mit der<br />
Bilinearität von f ′′ (sεξ + tεη) folgt:<br />
∫ 1<br />
0<br />
(∫ 1<br />
0<br />
)<br />
f ′′ (ε(sξ + tη))(ξ, η)ds dt =<br />
∫ 1<br />
0<br />
(∫ 1<br />
0<br />
)<br />
f ′′ (ε(sξ + tη))(η, ξ)dt ds<br />
für 0 < ε ≤ 1.<br />
Da f ′′ stetig ist, existiert eine Folge (ε n ) n≥1 in ]0, 1[ mit ‖f ′′ (x) − f ′′ (0)‖ ≤ 1 n für<br />
alle x mit ‖x‖ < ε n 2r. Es folgt insbesondere:<br />
‖f ′′ (ε n (sξ + tη))(ξ, η) − f ′′ (0)(ξ, η)‖ ≤ 1 ‖ξ‖ ‖η‖,<br />
n<br />
gleichmäßig in s, t ∈ [0, 1]. Infolgedessen ist<br />
∫ 1<br />
(∫ 1<br />
)<br />
f ′′ (0)(ξ, η) = f ′′ (0)(ξ, η)ds dt<br />
0 0<br />
∫ 1<br />
(∫ 1<br />
)<br />
= lim f ′′ (ε n (sξ + tη) (ξ, η)ds)dt<br />
n→∞<br />
0 0<br />
∫ 1<br />
(∫ 1<br />
)<br />
= lim f ′′ (ε n (sξ + tη) (η, ξ)dt)ds<br />
n→∞<br />
0 0<br />
∫ 1<br />
(∫ 1<br />
)<br />
= f ′′ (0)(η, ξ)dt ds<br />
0<br />
0<br />
= f ′′ (0)(η, ξ) .<br />
Mit Hilfe der Bilinearität von f ′′ (0) folgt hieraus:<br />
f ′′ (0)(ξ, η) = f ′′ (0)(η, ξ) für alle ξ, η ∈ E .<br />
Q.E.D.<br />
Bemerkung. Die Vollständigkeit von F wurde von uns aus technischen Gründen<br />
vorausgesetzt, ist jedoch nicht notwendig für die Gültigkeit des Satzes.<br />
Den Begriff der Richtungsableitung verallgemeinernd definieren wir nun für f ∈<br />
C 1 (U, F) und beliebiges ξ ∈ E die Funktion D ξ f : U → F durch<br />
Nach der Kettenregel ist<br />
D ξ f(x) := f ′ (x)ξ, x ∈ U .<br />
D ξ f(x) = d dt (f(x + tξ)) | t=0= lim (f(x + tξ) − f(x)) .<br />
t<br />
t→0<br />
1<br />
129
Satz 2 (i) Für n > 1 ist D ξ eine lineare Abbildung von C n (U, F) nach C n−1 (U, F).<br />
(ii) Ist f ∈ C n (U, F), und sind ξ 1 , . . .,ξ n ∈ E, so ist für alle x ∈ U<br />
(iii) Für ξ, η ∈ E und f ∈ C 2 (U, F) ist<br />
f (n) (x)(ξ 1 , . . .,ξ n ) = (D ξ1 D ξ2 · · ·D ξn f)(x) .<br />
D ξ D η f = D η D ξ f .<br />
Beweis. (i) Ist f ∈ C n (U, F), so ist f ′ ∈ C n−1 (U, L(E, F)). Ferner ist für festes<br />
ξ ∈ E die Abbildung σ : L(E, F) → F, A ↦→ Aξ, stetig, und als lineare Abbildung<br />
somit sogar unendlich oft differenzierbar. Folglich ist D ξ f = σ ◦ f ′ ∈ C n−1 (U, F).<br />
(ii) Für n = 1 stimmt die Behauptung mit der Definition von D ξ überein. Wir<br />
nehmen an, daß sie für (n − 1)-te Ableitungen gilt. Dann ist insbesondere<br />
(D ξ2 . . .D ξn f)(x) = f (n−1) (ξ 2 , . . ., ξ n ) .<br />
Es ist f (n−1) ∈ C 1 (U, L n−1 (E, F)). Für feste ξ 2 , . . .,ξ n ist durch<br />
̺ : L n−1 (E, F) → F, B ↦→ B(ξ 2 , . . .,ξ n ) ,<br />
eine stetige lineare Abbildung definiert, welche folglich beliebig oft differenzierbar<br />
ist. Nach der Kettenregel ist somit (D ξ2 . . .D ξn )f = ̺ ◦ f (n−1) stetig differenzierbar<br />
und<br />
(D ξ1 . . .D ξn )f(x) = ̺′(f (n−1) (x)) ◦ f (n) (x)(ξ 1 ) = ̺(f (n) (x)(ξ 1 ))<br />
= f (n) (x)(ξ 1 , ξ 2 , . . ., ξ n ) ,<br />
da ̺′(B) = ̺ ist gemäß Bemerkung 7.4 b).<br />
(iii) folgt aus Satz 1 und (ii).<br />
Q.E.D.<br />
Bemerkungen. a) Aus Satz 2 folgt insbesondere, daß f (n) (x) für f ∈ C n (U, F) und<br />
alle x ∈ U eine symmetrische n-lineare Abbildung ist.<br />
b) Ein Vergleich von Formel (7.22) mit Satz 2 zeigt, daß für E = R n der Ausdruck<br />
f (k) (x)ξ k in (7.22) nichts anderes ist als<br />
(3) f (k) (x)ξ k = f (k) (x)(ξ, . . .,ξ) = (D ξ D ξ . . . D ξ f)(x), ξ ∈ R n ,<br />
wobei auf der rechten Seite f (k) (x) die k-te totale Ableitung von f bezeichne und<br />
k− Faktoren ξ vertreten seien.<br />
Insbesondere läßt sich hier das Taylorpolynom der Ordnung p von f in a ∈ E<br />
auch schreiben als<br />
(4) T p,a f(x) :=<br />
p∑<br />
k=0<br />
1<br />
k! f(k) (a)(x − a, . . .,x − a).<br />
Dieser Ausdruck läßt sich allgemeiner auch für Abbildungen f ∈ C p (U, F) definieren,<br />
wobei U eine offene Teilmenge eines beliebigen normierten Raumes E und<br />
F ein beliebiger Banachraum seien, und mit ganz ähnlichem Beweis läßt sich die<br />
Taylorformel in Theorem 7.18 dann auch für f ∈ C p (U, F) zeigen.<br />
130
Anhang B: Die Gruppe der<br />
invertierbaren Elemente einer<br />
Banach-Algebra<br />
Es bezeichne (A, +, · , ‖·‖) eine Banach-Algebra über K, K = R oder K = C, welche<br />
ein Einselement e besitze.<br />
Definition. Ein Element a ∈ A heiße regulär oder invertierbar, wenn es ein<br />
Element b ∈ A gibt mit ab = ba = e.<br />
Dieses Inverse b ist eindeutig und wird mit a −1 bezeichnet. Man sieht leicht,<br />
daß die Menge A × aller invertierbaren Elemente von A eine multiplikative Gruppe<br />
bildet.<br />
Lemma 1 Sei a ∈ A mit ‖e − a‖ < 1. Dann ist a invertierbar, und es gilt:<br />
a −1 =<br />
∞∑<br />
(e − a) k , mit ‖a −1 ‖ ≤<br />
k=0<br />
1<br />
1 − ‖e − a‖ .<br />
Beweis. Wir setzen x := e − a, so daß gilt: a = e − x. Um a −1 zu definieren,<br />
∑<br />
betrachten wir die geometrische Reihe ∞ x k . Diese konvergiert für ‖x‖ < 1 normal<br />
(vergl. Kapitel 2) , d.h. es gilt<br />
k=0<br />
∞∑<br />
‖x k ‖ < ∞ ,<br />
∑<br />
denn es ist ‖x k ‖ ≤ ‖x‖ k , und die Reihe ∞ ‖x‖ k ist konvergent.<br />
k=0<br />
k=0<br />
Nach Satz 2.2 ist die Reihe somit insbesondere konvergent in A. Sei b ∈ A ihr<br />
∑<br />
Wert, d.h. b = ∞ x k ∈ A. Aus der Norm-Ungleichung ‖y · z‖ ≤ ‖y‖ ‖z‖, y, z ∈ A,<br />
k=0<br />
leitet man ab, daß die Links- sowie die Rechtsmultiplikation y ↦→ by bzw. y ↦→ yb<br />
131
mit b stetige Abbildungen sind. Daher ist<br />
ba =<br />
=<br />
∞∑<br />
∞∑<br />
(x k a) = x k (e − x)<br />
k=0<br />
∞∑<br />
x k −<br />
k=0 k=0<br />
k=0<br />
∞∑<br />
x k+1 = e ,<br />
und ähnlich zeigt man: ab = e.<br />
Somit ist b = a −1 . Schließlich ist<br />
∞∑<br />
‖b‖ ≤<br />
k=0<br />
‖x‖ k =<br />
1<br />
1 − ‖x‖ = 1<br />
1 − ‖e − a‖ . Q.E.D.<br />
Korollar 2 Die Gruppe A × der invertierbaren Elemente von A ist offen in A.<br />
Beweis. Sei y ∈ A × , und sei r := 1<br />
‖y −1 ‖ . Dann ist r > 0, und wir zeigen: B r(y) ⊂ A × .<br />
Sei dazu a ∈ A mit ‖a − y‖ < r. Dann ist<br />
‖e − y −1 a‖ = ‖y −1 (y − a)‖ ≤ ‖y −1 ‖ ‖y − a‖ < 1 r r = 1 ,<br />
so daß nach Lemma 1 y −1 a ∈ A × ist. Da auch y ∈ A × ist, folgt: a = y(y −1 a) ∈ A × .<br />
Beweis von Lemma 9.6.<br />
Q.E.D.<br />
Seien also X, Y und Z Banachräume, U 1 ⊂ X und U 2 ⊂ Y offen, F : U 1 × U 2 → Z<br />
stetig differenzierbar und F y ′(a, b) regulär, mit (a, b) ∈ U 1 × U 2 . Wir setzen A :=<br />
F y ′ (a, b) ∈ L(Y, Z), und behaupten:<br />
Ist B ∈ L(Y, Z), und ist ‖A − B‖ < 1 , so ist auch B regulär.<br />
‖A −1 ‖<br />
Dies wird ähnlich wie Korollar 2 gezeigt. Nach Kapitel 4 ist nämlich L(Y, Y ) eine<br />
Banach-Algebra, mit Einselement I. Ferner ist nach Voraussetzung<br />
(1) ‖I − A −1 ◦ B‖ = ‖A −1 ◦ (A − B)‖ ≤ ‖A −1 ‖ ‖A − B‖ < 1 ,<br />
und damit A −1 ◦ B ∈ L(Y, Y ) invertierbar. Ist T das Inverse zu A −1 ◦ B, so ist also<br />
T ◦ A −1 ∈ L(Z, Y ) ein Inverses zu B, wobei nach Lemma 1<br />
‖B −1 ‖<br />
= ‖T ◦ A −1 ‖ ≤ ‖T ‖ ‖A −1 ‖<br />
1<br />
≤<br />
1 − ‖I − A −1 ◦ B‖ ‖A−1 ‖ .<br />
132
Setzen wir ̺ := 1<br />
2‖A −1 ‖ , so erhalten wir mit (1) für B ∈ B̺(A) ⊂ L(Y, Z):<br />
also<br />
B ist regulär, und<br />
‖B −1 ‖ ≤<br />
1<br />
1 − ‖I − A −1 ◦ B‖ ‖A−1 ‖ ≤ 1<br />
1 − 1 ‖A −1 ‖,<br />
2<br />
(2)<br />
‖B −1 − A −1 ‖<br />
= ‖B −1 ◦ (A − B) ◦ A −1 ‖<br />
≤<br />
‖B −1 ‖ ‖A −1 ‖ ‖A − B‖<br />
≤ 2‖A −1 ‖ ‖A −1 ‖ ‖A − B‖<br />
= 1 ‖A − B‖ .<br />
2̺2<br />
Da F ′ y stetig ist, ist (F ′ y) −1 (B̺(A)) offen in U 1 ×U 2 . Somit existiert ein ε > 0 derart,<br />
daß<br />
F ′ y (B ε(a) × B ε (b)) ⊂ B̺(A)<br />
ist.<br />
Damit ist F ′ y (x, y) regulär für (x, y) ∈ B ε(a) × B ε (b), und nach (2) gilt:<br />
‖(F y ′ (x, y))−1 − (F y ′ (a, b)−1 ‖ ≤ 1 ‖F y ′ (x, y) − F y ′ (a, b)‖ ,<br />
2̺2<br />
so daß (F ′ y) −1 stetig in (a, b) ist. Ersetzt man schließlich (a, b) durch einen beliebigen<br />
Punkt (x ′ , y ′ ) ∈ B ε (a) × B ε (b), so folgt mit dem soeben Bewiesenen, daß F auch<br />
stetig in (x ′ , y ′ ) ist.<br />
Q.E.D.<br />
133