7.5. Mittelwertsatz und höhere Ableitungen
7.5. Mittelwertsatz und höhere Ableitungen
7.5. Mittelwertsatz und höhere Ableitungen
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>7.5.</strong> <strong>Mittelwertsatz</strong> <strong>und</strong> <strong>höhere</strong> <strong>Ableitungen</strong><br />
Wir betrachten wieder eine Funktion f von einer Teilmenge A der Ebene R 2 (oder eines höher<br />
dimensionalen Raumes R n ) nach R. Besonders nützlich ist der<br />
<strong>Mittelwertsatz</strong><br />
Ist die Funktion f auf der ganzen Strecke zwischen zwei Punkten a <strong>und</strong> b differenzierbar in<br />
Richtung v = b − a, so gibt es einen Punkt u = a + t ( b − a ) auf dieser Strecke mit<br />
∂<br />
f( b ) − f( a ) =<br />
∂v f( u ),<br />
<strong>und</strong> falls f auf dieser Strecke total differenzierbar ist, so gilt<br />
f( b ) − f( a ) = f ´ ( u ) ( b − a ).<br />
Bei dem letzten Ausdruck ist im mehrdimensionalen Fall wieder das Skalarprodukt gemeint.<br />
Bevor wir einen etwas allgemeineren Satz beweisen, betrachten wir den eindimensionalen Fall.<br />
Hier besagt der <strong>Mittelwertsatz</strong>:<br />
Die Sekante zwischen den Punkten ( a , f( a )) <strong>und</strong> ( b , f( b ))<br />
( f( b ) − f( a ))<br />
( x − a)<br />
S ab<br />
( x ) = f( a)<br />
+<br />
b − a<br />
ist parallel zur Tangente im Zwischenpunkt ( u , f( u ))<br />
T u<br />
( x ) = f( u ) + f ´ ( u ) ( x − u)<br />
Beispiel 1: Kubische Parabel, Sekante <strong>und</strong> Tangente<br />
Die Funktion<br />
f( x ) = x 3<br />
hat zwischen den Punkten ( a,<br />
a 3 ) <strong>und</strong> ( b,<br />
b 3 ) die Sekante<br />
da S ab<br />
( a)<br />
= a 3 <strong>und</strong> S ab<br />
( b ) = b 3 .<br />
S ,<br />
Im Punkt ( u,<br />
u 3 ) hat f die Tangente<br />
a b<br />
( x ) = ( a 2 + a b + b 2 ) x − a 2 b − a b 2<br />
T u<br />
( x ) = u 3 + 3 u 2 ( x − u )<br />
Diese beiden Geraden sind genau dann parallel, wenn die Steigungen gleich sind:<br />
also für<br />
a 2 + a b + b 2 = 3 u 2<br />
a 2 + a b + b 2<br />
u =<br />
3<br />
Das ist die (oder zumindest eine) Stelle, an der die Aussage des <strong>Mittelwertsatz</strong>es zutrifft.<br />
Im Allgemeinen gelingt es aber nicht, solche Zwischenstellen explizit anzugeben!
Im zweidimensionalen Fall bedeutet der <strong>Mittelwertsatz</strong> geometrisch, daß für differenzierbare<br />
Funktionen der Verbindungsvektor zwischen je zwei Punkten des Funktionsgebirges parallel zur<br />
Tangente in einem Punkt über oder unter der Verbindungsstrecke ist.<br />
Verallgemeinerter <strong>Mittelwertsatz</strong><br />
Zu zwei auf der Strecke zwischen a <strong>und</strong> b stetigen <strong>und</strong> im Inneren der Strecke differenzierbaren<br />
Funktionen f <strong>und</strong> g gibt es ein u zwischen a <strong>und</strong> b mit<br />
g´ ( u ) ( f( b ) − f( a ))<br />
= f´ ( u ) ( g( b ) − g( a )).<br />
Zum Beweis betrachtet man die folgende etwas kompliziert aussehende Funktion h :<br />
Es ist<br />
h( t ) = g ( a + t ( b − a ))<br />
( f( b ) − f( a ))<br />
− f ( a + t ( b − a ) ) ( g( b ) − g( a ) )<br />
h( 0 ) = h( 1 ) =<br />
g( a ) ( )<br />
f b − f( a ) g( b ).<br />
Als stetige Funktion hat h auf dem kompakten Intervall [ 0,<br />
1 ] ein Extremum, <strong>und</strong> wegen<br />
h( 0 ) = h( 1 ) wird ein solches im Inneren des Intervalls angenommen, etwa bei t (mit 0 < t < 1).<br />
Dort muß die Ableitung dann 0 sein (sonst hätte man eine von Null verschiedene Steigung <strong>und</strong><br />
daher kein Extremum). Also ist für u = a + t ( b − a ) nach der Kettenregel<br />
0 = h´ ( t ) = g´ ( u ) ( f( b ) − f( a ))<br />
( b − a ) − f´ ( u ) ( g( b ) − g( a ) ) ( b − a ) .<br />
Für a ≠ b folgt daraus die Behauptung. Bei richtiger Interpretation mittels Skalarprodukten<br />
funktioniert diese Argumentation auch in <strong>höhere</strong>n Dimensionen.<br />
Die spezielle Wahl g( x)<br />
= x liefert sofort den <strong>Mittelwertsatz</strong> in der klassischen Form, sofern f auf<br />
der Strecke von a bis b total differenzierbar ist. Falls nur die Existenz der Richtungsableitungen<br />
nach v = b − a gesichert ist, kann man den mehrdimensionalen auf den eindimensionalen Fall<br />
zurückführen, indem man die Funktion g( t ) = f ( a + t v ) für t zwischen 0 <strong>und</strong> 1 betrachtet. Es gibt<br />
dann eine Zwischenstelle z , so daß für u = a + z v gilt:<br />
g( 1 ) − g( 0 ) = g´ ( z ) = lim<br />
h → 0<br />
f ( u + h v ) − f( u )<br />
∂<br />
, d.h. f( b ) − f( a ) =<br />
h<br />
∂v f( u ) .
Stetige Differenzierbarkeit<br />
Während eine total differenzierbare Funktion stets auch partiell differenzierbar <strong>und</strong> stetig ist, gilt<br />
die Umkehrung im Allgemeinen nicht, wie wir am Beispiel homogener, aber nicht linearer<br />
Funktionen sahen. Ist jedoch nicht nur die Funktion f selbst, sondern auch jede ihrer partiellen<br />
<strong>Ableitungen</strong> stetig, so nennt man f stetig differenzierbar <strong>und</strong> kann in diesem Fall auf totale<br />
Differenzierbarkeit schließen:<br />
Differenzierbarkeitskriterium<br />
Existieren in einer Umgebung des Punktes a alle n partiellen <strong>Ableitungen</strong> <strong>und</strong> sind diese in a<br />
stetig, so ist f in a sogar total differenzierbar.<br />
Diese besonders nützliche Tatsache beruht wie viele weitere auf dem <strong>Mittelwertsatz</strong>. Wir beweisen<br />
sie nur für den in der Praxis am häufigsten auftretenden Fall n = 2. Wir haben zu zeigen, daß die<br />
Restfunktion<br />
f ( a + h ) − f( a ) − f ´ ( a ) h<br />
nach Division durch h immer noch gegen 0 strebt, falls h dies tut. Dabei ist f ´ ( a ) der Gradient,<br />
der sich aus den (nach Voraussetzung existierenden) partiellen <strong>Ableitungen</strong> f x<br />
( a ) <strong>und</strong> f y<br />
( a )<br />
zusammensetzt.<br />
Der eindimensionale <strong>Mittelwertsatz</strong> liefert Zwischenstellen u j<br />
aus ] a j<br />
, a j<br />
+ h j<br />
[ mit<br />
f ( a + h ) − f( a ) =<br />
f ( a 1<br />
+ h 1<br />
, a 2<br />
+ h 2<br />
) − f ( a 1<br />
, a 2<br />
+ h 2<br />
) + f ( a 1<br />
, a 2<br />
+ h 2<br />
) − f ( a 1<br />
, a 2<br />
) =<br />
also<br />
f x<br />
( u 1<br />
, a 2<br />
+ h 2<br />
) h 1<br />
+ f y<br />
( a 1<br />
, u 2<br />
) h 2<br />
,<br />
f ( a + h ) − f( a ) − f ´ ( a ) h =<br />
( f x<br />
( u 1<br />
, a 2<br />
+ h 2<br />
) − f x<br />
( a 1<br />
, a 2<br />
) ) h 1<br />
+ ( f y<br />
( a 1<br />
, u 2<br />
) − f y<br />
( a 1<br />
, a 2<br />
) ) h 2<br />
,<br />
<strong>und</strong> dieser Ausdruck wird nach Division durch h wegen<br />
tatsächlich beliebig klein.<br />
h j<br />
≤<br />
h <strong>und</strong> der Stetigkeit von f x<br />
<strong>und</strong> f y<br />
Achtung! Eine partiell differenzierbare Funktion braucht nicht total differenzierbar, ja nicht einmal<br />
stetig zu sein.<br />
Beispiel 2: Eine Wendeltreppe<br />
Die durch f ( 0,<br />
0)<br />
= 0 ergänzte Funktion<br />
x y<br />
f ( x,<br />
y ) =<br />
x 2 + y 2<br />
ist auf jeder Geraden durch den Ursprung (0,0) außerhalb von diesem konstant: Für festes<br />
( x 0<br />
, y 0<br />
) ≠ ( 0,<br />
0 ) <strong>und</strong> variables t ≠ 0 ist nämlich<br />
f ( t x 0<br />
, t y 0<br />
) = f ( x 0<br />
, y 0<br />
).<br />
Insbesondere existieren die partiellen <strong>Ableitungen</strong> in (0,0) <strong>und</strong> sind dort gleich 0.
Diese Funktion ist im Ursprung offensichtlich unstetig, denn<br />
lim<br />
t → 0<br />
f ( t x,<br />
t y ) = f ( x,<br />
y )<br />
kann jeden Wert zwischen -1 <strong>und</strong> 1 annehmen.<br />
Höhere <strong>Ableitungen</strong><br />
Wir betrachten wieder eine Funktion f von einer Teilmenge A des R n nach R. Indem man die<br />
partiellen <strong>Ableitungen</strong><br />
∂<br />
f xj<br />
= f<br />
∂x j
(soweit sie existieren) wieder als Funktionen auffaßt <strong>und</strong>, sofern möglich, nochmals partiell<br />
differenziert, erhält man die<br />
zweiten partiellen <strong>Ableitungen</strong><br />
f xj x k<br />
Die Hessematrix<br />
∂ ⎛ ∂ ⎞<br />
=<br />
∂x ⎜ f ⎟ .<br />
k ⎝∂x j ⎠<br />
ist die aus den partiellen <strong>Ableitungen</strong> gebildete (n x n) - Matrix. Sie wird gelegentlich auch<br />
zweite Ableitung von f genannt <strong>und</strong> mit f ´´ bezeichnet.<br />
Im Spezialfall n =<br />
⎡<br />
f´´ =<br />
⎢<br />
⎣<br />
f xx<br />
f yx<br />
f xy<br />
f yy<br />
2 ist also<br />
⎤<br />
⎥<br />
⎦<br />
Durch Fortsetzung dieses Ableitungsprozesses gelangt man zu <strong>höhere</strong>n partiellen <strong>Ableitungen</strong>.<br />
Für n = 2 hat man (mit x 1<br />
= x <strong>und</strong> x 2<br />
= y ) die beiden ersten <strong>Ableitungen</strong><br />
f x<br />
∂<br />
=<br />
∂x f , f y<br />
=<br />
∂<br />
∂y f<br />
<strong>und</strong> den Gradienten<br />
f´ = [ f x<br />
, f y<br />
] ,<br />
die vier zweiten <strong>Ableitungen</strong><br />
f xx<br />
f yx<br />
∂ ⎛ ∂ ⎞<br />
= ⎜ ⎟<br />
∂x<br />
⎝∂x f ⎠<br />
= ∂x ∂x f , f xy<br />
= ∂ ⎛ ∂ ⎞<br />
⎜ ⎟<br />
∂y<br />
⎝ ∂x f ⎠<br />
= ∂y ∂x f ,<br />
∂ ⎛ ∂ ⎞<br />
= ⎜ ⎟<br />
∂x<br />
⎝∂y f ⎠<br />
= ∂ 2<br />
∂x ∂y f , f yy<br />
=<br />
∂ ⎛ ∂ ⎞<br />
⎜ ⎟<br />
∂y<br />
⎝ ∂y f ⎠<br />
= ∂ 2<br />
∂y ∂y f<br />
<strong>und</strong> die Hesse-Matrix<br />
⎡f f´´ =<br />
xx<br />
f xy<br />
⎤<br />
⎢<br />
⎥ ,<br />
⎣f yx<br />
f yy ⎦<br />
sowie die acht dritten partiellen <strong>Ableitungen</strong><br />
f xxx<br />
f yxx<br />
∂ 3<br />
∂ 2<br />
∂ 3<br />
=<br />
∂x ∂x ∂x f , f xxy<br />
= ∂y ∂x ∂x f , f xyx<br />
= ∂x ∂y ∂x f , f xyy<br />
= ∂y ∂y ∂x f ,<br />
∂ 3<br />
∂ 3<br />
=<br />
∂x ∂x ∂y f , f yyx<br />
= ∂x ∂y ∂y f , f yxy<br />
= ∂y ∂x ∂y f , f yyy<br />
= ∂y ∂y ∂y f ,<br />
die man zu einer "dreidimensionalen Hypermatrix" zusammensetzen kann:<br />
Nach k-maligem Ableiten landet man bei den 2 k partiellen <strong>Ableitungen</strong> k-ter Ordnung. Im<br />
allgemeinsten Falle einer Funktion in n Variablen gibt es sogar n k solche <strong>Ableitungen</strong>!<br />
∂ 2<br />
∂ 3<br />
∂ 3<br />
∂ 3<br />
∂ 3
Beispiel 3: Alle partiellen <strong>Ableitungen</strong> einer Sattelfläche<br />
f ( x,<br />
y ) = x 3 + y 3<br />
Erste <strong>Ableitungen</strong>:<br />
Zweite <strong>Ableitungen</strong>:<br />
Dritte <strong>Ableitungen</strong>:<br />
f x<br />
= 3 x 2 , f y<br />
= 3 y 2<br />
f xx<br />
= 6 x , f xy<br />
= 0<br />
f yx<br />
= 0 , = 6 y<br />
f yy<br />
f xxx<br />
= 6 , f xxy<br />
= 0 , f xyx<br />
= 0 , f xyy<br />
= 0<br />
f yxx<br />
= 0 , f yxy<br />
= 0 , f yyx<br />
= 0 , f yyy<br />
= 6<br />
Alle <strong>höhere</strong>n <strong>Ableitungen</strong> verschwinden.<br />
Man sagt, eine Funktion sei (auf A) k-mal partiell differenzierbar, wenn ihre sämtlichen<br />
partiellen <strong>Ableitungen</strong> k-ter Ordnung auf A existieren. Sind diese sogar noch stetig, spricht man<br />
von einer k-mal stetig differenzierbaren Funktion.<br />
Es gelten also folgende<br />
Implikationen zwischen Differenzierbarkeitseigenschaften<br />
k+1-mal partiell differenzierbar<br />
=> k-mal stetig differenzierbar<br />
=> k-mal partiell differenzierbar (k > 1)<br />
...<br />
=> stetig differenzierbar<br />
=> total differenzierbar<br />
=> alle Richtungsableitungen existieren<br />
=> partiell differenzierbar<br />
Daß f zweimal stetig differenzierbar ist, bedeutet, daß die ersten <strong>und</strong> zweiten partiellen<br />
<strong>Ableitungen</strong> in allen Punkten des Definitionsbereichs existieren <strong>und</strong> stetig sind. Die Funktion aus<br />
Beispiel 3 ist sogar beliebig of differenzierbar.
Beispiel 4: Die Hessematrix der zweidimensionalen Potenzfunktion<br />
Wir betrachten nochmals in der Halbebene x > 0 die Funktion<br />
f ( x,<br />
y ) = x y .<br />
Die ersten partiellen <strong>Ableitungen</strong> kennen wir schon:<br />
x y y<br />
f x<br />
= , f =<br />
x y<br />
x y ln( x)<br />
Nun berechnen <strong>und</strong> zeichnen wir die zweiten partiellen <strong>Ableitungen</strong>:<br />
x y y 2 x y y<br />
f xx<br />
= −<br />
x 2<br />
x 2<br />
f yy<br />
= x y ln( x )<br />
2<br />
x y y ln( x)<br />
f xy<br />
= +<br />
x<br />
x y y ln( x )<br />
, f =<br />
x yx<br />
+<br />
x<br />
x y<br />
x y<br />
x
Also f xy<br />
= f yx<br />
, d.h. die Matrix der zweiten <strong>Ableitungen</strong> ist symmetrisch!<br />
Allgemein kann man durch Betrachtung geeigneter Sekantensteigungen <strong>und</strong> Vertauschung eines<br />
gewissen Grenzprozesses folgende nützliche Tatsache beweisen (das entscheidende Hilfsmittel ist<br />
wieder der <strong>Mittelwertsatz</strong>, der es erlaubt, Sekanten durch Tangenten in Zwischenpunkten zu<br />
ersetzen):<br />
Schwarzsche Vertauschungsregel<br />
Existieren die zweiten partiellen <strong>Ableitungen</strong> <strong>und</strong> sind sie noch stetig, so gilt<br />
f xy<br />
= f yx<br />
,<br />
d.h. die Hessematrix ist symmetrisch. Analoges gilt für Funktionen in n Variablen.<br />
Daß diese Regel allerdings ohne die Stetigkeitsvoraussetzung für die zweiten <strong>Ableitungen</strong> nicht<br />
mehr richtig ist, zeigt folgendes<br />
Beispiel 5: Eine nicht symmetrische Hessematrix<br />
Wir geben zwei relle Zahlen a <strong>und</strong> b vor. Die im Nullpunkt durch f ( 0,<br />
0)<br />
= 0 ergänzte Funktion<br />
a x 3 y + b x y 3<br />
f ( x,<br />
y)<br />
=<br />
x 2 + y 2<br />
ist zweimal differenzierbar, aber nur für a = b sind die zweiten <strong>Ableitungen</strong> im Nullpunkt noch<br />
stetig. Wir testen das im Einzelnen: Außerhalb des Nullpunktes findet man durch "mechanisches<br />
Ableiten" (wir überlassen das MAPLE):<br />
3 a x 2 y + b y 3 2 ( a x 3 y + b x y 3 ) x<br />
f x<br />
=<br />
−<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2<br />
a x 3 + 3 b x y 2 2 ( a x 3 y + b x y 3 ) y<br />
f y<br />
=<br />
−<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2<br />
3 a x 2 + 3 b y 2 2 ( a x 3 + 3 b x y 2 ) x 2 ( 3 a x 2 y + b y 3 ) y 8 ( a x 3 y + b x y 3 ) y x<br />
f xy<br />
=<br />
− − +<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2 ( x 2 + y 2 )<br />
2 ( x 2 + y 2 )<br />
3<br />
Der gleiche Monsterausdruck kommt für f yx<br />
heraus.<br />
Die ersten <strong>und</strong> zweiten partiellen <strong>Ableitungen</strong> im Nullpunkt kann man nur durch Limesbildung<br />
berechnen, weil dort die Funktion durch Fallunterscheidung definiert ist.<br />
⎛ ∂ ⎞<br />
Man erhält für f x<br />
( 0,<br />
0 ) = ⎜ ( )<br />
⎝∂x f ⎠<br />
⎟ 0,<br />
0 bzw. f y ( 0,<br />
0 ) = ⎛ ∂ ⎞<br />
⎜ ( )<br />
⎝∂y f ⎠<br />
⎟ 0,<br />
0 :<br />
lim<br />
t → 0<br />
f ( t,<br />
0 ) − f ( 0,<br />
0)<br />
f ( 0,<br />
t ) − f ( 0,<br />
0 )<br />
= 0 , lim<br />
= 0<br />
t<br />
t<br />
t → 0<br />
⎛<br />
Entsprechend ergibt sich für f xy<br />
( 0,<br />
0 ) =<br />
∂ 2 ⎞<br />
⎜<br />
⎟( )<br />
⎝ ∂y ∂x f ⎠<br />
0,<br />
0 bzw. f yx ( 0,<br />
0 ) =<br />
⎛<br />
∂ 2 ⎞<br />
⎜<br />
⎟( )<br />
⎝ ∂x ∂y f ⎠<br />
0,<br />
0 :<br />
lim<br />
t → 0<br />
f x<br />
( 0,<br />
t ) − f x<br />
( 0,<br />
0)<br />
f y<br />
( t,<br />
0 ) − f y<br />
( 0,<br />
0 )<br />
= b , lim<br />
= a<br />
t<br />
t<br />
t → 0
Jetzt betrachten wir drei Spezialfälle.<br />
Zuerst einen der Fälle a = b :<br />
f ( x,<br />
y)<br />
a = 1 , b = 1<br />
=<br />
x 3 y + x y 3<br />
x 2 + y 2<br />
3 x 2 y + y 3 2 ( x 3 y + x y 3 ) x<br />
f x<br />
= −<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2<br />
x 3 + 3 x y 2 2 ( x 3 y + x y 3 ) y<br />
f y<br />
= −<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2<br />
Offenbar zwei Ebenen! Das muß doch einfacher gehen...?
Kürzen durch x 2 + y 2 bringt Freude:<br />
f ( x,<br />
y )<br />
= x y<br />
f x<br />
= y , = x<br />
H f<br />
( 0,<br />
0 )<br />
=<br />
f y<br />
⎡<br />
⎢<br />
⎣<br />
0 1⎤<br />
⎥<br />
1 0⎦<br />
Und nun zwei Fälle, wo f xy<br />
( 0,<br />
0)<br />
= a von f yx<br />
( 0,<br />
0)<br />
= b verschieden ist.<br />
Einmal gleiches Vorzeichen:<br />
f ( x,<br />
y )<br />
a = 1 , b = 2<br />
=<br />
x 3 y + 2 x y 3<br />
x 2 + y 2<br />
3 x 2 y + 2 y 3 2 ( x 3 y + 2 x y 3 ) x<br />
f x<br />
=<br />
−<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2
x 3 + 6 x y 2 2 ( x 3 y + 2 x y 3 ) y<br />
f y<br />
= −<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2<br />
3 x 2 + 6 y 2 2 ( x 3 + 6 x y 2 ) x 2 ( 3 x 2 y + 2 y 3 ) y 8 ( x 3 y + 2 x y 3 ) y x<br />
f xy<br />
= − − +<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2 ( x 2 + y 2 )<br />
2 ( x 2 + y 2 )<br />
3<br />
Eine gefaltete Papierserviette, die im Nullpunkt offensichtlich unstetig ist.<br />
Und jetzt noch ein Beispiel mit verschiedenem Vorzeichen:<br />
f ( x,<br />
y)<br />
a = 1 , b = -1<br />
=<br />
x 3 y − x y 3<br />
x 2 + y 2
3 x 2 y − y 3 2 ( x 3 y − x y 3 ) x<br />
f x<br />
= −<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2<br />
x 3 − 3 x y 2 2 ( x 3 y − x y 3 ) y<br />
f y<br />
= −<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2<br />
3 x 2 − 3 y 2 2 ( x 3 − 3 x y 2 ) x 2 ( 3 x 2 y − y 3 ) y 8 ( x 3 y − x y 3 ) y x<br />
f xy<br />
= − − +<br />
x 2 + y 2 ( x 2 + y 2 )<br />
2 ( x 2 + y 2 )<br />
2 ( x 2 + y 2 )<br />
3<br />
Ziemlich steil <strong>und</strong> wenig stetig!