20.12.2013 Aufrufe

7.5. Mittelwertsatz und höhere Ableitungen

7.5. Mittelwertsatz und höhere Ableitungen

7.5. Mittelwertsatz und höhere Ableitungen

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>7.5.</strong> <strong>Mittelwertsatz</strong> <strong>und</strong> <strong>höhere</strong> <strong>Ableitungen</strong><br />

Wir betrachten wieder eine Funktion f von einer Teilmenge A der Ebene R 2 (oder eines höher<br />

dimensionalen Raumes R n ) nach R. Besonders nützlich ist der<br />

<strong>Mittelwertsatz</strong><br />

Ist die Funktion f auf der ganzen Strecke zwischen zwei Punkten a <strong>und</strong> b differenzierbar in<br />

Richtung v = b − a, so gibt es einen Punkt u = a + t ( b − a ) auf dieser Strecke mit<br />

∂<br />

f( b ) − f( a ) =<br />

∂v f( u ),<br />

<strong>und</strong> falls f auf dieser Strecke total differenzierbar ist, so gilt<br />

f( b ) − f( a ) = f ´ ( u ) ( b − a ).<br />

Bei dem letzten Ausdruck ist im mehrdimensionalen Fall wieder das Skalarprodukt gemeint.<br />

Bevor wir einen etwas allgemeineren Satz beweisen, betrachten wir den eindimensionalen Fall.<br />

Hier besagt der <strong>Mittelwertsatz</strong>:<br />

Die Sekante zwischen den Punkten ( a , f( a )) <strong>und</strong> ( b , f( b ))<br />

( f( b ) − f( a ))<br />

( x − a)<br />

S ab<br />

( x ) = f( a)<br />

+<br />

b − a<br />

ist parallel zur Tangente im Zwischenpunkt ( u , f( u ))<br />

T u<br />

( x ) = f( u ) + f ´ ( u ) ( x − u)<br />

Beispiel 1: Kubische Parabel, Sekante <strong>und</strong> Tangente<br />

Die Funktion<br />

f( x ) = x 3<br />

hat zwischen den Punkten ( a,<br />

a 3 ) <strong>und</strong> ( b,<br />

b 3 ) die Sekante<br />

da S ab<br />

( a)<br />

= a 3 <strong>und</strong> S ab<br />

( b ) = b 3 .<br />

S ,<br />

Im Punkt ( u,<br />

u 3 ) hat f die Tangente<br />

a b<br />

( x ) = ( a 2 + a b + b 2 ) x − a 2 b − a b 2<br />

T u<br />

( x ) = u 3 + 3 u 2 ( x − u )<br />

Diese beiden Geraden sind genau dann parallel, wenn die Steigungen gleich sind:<br />

also für<br />

a 2 + a b + b 2 = 3 u 2<br />

a 2 + a b + b 2<br />

u =<br />

3<br />

Das ist die (oder zumindest eine) Stelle, an der die Aussage des <strong>Mittelwertsatz</strong>es zutrifft.<br />

Im Allgemeinen gelingt es aber nicht, solche Zwischenstellen explizit anzugeben!


Im zweidimensionalen Fall bedeutet der <strong>Mittelwertsatz</strong> geometrisch, daß für differenzierbare<br />

Funktionen der Verbindungsvektor zwischen je zwei Punkten des Funktionsgebirges parallel zur<br />

Tangente in einem Punkt über oder unter der Verbindungsstrecke ist.<br />

Verallgemeinerter <strong>Mittelwertsatz</strong><br />

Zu zwei auf der Strecke zwischen a <strong>und</strong> b stetigen <strong>und</strong> im Inneren der Strecke differenzierbaren<br />

Funktionen f <strong>und</strong> g gibt es ein u zwischen a <strong>und</strong> b mit<br />

g´ ( u ) ( f( b ) − f( a ))<br />

= f´ ( u ) ( g( b ) − g( a )).<br />

Zum Beweis betrachtet man die folgende etwas kompliziert aussehende Funktion h :<br />

Es ist<br />

h( t ) = g ( a + t ( b − a ))<br />

( f( b ) − f( a ))<br />

− f ( a + t ( b − a ) ) ( g( b ) − g( a ) )<br />

h( 0 ) = h( 1 ) =<br />

g( a ) ( )<br />

f b − f( a ) g( b ).<br />

Als stetige Funktion hat h auf dem kompakten Intervall [ 0,<br />

1 ] ein Extremum, <strong>und</strong> wegen<br />

h( 0 ) = h( 1 ) wird ein solches im Inneren des Intervalls angenommen, etwa bei t (mit 0 < t < 1).<br />

Dort muß die Ableitung dann 0 sein (sonst hätte man eine von Null verschiedene Steigung <strong>und</strong><br />

daher kein Extremum). Also ist für u = a + t ( b − a ) nach der Kettenregel<br />

0 = h´ ( t ) = g´ ( u ) ( f( b ) − f( a ))<br />

( b − a ) − f´ ( u ) ( g( b ) − g( a ) ) ( b − a ) .<br />

Für a ≠ b folgt daraus die Behauptung. Bei richtiger Interpretation mittels Skalarprodukten<br />

funktioniert diese Argumentation auch in <strong>höhere</strong>n Dimensionen.<br />

Die spezielle Wahl g( x)<br />

= x liefert sofort den <strong>Mittelwertsatz</strong> in der klassischen Form, sofern f auf<br />

der Strecke von a bis b total differenzierbar ist. Falls nur die Existenz der Richtungsableitungen<br />

nach v = b − a gesichert ist, kann man den mehrdimensionalen auf den eindimensionalen Fall<br />

zurückführen, indem man die Funktion g( t ) = f ( a + t v ) für t zwischen 0 <strong>und</strong> 1 betrachtet. Es gibt<br />

dann eine Zwischenstelle z , so daß für u = a + z v gilt:<br />

g( 1 ) − g( 0 ) = g´ ( z ) = lim<br />

h → 0<br />

f ( u + h v ) − f( u )<br />

∂<br />

, d.h. f( b ) − f( a ) =<br />

h<br />

∂v f( u ) .


Stetige Differenzierbarkeit<br />

Während eine total differenzierbare Funktion stets auch partiell differenzierbar <strong>und</strong> stetig ist, gilt<br />

die Umkehrung im Allgemeinen nicht, wie wir am Beispiel homogener, aber nicht linearer<br />

Funktionen sahen. Ist jedoch nicht nur die Funktion f selbst, sondern auch jede ihrer partiellen<br />

<strong>Ableitungen</strong> stetig, so nennt man f stetig differenzierbar <strong>und</strong> kann in diesem Fall auf totale<br />

Differenzierbarkeit schließen:<br />

Differenzierbarkeitskriterium<br />

Existieren in einer Umgebung des Punktes a alle n partiellen <strong>Ableitungen</strong> <strong>und</strong> sind diese in a<br />

stetig, so ist f in a sogar total differenzierbar.<br />

Diese besonders nützliche Tatsache beruht wie viele weitere auf dem <strong>Mittelwertsatz</strong>. Wir beweisen<br />

sie nur für den in der Praxis am häufigsten auftretenden Fall n = 2. Wir haben zu zeigen, daß die<br />

Restfunktion<br />

f ( a + h ) − f( a ) − f ´ ( a ) h<br />

nach Division durch h immer noch gegen 0 strebt, falls h dies tut. Dabei ist f ´ ( a ) der Gradient,<br />

der sich aus den (nach Voraussetzung existierenden) partiellen <strong>Ableitungen</strong> f x<br />

( a ) <strong>und</strong> f y<br />

( a )<br />

zusammensetzt.<br />

Der eindimensionale <strong>Mittelwertsatz</strong> liefert Zwischenstellen u j<br />

aus ] a j<br />

, a j<br />

+ h j<br />

[ mit<br />

f ( a + h ) − f( a ) =<br />

f ( a 1<br />

+ h 1<br />

, a 2<br />

+ h 2<br />

) − f ( a 1<br />

, a 2<br />

+ h 2<br />

) + f ( a 1<br />

, a 2<br />

+ h 2<br />

) − f ( a 1<br />

, a 2<br />

) =<br />

also<br />

f x<br />

( u 1<br />

, a 2<br />

+ h 2<br />

) h 1<br />

+ f y<br />

( a 1<br />

, u 2<br />

) h 2<br />

,<br />

f ( a + h ) − f( a ) − f ´ ( a ) h =<br />

( f x<br />

( u 1<br />

, a 2<br />

+ h 2<br />

) − f x<br />

( a 1<br />

, a 2<br />

) ) h 1<br />

+ ( f y<br />

( a 1<br />

, u 2<br />

) − f y<br />

( a 1<br />

, a 2<br />

) ) h 2<br />

,<br />

<strong>und</strong> dieser Ausdruck wird nach Division durch h wegen<br />

tatsächlich beliebig klein.<br />

h j<br />

≤<br />

h <strong>und</strong> der Stetigkeit von f x<br />

<strong>und</strong> f y<br />

Achtung! Eine partiell differenzierbare Funktion braucht nicht total differenzierbar, ja nicht einmal<br />

stetig zu sein.<br />

Beispiel 2: Eine Wendeltreppe<br />

Die durch f ( 0,<br />

0)<br />

= 0 ergänzte Funktion<br />

x y<br />

f ( x,<br />

y ) =<br />

x 2 + y 2<br />

ist auf jeder Geraden durch den Ursprung (0,0) außerhalb von diesem konstant: Für festes<br />

( x 0<br />

, y 0<br />

) ≠ ( 0,<br />

0 ) <strong>und</strong> variables t ≠ 0 ist nämlich<br />

f ( t x 0<br />

, t y 0<br />

) = f ( x 0<br />

, y 0<br />

).<br />

Insbesondere existieren die partiellen <strong>Ableitungen</strong> in (0,0) <strong>und</strong> sind dort gleich 0.


Diese Funktion ist im Ursprung offensichtlich unstetig, denn<br />

lim<br />

t → 0<br />

f ( t x,<br />

t y ) = f ( x,<br />

y )<br />

kann jeden Wert zwischen -1 <strong>und</strong> 1 annehmen.<br />

Höhere <strong>Ableitungen</strong><br />

Wir betrachten wieder eine Funktion f von einer Teilmenge A des R n nach R. Indem man die<br />

partiellen <strong>Ableitungen</strong><br />

∂<br />

f xj<br />

= f<br />

∂x j


(soweit sie existieren) wieder als Funktionen auffaßt <strong>und</strong>, sofern möglich, nochmals partiell<br />

differenziert, erhält man die<br />

zweiten partiellen <strong>Ableitungen</strong><br />

f xj x k<br />

Die Hessematrix<br />

∂ ⎛ ∂ ⎞<br />

=<br />

∂x ⎜ f ⎟ .<br />

k ⎝∂x j ⎠<br />

ist die aus den partiellen <strong>Ableitungen</strong> gebildete (n x n) - Matrix. Sie wird gelegentlich auch<br />

zweite Ableitung von f genannt <strong>und</strong> mit f ´´ bezeichnet.<br />

Im Spezialfall n =<br />

⎡<br />

f´´ =<br />

⎢<br />

⎣<br />

f xx<br />

f yx<br />

f xy<br />

f yy<br />

2 ist also<br />

⎤<br />

⎥<br />

⎦<br />

Durch Fortsetzung dieses Ableitungsprozesses gelangt man zu <strong>höhere</strong>n partiellen <strong>Ableitungen</strong>.<br />

Für n = 2 hat man (mit x 1<br />

= x <strong>und</strong> x 2<br />

= y ) die beiden ersten <strong>Ableitungen</strong><br />

f x<br />

∂<br />

=<br />

∂x f , f y<br />

=<br />

∂<br />

∂y f<br />

<strong>und</strong> den Gradienten<br />

f´ = [ f x<br />

, f y<br />

] ,<br />

die vier zweiten <strong>Ableitungen</strong><br />

f xx<br />

f yx<br />

∂ ⎛ ∂ ⎞<br />

= ⎜ ⎟<br />

∂x<br />

⎝∂x f ⎠<br />

= ∂x ∂x f , f xy<br />

= ∂ ⎛ ∂ ⎞<br />

⎜ ⎟<br />

∂y<br />

⎝ ∂x f ⎠<br />

= ∂y ∂x f ,<br />

∂ ⎛ ∂ ⎞<br />

= ⎜ ⎟<br />

∂x<br />

⎝∂y f ⎠<br />

= ∂ 2<br />

∂x ∂y f , f yy<br />

=<br />

∂ ⎛ ∂ ⎞<br />

⎜ ⎟<br />

∂y<br />

⎝ ∂y f ⎠<br />

= ∂ 2<br />

∂y ∂y f<br />

<strong>und</strong> die Hesse-Matrix<br />

⎡f f´´ =<br />

xx<br />

f xy<br />

⎤<br />

⎢<br />

⎥ ,<br />

⎣f yx<br />

f yy ⎦<br />

sowie die acht dritten partiellen <strong>Ableitungen</strong><br />

f xxx<br />

f yxx<br />

∂ 3<br />

∂ 2<br />

∂ 3<br />

=<br />

∂x ∂x ∂x f , f xxy<br />

= ∂y ∂x ∂x f , f xyx<br />

= ∂x ∂y ∂x f , f xyy<br />

= ∂y ∂y ∂x f ,<br />

∂ 3<br />

∂ 3<br />

=<br />

∂x ∂x ∂y f , f yyx<br />

= ∂x ∂y ∂y f , f yxy<br />

= ∂y ∂x ∂y f , f yyy<br />

= ∂y ∂y ∂y f ,<br />

die man zu einer "dreidimensionalen Hypermatrix" zusammensetzen kann:<br />

Nach k-maligem Ableiten landet man bei den 2 k partiellen <strong>Ableitungen</strong> k-ter Ordnung. Im<br />

allgemeinsten Falle einer Funktion in n Variablen gibt es sogar n k solche <strong>Ableitungen</strong>!<br />

∂ 2<br />

∂ 3<br />

∂ 3<br />

∂ 3<br />

∂ 3


Beispiel 3: Alle partiellen <strong>Ableitungen</strong> einer Sattelfläche<br />

f ( x,<br />

y ) = x 3 + y 3<br />

Erste <strong>Ableitungen</strong>:<br />

Zweite <strong>Ableitungen</strong>:<br />

Dritte <strong>Ableitungen</strong>:<br />

f x<br />

= 3 x 2 , f y<br />

= 3 y 2<br />

f xx<br />

= 6 x , f xy<br />

= 0<br />

f yx<br />

= 0 , = 6 y<br />

f yy<br />

f xxx<br />

= 6 , f xxy<br />

= 0 , f xyx<br />

= 0 , f xyy<br />

= 0<br />

f yxx<br />

= 0 , f yxy<br />

= 0 , f yyx<br />

= 0 , f yyy<br />

= 6<br />

Alle <strong>höhere</strong>n <strong>Ableitungen</strong> verschwinden.<br />

Man sagt, eine Funktion sei (auf A) k-mal partiell differenzierbar, wenn ihre sämtlichen<br />

partiellen <strong>Ableitungen</strong> k-ter Ordnung auf A existieren. Sind diese sogar noch stetig, spricht man<br />

von einer k-mal stetig differenzierbaren Funktion.<br />

Es gelten also folgende<br />

Implikationen zwischen Differenzierbarkeitseigenschaften<br />

k+1-mal partiell differenzierbar<br />

=> k-mal stetig differenzierbar<br />

=> k-mal partiell differenzierbar (k > 1)<br />

...<br />

=> stetig differenzierbar<br />

=> total differenzierbar<br />

=> alle Richtungsableitungen existieren<br />

=> partiell differenzierbar<br />

Daß f zweimal stetig differenzierbar ist, bedeutet, daß die ersten <strong>und</strong> zweiten partiellen<br />

<strong>Ableitungen</strong> in allen Punkten des Definitionsbereichs existieren <strong>und</strong> stetig sind. Die Funktion aus<br />

Beispiel 3 ist sogar beliebig of differenzierbar.


Beispiel 4: Die Hessematrix der zweidimensionalen Potenzfunktion<br />

Wir betrachten nochmals in der Halbebene x > 0 die Funktion<br />

f ( x,<br />

y ) = x y .<br />

Die ersten partiellen <strong>Ableitungen</strong> kennen wir schon:<br />

x y y<br />

f x<br />

= , f =<br />

x y<br />

x y ln( x)<br />

Nun berechnen <strong>und</strong> zeichnen wir die zweiten partiellen <strong>Ableitungen</strong>:<br />

x y y 2 x y y<br />

f xx<br />

= −<br />

x 2<br />

x 2<br />

f yy<br />

= x y ln( x )<br />

2<br />

x y y ln( x)<br />

f xy<br />

= +<br />

x<br />

x y y ln( x )<br />

, f =<br />

x yx<br />

+<br />

x<br />

x y<br />

x y<br />

x


Also f xy<br />

= f yx<br />

, d.h. die Matrix der zweiten <strong>Ableitungen</strong> ist symmetrisch!<br />

Allgemein kann man durch Betrachtung geeigneter Sekantensteigungen <strong>und</strong> Vertauschung eines<br />

gewissen Grenzprozesses folgende nützliche Tatsache beweisen (das entscheidende Hilfsmittel ist<br />

wieder der <strong>Mittelwertsatz</strong>, der es erlaubt, Sekanten durch Tangenten in Zwischenpunkten zu<br />

ersetzen):<br />

Schwarzsche Vertauschungsregel<br />

Existieren die zweiten partiellen <strong>Ableitungen</strong> <strong>und</strong> sind sie noch stetig, so gilt<br />

f xy<br />

= f yx<br />

,<br />

d.h. die Hessematrix ist symmetrisch. Analoges gilt für Funktionen in n Variablen.<br />

Daß diese Regel allerdings ohne die Stetigkeitsvoraussetzung für die zweiten <strong>Ableitungen</strong> nicht<br />

mehr richtig ist, zeigt folgendes<br />

Beispiel 5: Eine nicht symmetrische Hessematrix<br />

Wir geben zwei relle Zahlen a <strong>und</strong> b vor. Die im Nullpunkt durch f ( 0,<br />

0)<br />

= 0 ergänzte Funktion<br />

a x 3 y + b x y 3<br />

f ( x,<br />

y)<br />

=<br />

x 2 + y 2<br />

ist zweimal differenzierbar, aber nur für a = b sind die zweiten <strong>Ableitungen</strong> im Nullpunkt noch<br />

stetig. Wir testen das im Einzelnen: Außerhalb des Nullpunktes findet man durch "mechanisches<br />

Ableiten" (wir überlassen das MAPLE):<br />

3 a x 2 y + b y 3 2 ( a x 3 y + b x y 3 ) x<br />

f x<br />

=<br />

−<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2<br />

a x 3 + 3 b x y 2 2 ( a x 3 y + b x y 3 ) y<br />

f y<br />

=<br />

−<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2<br />

3 a x 2 + 3 b y 2 2 ( a x 3 + 3 b x y 2 ) x 2 ( 3 a x 2 y + b y 3 ) y 8 ( a x 3 y + b x y 3 ) y x<br />

f xy<br />

=<br />

− − +<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2 ( x 2 + y 2 )<br />

2 ( x 2 + y 2 )<br />

3<br />

Der gleiche Monsterausdruck kommt für f yx<br />

heraus.<br />

Die ersten <strong>und</strong> zweiten partiellen <strong>Ableitungen</strong> im Nullpunkt kann man nur durch Limesbildung<br />

berechnen, weil dort die Funktion durch Fallunterscheidung definiert ist.<br />

⎛ ∂ ⎞<br />

Man erhält für f x<br />

( 0,<br />

0 ) = ⎜ ( )<br />

⎝∂x f ⎠<br />

⎟ 0,<br />

0 bzw. f y ( 0,<br />

0 ) = ⎛ ∂ ⎞<br />

⎜ ( )<br />

⎝∂y f ⎠<br />

⎟ 0,<br />

0 :<br />

lim<br />

t → 0<br />

f ( t,<br />

0 ) − f ( 0,<br />

0)<br />

f ( 0,<br />

t ) − f ( 0,<br />

0 )<br />

= 0 , lim<br />

= 0<br />

t<br />

t<br />

t → 0<br />

⎛<br />

Entsprechend ergibt sich für f xy<br />

( 0,<br />

0 ) =<br />

∂ 2 ⎞<br />

⎜<br />

⎟( )<br />

⎝ ∂y ∂x f ⎠<br />

0,<br />

0 bzw. f yx ( 0,<br />

0 ) =<br />

⎛<br />

∂ 2 ⎞<br />

⎜<br />

⎟( )<br />

⎝ ∂x ∂y f ⎠<br />

0,<br />

0 :<br />

lim<br />

t → 0<br />

f x<br />

( 0,<br />

t ) − f x<br />

( 0,<br />

0)<br />

f y<br />

( t,<br />

0 ) − f y<br />

( 0,<br />

0 )<br />

= b , lim<br />

= a<br />

t<br />

t<br />

t → 0


Jetzt betrachten wir drei Spezialfälle.<br />

Zuerst einen der Fälle a = b :<br />

f ( x,<br />

y)<br />

a = 1 , b = 1<br />

=<br />

x 3 y + x y 3<br />

x 2 + y 2<br />

3 x 2 y + y 3 2 ( x 3 y + x y 3 ) x<br />

f x<br />

= −<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2<br />

x 3 + 3 x y 2 2 ( x 3 y + x y 3 ) y<br />

f y<br />

= −<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2<br />

Offenbar zwei Ebenen! Das muß doch einfacher gehen...?


Kürzen durch x 2 + y 2 bringt Freude:<br />

f ( x,<br />

y )<br />

= x y<br />

f x<br />

= y , = x<br />

H f<br />

( 0,<br />

0 )<br />

=<br />

f y<br />

⎡<br />

⎢<br />

⎣<br />

0 1⎤<br />

⎥<br />

1 0⎦<br />

Und nun zwei Fälle, wo f xy<br />

( 0,<br />

0)<br />

= a von f yx<br />

( 0,<br />

0)<br />

= b verschieden ist.<br />

Einmal gleiches Vorzeichen:<br />

f ( x,<br />

y )<br />

a = 1 , b = 2<br />

=<br />

x 3 y + 2 x y 3<br />

x 2 + y 2<br />

3 x 2 y + 2 y 3 2 ( x 3 y + 2 x y 3 ) x<br />

f x<br />

=<br />

−<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2


x 3 + 6 x y 2 2 ( x 3 y + 2 x y 3 ) y<br />

f y<br />

= −<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2<br />

3 x 2 + 6 y 2 2 ( x 3 + 6 x y 2 ) x 2 ( 3 x 2 y + 2 y 3 ) y 8 ( x 3 y + 2 x y 3 ) y x<br />

f xy<br />

= − − +<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2 ( x 2 + y 2 )<br />

2 ( x 2 + y 2 )<br />

3<br />

Eine gefaltete Papierserviette, die im Nullpunkt offensichtlich unstetig ist.<br />

Und jetzt noch ein Beispiel mit verschiedenem Vorzeichen:<br />

f ( x,<br />

y)<br />

a = 1 , b = -1<br />

=<br />

x 3 y − x y 3<br />

x 2 + y 2


3 x 2 y − y 3 2 ( x 3 y − x y 3 ) x<br />

f x<br />

= −<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2<br />

x 3 − 3 x y 2 2 ( x 3 y − x y 3 ) y<br />

f y<br />

= −<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2<br />

3 x 2 − 3 y 2 2 ( x 3 − 3 x y 2 ) x 2 ( 3 x 2 y − y 3 ) y 8 ( x 3 y − x y 3 ) y x<br />

f xy<br />

= − − +<br />

x 2 + y 2 ( x 2 + y 2 )<br />

2 ( x 2 + y 2 )<br />

2 ( x 2 + y 2 )<br />

3<br />

Ziemlich steil <strong>und</strong> wenig stetig!

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!