Adaptive Modellierung und Simulation - Adaptive Systemarchitektur ...
Adaptive Modellierung und Simulation - Adaptive Systemarchitektur ...
Adaptive Modellierung und Simulation - Adaptive Systemarchitektur ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Approximationsleistung neuronaler Netze 2-43<br />
2.11 Approximationsleistung neuronaler Netze<br />
Was können wir nun gr<strong>und</strong>sätzlich von Neuronalen Netzen erwarten? Können wir<br />
sie immer dazu verwenden, unbekannte, nichtlineare Funktionen zu approximieren,<br />
oder haben sie Grenzen? Wie viele Schichten benötigen wir ?<br />
Betrachten wir eine Klasse von Funktionen, genannt Sigma-Funktionen Σ n (S)<br />
n<br />
∑ ( S)<br />
:= { f ˆ | f ˆ :<br />
n<br />
ℜ → ℜ mit ( )<br />
wobei wj (2) aus ℜ, x aus ℜ n<br />
m<br />
( ( ) )<br />
ˆf<br />
( 2)<br />
x =∑ w S z x }<br />
j= 1<br />
j j<br />
(2.88)<br />
Die Sigma-Funktionen sind genau die Menge von Funktionen, die mit einem<br />
zweischichtigem, neuronalen Netz wie in Abb. 2.8 erzeugt werden. Betrachten wir<br />
nun als Aktivitätsfunktion zi des i-ten Neurons der ersten Schicht eine affine Funktion,<br />
d.h. sie kann Größenänderungen, Drehungen <strong>und</strong> Verschiebungen eines Vektors<br />
x bewirken<br />
zj ∈ z n := { z | z(x) = w (1)T x + b } affine Funktionen ℜ n →ℜ (2.89)<br />
wobei b ∈ℜ die negative Schwelle <strong>und</strong> w (1) der Gewichtsvektor eines Neurons der<br />
ersten Schicht ist. Die Ausgabefunktion S(x) ("Quetschfunktion") kann dabei<br />
beliebig sein, vorausgesetzt, sie erfüllt die Bedingungen<br />
( ) ( )<br />
lim S x = 1, lim S x = 0 , (2.90)<br />
x→∞ x→−∞<br />
Die zweite Schicht hat wieder eine lineare Aktivitätsfunktion mit den Gewichten<br />
w (2) ; die Ausgabefunktion ist die Identität ˆ f (x) = S(z (2) ): = z (2) .<br />
Als Maß für die Abweichung zwischen der approximierenden Netzausgabe<br />
F(x) <strong>und</strong> der zu lernenden Funktion f(x) nehmen wir die Ls(p)-Norm<br />
||f(x) – ˆ f ( x ) || = ( ∫ |f(x) – ˆ f ( x ) | s dP(x) ) 1/s (2.91)<br />
was z.B. für zufällige x mit der Wahrscheinlichkeitsverteilung P(x) der erwarteten<br />
Abweichung entlang des ganzen Kurvenzuges von f(x) entspricht; im Fall s = 2 ist<br />
dies die Wurzel aus unserem erwarteten quadratischen Fehler. Im Gegensatz dazu<br />
entspricht der uniforme Abstand<br />
||f(x) – ˆ f ( x ) || = supx |f(x) – ˆ f ( x ) | (2.92)<br />
dem maximalen Fehler, der bei der Approximation überhaupt auftreten kann,<br />
unabhängig von seiner Häufigkeit P(x).<br />
Dann gilt: