05.06.2013 Aufrufe

Adaptive Modellierung und Simulation - Adaptive Systemarchitektur ...

Adaptive Modellierung und Simulation - Adaptive Systemarchitektur ...

Adaptive Modellierung und Simulation - Adaptive Systemarchitektur ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Approximationsleistung neuronaler Netze 2-43<br />

2.11 Approximationsleistung neuronaler Netze<br />

Was können wir nun gr<strong>und</strong>sätzlich von Neuronalen Netzen erwarten? Können wir<br />

sie immer dazu verwenden, unbekannte, nichtlineare Funktionen zu approximieren,<br />

oder haben sie Grenzen? Wie viele Schichten benötigen wir ?<br />

Betrachten wir eine Klasse von Funktionen, genannt Sigma-Funktionen Σ n (S)<br />

n<br />

∑ ( S)<br />

:= { f ˆ | f ˆ :<br />

n<br />

ℜ → ℜ mit ( )<br />

wobei wj (2) aus ℜ, x aus ℜ n<br />

m<br />

( ( ) )<br />

ˆf<br />

( 2)<br />

x =∑ w S z x }<br />

j= 1<br />

j j<br />

(2.88)<br />

Die Sigma-Funktionen sind genau die Menge von Funktionen, die mit einem<br />

zweischichtigem, neuronalen Netz wie in Abb. 2.8 erzeugt werden. Betrachten wir<br />

nun als Aktivitätsfunktion zi des i-ten Neurons der ersten Schicht eine affine Funktion,<br />

d.h. sie kann Größenänderungen, Drehungen <strong>und</strong> Verschiebungen eines Vektors<br />

x bewirken<br />

zj ∈ z n := { z | z(x) = w (1)T x + b } affine Funktionen ℜ n →ℜ (2.89)<br />

wobei b ∈ℜ die negative Schwelle <strong>und</strong> w (1) der Gewichtsvektor eines Neurons der<br />

ersten Schicht ist. Die Ausgabefunktion S(x) ("Quetschfunktion") kann dabei<br />

beliebig sein, vorausgesetzt, sie erfüllt die Bedingungen<br />

( ) ( )<br />

lim S x = 1, lim S x = 0 , (2.90)<br />

x→∞ x→−∞<br />

Die zweite Schicht hat wieder eine lineare Aktivitätsfunktion mit den Gewichten<br />

w (2) ; die Ausgabefunktion ist die Identität ˆ f (x) = S(z (2) ): = z (2) .<br />

Als Maß für die Abweichung zwischen der approximierenden Netzausgabe<br />

F(x) <strong>und</strong> der zu lernenden Funktion f(x) nehmen wir die Ls(p)-Norm<br />

||f(x) – ˆ f ( x ) || = ( ∫ |f(x) – ˆ f ( x ) | s dP(x) ) 1/s (2.91)<br />

was z.B. für zufällige x mit der Wahrscheinlichkeitsverteilung P(x) der erwarteten<br />

Abweichung entlang des ganzen Kurvenzuges von f(x) entspricht; im Fall s = 2 ist<br />

dies die Wurzel aus unserem erwarteten quadratischen Fehler. Im Gegensatz dazu<br />

entspricht der uniforme Abstand<br />

||f(x) – ˆ f ( x ) || = supx |f(x) – ˆ f ( x ) | (2.92)<br />

dem maximalen Fehler, der bei der Approximation überhaupt auftreten kann,<br />

unabhängig von seiner Häufigkeit P(x).<br />

Dann gilt:

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!