28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

n klassifizierbare Menge<br />

1 Hyperebene<br />

2 konvexes Polygon<br />

3 jede beliebige Menge<br />

4 auch jede beliebige Menge,<br />

also kein weiterer Vorteil<br />

Tabelle 5.3: Hier wird dargestellt, mit welchem Perceptron sich Mengen welcher Art klassifizieren<br />

lassen, wobei das n die Anzahl der trainierbaren Gewichtsschichten darstellt.<br />

Ein n-stufiges Perceptron besitzt genau n trainierbare Gewichtsschichten. Eine Zusammenfassung,<br />

welche Perceptrons welche Art von Menge klassifizieren können, findet<br />

sich noch einmal in Tabelle 5.3. Wir werden uns jetzt der Herausforderung widmen,<br />

Perceptrons mit mehr als einer Gewichtsschicht zu trainieren.<br />

5.4 Backpropagation of Error verallgemeinert die Delta-Regel<br />

auf MLPs<br />

Im Folgenden möchte ich die Backpropagation of Error-Lernregel (Kurz: Backpropagation,<br />

Backprop oder auch BP) herleiten und näher erläutern, mit der man mehrstufige<br />

Perceptrons, welche semilineare 3 Aktivierungsfunktionen besitzen, trainieren<br />

kann. Binäre Schwellenwertfunktionen und sonstige nicht-differenzierbare Funktionen<br />

werden nicht mehr unterstützt, das macht aber nichts: Wir haben ja gesehen, dass man<br />

die Fermifunktion bzw. den Tangens Hyperbolicus durch einen Temperatur-Parameter<br />

T der binären Schwellenwertfunktion beliebig annähern kann. Weitgehend werde ich<br />

der Herleitung nach [Zel94] bzw. [MR86] folgen – ich möchte aber noch einmal darauf<br />

hinweisen, dass das Verfahren bereits früher von Paul Werbos in [Wer74] publiziert<br />

wurde, jedoch wesentlich weniger Leser fand als in [MR86].<br />

Backpropagation ist ein Gradientenabstiegsverfahren (mit all den Stärken und Schwächen<br />

des Gradientenabstiegs), wobei die Fehlerfunktion Err(W ) hier sämtliche n Gewichte<br />

als Argument entgegennimmt (Abb. 5.5 auf Seite 98) und diese dem Ausgabefehler<br />

zuordnet, also n-dimensional ist. Auf Err(W ) sucht man durch Gradientenabstieg<br />

einen Punkt geringen oder gar geringsten Fehlers. Backpropagation trainiert also wie<br />

die Delta-Regel die Gewichte des <strong>Neuronale</strong>n <strong>Netze</strong>s – und genau die Delta-Regel bzw.<br />

3 Semilineare Funktionen sind monoton und differenzierbar – aber im Allgemeinen nicht linear.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!