12.07.2015 Aufrufe

Neuronale Netze

Neuronale Netze

Neuronale Netze

MEHR ANZEIGEN
WENIGER ANZEIGEN
  • Keine Tags gefunden...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

dkriesel.com5.5 Backpropagation of Error5.5.4.2 Flat Spot EliminationAbbildung 5.14: Wir möchten den Gradientenabstiegdurchführen wie ein Skifahrer seine Abfahrt,der wohl kaum sofort an der Grenze zumPlateau anhalten wird.Es ist zu beachten, dass sowohl beim TangensHyperbolicus sowie der Fermifunktiondie Ableitung außerhalb unmittelbarerNähe zu Θ fast 0 ist. Dieser Umstandführt dazu, dass sich Neurone nur schwerwieder aus den Grenzwerten der Aktivierung(flat spots) entfernen können, wasdie Lernzeit extrem verlängern kann. DiesemProblem kann durch Modifikation derAbleitung, z.B. Addition einer Konstanten(z.B. 0.1), begegnet werden, was als Flatspot elimination bezeichnet wird.Bemerkung: Interessant: Man hat auchschon mit Konstanten als Ableitungen Erfolgeerzielt [Fah88].Neuronefahren sichfest5.5.4.3 Second Order Backpropagationα◮Flächen (gegen Oszillationen). WeiterhinSecond Order Backpropagation nachkann man den Effekt der Trägheit überDavid Parker [Par87] verwendet auchden Vorfaktor α variieren, übliche Wer-den zweiten Gradienten, also die zweitete befinden sich zwischen 0.6 und 0.9. Außerdemmacht das Momentum den posi-mehrdimensionale Ableitung der Fehlerfunktion,um genauere Schätzungen dertiven Effekt möglich, dass unser Skifahrerin einem Minimum ein paar mal hin-korrekten ∆w i,j zu erhalten. Höhere Ableitungenverbessern die Schätzungen nurund herpendelt, und schlussendlich in demnoch selten. So braucht man weniger Trainingszyklen,diese sind aber weitaus re-Minimum landet. Leider tritt trotz desschönen Aussehens im eindimensionalenchenaufwändiger.der ansonsten seltene Fehler des Verlassensguter Minima durch den Momentum- gemeinen werden weitere Ableitungen (al-Bei Methoden höherer Ordnung im All-Term häufiger auf – so dass auch hier wiederkeine Patentlösung gegeben ist (wir mehrdimensional sind) verwendet. ErwarsoHessesche Matrizen, da die Funktionengewöhnen uns ja langsam an diese Aussage).Anzahl der Lernepochen, machen die eintungsgemäßreduzieren die Verfahren diezelnen Epochen aber signifikant rechenaufwändiger– so dass am Ende die Lern-D. Kriesel – Ein kleiner Überblick über <strong>Neuronale</strong> <strong>Netze</strong> (EPSILON-DE) 97

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!