Cascade-Correlations-Verfahren anhand des Xor-Problems

Weitere Magazine

Empfehlungen

Info

Der Cascade-Correlation-Algorithmus Der Cascade-Correlation-Algorithmus lässt sich durch zwei Ideen charakterisieren. Die eine ist die Kaskaden-Architektur, in der verdeckte Neuronen einzeln zu dem Netzwerk hinzugefügt werden und ihre Eingangsgewichte danach nicht mehr ändern. Die zweite ist der Lernalgorithmus, der diese verdeckten Neuronen erzeugt und ihre Gewichte bestimmt. Dieser versucht für jedes hinzugefügte Neuron den Betrag der Korrelation zwischen der Ausgabe des Neurons und dem restlichen Fehlersignal zu maximieren und auf diese Weise den Restfehler möglichst stark zu minimieren. Abb. 1 Die Architektur des Cascade-Correlation Netzwerks Die Architektur des Cascade-Correlation Netzwerks ist in Abb. 1 dargestellt. Zu Beginn des Trainings existiert nur die durch die Problemstellung vorgegebene Anzahl von Eingabe- und Ausgabezellen, jedoch keine verdeckten Neuronen. Jede Eingabezelle ist mit jeder Ausgabezelle durch eine Verbindung mit trainierbarem Gewicht verbunden (helle Quadrate). Es existiert auch ein Bias-Neuron, dessen Ausgabe immer +1 ist und das mit allen Ausgabezellen verbunden ist. Die Ausgabeneuronen können eine lineare oder eine nichtlineare Aktivierungsfunktion besitzen. Die meisten Experimente mit Cascade-Correlation wurden bisher mit sigmoiden Aktivierungsfunktionen wie tangens hyperbolicus f ( x) = tanh( x) durchgeführt. Das Lernverfahren fügt nun einzeln verdeckte Neuronen zu dem Netzwerk hinzu. Jedes neue verdeckte Neuron erhält Eingaben von allen Vorgängern, d.h. von den Eingabeneuronen und den vorher generierten verdeckten Neuronen. Die Eingabegewichte dieser Neuronen werden eingefroren, sobald das Neuron dem Netzwerk hinzugefügt wurde. Nur die Gewichte der Verbindungen zu den Ausgabeneuronen werden weiterhin trainiert. Auf diese Art und Weise stellt jedes Neuron der verdeckten Schicht eine Ebene für sich dar. Der Lernalgorithmus beginnt zuerst ohne verdeckte Neuronen. Die direkten Verbindungen zwischen Eingabeebene und Ausgabeebene werden über die gesamte Trainingsmenge so gut wie möglich trainiert, beispielsweise durch die Delta-Regel oder Quickprop. Letzteres Verfahren konvergiert in der Regel schneller. act 2
Die Formel für von den Gewichten der Ausgabeneuronen abhängige Fehlerfunktion des Netzes lautet: a 1 1 Et( w ) = ( o − y ) p mit a w n j o pj y pj p 2 ∑ ∑ pj pj (1) p 2 j: nj∈A den Vektor der Gewichte der Neuronen der Ausgabeschicht A Ausgabeneuron tatsächliche Ausgabe von Neuron j über alle Muster p erwünschte Ausgabe von Neuron j über alle Muster p der Index der Muster Der Faktor ½ wurde verwendet, damit er sich später gegen eine 2 wegkürzt, die durch das Differenzieren entsteht. Zur Bestimmung optimaler Gewichte spielt es keine Rolle, ob man den Fehler oder den halben Fehler minimiert. Der für die unterschiedlichen Minimierungsverfahren notwendige Gradient der Fehlerfunktion lässt sich leicht nach der für allgemeine Backpropagation-Netze hergeleiteten Formel berechnen: dEt 1 ( w a ) = ∑ f ' act ( net pj ) ⋅ o pi ( o pj − ypj ) (2) dw p ij p für w ij Gewicht von ( ni, nj) und nj ∈ A. a w den Vektor der Gewichte der Neuronen der Ausgabeschicht net Netzeingabe o pi o pj y pj pj die Ausgabe der Eingabezelle i für Muster p tatsächliche Ausgabe von Neuron j über alle Muster p erwünschte Ausgabe von Neuron j über alle Muster p p der Index der Muster 1 f ' act ( netpj ) = die Ableitung der Aktivierungsfunktion von Neuron j nach der 2 cosh ( net pj ) Netzeingabe net pj Ausgabeneuron n j n i Eingabeneuron Eine Rückpropagierung des Fehlers entfällt, da die Fehlerfunktion nur von den Gewichten der Ausgabeneuronen abhängt. Die Minimierung der Fehlerfunktion zur Zeit erfolgt mit einem Gradienten- oder Koordinatenabstiegsverfahren, in der Regel jedoch mit Quickpropagation. Die Anzahl der zur Zeit t durchgeführten Gewichtsänderungen der Ausgabeneuronen ist implementationsabhängig. Da aber eine zufriedenstellende Entwicklung des Fehlers in einem Anfangsstadium des gesamten Verfahrens nicht zu erwarten ist, bieten sich Implementationen an, welche neben der Fehlerüberprüfung eine Wahl der Obergrenze der Anzahl der durchzuführenden Modifikationen zulassen. Die Zahl der Gewichte der Ausgabeschicht, die Größe des Netzwerkes und damit die Zahl der mathematischen Operationen zur Berechnung von Gradient und Fehler steigen mit wachsendem t. Somit führt 3
Seite 1: Fakultät Informatik und Mathematik
Seite 5 und 6: δ j der Durchschnittsfehler des Au
Seite 7 und 8: Fehlerminimierung Der Cascade-Algor
Seite 9 und 10: Das Netz hat nach Abschluss dieser
Seite 11 und 12: δ − δ = 1.008519 −( − 0.001
Seite 13 und 14: Einfügung der neuen Schicht Beim X
Seite 15 und 16: Nach Abschluss der Fehlerminimierun

Cascade-Correlations-Verfahren anhand des Xor-Problems

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?