Cascade-Correlations-Verfahren anhand des Xor-Problems
Cascade-Correlations-Verfahren anhand des Xor-Problems
Cascade-Correlations-Verfahren anhand des Xor-Problems
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
der Algorithmus während der Fehlerminimierung für kleines t kostengünstigere<br />
Modifikationen durch.<br />
Sobald über eine Anzahl von Zyklen keine deutliche Änderung <strong>des</strong> Fehlers mehr zu<br />
beobachten ist wird das Netzwerk ein letztes Mal mit der gesamten Trainingsmenge getestet<br />
und der kumulierte Fehler gemessen. Ist dieser klein genug, terminiert das <strong>Verfahren</strong> ohne<br />
Erzeugung verdeckter Neuronen mit einem einstufigen Netzwerk (einer Ebene trainierter<br />
Gewichte zwischen Eingabe und Ausgabe). Im anderen Fall gibt es einen Restfehler, der<br />
durch Einführung eines oder mehrerer verdeckter Neuronen reduziert werden muss. Es wird<br />
ein neues verdecktes Neuron dem Netz hinzugefügt, <strong>des</strong>sen Gewichte der<br />
Eingangsverbindungen wie nachfolgend beschrieben bestimmt werden. Sobald es<br />
hinzugefügt ist, werden seine Gewichte eingefroren, und die Verbindungen aller Neuronen<br />
zu den Ausgabeneuronen werden neu trainiert (ebenfalls wieder durch Quickprop). Dieser<br />
Vorgang <strong>des</strong> Hinzufügens eines Neurons wird wiederholt, bis der Fehler klein genug ist (oder<br />
bis die maximal tolerierbare Zeit zum Training überschritten wurde).<br />
Zur Erzeugung einer neuen verdeckten Zelle beginnt man mit einer Kandidatenzelle j, die<br />
trainierbare Gewichte von allen Vorgängern (Eingabezellen und vorher generierte verdeckte<br />
Zellen) erhält, während die Ausgabe noch nicht mit dem Netzwerk verbunden ist. Nun erfolgt<br />
eine Anzahl Durchläufe durch die gesamte Trainingsmenge, wobei die Eingabegewichte wie<br />
folgt beschrieben geändert werden. Ziel der Änderungen ist es, die Summe der Beträge der<br />
Korrelation (Kovarianz) zwischen der Ausgabe der Kandidatenzelle und dem Restfehler der<br />
Ausgabezelle über alle Ausgabezellen zu maximieren.<br />
1<br />
S ( w ) = Cov( o , δ ) = o ⋅( δ − δ )<br />
(3)<br />
∑ ∑ ∑ pj j<br />
k k k k<br />
t j p<br />
jn , j∈A jn , j∈A p p<br />
k k<br />
∂St<br />
( w ) 1<br />
= σ f ' ( net ) ⋅o<br />
( δ δ )<br />
k<br />
j<br />
w p<br />
i<br />
k<br />
j act p pi pj<br />
jn , j∈A p<br />
∂<br />
∑ ∑ − (4)<br />
σ ( k<br />
j<br />
= sign ∑ o<br />
p⋅(<br />
δpj<br />
−δ j<br />
))<br />
(5)<br />
p<br />
Häufig wird folgende Formel der Kovarianzsumme und ihrer Ableitung angegeben<br />
S ( w ) = ∑∑( o −o ) ⋅( δ<br />
j<br />
−δ<br />
j<br />
)<br />
(6)<br />
k k k k<br />
t p p<br />
jn , j∈A p<br />
k k<br />
dSt<br />
( w )<br />
= σ ( δ −δ<br />
) ⋅ f ' ( net ) o<br />
k<br />
pi<br />
w<br />
i<br />
k<br />
j pj j act p<br />
jn , j∈A p<br />
∂<br />
∑ ∑ ⋅ (7)<br />
k k<br />
σ<br />
j<br />
= sign( ∑( op −o ) ⋅( δpj<br />
− δ j<br />
))<br />
(8)<br />
p<br />
k<br />
o<br />
p<br />
σ<br />
j<br />
tatsächliche Ausgabe <strong>des</strong> Kandidaten<br />
das Vorzeichen der Korrelation zwischen der Ausgabe der Kandidatenzelle j<br />
und dem Fehler der Ausgabezelle j für Muster p<br />
δ<br />
pj<br />
der Fehler <strong>des</strong> Ausgabeneurons n<br />
j<br />
4