28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Anhang C<br />

Exkurs: Reinforcement Learning<br />

Was, wenn keine Trainingsbeispiele existieren, man aber trotzdem beurteilen<br />

kann, wie gut man gelernt hat, ein Problem zu lösen? Betrachten wir ein<br />

Lernparadigma, welches zwischen überwachtem und unüberwachtem Lernen<br />

anzusiedeln ist.<br />

Wir wollen nun einen eher exotischen Ansatz des Lernens kennenlernen – einfach, um<br />

einmal von den üblichen Verfahren wegzukommen. Wir kennen Lernverfahren, in denen<br />

wir einem Netz genau sagen, was es tun soll, also beispielhafte Ausgabewerte bereitstellen.<br />

Wir kennen ebenfalls Lernverfahren, wie bei den Self Organizing Maps, in denen<br />

ausschließlich Eingabewerte gegeben werden.<br />

Wir wollen nun eine Art Mittelding erforschen: Das Lernparadigma des bestärkenden<br />

Lernens – Reinforcement Learning nach Sutton und Barto [SB98].<br />

Reinforcement Learning an sich ist kein <strong>Neuronale</strong>s Netz, sondern nur eines der drei<br />

Lernparadigmen, die wir bereits in Kapitel 4 genannt haben. Manche Quellen zählen<br />

es zu den überwachten Lernverfahren, da man ein Feedback gibt – durch die sehr rudimentäre<br />

Art des Feedbacks ist es aber begründet von den überwachten Lernverfahren<br />

abzugrenzen, mal ganz abgesehen von der Tatsache, dass es keine Trainingsbeispiele<br />

gibt.<br />

Während allgemein bekannt ist, dass Verfahren wie Backpropagation im Gehirn selbst<br />

nicht funktionieren können, wird Reinforcement Learning allgemein als biologisch wesentlich<br />

motivierter angesehen.<br />

Der Ausdruck Reinforcement Learning (Bestärkendes Lernen) kommt aus den<br />

Kognitionswissenschaften und der Psychologie und beschreibt das in der Natur überall<br />

vorhandene Lernsystem durch Zuckerbrot und Peitsche, durch gute Erfahrungen und<br />

235

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!