12.07.2015 Aufrufe

Neuronale Netze

Neuronale Netze

Neuronale Netze

MEHR ANZEIGEN
WENIGER ANZEIGEN
  • Keine Tags gefunden...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Anhang CExkurs: Reinforcement LearningWas, wenn keine Trainingsbeispiele existieren, man aber trotzdem beurteilenkann, wie gut man gelernt hat, ein Problem zu lösen? Betrachten wir einLernparadigma, welches zwischen überwachtem und unüberwachtem Lernenanzusiedeln ist.KeineBeispiele,aberFeedbackWir wollen nun einen eher exotischen Ansatzdes Lernens kennenlernen – einfach,um einmal von den üblichen Verfahrenwegzukommen. Wir kennen Lernverfahren,in denen wir einem Netz genau sagen,was es tun soll, also beispielhafte Ausgabewertebereitstellen. Wir kennen ebenfallsLernverfahren, wie bei den Self OrganizingMaps, in denen ausschließlich Eingabewertegegeben werden.Wir wollen nun eine Art Mittelding erforschen:Das Lernparadigma des bestärkendenLernens – Reinforcement Learningnach Sutton und Barto [SB98].Reinforcement Learning an sich ist kein<strong>Neuronale</strong>s Netz, sondern nur eines derdrei Lernparadigmen, die wir bereits inKapitel 4 genannt haben. Manche Quellenzählen es zu den überwachten Lernverfahren,da man ein Feedback gibt – durchdie sehr rudimentäre Art des Feedbacksist es aber begründet von den überwachtenLernverfahren abzugrenzen, mal ganzabgesehen von der Tatsache, dass es keineTrainingsbeispiele gibt.Während allgemein bekannt ist, dass Verfahrenwie Backpropagation im Gehirnselbst nicht funktionieren können, wird ReinforcementLearning allgemein als biologischwesentlich motivierter angesehen.Der Ausdruck Reinforcement Learning(Bestärkendes Lernen) kommt aus denKognitionswissenschaften und der Psychologieund beschreibt das in der Natur überallvorhandene Lernsystem durch Zuckerbrotund Peitsche, durch gute Erfahrungenund schlechte Erfahrungen, Belohnungund Bestrafung. Es fehlt aber eineLernhilfe, die uns genau erklärt, was wirzu tun haben: Wir erhalten lediglich einGesamtergebnis für einen Vorgang (Habenwir das Schachspiel gewonnen oder nicht?Und wie sicher haben wir es gewonnen?),aber keine Ergebnisse für die Zwischenschritte.195

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!