Lernverfahren von KÃ¼nstlichen Neuronalen Netzwerken

Weitere Magazine

Empfehlungen

Info

3 Modelle Im Laufe der letzen fünfzehn Jahre sind unzählige Modelle entstanden, die meistens für einen bestimmten Aufgabentyp entwickelt wurden oder einen bestimmten biologischen Aspekt aufzeigen wollten. Darum kann man eigentlich nicht sagen, dass ein Modell besser oder leistungsfähiger ist als das andere, man kann höchstens sagen, dass es für eine bestimmte Aufgabe besser geeignet ist. Von all den Modellen, die existieren, wurde hier eine Auswahl unter den interessantesten und bekanntesten KNN gemacht. 3.1 Perzeptron 7,8 Das Perzeptron wurde schon in den 60er Jahren entwickelt und ist eigentlich der Vorfahre der anderen Modelle. Anhand von ihm wurden das erste Mal die oben beschriebenen theoretischen Voraussetzungen für KNN definiert. 3.1.1 Aufbau eines Perzeptrons Abb. 7: Ein einstufiges Perzeptron Das Perzeptron besteht aus zwei Schichten. In der ersten Schicht hat es n Neuronen, die über trainierbare Verbindungen vollständig mit den nächsten Zellen verbunden sind. Die zweite Schicht ist die Ausgabeschicht und besteht aus nur einem Neuron, das die Nummer n + 1 = j hat. Die Eingabe, Aktivierung und Ausgabe der Neuronen dürfen nur binäre Werte annehmen, jedoch sind die Gewichte und Schwellenwerte reelle Zahlen. Daraus folgt, dass die Aktivierungsfunktion die Schwellenwertfunktion sein muss. Der Output des Neurons j ist also 1, wenn der Input net j grösser ist als der Schwellenwert θ j des Neurons j, andernfalls 0. Mathematisch ausgedrückt: ⎧ ⎨ 1 falls net j ≥ θ j o j = a j = , mit net ⎩ j = 0 falls net j < θ j n∑ o i · w ij Interessant ist es nun zu untersuchen, welche binären Funktionen sich mit einem solch einfachen Netz lösen lassen. Die Topologie des Perzeptrons setzt voraus, dass nur binäre Funktionen, die jedem möglichen n-dimensionalen Eingabevektor entweder die Zahl 0 oder 1 zuordnen, in Frage kommen. Im nächsten Abschnitt wird die Frage geklärt, ob jede beliebige binäre Funktion von einem Perzeptron dargestellt werden kann. 3.1.2 Lineare Trennbarkeit Die lineare Trennbarkeit lässt sich am besten anhand eines Beispiels aufzeigen. Ein Perzeptron mit zwei Eingabeneuronen soll die logische AND- Funktion ausführen, d.h. nur eine 1 ausgeben, wenn beide Eingaben 1 sind, sonst soll es eine 0 ausgeben. Mathematisch: o j = 1 , falls net j = o 1 w 1j + o 2 w 2j ≥ θ j . Für w 2j > 0 ist dies äquivalent zu der Ungleichung i=1 o 2 ≥ 1 w 2j (θ j − o 1 w 1j ). Abb. 8: Lineare Trennbarkeit Da w 1j , w 2j und θ j konstant sind, beschreibt diese Ungleichung eine Halbebene in der durch o 1 und o 2 gebildeten Ebene (siehe Abb. 8). Bei positivem w 2j stellen alle Gitterpunkte innerhalb dieser Halbebene Kombinationen von o 1 und o 2 dar, für welche die Ausgabe 1 ist, ausserhalb ist die Ausgabe 0. Wenn man w 1j , w 2j und θ j z.B. so wählt, 12
dass die Trenngerade durch die Punkte (1/0.5) und (0.5/1) geht, entspricht das Perzeptron einem AND-Operator. Für w 1j = 1, w 2j = 1 und θ j = 1.5 ist das der Fall. Das AND-Problem könnte man auch verallgemeinern, indem man n anstatt 2 Eingabeneuronen verwenden würde. Allerdings wäre dann die vorher trennende Gerade eine (n−1)- dimensionaler Ebene im n-dimensionalen Raum, was man sich zwar nur schwer vorstellen kann, mathematisch aber nicht wesentlich schwieriger zu rechnen ist. Mit einem einstufigen Perzeptron lassen sich also nur linear trennbare Funktionen lösen. Es gibt aber unter allen binären Funktionen viel mehr nicht linear trennbare. Ein einfaches Beispiel ist das XOR-Problem. Die Ausgabe des Perzeptrons soll 1 sein, wenn die beiden Eingaben verschieden sind und 0, wenn sie gleich sind. Hier gibt es keine Gerade, die auf der einen Seite alle Kombinationen, für welche die Ausgabe 1 sein soll und auf der anderen Seite alle Kombinationen, für welche die Ausgabe 0 sein soll, hat. 3.1.3 Randerkennung bei Schwarz-Weiss-Figuren Eine etwas sinnvollere Anwendung eines einstufigen Perzeptrons ist die Randerkennung von ebenen Schwarz-Weiss-Figuren. Dazu wird ein Perzeptron mit neun Eingabeneuronen verwendet, die zu einem 3 × 3-Quadrat angeordnet sind. Die zu untersuchende Figur wird in Pixel zerlegt. Einem schwarzen Bildpunkt wird die Zahl 1, einem weissen die Zahl 0 zugeordnet. Nun wird das gesamte Bild Punkt für Punkt durchgegangen, der Punkt in der Mitte des Quadrates liegt jeweils am Rand einer Figur, wenn er selber schwarz ist, aber mindestens eines seiner Nachbarn weiss ist. Es lässt sich leicht nachprüfen, dass die dargestellte Gewichtung diese Aufgabe Abb. 9: Randerkennung mit einem Perzeptron in jedem Fall löst. Das Ausgabeneuron ist aktiv, wenn der zu untersuchende Punkt (derjenige in der Mitte) am Rand liegt und ist nicht aktiv, wenn er inner- oder ausserhalb einer Figur liegt. Für das Beispiel in Abb. 9 ergibt sich: net 10 (t) = O(t) · W 10 [ ] = 0 1 1 0 1 1 0 0 1 o 10 (t) [ ] ⊤ · −1 −1 −1 −1 8 −1 −1 −1 −1 0 = 0 · −1 + 1 · −1 + 1 · −1 + 0 · −1 + 1 · 8 + 1 · −1 + 0 · −1 + 0 · −1 + 1 · −1 + o 10 (t) · 0 = 4 ≥ θ 10 = 0.5 ⇒ o 10 (t + 1) = 1 Die Netzausgabe ist also 1 und der Punkt liegt auf dem Rand. Wie man auf die richtige Gewichtung bei einer beliebigen Aufgabe kommt, ist Thema des nächsten Unterkapitels. 3.1.4 Lernverfahren Für einstufige Perzeptrons existiert ein relativ einfacher Lernalgorithmus, der dem Netz in endlich vielen Schritten jede linear trennbare Funktion beibringen kann. Das Lernverfahren gehört zum Typ des überwachten Lernens, d.h. das erste Eingabemuster wird an das Netz angelegt und das Resultat mit dem erwarteten Output verglichen. Sind sie gleich wird nichts gemacht und der Lernalgorithmus fährt mit dem zweiten Eingabemuster fort. Ist der erwartete Output 1, der tatsächliche aber 0, werden alle Gewichte der Verbindungen von den Eingabeneuronen, die eine 1 als Ausgabe haben, zum Ausgabeneuron um den Wert der Lernrate η erhöht. Ist der tatsächliche Output grösser als der erwartete, müssen die Gewichte aller Verbindungen von Eingabeneuronen, die eine 1 senden, zum Ausgabeneuronen um η verkleinert werden. Die Lernrate hat ungefähr einen Wert zwischen 0.2 und 1. Im allgemeinen gilt, dass das Netz um so schneller lernt, desto höher die Lernrate ist. Bei zu hohen Lernraten wird aber manchmal über das Ziel 13
Seite 1 und 2: Lernverfahren von Künstlichen Neur
Seite 3 und 4: 5 Diskussion 28 6 Zusammenfassung 2
Seite 5 und 6: 2 Theoretische Grundlagen Bevor man
Seite 7 und 8: ungsfunktion f prop der Input des N
Seite 9 und 10: (a) Mit direkten Rück- (b) Mit ind
Seite 11: - Zeitliche Vorgänge Oft haben in
Seite 15 und 16: 3.1.6 Zweistufige Perzeptrons Bei z
Seite 17 und 18: 1.5 1 0.5 E 2 0.5 1 1.5 2 W12 E 1.2
Seite 19 und 20: (a) Lokale Minima (b) Flache Platea
Seite 21 und 22: (a) Jordan-Netzwerk (b) Elman-Netzw
Seite 23 und 24: 1.5 1 0.5 -3 -2 -1 1 2 3 Abstand -0
Seite 25 und 26: zerlegt. Jedem Pixel wird ein Einga
Seite 27 und 28: von KNN zu erzeugen, weil dies übe
Seite 29 und 30: 7 Literaturverzeichnis 1 Zell A., S

Lernverfahren von KÃ¼nstlichen Neuronalen Netzwerken

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?