Lernverfahren von KÃ¼nstlichen Neuronalen Netzwerken

Lernverfahren von Künstlichen 

Neuronalen Netzwerken 

Untersuchung und Vergleich der bekanntesten Lernverfahren und eine 

Übersicht über Anwendung und Forschung im Bereich der künstlichen 

neuronalen Netzen. 

Maturaarbeit von: 

Betreuer: 

Daniel Sprecher 

Prof. Dr. René Hugelshofer 

Brand Frauenäckerstr. 18 

9472 Grabserberg 9435 Heerbrugg 

Fachbereich Mathematik 

März 2002 

Kantonsschule Heerbrugg, Klasse 4NaPa

Inhaltsverzeichnis 

1 Einleitung 4 

2 Theoretische Grundlagen 5 

2.1 Das Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.1.1 Die Aktivierungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2 Verbindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.3 Topologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

2.4 Lernen, Lernregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.5 Vergleich mit biologischen Netzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.6 Vergleich mit einem konventionellen Computer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

3 Modelle 12 

3.1 Perzeptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

3.1.1 Aufbau eines Perzeptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

3.1.2 Lineare Trennbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

3.1.3 Randerkennung bei Schwarz-Weiss-Figuren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

3.1.4 Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

3.1.5 Lernverfahren bei Randerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

3.1.6 Zweistufige Perzeptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

3.1.7 Dreistufige Perzeptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

3.2 Backpropagation und seine Modifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

3.2.1 Prinzip des Lernverfahrens Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

3.2.2 Herleitung der Backpropagation-Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

3.2.3 Probleme von Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

3.2.4 Modifikationen als Lösung bestimmter Probleme . . . . . . . . . . . . . . . . . . . . . . . . . 19 

3.3 Backpercolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

3.3.1 Prinzip des Lernverfahrens Backpercolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

3.3.2 Bemerkungen zu Backpercolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

3.4 Rekurrente Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

3.4.1 Jordan-Netze und Elman-Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

3.4.2 Lernverfahren für rekurrente Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

3.5 Modell von Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

3.5.1 Prinzip der selbstorganisierenden Karten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

3.5.2 Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

3.5.3 Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

3.6 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4 Anwendungen 24 

4.1 Rand- und Buchstabenerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4.1.1 Vorgehen bei der Entwicklung eines KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4.2 Mühle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

4.3 Anwendung in Forschung und Industrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

2

5 Diskussion 28 

6 Zusammenfassung 28 

7 Literaturverzeichnis 29 

8 Dank 29 

9 Anhang 30 

9.1 Verwendete Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

9.2 CD-Rom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

Abbildungsverzeichnis 

1 Ein Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2 Mögliche Aktivierungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

3 Funktionen an einem Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

4 Neuronentypen nach Position im Netzwerk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

5 Feedforward-Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

6 Netze mit Rückkopplungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

7 Ein einstufiges Perzeptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

8 Lineare Trennbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

9 Randerkennung mit einem Perzeptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

10 Ein Perzeptron lernt die AND-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

11 Lösung des XOR-Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

12 Ein einfaches Netz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

13 Beispiele von Fehlerfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

14 Probleme beim Backpropagation-Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

15 Beispiele für rekurrente Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

16 Ein Kohonen-Netzwerk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

17 Mexican-Hat-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

18 Ein Mühlespiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3

1 Einleitung 

Als wir im Biologieunterricht das Thema Nervensystem durchnahmen, lernten wir auch die Neuronen kennen. Wir 

erfuhren, wie die Kommunikation zwischen ihnen funktioniert und sahen die verschiedenen Teile des Nervensystems 

und die Regionen des Gehirns. Verborgen blieb aber die Funktion des einzelnen Neurons. Leitet es nicht einfach 

Reize weiter? Wie kann aus einem Geflecht von Dendriten und Axonen, die über Synapsen Milliarden von Neuronen 

miteinander verbinden, ein Gebilde entstehen, das wir unser Gehirn nennen? Das wichtigste Organ unseres 

Körpers ist gleichzeitig auch das flexibelste. Durch Lernprozesse kann es sich ständig der Umgebung anpassen und 

Informationen aufnehmen. Wie aber geht man vor, wenn man mehr über die Vorgänge wissen möchte, die uns zu 

dem machen, was wir sind? 

Wie bei vielen komplexen Prozessen und Sachverhalten in Physik, Chemie und Biologie gibt es auch für neuronale 

Netze verschiedene Modelle, die das Wesentliche vereinfacht und anschaulich aufzeigen wollen. Auch bei neuronalen 

Netzen, wie man Nervensysteme verallgemeinert nennt, versuchte man Modelle zu entwickeln, mit denen 

man einerseits mehr über biologische Netze erfahren und andererseits auch Probleme in der Technik lösen wollte. 

Der Überbegriff dieser Modelle lautet künstliche neuronale Netzwerke (KNN). Gemäss Definition sind KNN 

informationsverarbeitende Systeme, die aus einer grossen Anzahl einfacher Einheiten (sog. Neuronen) bestehen. 

Die Neuronen senden sich über gerichtete Verbindungen Signale zu. Was das nun genau heisst, wird im nächsten 

Kapitel erläutert. 

Bevor ich mich definitiv entschied meine Maturaarbeit über neuronale Netzwerke zu schreiben, informierte ich 

mich im Internet tiefgehender über KNN und bemerkte, dass zur Beschreibung der verschiedenen Modelle sehr viel 

Mathematik benötigt wird. Da wurde ich neugierig, denn eigentlich hätte ich eher, wie so oft bei der Beschreibung 

von Vorgängen in der Natur, physikalische Formeln erwartet. Auch hätte ich mir, wie bei Computernetzwerken, 

Protokolle und Programme vorstellen können, welche die Kommunikation zwischen den künstlichen Neuronen regeln. 

Stattdessen fand ich grundlegende Mathematik, anfänglich einfache Multiplikationen und Additionen, später 

auch Ableitungen und Matrizenmultiplikationen, aber alles bekannte, relativ einfache Mathematik. Ich war fasziniert. 

Wie weit kann man wohl mit dem eher unbeliebten Werkzeug Mathematik ein Modell beschreiben, das 

schlussendlich unser Gehirn erklären soll und nebenbei auch noch viele technische Anwendungen hat? 

Ich war vor allem gespannt zu erfahren, wie man es schafft, ein Netz dazu zu bringen eine bestimmte Aufgabe zu 

lösen. Im Gegensatz zum Programmieren eines Programms, werden dem Netz keinerlei Regeln oder Bedingungen 

übergeben. Um zu lernen braucht ein KNN nur eine genügend grosse Anzahl von Beispielen. In diesem Zusammenhang 

wollte ich auch herausfinden, ob man bei KNN von Intelligenz sprechen könne und wenn ja, wie intelligent 

heutige Netze bereits sind. 

Nun ist das Gebiet der neuronalen Netze sehr weit und Forscher aus verschiedenen Bereichen beschäftigen sich mit 

der Weiterentwicklung der Modelle. Mathematiker, Physiker, Ingenieure, Informatiker, Biologen, Mediziner und 

sogar Psychologen nutzen aus verschiedenen Gründen neuronale Netze. In den letzen Jahrzehnten entstand so eine 

Menge verschiedener Modelle, die jeweils für unterschiedliche Anwendungen entwickelt wurden. Einige Modelle 

haben auch in der Psychologie und der Hirnforschung neue Erkenntnisse gebracht, andere waren mehr für die Weiterentwicklung 

bestimmter Theorien von Nutzen. Mit dieser Arbeit war es nicht mein Ziel möglichst komplett alle 

Modelle im Detail vorzustellen, sondern ich wollte den beschränkten Platz nutzen, um die wichtigsten, bekanntesten 

und interessantesten Modelle zu beschreiben und wendete mich dabei vor allem den verschiedenen Lernverfahren 

zu. Um nicht nur eine Zusammenfassung der Fachliteratur zu schreiben, sondern auch eigene Erfahrungen in die 

Arbeit einfliessen lassen zu können, entwickelte ich eigene Beispiele, die in Kapitel 4 beschrieben sind. 

4

2 Theoretische Grundlagen 

Bevor man ein KNN mit einem Lernverfahren trainieren kann, muss man wissen, wie ein Netz überhaupt aufgebaut 

ist, d.h. aus welchen Komponenten es besteht und welche Funktionen diese erfüllen. Jedes künstliche neuronale 

Netz setzt sich im wesentlichen aus Neuronen und gewichteten Verbindungen zusammen. Um das Netz richtig 

zu konfigurieren, verändert der Lernalgorithmus in der Lernphase die Gewichtung der Verbindungen. Die Unterschiede 

zwischen den Modellen liegen v.a. in der Art der Neuronen, der Anordnung der Verbindungen und der 

Funktionsweise des Lernalgorithmus. 

2.1 Das Neuron 1 

Das Neuron ist die kleinste informationsverarbeitende Einheit in einem KNN. Die Aufgabe 

eines Neurons besteht darin, aus dem aktuellen Input des Neurons den Output zu berechnen. 

Wie das genau vor sich geht wird anhand des Neurons j, das von Neuron i einen Input 

erhält durchgegangen. Der Output o j (t+1) des Neurons j zum Zeitpunkt t+1 erfolgt in zwei 

Schritten. Im ersten Schritt wird mit der Aktivierungsfunktion f act aus dem Input net j die 

Aktivierung a j berechnet. Mit dem Grad der Aktivierung wird dann mit Hilfe der Outputfunktion 

f out im zweiten Schritt der Output bestimmt, den das Neuron j an die folgenden 

Neuronen weitergibt. 

Ein Neuron führt also hintereinander folgende zwei Funktionen durch: 

Abb. 1: Ein Neuron 

1. a j (t + 1) = f act (net j (t)) 

2. o j (t + 1) = f out (a j (t + 1)) 

Wie man sieht, benötigt die Berechnung des Aktivierungszustandes einen Zeitschritt, während für die Outputfunktion 

in der Theorie kein Zeitschritt eingeplant ist. Um bei der Simulation neuronaler Netze Rechenleistung zu 

sparen, wird in der Praxis in den meisten Fällen die Identität als Outputfunktion verwendet. 

2.1.1 Die Aktivierungsfunktion 3 

Ein Neuron macht bei den meisten Modellen also nichts anderes als die Aktivierungsfunktion durchzuführen. Theoretisch 

könnte man eine beliebige Funktion als Aktivierungsfunktion verwenden. Sinn machen aber nur Funktionen, 

die bei grösserem Input auch einen grösseren Output liefern. Üblich sind drei verschiedene Arten von Funktionen: 

1. Lineare Funktion 

Die einfachste Funktion, die verwendet wird ist eine lineare Funktion. Hier nimmt die Aktivierung des Neurons 

linear mit dem Input zu. Zur theoretischen Herleitung vieler Lernverfahren war sie anfangs sehr wichtig. Sie 

wird aber heute nur noch selten verwendet, da sie biologisch unplausibel ist und in der Praxis gegenüber 

anderen Funktionen keine Vorteile hat. 

2. Binäre Schwellenwertfunktion 

Sie ist eigentlich biologisch am offensichtlichsten und wurde bei frühen Modellen (z.B. Perzeptron) auch meistens 

verwendet. Das Neuron ist aktiv, wenn der Input einen bestimmten Schwellenwert übersteigt, sonst ist 

es nicht aktiv. Als Beispiel einer solchen Funktion sei die Heavyside- oder Signum-Funktion genannt. 

Der Vorteil der Schwellenwertfunktion ist die einfache und schnelle Berechenbarkeit. Trotzdem wird sie bei 

neueren Modellen nicht mehr verwendet, da moderne Lernalgorithmen zur Bestimmung der optimalen Konfiguration 

eines Netzes die Ableitung der Aktivierungsfunktion benötigen und diese für die binäre Schwellenwertfunktion 

überall, wo sie differenzierbar ist, Null ist. 

5

aj 

1 

0.5 

-1 -0.5 0.5 1 

netj 

aj 

1 

0.8 

0.6 

0.4 

0.8 

0.6 

0.4 

aj 

1 

-0.5 

0.2 

0.2 

-1 

0.2 0.4 0.6 0.8 

netj 

-1 -0.5 0.5 1 

netj 

(a) Lineare Funktion 

(b) Schwellenwertfunktion 

(c) Sigmoide Funktion 

Abb. 2: Mögliche Aktivierungsfunktionen 

3. Sigmoide Funktion 

Bei genauerer Untersuchung von biologischen Neuronen bemerkte man, dass die Aktivierungsschwelle eines 

Neurons nicht immer ganz genau gleich hoch ist. Mal muss die Zelle ein bisschen mehr angeregt werden, 

damit sie das Signal weiter leitet, mal ist sie früher als erwartet aktiv. Daraus ergibt sich eine Art Wahrscheinlichkeitsverteilung 

für die Aktivierungsfunktion, welche die Form einer sigmoiden (S-förmigen) Funktion 

annimmt. Sie hat die Form einer abgerundeten Schwellenwertfunktion. Die Steigung ist in ihrem Zentrum 

am grössten. Am häufigsten werden heute die logistische Funktion und Tangens hyperbolicus verwendet. Wie 

schon erwähnt ist die Ableitung der Aktivierungsfunktion bei modernen Lernverfahren sehr wichtig. Sie ist 

darum für diese Funktionen angegeben: 

a) logistische Funktion 

b) Tangens hyperbolicus 

f log (x) = 

f ′ log(x) = 

1 

1 + e −x 

e −x 

(1 + e −x ) 2 = f log(x) · (1 − f log (x)) 

tanh(x) = ex − e −x 

e x + e −x 

tanh ′ (x) = (ex + e −x ) 2 − (e x − e −x ) 2 4 

(e x + e −x ) 2 = 

(e x + e −x ) 2 = 1 − tanh2 (x) 

Die Wahl der Aktivierungsfunktion bestimmt auch die Werte, die der Aktivierungszustand a j annehmen kann. Bei 

einer linearen Funktion kann a j theoretisch alle Werte in R annehmen, wird eine sigmoide Aktivierungsfunktion 

gewählt, ist a i ∈ [−1, 1]. Die Schwellenwertfunktion kann a i nur zwei Werte zuordnen, z.B. {0, 1}, {−1, 1} oder 

{−, +}. 

2.2 Verbindungen 3 

Neuronen tauschen über gerichtete, gewichtete Verbindungen Informationen aus, d.h. dass Informationen nur in 

eine Richtung durch eine Verbindung fliessen können, und dass jedes Signal zwischen zwei Neuronen mit einem 

Faktor (=Gewicht) multipliziert wird. Besteht eine Verbindung vom Neuron i zum Neuron j wird das zu dieser 

Verbindung gehörende Gewicht mit w ij bezeichnet (Reihenfolge von i und j beachten). Ist diese Verbindung die 

einzige Inputverbindung des Neurons j, so entspricht der Output des Neurons i multipliziert mit dem Gewicht 

w ij dem Input des Neurons j. Hat das Neuron j jedoch mehrere Inputverbindungen, wird mit Hilfe der Propagie- 

6

ungsfunktion f prop der Input des Neurons j aus den Outputs aller Neuronen k, die zu j eine Verbindung haben 

berechnet: 

net j (t) = f prop (o k (t), w kj ) = ∑ k 

o k (t) · w kj 

Abb. 3: Die drei Funktionen, die an 

einem Neuron durchführt werden 

Die Gewichte aller Verbindungen in einem Netzwerk werden oft in der Gewichtsmatrix 

W gespeichert. Hat das Netz n Neuronen, ist W eine n × n- 

Matrix. Das Gewicht w ij kann man in der i-ten Zeile und der j-ten Spalte 

der Matrix W ablesen. Ist keine Verbindung von i zu j vorhanden, steht 

dort eine Null. 

Darum kann man die Propagierungsfunktion als Multiplikation von zwei 

Matrizen verstehen: 

n∑ 

net j (t) = O(t) · W j = o i (t) · w ij = f prop (o k (t), w kj ) 

i=1 

O(t) ist dabei eine 1 × n-Matrix, die den aktuellen Output aller n Zellen des Netzes enthält. W j ist die j-te Spalte 

der Gewichtsmatrix und hat somit die Dimension n × 1. Das Produkt hat die Dimension 1 × 1 und ergibt den Input 

des Neurons j. 

2.3 Topologien 1 

In einem KNN unterscheidet man drei Typen von Neuronen. An die Eingabeneuronen 

legt man die Ausgangswerte der zu lösenden Aufgabe, von 

den Ausgabeneuronen kann bei richtiger Konfiguration des Netzes das 

Resultat abgelesen werden. Neuronen, die keine dieser beiden Aufgaben 

erfüllen, sondern allein zur Verarbeitung der Informationen dienen, heissen 

”Verdeckte Neuronen”. 

Meistens sind in einem KNN nicht alle Neuronen miteinander verbunden, 

sondern die Verbindungen sind nach einem bestimmten System angeordnet. 

Die Art und Weise, wie Neuronen und Verbindungen angeordnet 

Abb. 4: Neuronentypen nach Position 

im Netzwerk 

sind, wird als Topologie bezeichnet. Um die Anordnung der Verbindungen 

übersichtlich zu gestalten, werden für gewöhnlich die Eingabeneuronen ganz oben, die Ausgabeneuronen ganz 

unten angeordnet. Die verschiedenen Topologien sind im folgenden systematisch beschrieben: 

1. Netze ohne Rückkopplung 

Bei feedforward-Netzen existiert kein Pfad, der von einem Neuron aus direkt oder indirekt wieder zu diesem 

zurückführt. Werden also die Eingabeneuronen oben und die Ausgabeneuronen unten angeordnet, gibt es nur 

Verbindungen, die nach unten führen. 

Ebenenweise vollständig verbundene feedforward-Netze: 

Dieses spezielle feedforward-Netzwerk wird in mehrere Schichten eingeteilt. Die erste Schicht bilden die Eingabeneuronen. 

Danach folgen keine, eine oder mehrere sog. verdeckte Schichten. Die letzte Schicht ist die 

Ausgabeschicht. Speziell an diesem Typ ist, dass jedes Neuron der i-ten Schicht zu allen Neuronen der (i+1)- 

ten eine Verbindung hat, sonst aber zu keinen. Man spricht von einem n-stufigen Netz, wenn insgesamt (n+1) 

Schichten vorhanden sind, d.h. ein einstufiges Netz hat sowohl eine Eingabe- als auch eine Ausgabeschicht, 

jedoch keine verdeckten Schichten. 

7

(a) Allgemeines feedforward-Netz (b) Ebenenweise vollständig 

verbundenes feedforward-Netz 

Abb. 5: Feedforward-Netzwerke 

Die allgemeinen feedforward-Netze werden zwar oft auch in Schichten eingeteilt, es sind aber auch Verbindungen 

zu Neuronen weiter entfernter Schichten möglich. Solche Verbindungen nennt man shortcut-Verbindungen. 

2. Netze mit Rückkopplungen 

a) Netze mit direkten Rückkopplungen: 

In solchen Netzen kann ein Neuron durch eine Verbindung zu sich selbst seinen eigenen Aktivierungszustand 

beeinflussen (je nach Gewichtung abschwächen oder verstärken). 

b) Netze mit indirekten Rückkopplungen: Im Gegensatz zu feedforward-Netzen, existieren Verbindungen von 

Neuronen höherer Schichten zu Neuronen niederer Schichten. 

c) Netze mit Rückkopplungen innerhalb einer Schicht: 

Auch Neuronen derselben Schicht sind miteinander verbunden. Eine solche Topologie wird bei Kohonen- 

Netzwerken verwendet (siehe Kapitel 3.5). 

d) Vollständig verbundene Netze 

In solchen Netzen existieren Verbindungen zwischen allen Neuronen, es sind jedoch keine direkten Rückkopplungen 

vorhanden. Vollständig verbundene Netze sind insbesondere als Hopfield-Netze bekannt geworden. 

2.4 Lernen, Lernregeln 3,4,5 

Meistens erfolgt Lernen in KNN durch Modifikation der Gewichtsmatrix. Dazu werden dem Netz verschiedene 

Trainingsmuster wiederholt präsentiert. Die Lernregel gibt dann an, wie die Gewichtsmatrix verändert wird. Sie ist 

der interessanteste Teil eines KNN, weil sie erlaubt, dass ein Netz eine gegebene Aufgabe selbständig aus Beispielen 

lernt zu lösen. Es gibt auch Lernverfahren, die nicht nur die Werte, sondern auch die Dimension der Gewichtsmatrix 

vergrössern oder verkleinern, indem sie Neuronen hinzufügen oder entfernen. Theoretisch wäre es auch möglich das 

Lernen durch Modifikation der Aktivierungs-, Propagierungs- oder Ausgabefunktion während der Lernphase zu 

beeinflussen, es wird aber meist unterlassen. Die verschiedenen Lernregeln lassen sich in drei Gruppen einteilen: 

8

(a) Mit direkten Rück- 

(b) Mit indirekten 

(c) Mit lateralen Rück- 

(d) Ein vollständig ver- 

kopplungen 

Rückkopplungen 

kopplungen 

bundenes Netz 

Abb. 6: Netze mit Rückkopplungen 

1. Überwachtes Lernen Der Lernalgorithmus vergleicht das berechnete Ausgabemuster mit dem erwünschten 

Ausgabemuster und ändert mit dieser Information die Gewichte so ab, dass die Differenz zwischen 

tatsächlicher und erwünschter Ausgabe möglichst klein wird. D.h. aber, dass dem Lernalgorithmus zu jedem 

Beispiel, das dem Netz präsentiert wird, das erwünschte Ausgabemuster bekannt sein muss. Die Aufgabe des 

Lernverfahrens ist es, die Gewichte so zu ändern, dass das Netz nach wiederholter Präsentation der Paare 

von Eingabe- und Ausgabemuster diese Assoziation selbständig vornehmen kann und dies auch für ähnliche, 

unbekannte Eingabemuster tun kann. Das Netz soll also aus den Beispielen eine Regel extrahieren, um auch 

für unbekannte Eingaben eine sinnvolle Ausgabe zu erzeugen. 

Überwachtes Lernen wird in der Technik oft angewendet, weil es die schnellste Methode darstellt, es ist 

aber biologisch nicht plausibel. Die Delta-Regel oder der Backpropagation-Lernalgorithmus sind Beispiele für 

überwachtes Lernen. 

2. Bestärkendes Lernen Nachdem aus dem Eingabemuster die Ausgabe des Netzes berechnet wurde, überprüft 

der Lernalgorithmus, ob das Resultat richtig oder falsch ist. Nur aufgrund dieser Information ändert das 

Netz die Gewichte. Die Angabe, ob das Resultat richtig oder falsch war, lässt sich mit Bestrafung oder Belohnung 

bei Lebewesen vergleichen. Es ist ja allgemein bekannt, dass man durch Fehler (schlechte Erfahrungen) 

am besten lernt. Diese Art des Lernens ist deutlich langsamer als überwachtes Lernen. 

3. Unüberwachtes Lernen Hier lernt das Netz durch Selbstorganisation. Es versucht die Eingabemuster 

in Kategorien einzuteilen, indem es ähnliche Eingabemuster auf räumlich benachbarte Gebiete der Ausgabeschicht 

abbildet. Ein Beispiel sind die selbstorganisierenden Karten von Kohonen (siehe Kapitel 3.5). Mit 

unüberwachtem Lernen lassen sich nicht alle Aufgaben lösen, jedoch ist diese Form des Lernens biologisch 

am plausibelsten. 

Hebbsche Lernregel Die Mutter aller Lernverfahren wurde schon 1949 von Donald O. Hebb formuliert. Er hat 

sie bei biologischen Netzen entdeckt. Sie ist die Grundlage für die meisten komplizierteren Lernregeln und besagt: 

Wenn Zelle j einen Input von Zelle i erhält und beide gleichzeitig aktiviert sind, dann erhöht sich 

das Gewicht w ij proportional zum Produkt des Outputs o i von Neuron i und der Aktivierung a j des 

Neurons j. 

Die mathematische Umsetzung in einen Algorithmus wird weiter unten hergeleitet. 

9

2.5 Vergleich mit biologischen Netzen 2,6 

Wie schon erwähnt sind KNN sehr stark (nach Meinung vieler Neurobiologen zu stark) idealisierte Modelle von 

komplexen biologischen Netzen. Das Wesentliche ist jedoch in beiden Systemen gleich. 

Folgende Ähnlichkeiten konnten bei KNN beibehalten werden: 

- Neuronen Die Elemente in KNN sind relativ einfach im Vergleich mit dem Gesamtsystem. Die Informationsverarbeitung 

entspricht der eines biologischen Neurons. 

- Massive Parallelität Die Datenverarbeitung erfolgt parallel, d.h. die Aufgabe wird auf viele Neuronen 

aufgeteilt, nicht wie bei serieller Datenverarbeitung, wo die Befehle von einem zentralen Prozessor nacheinander 

abgearbeitet werden. 

Auch ist jedes Neuron mit relativ vielen anderen Neuronen verbunden. Bei anderen Datenverarbeitungssystemen 

ist die Kommunikation zwischen den Hardwarekomponenten viel geringer. 

- Gerichtete Verbindungen Verbindungen übertragen den Grad der Aktivierung und werden in biologischen 

Netzen, je nach dem ob sie vor oder nach der Synapse liegen, Axone oder Dendriten genannt. Die 

Funktion ist aber genau die gleiche. 

- Gewichte Heute nimmt man an, dass die gesamte Informationsspeicherung in den Synapsen stattfindet. 

Auch die Lern- und Anpassungsfähigkeit des Gehirns wird nur durch die Variabilität der Synapsenstärken 

ermöglicht. Synapsen entsprechen grob den Gewichten bei KNN, weil Aktionspotentiale von verschiedenen 

Synapsen ein Neuron verschieden anregen können. Es gibt auch hemmende Synapsen, welche Gewichten mit 

negativem Vorzeichen entsprechen. 

- Hebbsche Lernregel Schon früh erkannte man, dass im Gehirn die Verbindung zwischen zwei Neuronen 

gestärkt wird, wenn sie gleichzeitig aktiv sind. Diese Lernregel wurde von Hebb auf KNN übertragen. Von 

der Hebbschen Lernregel sind dann viele weitere Lernalgorithmen abgeleitet worden. 

- Assoziativspeicher Informationen werden im Gehirn nicht wie beim Computer mit Hilfe von Adressen 

gespeichert, mit denen man die Daten wieder findet, sondern assoziativ. Auch KNN wurden schon erfolgreich 

als Assoziativspeicher benutzt. 

Daneben gibt es aber auch viele Aspekte, die von den meisten Modellen nicht berücksichtigt werden und der 

Vereinfachung zum Opfer fallen mussten: 

- Anzahl der Neuronen und Verbindungen Die Zahl der Neuronen in unserem Gehirn wird auf etwa 

10 11 geschätzt, bei Simulationen werden aber nur etwa 10 2 bis 10 4 Neuronen verwendet. Es ist anzunehmen, 

dass sich viele Fähigkeiten erst mit einer grösseren Anzahl von Neuronen realisieren lassen. Auch die Anzahl 

der Verbindungen pro Neuron sind in biologischen Systemen viel höher als bei Simulationen. 

- Amplitudenmodulation statt Frequenzmodulation Bei biologischen Systemen ist ein Signal stärker, 

wenn die Frequenz der ankommenden Aktionspotentiale grösser ist. Eine solche Modulation ist nötig, weil 

Nervenfasern Information binär übertragen. Im Gegensatz dazu verwenden KNN eine sog. Amplitudenmodulation 

und können somit mit einem numerischen Aktivierungswert arbeiten. Synapsen lassen sich dann als 

Faktoren interpretieren, welche diesen Aktivierungswert ändern. Es ist noch unerforscht, ob Frequenzmodulation 

entscheidende Vorteile gegenüber der heute verwendeten Informationsübertragung bringt. Einige neuere 

Modelle, die pulscodierte Verfahren verwenden, erbrachten bisher für technische Anwendungen keine Vorteile, 

hatten aber einen viel höheren Simulationsaufwand zur Folge. 

10

- Zeitliche Vorgänge Oft haben in Nervenfasern zeitliche Vorgänge einen beachtlichen Einfluss. In KNN 

wird Zeit einfach mit der Anzahl Schritten gleichgesetzt und die Verzögerung der Aktivierung vernachlässigt. 

- Biologisch unplausible Lernregeln Viele Lernalgorithmen, die mit überwachtem Lernen arbeiten, sind 

aus mathematischen oder physikalischen Überlegungen entstanden und haben mit biologischen Netzen überhaupt 

nichts zu tun. So z.B. das Gradientenabstiegsverfahren. Trotzdem werden sie für technische Anwendungen 

erfolgreich benutzt und sind weiter unten beschrieben. 

- Beeinflussung durch räumlich benachbarte Neuronen In der Realität beeinflussen benachbarte 

Neuronen einander nicht nur über direkte Verbindungen, sondern auch mit chemischen Substanzen, wie z.B. 

Hormone oder Neurotransmitter. 

Es gibt sicher noch viele andere Unterschiede, es ist aber wichtig, dass man versteht, dass Modelle gar nicht gleich 

sein dürfen, wie ihr Vorbild. Modelle sind dazu da, einen Sachverhalt so darzustellen, dass man ihn versteht. 

Daneben haben KNN sogar noch einen technischen Nutzen. Es gibt für jeden der oben aufgeführten Kritikpunkte 

mindestens ein Modell, bei dem der beschriebene Unterschied nicht vorhanden ist, aber mehr Nach- als Vorteile 

brachte und darum bei den meisten anderen Modellen weggelassen wurde. Durch die Weiterentwicklung solcher 

Ideen entstehen im Laufe der Zeit aber immer mehr biologienahe KNN, die auch technische Fragestellungen sehr 

gut lösen können. 

2.6 Vergleich mit einem konventionellen Computer 6 

Der Prozessor eines herkömmlichen PCs besteht aus sehr vielen Transistoren, die Informationen seriell verarbeiten. 

Da die Schaltzeit eines Transistors sehr klein ist (ca. 1ns) könnte ein Computer theoretisch mehr Schaltvorgänge 

in einer Sekunde durchführen als unser Gehirn (”Schaltzeit” eines Neurons beträgt ca. 1ms). Trotzdem übertrifft 

die Leistungsfähigkeit unseres Gehirns jeden Supercomputer. Möglich wird dies durch die massiv parallele 

Datenverarbeitung der neuronalen Netze. Zu jedem Zeitpunkt arbeitet ein grosser Teil des Gehirns, während bei 

herkömmlichen Rechnern die meisten Verarbeitungselemente dem Speicher zugeordnet sind und somit keine Optimierung 

der Leistung bewirken. Sie sind nur bei der Abfrage der Daten, die bei ihnen gespeichert sind, aktiv. Durch 

die massive Parallelität können neuronale Netze jede Aufgabe, die sie imstande sind zu lösen, in einer übersichtlichen 

Anzahl Schritte lösen, jedoch kann die Anzahl der benötigten Neuronen bei anspruchsvollen Aufgaben sehr 

gross werden (Unser Gehirn besteht aus ca. 100 Milliarden Neuronen). Man spricht in diesem Zusammenhang auch 

von der 100-Schritt-Regel, da unser Gehirn in etwa 100 sequentiellen Zeitschritten ( ˆ=0.1s) eine bekannte Person 

in einem Bild erkennen kann, während ein konventioneller Rechner in 100 sequentiellen Verarbeitungsschritten fast 

nichts tun kann. 

Die Parallelität hat auch noch weitere Vorteile. So kann ein neuronales Netz nach Ausfall einiger Elemente immer 

noch funktionsfähig sein. Software im Sinne von speziellen, problembezogenen Programmen, wie sie in konventionellen 

Computern vorhanden sind, sucht man in neuronalen Netzen vergeblich. Probleme werden durch gezielte 

Konfiguration der Netzparameter gelöst. 

11

3 Modelle 

Im Laufe der letzen fünfzehn Jahre sind unzählige Modelle entstanden, die meistens für einen bestimmten Aufgabentyp 

entwickelt wurden oder einen bestimmten biologischen Aspekt aufzeigen wollten. Darum kann man eigentlich 

nicht sagen, dass ein Modell besser oder leistungsfähiger ist als das andere, man kann höchstens sagen, dass es für 

eine bestimmte Aufgabe besser geeignet ist. Von all den Modellen, die existieren, wurde hier eine Auswahl unter 

den interessantesten und bekanntesten KNN gemacht. 

3.1 Perzeptron 7,8 

Das Perzeptron wurde schon in den 60er Jahren entwickelt und ist eigentlich der Vorfahre der anderen Modelle. 

Anhand von ihm wurden das erste Mal die oben beschriebenen theoretischen Voraussetzungen für KNN definiert. 

3.1.1 Aufbau eines Perzeptrons 

Abb. 7: Ein einstufiges Perzeptron 

Das Perzeptron besteht aus zwei Schichten. In der ersten Schicht hat 

es n Neuronen, die über trainierbare Verbindungen vollständig mit den 

nächsten Zellen verbunden sind. Die zweite Schicht ist die Ausgabeschicht 

und besteht aus nur einem Neuron, das die Nummer n + 1 = j hat. Die 

Eingabe, Aktivierung und Ausgabe der Neuronen dürfen nur binäre Werte 

annehmen, jedoch sind die Gewichte und Schwellenwerte reelle Zahlen. 

Daraus folgt, dass die Aktivierungsfunktion die Schwellenwertfunktion 

sein muss. Der Output des Neurons j ist also 1, wenn der Input net j grösser ist als der Schwellenwert θ j des 

Neurons j, andernfalls 0. Mathematisch ausgedrückt: 

⎧ 

⎨ 1 falls net j ≥ θ j 

o j = a j = 

, mit net 

⎩ 

j = 

0 falls net j < θ j 

n∑ 

o i · w ij 

Interessant ist es nun zu untersuchen, welche binären Funktionen sich mit einem solch einfachen Netz lösen lassen. 

Die Topologie des Perzeptrons setzt voraus, dass nur binäre Funktionen, die jedem möglichen n-dimensionalen 

Eingabevektor entweder die Zahl 0 oder 1 zuordnen, in Frage kommen. Im nächsten Abschnitt wird die Frage 

geklärt, ob jede beliebige binäre Funktion von einem Perzeptron dargestellt werden kann. 

3.1.2 Lineare Trennbarkeit 

Die lineare Trennbarkeit lässt sich am besten anhand eines Beispiels auf- 

zeigen. Ein Perzeptron mit zwei Eingabeneuronen soll die logische AND- 

Funktion ausführen, d.h. nur eine 1 ausgeben, wenn beide Eingaben 1 

sind, sonst soll es eine 0 ausgeben. Mathematisch: 

o j = 1 , falls net j = o 1 w 1j + o 2 w 2j ≥ θ j . 

Für w 2j > 0 ist dies äquivalent zu der Ungleichung 

i=1 

o 2 ≥ 1 

w 2j 

(θ j − o 1 w 1j ). 

Abb. 8: Lineare Trennbarkeit 

Da w 1j , w 2j und θ j konstant sind, beschreibt diese Ungleichung eine Halbebene in der durch o 1 und o 2 gebildeten 

Ebene (siehe Abb. 8). Bei positivem w 2j stellen alle Gitterpunkte innerhalb dieser Halbebene Kombinationen von 

o 1 und o 2 dar, für welche die Ausgabe 1 ist, ausserhalb ist die Ausgabe 0. Wenn man w 1j , w 2j und θ j z.B. so wählt, 

12

dass die Trenngerade durch die Punkte (1/0.5) und (0.5/1) geht, entspricht das Perzeptron einem AND-Operator. 

Für w 1j = 1, w 2j = 1 und θ j = 1.5 ist das der Fall. Das AND-Problem könnte man auch verallgemeinern, indem 

man n anstatt 2 Eingabeneuronen verwenden würde. Allerdings wäre dann die vorher trennende Gerade eine (n−1)- 

dimensionaler Ebene im n-dimensionalen Raum, was man sich zwar nur schwer vorstellen kann, mathematisch aber 

nicht wesentlich schwieriger zu rechnen ist. 

Mit einem einstufigen Perzeptron lassen sich also nur linear trennbare Funktionen lösen. Es gibt aber unter allen 

binären Funktionen viel mehr nicht linear trennbare. Ein einfaches Beispiel ist das XOR-Problem. Die Ausgabe des 

Perzeptrons soll 1 sein, wenn die beiden Eingaben verschieden sind und 0, wenn sie gleich sind. Hier gibt es keine 

Gerade, die auf der einen Seite alle Kombinationen, für welche die Ausgabe 1 sein soll und auf der anderen Seite 

alle Kombinationen, für welche die Ausgabe 0 sein soll, hat. 

3.1.3 Randerkennung bei Schwarz-Weiss-Figuren 

Eine etwas sinnvollere Anwendung eines einstufigen Perzeptrons 

ist die Randerkennung von ebenen Schwarz-Weiss-Figuren. Dazu 

wird ein Perzeptron mit neun Eingabeneuronen verwendet, die zu 

einem 3 × 3-Quadrat angeordnet sind. Die zu untersuchende Figur 

wird in Pixel zerlegt. Einem schwarzen Bildpunkt wird die Zahl 1, 

einem weissen die Zahl 0 zugeordnet. Nun wird das gesamte Bild 

Punkt für Punkt durchgegangen, der Punkt in der Mitte des Quadrates 

liegt jeweils am Rand einer Figur, wenn er selber schwarz 

ist, aber mindestens eines seiner Nachbarn weiss ist. Es lässt sich 

leicht nachprüfen, dass die dargestellte Gewichtung diese Aufgabe 

Abb. 9: Randerkennung mit einem Perzeptron 

in jedem Fall löst. Das Ausgabeneuron ist aktiv, wenn der zu untersuchende Punkt (derjenige in der Mitte) am 

Rand liegt und ist nicht aktiv, wenn er inner- oder ausserhalb einer Figur liegt. Für das Beispiel in Abb. 9 ergibt 

sich: 

net 10 (t) = O(t) · W 10 

[ 

] 

= 0 1 1 0 1 1 0 0 1 o 10 (t) 

[ 

] ⊤ 

· −1 −1 −1 −1 8 −1 −1 −1 −1 0 

= 0 · −1 + 1 · −1 + 1 · −1 + 0 · −1 + 1 · 8 + 1 · −1 + 0 · −1 + 0 · −1 + 1 · −1 + o 10 (t) · 0 

= 4 ≥ θ 10 = 0.5 ⇒ o 10 (t + 1) = 1 

Die Netzausgabe ist also 1 und der Punkt liegt auf dem Rand. Wie man auf die richtige Gewichtung bei einer 

beliebigen Aufgabe kommt, ist Thema des nächsten Unterkapitels. 

3.1.4 Lernverfahren 

Für einstufige Perzeptrons existiert ein relativ einfacher Lernalgorithmus, der dem Netz in endlich vielen Schritten 

jede linear trennbare Funktion beibringen kann. Das Lernverfahren gehört zum Typ des überwachten Lernens, d.h. 

das erste Eingabemuster wird an das Netz angelegt und das Resultat mit dem erwarteten Output verglichen. Sind 

sie gleich wird nichts gemacht und der Lernalgorithmus fährt mit dem zweiten Eingabemuster fort. Ist der erwartete 

Output 1, der tatsächliche aber 0, werden alle Gewichte der Verbindungen von den Eingabeneuronen, die eine 1 als 

Ausgabe haben, zum Ausgabeneuron um den Wert der Lernrate η erhöht. Ist der tatsächliche Output grösser als der 

erwartete, müssen die Gewichte aller Verbindungen von Eingabeneuronen, die eine 1 senden, zum Ausgabeneuronen 

um η verkleinert werden. Die Lernrate hat ungefähr einen Wert zwischen 0.2 und 1. Im allgemeinen gilt, dass das 

Netz um so schneller lernt, desto höher die Lernrate ist. Bei zu hohen Lernraten wird aber manchmal über das Ziel 

13

hinausgeschossen. 

In einer Pseudo-Programmiersprache könnte der Algorithmus etwa so aussehen. t j ist dabei der erwartete Output: 

while Menge der Eingabemuster nicht leer do 

lege neues Eingabemuster p an und berechne den Output o j 

if o j = t j then mache nichts 

else if o j = 0 then { Ausgabe ist 0, sollte 1 sein, also w ij erhöhen} 

for each i ≤ n do w ij := w ij + η · o i endfor 

endif 

if o j = 1 then { Ausgabe ist 1, solle 0 sein, also w ij verringern} 

for each i ≤ n do w ij := w ij − η · o i endfor 

endif 

endif 

endwhile 

3.1.5 Lernverfahren bei Randerkennung 

Zur Veranschaulichung des Lernalgorithmus wird hier einem einstufigen Perzeptron 

mit drei Eingabeneuronen die logische AND-Funktion beigebracht. Für 

die Gewichte und den Schwellenwert des Ausgabeneurons werden am Anfang 

zufällige Werte eingesetzt. Als Schwellenwert hat sich 1.5 ergeben, diese Zahl 

wird in der Lernphase nicht mehr geändert. Die Lernrate ist mit 0.7 relativ 

hoch. 

Wie in Abb. 10 ersichtlich, hat das Netz die Funktion nach vier Schritten gelernt. 

Dem Netz wurden dazu verschiedene Eingabemuster und die dazugehörige 

Ausgabe t 4 präsentiert. Beim ersten Muster, ist das Ausgabeneuron aktiv, sollte 

es aber nicht sein. Darum werden die Gewichte w 24 und w 34 um die Lernrate 

erniedrigt, das Gewicht w 14 bleibt gleich, weil das Neuron 1 nicht aktiviert ist. 

Dies geht so weiter bis nach dem vierten Schritt die Gewichte richtig eingestellt 

sind und somit keine weiteren Gewichtsänderungen mehr gemacht werden, weil 

dann o 4 und t 4 bei jedem beliebigen Eingabemuster übereinstimmen. 

Man merkt, wenn man den Algorithmus an einem konkreten Beispiel durchrechnet, 

dass er der Hebbschen Lernregel sehr ähnlich ist. Es mussten nur einige 

Abb. 10: Ein Perzeptron lernt die 

Anpassungen gemacht werden, da es sich um überwachtes Lernen handelt. Im 

AND-Funktion 

Vergleich mit der Hebbschen Lernregel erkennt man bei diesem Lernalgorithmus folgende Unterschiede: 

1. Es erfolgt nur eine Gewichtsänderung, wenn das Netz einen Fehler gemacht hat. Dies ist auch sinnvoll ist 

aber nur möglich, weil es sich um überwachtes Lernen handelt. 

2. Ist das Ausgabeneuron nicht aktiv, sollte aber aktiv sein, werden die Gewichte zwischen den aktiven Eingabeneuronen 

und dem nicht aktiven Ausgabeneuron geändert. Das wäre bei strikter Anwendung der Hebbschen 

Lernregel nicht möglich. 

3. Der Wert der Gewichte kann auch kleiner werden, bei der Hebbschen Lernregel gibt es keinen Fall bei dem 

eine Verbindung an Stärke abnimmt. 

14

3.1.6 Zweistufige Perzeptrons 

Bei zweistufigen Perzeptrons kann die erste Stufe dazu verwendet werden mehrere 

solcher Halbräume, wie beim einstufigen Perzeptron zu erzeugen. Die zweite 

Stufe verknüpft dann diese verschiedenen Halbräume mit Hilfe linear trennbarer 

Funktionen miteinander (z.B. AND) . So kann ein beliebiger konvexer 

Körper ”gebaut” werden (in der Ebene ein konvexes Polygon). Jedoch ist es 

nicht möglich beliebige Gebiete einzugrenzen. 

Das XOR-Problem kann mit einem zweistufigen Perzeptron gelöst werden. Dazu 

bestimmt man mit der ersten Stufe zwei Geraden. Die erste Gerade geht 

durch die Punkte (1/0.5) und (0.5/1) und bestimmt, dass bei allen Gitterpunkten 

unterhalb eine 1 ausgegeben wird. Die zweite Gerade geht durch die Punkte 

Abb. 11: Lösung des XOR- 

(0.5/0) und (0/0.5) und bestimmt, dass das Perzeptron bei allen Gitterpunkten 

Problems 

oberhalb eine 1 ausgibt. In der zweiten Stufe werden diese beiden Halbebenen 

mit der AND-Funktion verknüpft, so dass ein Gürtel entsteht, der die Punkte (1/0) und (0/1) einschliesst und die 

Punkte (0/0) und (1/1) ausschliesst, was der XOR-Funktion entspricht. 

3.1.7 Dreistufige Perzeptrons 

Beim dreistufigen Perzeptron können die ersten beiden Stufen beliebig viele konvexe Körper oder auch Halbräume 

definieren, die in der dritten Stufe dann mit einer linear trennbaren Funktion verknüpft werden. So ist es möglich 

jede beliebige Form zu konstruieren. Der Bereich muss weder konvex noch zusammenhängend sein. Höherstufige 

Perzeptrons bringen gegenüber dem dreistufigen keine Vorteile mehr. 

Bemerkung: Das Perzeptron ist nur ein theoretisches Konstrukt, das simuliert wurde, um mehr über neuronale 

Netze zu erfahren. Der Bau eines Perzeptrons würde keinen Sinn machen, da jede binäre Funktion viel billiger mit 

integrierten Schaltkreisen gelöst werden kann. 

3.2 Backpropagation und seine Modifikationen 9,10,11 

Backpropagation ist ein Lernverfahren, das nur auf ebenenweise vollständig verbundene feedforward-Netzwerke angewendet 

werden kann. Im Unterschied zum Perzeptron können Aktivierungszustände, Input und Output beliebige 

reelle Werte annehmen. Darum wird als Aktivierungsfunktion meist eine sigmoide Funktion gewählt. 

3.2.1 Prinzip des Lernverfahrens Backpropagation 

Das einfachste feedforward-Netz, das man sich vorstellen kann, besteht aus zwei Neuronen: Ein Eingabeneuron 

(Nummer 1) und ein Ausgabeneuron (Nummer 2). Will man nun mit diesem Netz eine einfache Aufgabe lösen, 

z.B. eine Subtraktion um 0.5 der Zahlen von 0.5 bis 1.5, muss man das Gewicht w 12 so wählen, dass der Fehler 

möglichst klein wird. Dass der Fehler nicht Null sein kann, ist offensichtlich, da im Netz neben den beiden Aktivierungsfunktionen 

nur eine Multiplikation ausgeführt wird. Rechnet man für jedes Gewicht den Fehler aus, entsteht 

eine Kurve, die bei einem bestimmten Wert ein Minimum hat. Die Aufgabe eines Lernalgorithmus ist es dieses 

globale Minimum zu finden. Der Gesamtfehler E eines Netzes bezüglich einer Aufgabe ist die Summe der Fehler, 

die das Netz bei jedem einzelnen Muster p macht. Also E = ∑ p 

E p 

Bei m Ausgabeneuronen ist der Fehler bei der Präsentation von einem Muster p definiert als 

E p = 1 2 

m∑ 

(t i − o i ) 2 

i=1 

15

also als Summe der quadratischen Abstände zwischen erwartetem Output t i und tatsächlichem Output o i aller 

Ausgabeneuronen bei der Präsentation des Musters p. Der Faktor 1 2 

wurde hinzugefügt, damit er bei weiteren 

Berechnungen eine Zwei wegkürzt. Auch die Quadrierung des Fehlers wäre eigentlich nicht unbedingt nötig, jedoch 

wird so der Term auf jeden Fall positiv und es muss keine Unterscheidung gemacht werden, ob t i grösser oder 

kleiner als o i ist (z.B. mit der Betragsfunktion). 

Es soll nun die Funktionsgleichung der Fehlerkurve des oben erwähnten einfachsten Netzes hergeleitet werden. Die 

Zahl der Ausgabeneuronen ist m = 1. Zum Trainieren werden folgende sechs Muster verwendet: 

1. {0.5,0} 2.{0.7,0.2} 3.{0.9,0.4} 4.{1.1,0.6} 5.{1.3, 0.8} 6.{1.5, 1} 

Die erste Zahl in den geschweiften Klammern ist jeweils die Eingabe net 1p , wobei p für die Zahl 

des Musters steht. Die zweite Zahl ist die erwartete Ausgabe t 2p des Netzes. Mit der linearen 

Aktivierungsfunktion f act (x) = a · x ergibt sich somit für den globalen Fehler 

E = 

6∑ 

E p = 

p=1 

= 

= 1 2 

6∑ 

p=1 

6∑ 

p=1 

1 

2 · (t 2p − o 2p ) 2 

1 

2 · ((net 1p − 0.5) − ((net 1p · a) · w 12 ) · a) 2 

6∑ 

(net 1p (1 − w 12 · a 2 ) − 0.5) 2 

p=1 

Bei der sigmoiden Aktivierungsfunktion f act (x) = 

1 

errechnet man für den Fehler 

1 + e−x Abb. 12: Ein 

einfaches Netz 

E = 

6∑ 

E p = 

p=1 

= 1 2 

6∑ 

p=1 

1 

2 · ((net 1 

1p − 0.5) − 

1 + e −net )2 2p 

6∑ 

(net 1p − 0.5 − 

p=1 

1 

1 + e − 1 

1+e −net 1p ·w 12 

Setzt man für net 11 bis net 16 die oben angegebenen Werte und für a beispielsweise 0.8 ein erhält 

man die beiden Funktionsgleichungen: 

für die lineare Aktivierungsfunktion und 

E = 8576w2 12 − 14800w 12 + 6875 

6250 

) 2 

= 1.372w 2 12 − 2.368w 12 + 1.1 

0.5 

E = 

(2.265 w 12 + 1) 

2 − 0.2 · (2.194w12 − 1.5) 

(2.194 w − 0.4 · (2.118w12 − 0.25) 

12 + 1) 

2 

(2.118 w 12 + 1) 

2 

− 0.6 · (2.036w 12 

+ 0.167) 

(2.036 w12 + 1) 2 − 0.8 · (1.951w 12 

+ 0.375) 

(1.951 w12 + 1) 2 − 1.864w 12 

+ 0.5 

(1.864 w12 + 1) 2 + 1.1 

für die sigmoide Aktivierungsfunktion. Man sieht hier nebenbei auch, warum man in der Entstehungsphase von 

Lernverfahren oft nur lineare Aktivierungsfunktionen verwendet hat. Der rechnerische Aufwand ist viel geringer, 

weil sich die Terme viel stärker vereinfachen lassen. Die beiden Graphen können in Abb. 13 verglichen werden. Das 

Minimum des Fehlers ermittelt man mit Hilfe der Ableitung. Dort wo sie Null ist, d.h. die Tangente des Graphen 

eine horizontale Gerade ist, befinden sich die möglichen Minima. Durch Betrachten des Graphen kann man diese 

Werte schnell den verschiedenen stationären Stellen zuordnen und findet beim Netz mit linearer Aktivierungsfunktion 

das globale Minimum bei w 12 = 0.863. Der Fehler ist dort mit 0.078 auch tatsächlich sehr klein. Beim Netz 

mit logistischer Aktivierungsfunktion erweist sich das Gewicht w 12 = 0.171 als optimal. Der Fehler ist aber mit 

0.347 grösser als beim ersten Netz. 

16

1.5 

1 

0.5 

E 

2 

0.5 1 1.5 2 W12 

E 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

-4 -2 2 4 

W12 

1.5 

1 

0.5 

0 

-1 

-0.5 

0 

0.5 

1 

0.5 

0 

-0.5 

1 -1 

(a) Fehlerkurve bei linearer 

Aktivierungsfunktion 

(b) Fehlerkurve bei 

logistischer Aktivierungsfunktion 

(c) Mögliche Fehlerfläche im R 3 

Abb. 13: Beispiele von Fehlerfunktionen 

Bei Netzwerken mit zwei Verbindungen und Gewichten wird aus der Fehlerkurve eine Fehlerfläche, bei drei Gewichten 

handelt es sich schon um einen dreidimensionalen Fehlerkörper im vierdimensionalen Raum, was sich nicht 

mehr graphische darstellen, geschweige denn vorstellen lässt. Verallgemeinert kann man sagen, dass ein feedforward- 

Netzwerk mit n Verbindungen zu jeder Aufgabe einen n-dimensionalen Fehlerkörper hat, von dem das globale 

Minimum in der (n + 1)-ten Dimension gesucht wird. 

Wäre die ganze Fehlerfläche bekannt, wäre die Bestimmung des Minimums kein Problem, jedoch ist die Berechnung 

der ganzen Fehlerfläche viel zu aufwendig und, wie man gleich sehen wird, auch überflüssig. Am Anfang der 

Lernphase werden alle Gewichte zufällig gesetzt und der Fehler wird berechnet. Das Kernproblem des Lernalgorithmus 

besteht nun darin, aus dem einen Punkt der Fehlerfläche herauszufinden, wie die Gewichte verändert werden 

müssen, damit der Fehler abnimmt. Backpropagation verwendet dazu die Steigung (=Gradient) der Fehlerfunktion 

E(W ) und ändert die Gewichte um einen Bruchteil der negativen Steigung. 

∆W = −η · E ′ (W ) 

Für das einzelne Gewicht heisst das 

∆w ij = −η 

δ E(W ). 

δw ij 

Dies ist der Fall, wenn zuerst alle Muster p präsentiert werden und erst dann eine Gewichtsänderung erfolgt. 

Meistens werden die Gewichte aber nach jedem Muster angepasst. Dann gilt: 

∆w ij = ∑ p 

−η δE p 

δw ij 

3.2.2 Herleitung der Backpropagation-Regel 

Um die Backpropagation-Regel herleiten zu können, muss zuerst die Delta-Regel in einstufigen Netzen mit linearer 

Aktivierungsfunktion betrachtet werden: 

Die Delta-Regel leitet sich von der schon erwähnten Hebbschen Lernregel ab, die besagt, dass die Gewichtsänderung 

zwischen Neuron i und j proportional zum Produkt des Outputs von i und der Aktivierung von j ist. Die Stärke 

der Änderung kann durch die Lernrate η variiert werden. Also 

∆w ij = ηo i a j 

17

Da die Delta-Regel ein Lernverfahren für überwachtes Lernen ist, muss der erwartete Output des Ausgabeneurons 

j in die Lernregel integriert werden. Dies wird erreicht, indem man die Aktivierung a j durch die Differenz zwischen 

erwartetem und tatsächlichem Output von j ersetzt. Diese Differenz wird mit δ j bezeichnet: 

∆w ij = ηo i (t j − o j ) = ηo i δ j 

Weil diese Regel nur auf Netze mit einer Schicht trainierbarer Gewichte und Neuronen mit linearer Aktivierungsfunktion 

angewendet werden darf, entwickelte man mit Backpropagation eine Verallgemeinerung, die bei beliebigen 

ebenenweise verbundenen feedforward-Netzwerken verwendet werden kann. Eigentlich sieht die Backpropagation- 

Regel genau gleich aus wie die Delta-Regel, jedoch ist das Fehlersignal δ j anders definiert: 

δ j = − δE p 

δnet j 

δ j ist also nicht mehr als Differenz zwischen erwartetem und tatsächlichem Output definiert, sondern viel allgemeiner 

als Änderung des Fehlers bei Muster p bei Änderung des Inputs des Neurons j. Wegen o j = f act (net j ) erhält man: 

δ j = − δE p 

δnet j 

= − δE p 

δo j 

· 

δo j 

δnet j 

= − δE p 

δo j 

· 

δ 

δnet j 

f act (net j ) = − δE p 

δo j 

· f ′ act(net j ). 

Der erste Faktor ist für verdeckte Neuronen und Ausgabeneuronen verschieden. Ohne Herleitung ist 

⎧ 

− δE ⎨ 

p 

= 

δo j ⎩ 

(t j − o j ) , wenn j Ausgabezelle 

∑ 

k δ kw jk , wenn j verdeckte Zelle 

Wobei k alle Zellen der nachfolgenden Schicht von j darstellen soll. 

Verwendet man die logistische Aktivierungsfunktion, lässt sich δ j noch weiter vereinfachen, denn für die logistische 

Funktion gilt 

f ′ act(net j ) = f act (net j ) · (1 − f act (net j )) = o j (1 − o j ) 

Zusammengefasst ergibt sich damit folgende Backpropagation-Regel: 

∆w ij = ηo i δ j 

mit 

⎧ 

⎨ o j (1 − o j )(t j − o j ) 

δ j = 

⎩ o j (1 − o j ) ∑ k δ kw j 

, falls j eine Ausgabezelle ist, 

, falls j eine verdeckte Zelle ist. 

Nun sieht man auch wie Backpropagation zu seinem Namen kommt. Die Gewichtsänderung muss nämlich von 

der Ausgabeschicht her gegen die Eingabeschicht hin erfolgen, da δ k bei der Gewichtsänderung verdeckter Zellen 

bekannt sein muss. Man sagt auch das Fehlersignal werde von der Ausgabeschicht bis zur Eingabeschicht zurückpropagiert 

(engl. propagation = Verbreitung). 

Bei der Beschreibung des Prinzips von Backpropagation wurde erklärt, dass die Gewichtsänderung stark mit der 

Steigung der Fehlerfläche zusammenhänge. Dies ist nicht direkt aus der Regel ersichtlich, darum wird noch bewiesen, 

dass die Gewichtsänderung proportional zur Steigung er Fehlerfläche ist: 

δE p 

δw ij 

= δE p 

δnet j 

· δnet j 

δw ij 

3.2.3 Probleme von Backpropagation 

= δE p 

δnet j 

· 

δ ∑ 

δw ij 

i 

o i w ij = −δ j · o i = − ∆w ij 

η 

Weil Backpropagation ein lokales Gradientenabstiegsverfahren ist und somit nur aus Kenntnis der lokalen Umgebung 

der Fehlerfläche ein Minimum suchen muss, entstehen einige Probleme, für die man z.T. aber auch schon 

18

(a) Lokale Minima 

(b) Flache Plateaus und Oszillation in steilen 

Schluchten 

Abb. 14: Probleme beim Backpropagation-Lernverfahren 

Lösungsansätze gefunden hat. 

Symmetry Breaking ist ein Problem bei der Initialisierung der Startgewichte, d.h. bei der Wahl der Gewichte vor 

der Lernphase. Die Gewichte dürfen am Anfang nicht alle gleich gross gewählt werden, da sonst in der Schicht vor 

der Ausgabeschicht keine unterschiedlichen Gewichte mehr entstehen können und so das Netz in der Lernfähigkeit 

eingeschränkt wird. Das Problem kann vermieden werden, indem man am Anfang zufällige Werte für Gewichte verwendet. 

Zusätzlich sollten die Anfangswerte nicht zu gross gewählt werden, da die sigmoide Aktivierungsfunktion 

nahe bei Null die grösste Steigung hat und sich das Netz somit dort am schnellsten einer Aufgabe anpassen kann. 

Lokale Minima der Fehlerfläche stellen für das Backpropagation-Lernverfahren unüberwindbare Hürden dar, denn 

die Ableitung bei lokalen Minima ist, wie auch beim globalen Minimum Null und die Gewichte ändern sich nicht 

mehr. Eine allgemeingültige Lösung für diese Problem gibt es nicht, jedoch hat sich in der Praxis gezeigt, dass, 

wenn man die Schrittweite η (=Lernfaktor) genügend klein wählt und von verschiedenen Punkten der Fehlerfläche 

aus startet, meistens das globale Minimum gefunden wird. 

Flache Plateaus sind ein weiteres Problem von Gradientenverfahren. Backpropagation braucht sehr lange, bis 

es Strecken mit kleiner Steigung auf der Fehlerfläche überwunden hat, da die Gewichtsänderung von der Ableitung 

der Fehlerfunktion abhängt. Im Extremfall (bei Terrassenpunkten) kann die Ableitung Null betragen und 

Backpropagation stagniert. Ein flaches Plateau lässt sich in diesem Fall nicht von lokalen oder globalen Minima 

unterscheiden. Momentum-Term, eine Modifikation von Backpropagation, bietet eine zufriedenstellende Lösung für 

dieses Problem; es wird weiter unten beschrieben. 

Oszillation in steilen Schluchten kann auftreten, wenn durch eine zu hohe Lernrate und die grosse Ableitung 

in steilen Schluchten die Gewichte auf einer Seite so stark geändert werden, dass ein Sprung auf die andere Seite 

der Schlucht erfolgt. Wenn es dort gleich steil ist, erfolgt ein genau gleich weiter Sprung zurück. Backpropagation 

hat sich also in eine Endlosschleife verfangen. Momentum-Term hilft auch bei diesem Problem. 

3.2.4 Modifikationen als Lösung bestimmter Probleme 

Momentum-Term führt in die Lernregel von Backpropagation einen weiteren Term ein, der die Gewichtsänderung 

zum vorangehenden Zeitpunkt berücksichtigt. 

∆w ij (t + 1) = ηo i δ j + α∆w ij (t) 

19

Dies bewirkt eine Erhöhung der Gewichtsänderung in weiten Plateaus und ein Verlangsamung in stark zerklüfteten 

Fehlerflächen. Die Variable α hat dabei üblicherweise Werte zwischen 0.2 und 0.99. 

Manhattan-Training ersetzt die Backpropagation-Regel durch 

∆w ij = η · o i · sign(δ j ). 

Der Betrag des Fehlersignals spielt also keine Rolle mehr, sondern nur noch das Vorzeichen, was die Schritte, die auf 

der Fehlerfläche gemacht werden normiert. Die Vorteile des Manhatten-Trainings sind einerseits eine Einsparung 

an Rechenzeit und andererseits werden auch die Probleme bei flachen Plateaus oder steilen Tälern behoben. 

3.3 Backpercolation 12,13 

Backpercolation ist wie Backpropagation ein weiteres Lernverfahren für mehrstufige feedforward-Netzwerke. Im 

Gegensatz zu Backpropagation berechnet es aber für jedes Neuron einen eigenen Aktivierungsfehler und gibt daher 

jedem Neuron seine eigene Fehlerfläche. Backpercolation wurde entwickelt, weil Backpropagation bei Netzen 

mit vielen verdeckten Schichten nur sehr langsam lernt: Durch die Rückwärtspropagierung ändern sich die Gewichte 

in Schichten nahe der Eingabeschicht im Vergleich zu solchen nahe der Ausgabeschicht nur sehr schwach. 

Bei Backpercolation nimmt die Grösse der Gewichtsänderung bei Netzen mit mehreren verdeckten Ebenen zur 

Eingabeschicht nicht so stark ab. In der Praxis liess sich auch tatsächlich nachweisen, dass die Gewichte bei Backpercolation 

schneller konvergieren als bei Backpropagation. Das Verfahren ist wie Backpropagation ein lokales 

Gradientenabstiegsverfahren. 

3.3.1 Prinzip des Lernverfahrens Backpercolation 

Der Algorithmus von Backpercolation läuft in fünf Phasen ab: 

1. Ein Trainingsmuster p wird an die Eingabeneuronen angelegt und das Ausgabemuster wird bestimmt. Wie bei 

Backpropagation wird der Fehler E p (W ) aus der Differenz zwischen erwünschter und tatsächlicher Ausgabe 

berechnet. Sind k Ausgabeneuronen vorhanden heisst das: 

E p = 1 2 

k∑ 

(t i − o i ) 2 

i=1 

2. Wie bei Backpropagation wird der Gradient δ des Aktivierungsfehlers zu allen Schichten ausser der ersten 

verdeckten Schicht zurückpropagiert. 

3. Für alle Neuronen wird aus δ der eigene Aktivierungsfehler ∆a berechnet. Dieser ist aber nicht nur abhängig 

vom eigenen δ, sondern auch vom δ der nachfolgenden Neuronen, denn die Aktivierung eines Neurons kann 

ja auch geändert werden, indem man den Output des vorangehenden Neurons ändert und nicht nur indem 

man das Gewicht modifiziert. 

4. Alle Gewichte werden verändert und der Parameter λ wird der Fehlerverstärkung angepasst. λ ist ein Faktor 

der bei der Berechnung von ∆a benötigt wird. 

3.3.2 Bemerkungen zu Backpercolation 

Die Herleitung der Backpercolation-Regel ist noch komplizierter als die der Backpropagation-Regel. Ich unterlasse 

es deshalb genauer auf die Herleitung des Backpercolation-Lernverfahrens einzugehen. Das Wesentliche an dieser 

Art des Lernens ist aber trotzdem interessant. 

20

(a) Jordan-Netzwerk 

(b) Elman-Netzwerk 

Abb. 15: Beispiele für rekurrente Modelle 

Der Unterschied zwischen Backpropagation und Backpercolation scheint auf den ersten Blick sehr klein. Die Tatsache 

aber, dass bei Backpercolation für jedes Neuron ein Fehler berechnet wird, ist im Grunde genommen eine 

wesentliche Änderung. Man könnte fast sagen, dass das die Funktion des einzelnen Neurons bei den beiden Modellen 

völlig anders interpretiert wird. Bei Backpropagation wird aus dem Fehler des ganzen Netzes berechnet, wie 

sich die Gewichte ändern müssen, damit die Ausgabe des Netzes einen kleineren Fehler hat. Bei Backpercolation 

wird zuerst auch der Fehler des ganzen Netzes berechnet, daraus werden jedoch zuerst die Aktivierungsfehler der 

einzelnen Neuronen abgeleitet, d.h. es werden sozusagen die für den Fehler ”schuldigen” Neuronen gesucht. Diese 

ändern dann ihre Gewichte viel stärker als andere Neuronen. 

Die Prinzipen lassen sich auch anhand einer Schulklasse verbildlichen. Während der Lehrer Backpropagation nach 

einer misslungenen Prüfung der ganzen Klasse zureden und alle Schüler zu besseren Leistungen ermahnen würde, 

nähme sein Kollege Backpercolation nur die Schüler mit ungenügender Note zu sich und würde mit ihnen ganz 

gezielt bessere Leistungen anstreben. Welche der beiden Arten die bessere ist, wage ich nicht zu entscheiden. 

3.4 Rekurrente Netze 14 

Partiell rekurrente Netze bearbeiten Aufgaben, deren Lösung, also Netzausgabe nicht allein von der aktuellen Eingabe, 

sondern auch von den vorangegangenen Eingaben abhängt. Damit ist nicht nur das Eingabemuster selbst 

wichtig sondern auch seine Position in der gesamten Mustersequenz (= Zeitreihe). Besonders geeignet sind rekurrente 

Netze somit für die Erkennung und Klassifikation zeitveränderlicher Muster und für die Prognose von 

Zeitreihen (siehe Kapitel 4.3). 

3.4.1 Jordan-Netze und Elman-Netze 

Jordan-Netze sind durch Kontextzellen erweiterte zweistufige feedforward-Netze (Siehe Abb. 15). Kontextzellen 

erhalten ihren Input einerseits von sich selber andererseits von der Ausgabeschicht des Netzes. Alle Verbindungen 

zu den Kontextzellen sind nicht gewichtet und somit auch nicht trainierbar. Der Output der Kontextzellen dient 

neben den Eingabezellen als Input der Neuronen der ersten verdeckten Schicht. Die Kontextzellen dienen also der 

Speicherung des Ausgabezustandes. Die Anzahl der Kontextzellen muss mit der Anzahl der Ausgabezellen übereinstimmen. 

Elman-Netze sind eine Modifikation der Jordan-Netze, bei der die Rückkopplungsverbindungen nicht mehr von 

der Ausgabeschicht zur Kontextschicht, sondern von der verdeckten zur Kontextschicht verlaufen. Auch entfallen 

in diesem Modell die direkten Rückkopplungen der Kontextzellen zu sich selbst. 

21

Hierarchische Elman-Netze sind eine Verallgemeinerung des Prinzips des Elman-Netzes auf mehrstufige feedforward- 

Netze. Neben der Eingabeschicht existieren auch bei allen verdeckten Schichten Kontextzellen, die ihren Input von 

der nächsten Schicht erhalten, aber auch von sich selbst. Die Gewichte λ i können in den verschiedenen Kontextschichten 

unterschiedliche Werte einnehmen und zeigen somit unterschiedliches Speicherverhalten. 

3.4.2 Lernverfahren für rekurrente Netze 

Auf der Suche nach geeigneten Lernverfahren für Jordan- und Elman-Netze bemerkte man, dass, wenn man die 

Gewichte der rekurrenten Verbindungen, d.h. der Verbindungen zu den Kontextzellen, vor der eigentlichen Lernphase 

fest wählt, das Backpropagation-Lernverfahren angewendet werden kann. Die Kontextzellen werden dann 

einfach wie Eingabezellen behandelt. 

Das Training eines partiell rekurrenten Netzes würde also folgendermassen ablaufen: 

1. Die Gewichte der Verbindungen zu den Kontextzellen werden festgelegt. Den indirekten Verbindungen wird 

meist das Gewicht 1 zugeordnet. 

2. Für jedes Trainingsmuster wird dann ähnlich wie bei Backpropagation folgendes durchgeführt: 

- Aus dem Eingabemuster wird ohne Beachtung der rekurrenten Verbindungen die Ausgabe berechnet. 

- Berechnung der Fehlersignale für jede Ausgabezelle aus der Differenz zwischen erwünschter und tatsächlicher 

Ausgabe. 

- Rückwärtspropagierung der Fehlersignale von der Ausgabeschicht bis zur Eingabeschicht. Die rekurrenten 

Verbindungen werden ignoriert. 

- Berechnung der Gewichtsänderungen mit Hilfe der Fehlersignale und Adaption der Gewichte. 

- Berechnung des Zustands der Kontextzellen für den nächsten Durchgang aus den Ausgabezellen oder 

Kontextzellen selber. Dies ist der einzige Schritt, der unterschiedlich zum Backpropagation-Verfahren 

ist. 

3.5 Modell von Kohonen 15 

Bis jetzt sind erst Lernverfahren vorgestellt worden, die mit Hilfe 

eines ”Lehrers” gelernt haben, d.h. dass dem Netz zu jedem Eingabemuster 

auch das dazugehörige Ausgabemuster präsentiert wurde. Wie 

können aber KNN lernen, ohne dass sie wissen, wie der richtige Output 

auszusehen hat? Mit dieser Frage hat sich der finnische Ingenieur Teuvo 

Kohonen anfangs der 80er Jahre auseinandergesetzt und dabei die 

sog. selbstorganisierenden Karten entwickelt. Diese besitzen erstaunliche 

Eigenschaften. 

3.5.1 Prinzip der selbstorganisierenden Karten 

Abb. 16: Ein Kohonen-Netzwerk 

Kohonen-Netzwerke bestehen aus zwei Schichten, einer Eingabe- und einer Kohonenschicht (entspricht der Ausgabeschicht). 

Alle Neuronen der Eingabeschicht sind vollständig mit der Kohonenschicht verbunden. In der Kohonenschicht 

sind zusätzlich alle Neuronen untereinander verbunden. Es existieren jedoch keine direkten Rückkopplungen. 

Die selbstorganisierenden Karten lernen mit einem unüberwachten Lernverfahren, d.h. dem Netz werden nur mehrere 

Eingabemuster präsentiert, die Lösung muss dieses aber selber finden. Damit steht es von allen Modellen, die 

bisher vorgestellt wurden unserem Gehirn eindeutig am nächsten. Tatsächlich kann man bei ihm viele Parallelen 

22

1.5 

1 

0.5 

-3 -2 -1 1 2 3 

Abstand 

-0.5 

wij 

1.5 

1 

0.5 

0 

-0.5 

-2 

0 

2 

-2 

0 

2 

(a) Bei eindimensionaler Kohonenschicht 

(b) Bei zweidimensionale Kohonenschicht 

Abb. 17: Mexican-Hat-Funktion 

zu biologischen Netzen erkennen, die einige Interpretationen, auch auf unser Gehirn, zulassen. 

Die Gewichte der Verbindungen innerhalb der Kohonenschicht werden am Anfang der Lernphase fest bestimmt, 

sie werden also vom Lernverfahren nicht mehr verändert. Die Festlegung dieser Gewichte erfolgt nach einem bestimmten 

Muster. Dabei hängt die Grösse des Gewichts zwischen zwei Neuronen von der Entfernung derselben ab. 

Allgemein gilt, dass die Gewichte zu Nachbarn relativ gross sind, während diese zu weiter entfernten Neuronen 

immer kleiner, bis sogar negativ werden, also hemmend sind. Diesen Sachverhalt lässt sich mit einer Funktion 

f(Abstand) ausdrücken. Kohonen verwendete dazu die nach ihrer Form benannte Mexican-Hat-Funktion, es sind 

aber auch andere Funktionen, z.B. eine lineare, denkbar. 

Eine solche Festsetzung der Gewichte hat zur Folge, dass ein Neuron der Kohonenschicht, das aufgrund des Inputs 

aus der Eingabeschicht aktiv ist, entfernte Neuronen hemmt, während es dafür sorgt, dass benachbarte Neuronen 

leichter aktiviert werden. Das aktive Neuron wird auch als das ”gewinnende Neuron” bezeichnet, weil die hemmenden 

Verbindungen so stark sind, dass nur die kleine Gruppe um das aktivste Neuron es schafft aktiv zu sein, alle 

anderen werden zu stark gehemmt. 

3.5.2 Lernverfahren 

In den selbstorganisierenden Karten von Kohonen gilt die Hebbsche Lernregel. Die Verbindung zwischen einem 

Eingabeneuron und einem Neuron der Kohonenschicht wird also gestärkt, wenn beide gleichzeitig aktiv sind. Weil 

in der Kohonenschicht oft nur das gewinnende Neuron aktiv ist, ändern sich die Gewichte dieses Neurons ein 

wenig in Richtung des aktuellen Eingabemusters, d.h. die Chance, dass dieses Neuron bei einer ähnlichen Eingabe 

wieder aktiv ist, wächst. Nun wird ein zweites Muster angelegt. Auch hier wird es in der Kohonenschicht wieder 

ein gewinnendes Neuron geben, das aber, wenn das zweite Muster genügend verschieden vom ersten ist, nicht 

das gleiche ist wie beim ersten Muster. Somit werden dessen Gewichte dem aktuellen Eingabemuster angenähert. 

Nachdem alle Muster dem Netz einige Male präsentiert wurden, bildeten sich auf der Kohonenschicht Regionen, 

die aktiv sind, wenn ein bestimmtes Muster angelegt wurde. Ähnliche Muster bewirken dann eine Aktvierung 

der gleichen Regionen auf der Kohonenschicht. Die aktive Region ist um so grösser, je öfter das jeweilige Muster 

dem Netz in der Lernphase präsentiert wurde, da sich durch die Mexican-Hat-Funktion auch die Gewichte der 

unmittelbar benachbarten Neuronen des gewinnenden Neurons dem Eingabemuster annähern. 

23

3.5.3 Bemerkungen 

- Bevor ein Kohonen-Netzwerk nach der Lernphase angewendet werden kann, muss man zuerst durch Probieren 

mit den Trainingsmustern herausfinden, welche Regionen bei welchem Eingabemuster aktiv sind. Es ist 

unmöglich dies, wie bei den anderen Modellen vor der Lernphase zu bestimmen. 

- Bei Mensch und Tier wurde tatsächlich festgestellt, dass für wichtige Organe die für sensorische Reize 

zuständigen Regionen auf der Grosshirnrinde viel grösser sind als für weniger gebrauchte Organe. So sind 

beim Menschen die Regionen für Hände und Zunge im Vergleich zu den Regionen, welche die Reize aus anderen 

Gegenden verarbeiten überproportional gross. Weiter konnte beobachtet werden, dass Regionen, die für 

amputierte Körperteile zuständig waren, allmählich Reize anderer Organe verarbeiten. 

3.6 Fazit 16 

Neben den vorgestellten Modellen findet man in der Literatur unzählige weitere Netzwerkarchitekturen und Lernalgorithmen. 

Um zu entscheiden, welches Modell für eine bestimmte Aufgabenstellung am besten geeignet ist und 

wie die Parameter genau eingestellt werden sollen, braucht es neben viel Fachwissen auch ein wenig Fingerspitzengefühl. 

Meiner Meinung nach ist dies im Moment einer der grössten Nachteile von KNN. Welcher Hersteller 

von elektronischen Systemen verliert schon gerne Monate für die Entwicklung eines geeigneten neuronalen Netzes, 

wenn es nicht unbedingt nötig ist? Gefragt wäre ein universelleres Netzwerkmodell, das man durch eine direktere 

Hardwareunterstützung schneller und kostengünstiger einer bestimmten Aufgabe anpassen könnte. Bis dies soweit 

ist, muss aber wahrscheinlich noch viel Grundlagenforschung betrieben werden. 

4 Anwendungen 

In diesem Kapitel beschreibe ich zuerst eigene Beispiele, die ich zur Veranschaulichung des Lernens in KNN gemacht 

habe. Alle Programme und die dazugehörenden Anleitungen brannte ich auf CD-Rom, welche sich im Anhang 

befinden sollte. Im letzten Unterkapitel wird noch auf die verschiedenen Gebiete in Forschung und Industrie, in 

denen neuronale Netze eingesetzt werden, eingegangen. 

4.1 Rand- und Buchstabenerkennung 

Als erstes schrieb ich ein Randerkennungsprogramm, wie es in Kapitel 3.1.3 detailliert beschrieben wurde. Weil das 

Netz sehr klein ist und die Gewichtung schon im voraus bekannt war, musste ich das Netz nicht mehr mit einem 

speziellen Simulator trainieren, sondern konnte es direkt mit der Programmiersprache TopPascal schreiben. 

Als nächstes wollte ich mich an einem komplexeren Problem versuchen, für das schon heute in der Technik KNN 

eingesetzt werden. Zuerst dachte ich an ein Prognose-Programm, z.B. für Börsenkurse oder das Wetter, jedoch hängt 

z.B. das Wetter nach der Chaostheorie von so vielen und auf den ersten Blick scheinbar belanglosen Faktoren ab, 

dass ich mit meinen relativ kleinen Netzen wohl kaum glaubhafte Voraussagen hätte machen können. Ich entschied 

mich dann für ein Buchstabenerkennungsprogramm, weil man bei diesem sofort sieht, ob das Netz erfolgreich war 

oder nicht. 

4.1.1 Vorgehen bei der Entwicklung eines KNN 

1. Als erstes musste ich mich entscheiden, wie ich dem Netz die Eingabe übergeben sollte. Ich entschied mich 

für die einfachste und naheliegenste Variante: Der zu interpretierende Buchstabe wird in Bildpunkte (=Pixel) 

24

zerlegt. Jedem Pixel wird ein Eingabeneuron zugeordnet, dessen Eingabe 1 ist, wenn der Punkt schwarz ist 

und 0, wenn der Punkt weiss ist. 

2. Da ein Netz die Anzahl der Eingabeneuronen nicht ändern kann, musste ich mich auf eine Anzahl Pixel 

festlegen. Ich einigte mich auf eine Fläche mit einer Auflösung von 14x18 Bildpunkten. Das Netz braucht 

darum gezwungenermassen 252 Eingabeneuronen. 

3. Ich wollte ein Netz verwenden, das mit überwachtem Lernverfahren lernt. Darum musste ich mir auch noch 

überlegen, wie die Ausgabe des KNN aussehen soll, d.h. wie mir das Netz mitteilt, welchen Buchstaben es 

”denkt” zu erkennen. Ich dachte mir dafür zwei verschiedene Arten aus: 

a) Die Ausgabe erfolgt in Zahlen. Das Netz gibt eine Eins beim Buchstaben A, eine Zwei beim Buchstaben 

B, usw. Weil elektronische Systeme besser mit dem einfacheren binären Zahlensystem zurechtkommen, 

verwendete ich statt des gewohnten Dezimalsystems das Zweiersystem. Den Buchstaben A codierte ich 

so mit 1, B mit 10, usw. bis Z, der mit 11010 (=26) codiert wurde. Für diese Art benötige ich also fünf 

Ausgabeneuronen. 

b) Weil das Alphabet aus 26 Buchstaben besteht, hat das Netz 26 Ausgabeneuronen. Beim Buchstaben A 

soll das erste Neuron am aktivsten sein, bei B das zweite, usw. Bei den Trainingsmustern setzte ich bei 

allen Ausgabeneuronen eine 0, nur beim Neuron, das aktiv sein soll, eine 1. 

Im nachhinein kann ich sagen, dass sich die zweite Art als besser erwiesen hat. Es scheint so, als könnten 

KNN nicht so gut mit Codierungen umgehen. 

4. Um ein Netz trainieren zu können brauchte ich nun nur noch eine Trainingsmenge mit den Eingabemustern 

und den dazugehörigen Ausgabemustern. Ich setzte mich also hin zeichnete möglichst genau alle Grossbuchstaben, 

erzeugte aus jedem eine Folge von Einsen und Nullen, setze zu jedem Muster den dazugehörigen Ausgabecode 

und trainierte damit verschiedene Netze mit dem Stuttgarter Neuronale Netze Simulator (SNNS). 

Was daraus entstanden ist, kann auf der CD-Rom betrachtet werden. 

5. Der Versuch das erfolgreich trainierte Netz komplett in ein Programm zu integrieren ist leider fehlgeschlagen. 

Ich musste darum zwei Programme schreiben, deren Bedienung nicht sehr anwenderfreundlich ist (Siehe 

Anleitung auf der CD-Rom). Das erste Programm wandelt den gezeichneten Grossbuchstaben in eine dem 

Simulator verständliche Form um, das zweite Programm interpretiert dann die Ausgabe des Netzes. Am 

besten Sie probieren es einfach einmal aus. 

4.2 Mühle 

Schon lange schwirrte die Idee ein Mühlespiel-Computers mit Hilfe von KNN zu programmieren 

in meinem Kopf herum. Diese Anwendung für KNN schien mir ideal, da 

ein Mühlespiel-Computer erstens am besten aus vielen Beispielen (d.h. mit Übung) 

lernt, zweitens explizit nur sehr schwer zu programmieren wäre und drittens einen 

Nutzen hat. Weil aber eine solche Anwendung, trotz der Hilfe von KNN, nicht ganz 

einfach zu entwickeln ist und die Zeit nach den beiden ersten Anwendungen immer 

knapper wurde, entschied ich, mich fürs erste nur mit der Setzphase beim Mühlespielen 

zu befassen. Für einen kompletten Mühlespiel-Computer hätte ich ohnehin mindestens 

vier verschiedene Netze benötigt. Eines für die Setzphase, eines für die Schiebephase, 

Abb. 18: Ein Mühlespiel 

25

eines für die Phase, in welcher der Computer springen darf, der Gegner aber nicht und noch eines für den umgekehrten 

Fall. Dazu wäre auch noch mindestens ein Netz nötig, das bei einer Mühle des Computers den gegnerischen 

Stein auswählt, der entfernt werden soll. 

Bei der Entwicklung ging ich etwa gleich vor, wie beim Buchstabenerkennungsprogramm. Ich dachte mir aber etwa 

acht verschiedene Arten aus, wie ich dem Netz die momentane Spielsituation eingeben soll, und wie das Netz mir 

wiederum zurückgeben soll, welchen Zug es machen will: 

- Einige Arten zielten auf die 24 Knotenpunkte ab. Ich wies jedem Knotenpunkt zwei oder drei Eingabeneuronen 

zu und übermittelte dem Netz über diese, ob auf dem Feld ein gegnerischer, ein eigener oder gar kein Spielstein 

steht. Die 24 Ausgabeneuronen sind ebenfalls den Knotenpunkten zugewiesen. Ist das erste Ausgabeneuron 

am aktivsten, will das Netz den nächsten Spielstein auf Feld Nummer 1 setzen, usw. 

- In den nächsten Arten stehen die 18 möglichen Mühlen im Vordergrund. Jeder Dreiergruppe von Knotenpunkten 

wies ich wieder eine verschiedene Anzahl von Eingabeneuronen zu. Die 18 Ausgabeneuronen teilte 

ich dann in zwei Teile. Die ersten neun bestimmen in welcher horizontalen Dreiergruppe, die zweiten neun in 

welcher vertikalen Dreiergruppe der nächste Spielstein liegen soll. 

- Ich probierte auch ein Netz zu entwickeln, das zwischen zwei möglichen Spielsituationen das günstigere bestimmen 

könnte. So hätte ich mit einem explizit programmierten Programm alle möglichen Züge berechnen und 

immer die resultierende Situation von zwei Zügen dem Netz übergeben können. Weil ein Spieler allerhöchstens 

26 verschiedene Zugmöglichkeiten hat (entweder mit 8 Steinen in drei Richtungen und mit einem Stein in zwei 

oder mit vier Steinen in vier Richtungen und mit fünf Steinen in zwei Richtungen), wären höchstens 26 solcher 

Vergleiche nötig, um den besten Zug herauszufinden. Am Anfang schien mir diese Art sehr vielversprechend, 

ich musste sie aber aufgeben, weil ich das Netz nicht komplett ins Programm integrieren konnte, und so vor 

jedem Zug die 26 Vergleiche von Hand hätten ausgeführt werden müssen, was doch ziemlich umständlich 

wäre. 

- Auch mit einem Kohonen-Netzwerk versuchte ich einmal einen Mühlespiel-Computer zu entwickeln, ich konnte 

mir aber keine Methode ausdenken, wie ich die verschiedenen Regionen auf der Kohonenschicht einem Zug 

zuordnen sollte und gab darum auf. 

4.3 Anwendung in Forschung und Industrie 17,18,19 

KNN werden heute in vielen verschiedenen Gebieten der Technik eingesetzt. Im folgenden werden die Aufgaben 

beschrieben, für die KNN geeignet sind und z.T. schon heute in Forschung und Industrie zur Lösung verwendet 

werden. 

• Probleme für die man keinen expliziten Algorithmus kennt, aber viele Beispiele zur Verfügung hat. Ein KNN 

mit der richtigen Topologie und Konfiguration kann aus den Beispielen eine Regel extrahieren und wird so 

auf ähnliche Eingaben auch ähnlich reagieren. 

– Prognosen Sollen Vorgänge vorausgesagt werden, bei denen kleinste Änderungen in den Ursachen zu 

grossen Unterschieden in den Wirkungen führen, sind KNN oft die beste Lösung. So wird z.B. der 

Intensitätsverlauf eines NH 3 -Lasers mit Hilfe von rekurrenten Netzwerken prognostiziert. Dies erstaunt 

auch nicht sehr, da die Intensität zu einem Zeitpunkt zum grössten Teil von der Intensität zu unmittelbar 

vorangehenden Zeitpunkten abhängt und damit eine Zeitreihe darstellt. 

Auch könnte man sich denken mit neuronalen Netzen das Wetter oder gar die Börse vorauszusagen, 

jedoch gelang es bis heute noch nicht zuverlässige Wetterprognosen oder Kursverläufe nur mit Hilfe 

26

von KNN zu erzeugen, weil dies überaus komplexe Systeme darstellen, die von unzähligen Faktoren 

abhängen. Es ist aber durchaus denkbar, dass in Zukunft Netze entwickelt werden, denen es gelingen 

könnte einigermassen zuverlässige Wetterprognosen zu berechnen. 

– Ähnlichkeitsanalyse biologisch aktiver Moleküle In den Datenbanken von Universitäten und der 

pharmazeutischen Industrie sind Formeln von Tausenden von Molekülen gespeichert, von denen man 

annimmt, dass sie biologisch aktiv sind. Dazu müssen sie ähnlich aufgebaut sein, wie Moleküle von 

denen man schon weiss, dass sie an bestimmte Rezeptoren binden können. Bei der Ähnlichkeit spielen 

neben der primären und sekundären räumlichen Struktur des Moleküls auch andere Parameter eine Rolle. 

Wichtig ist z.B. auch die Polarität, der pK s -Wert oder das Volumen. Mit Hilfe der selbstorganisierenden 

Karten von Kohonen konnte man diese Datenbanken auswerten und Gruppen von ähnlichen Molekülen 

finden. 

– Diagnosen Korrekte Diagnosen komplexer Sachverhalte sind für Menschen oft sehr schwierig, da wir 

Wesen mit Gefühlen sind und darum oft subjektiv entscheiden. Einsatz von ’beratenden’ Netzen können 

darum bei der Diagnose von Krankheiten oder der Kreditrisikoeinschätzung helfen. Auch wurden schon 

Netze trainiert Defekte von Motoren anhand des Geräusches zu erkennen. 

– Mühlespiel Unter diese Kategorie würde sicher auch der Mühlespiel-Computer gehören. Dem Netz 

müssen keine Spielregeln beigebracht werden, sondern es merkt nach genügend Beispielen automatisch, 

wie es Mühlen des Gegners abwehrt und taktisch spielt. 

• KNN sind nicht geeignet um exakte Resultate zu berechnen, dafür sind Computer gemacht. Dauert die exakte 

Berechnung aber zu lange, stellen neuronale Netze eine guter Alternative dar, um an angenäherte Daten zu 

kommen. 

– NP-Probleme 20 sind Aufgaben, für die bis heute kein deterministischer Algorithmus bekannt ist, der 

eine Lösung in polynominaler Zeit liefert (NP = nichtdeterministische Polynominalzeit). Anders ausgedrückt: 

Die benötigte Rechenzeit für die Lösung bei einer Eingabe der Länge n lässt sich nicht durch 

ein Polynom p(n) darstellen, sondern steigt viel schneller mit n (z.B. exponentiell). Ein Beispiel ist das 

Problem des Handelsreisenden, der eine Anzahl Städte besuchen muss und den kürzesten Weg sucht, 

damit er bei jeder Stadt genau einmal vorbeikommt. Weil bis heute noch kein schnellerer deterministischer 

Algorithmus gefunden wurde, muss ein Computer jeden möglichen Weg berechnen und am Schluss 

den kürzesten Auswählen. Für eine grosse Anzahl ist die dazu benötigte Zeit sehr gross (Bei n Städten 

gibt es (n − 1)!/2 mögliche Routen). Darum wurden neuronale Netze entwickelt, die relativ schnell eine 

Lösung liefern, diese ist jedoch nicht unbedingt die kürzeste Verbindung, jedoch hat man experimentell 

festgestellt, dass das Netz meistens nicht weit von der optimalen Lösung abweicht. 

• Automatische Regulierungs- und Steuerungssysteme gewinnen in der Technik zunehmend an Bedeutung. Für 

Flugzeuge gibt es bereits Autopiloten, bei Autos wird daran geforscht. Andere Beispiele sind: Bahnregelung 

in Ringbeschleunigern 

• Bei der Erforschung von künstlicher Intelligenz und speziell in der Robotik ist die Erkennung von Objekten 

anhand von Videobildern sehr wichtig. Zum Einsatz kommen dafür oft auch künstliche neuronale Netze, die 

ohne grossen Rechenaufwand schnell zufriedenstellende Lösungen liefern. Aber auch in anderen Bereichen ist 

die Interpretation von optischen oder akustischen Signalen wichtig: 

– Texturanalyse Bei vielen automatisierten Produktionsverfahren muss nach der Fertigung eine Qualitätskontrolle 

durchgeführt werden, da Fehler in der Verarbeitung des Materials nicht ausgeschlossen 

27

werden können (z.B. Glas, Kunststoff, Natursteinplatten). Solche Aufgaben könnten in Zukunft neuronale 

Netze übernehmen. 

– Schrift- und Spracherkennung Die Kommunikation zwischen Mensch und Computer findet heute 

zu einem grossen Teil über Tastatur und Bildschirm statt. Dabei hätte der Mensch viele andere 

Möglichkeiten Informationen auszutauschen, der Computer machte es aber bisher noch nicht möglich 

diese zufriedenstellend zu benutzen. Mit neuronalen Netzen könnten sich Wege öffnen. So wurde beispielsweise 

für die japanische Schrift ein Netz entwickelt, das über ein Schreibgerät erlaubt Wörter von 

Hand einzugeben. Dies ist sehr hilfreich, denn die japanische Schrift kennt rund 3000 Zeichen. Weitere 

interessante Anwendungen in diesem Gebiet sind zum Beispiel Unterschriftenerkennung, Personenidentifikation, 

Spracherkennung oder Interpretation der Mimik von Menschen. 

– Auswertung von Bildaufnahmen Teleskope und Satelliten produzieren laufend eine riesige Menge 

an Bildern, die ohne Hilfe von informationsverarbeitenden Systemen nicht ausgewertet werden könnten. 

Um schnell die interessanten Bilder herauszufiltern werden KNN eingesetzt. 

5 Diskussion 

Anhand von verschiedenen Modellen wurden die Formen des Lernens in künstlichen neuronalen Netzen dargestellt. 

Aber wie lernt nun unser Gehirn? Wie in Kapitel 2.5 dargestellt, gibt es schon beim Aufbau der Netze wesentliche 

Unterschiede zwischen Vorbild und Modell. Diese würden aber den eigentlichen Lernvorgang noch nicht verändern, 

so dass meiner Meinung nach in einem KNN der Lernalgorithmus des Gehirns, falls es einen gibt, ausgeführt 

werden könnte. Ein Problem stellt die Speicherung der Informationen dar, die im Gehirn z.T. in Form von Eiweissen 

stattfindet. Klar ist, dass im Gehirn unmöglich mit einem überwachten Lernverfahren gelernt wird. Teuvo Kohonen 

zeigte mit seinem Modell, dass es möglich ist sehr biologienahe Modelle zu entwickeln. Ich denke, dass der Trend 

in diese Richtung weiter gehen wird. Hat man die einfacheren Modelle erst einmal verstanden, kann man beginnen 

immer kompliziertere Systeme zu entwerfen und immer mehr Aspekte des biologischen Vorbilds zu integrieren. Mit 

der steigenden Leistungsfähigkeit der Computer ist es möglich immer grössere Netze mit immer mehr Verbindungen 

zu simulieren. Ich bin mir sicher, dass so weitere Erkenntnisse in der Hirnforschung gemacht werden. 

6 Zusammenfassung 

Künstliche neuronale Netze (KNN) sind informationsverarbeitende Systeme, die ähnlich wie biologische Nervensysteme 

(z.B. unser Gehirn) aufgebaut sind. Sie bestehen aus einer grossen Anzahl von Neuronen, die über Verbindungen 

einfache Signale austauschen. Im Gegensatz zu herkömmlichen Computern müssen sie nicht explizit 

programmiert werden, sondern sie lernen aus Beispielen. Dies führt dazu, dass KNN für andere Anwendungen als 

Computer geeignet sind. 

Der Lernvorgang in einem künstlichen neuronalen Netz wird durch Lernalgorithmen gesteuert, welche z.T. von 

biologischen Systemen übernommen wurden. In dieser Arbeit werden die gängigsten Lernverfahren vorgestellt und 

einerseits untereinander andererseits mit ihrem biologischen Vorbild verglichen. Anschliessend sind Probleme und 

Aufgaben beschrieben, für deren Lösung schon heute KNN eingesetzt werden. 

28

7 Literaturverzeichnis 

1 Zell A., Simulation neuronaler Netze, R. Oldenbourg Verlag, München (2000), S. 71-79 

2 Lindenmair W., Neuronale Netze, Ernst Klett Schulbuchverlag GmbH, Stuttgart (1995), S. 14-15 


4 Lindenmair W., Neuronale Netze, Ernst Klett Schulbuchverlag GmbH, Stuttgart (1995), S. 22-27 

5 Frey H. G., Schach J., Modern geknotet, c’t, Nr. 2/1996, S.262 


7 Rojas R., Theorie der neuronalen Netze, Springer-Verlag, Berlin/Heidelberg/New York (1996), S.123-138 



10 Goos G., Vorlesungen über Informatik - Band 4, Springer-Verlag, Berlin/Heidelberg/New York (1998), S.113-164 

11 Rojas R., Theorie der neuronalen Netze, Springer-Verlag, Berlin/Heidelberg/New York (1996), S.161-172 


13 Pfeifer R., Lecture: Neural Networks, http://www.ifi.unizh.ch/groups/ailab/teaching/NN99/chap5.pdf, 5.1.2002 


15 Spitzer M., Geist im Netz, Spektrum Akademischer Verlag GmbH, Heidelberg, Berlin (2000), S. 95-118 

16 Frey H. G., Schach J., Modern geknotet, c’t, Nr. 2/1996, S. 264 


18 Frey H. G., Schach J., Modern geknotet, c’t, Nr. 2/1996, S. 260 

19 Bruderer M., Ruppaner P., Neuronale Netzwerke, Physikwahlteil-Arbeit, Heerbrugg (1997), S.21 

20 Rojas R., Theorie der neuronalen Netze, Springer-Verlag, Berlin/Heidelberg/New York (1996), S.303 

8 Dank 

Als erstes möchte ich mich bei meinem Betreuer René Hugelshofer für seine bedingungslose Mitarbeit und seine 

wegweisenden Tipps herzlich bedanken. 

Simon Rentzmann, bei dem ich das Freifach ”Maturaarbeit mit L A TEX” besuchte, half mir auch ausserhalb der 

eigentlichen Schulstunden mit dem anfänglich etwas schwierigen Textverarbeitungsprogramm L A TEX. Ohne ihn 

hätte ich es wahrscheinlich kaum gewagt diese Arbeit mit L A TEX zu schreiben. 

Die beiden Physiklehrer Stefan Fischer und Stefan Büchler waren so freundlich mich mit Materialien zu versorgen, 

die ich für meine Arbeit sehr gut brauchen konnte. Vielen Dank. 

Wie bereits erwähnt brachte ich es nicht fertig meine KNN in die Programme zu integrieren. Bevor ich aufgab, 

wendete ich mich aber noch an die Berufsprogrammierer Thomas Gantenbein und Markus Halter, die mir soweit 

es möglich war mit Rat und Tat zur Seite standen. Das ”Projekt” scheiterte sicher nicht an ihrer Fachkompetenz, 

sondern an meinem mangelhaften Wissen über C und den beschränkten Mitteln, die mir zur Verfügung standen. 

Daneben halfen mir auch einige Schulkollegen bei Problemen verschiedener Art weiter. Speziell bedanken möchte 

ich mich bei René Hutter, Eveline Mattle, André Sprecher und Andreas Weder. 

29

9 Anhang 

9.1 Verwendete Hilfsmittel 

Diese Arbeit wurde mit L A TEX geschrieben. Zum Zeichnen der Grafiken verwendete ich Corel Draw 6.0. Die Funktionsgleichungen 

wurden mit Mathematica 4.1 berechnet und aufgezeichnet. 

Um einige Anwendungen zu programmieren brauchte ich einerseits einen Simulator, der die verschieden Netzwerktypen 

trainiert und andererseits einen Compiler, mit dem ich das ganze Programm, in dem das Netz angewendet 

werden sollte, schreiben konnte. Als idealer Simulator erwies sich der Stuttgarter Neuronale Netze Simulator (Snns), 

der von der Universität Stuttgart auf der Internetadresse ftp://ftp.informatik.uni-stuttgart.de/pub/SNNS/ gratis 

heruntergeladen werden kann. Zur Benutzung meiner Beispiele ist er leider nötig, darum befindet sich eine Kopie 

auf der beiliegenden CD-Rom. Die Programme dazu schrieb ich mit der Programmiersprache TopPascal Version 

2.1 (http://www.ateus.ch), von der eine Demoversion auf der CD-Rom zu finden ist. 

9.2 CD-Rom 

Die CD-Rom enthält alle Programme, die ich für diese Arbeit mit TopPascal geschrieben habe. Für die einfachere 

Benutzung der Programme und Orientierung auf der CD sind info.txt-Dateien in den Verzeichnissen verteilt. Bitte 

lesen Sie auch die Anleitung im Stammverzeichnis der CD. Neben den Programmen befinden sich auch alle Grafiken 

und sonstigen Dateien, die ich entweder für die Arbeit oder die Programme gebraucht habe auf der CD-Rom. 

Speziell möchte ich auf den Stuttgarter Neuronale Netze Simulator hinweisen, der sich ebenfalls mit vielen eigenen 

Beispiel-Netzen auf der CD befindet. Die offizielle Anleitung umfasst mehr als zweihundert Seiten auf Englisch. 

Darum habe ich versucht selber eine ganz kurze Einführung zu schreiben, denn mit dem Snns kann man relativ 

einfach komplexe KNN trainieren. 

Bei Problemen oder Fragen kann man mich gerne unter der E-Mail-Adresse dansp@gmx.ch kontaktieren. 

30

Lernverfahren von KÃ¼nstlichen Neuronalen Netzwerken

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?