Neuronale Netze - Timo Becker

Ludwig-Maximilians-Universität München 

Institut für Informatik 

Seminar Knowledge Discovery in Databases 

Leitung: Annahita Oswald, Bianca Wackersreuther 

Sommersemester 2010 

Neuronale Netze 

26.04.2010 

Timo Becker (4. Semester) HF: Medieninformatik 

NF: Medienwirkung


Inhaltsverzeichnis 

1 Die Motivation künstlicher Neuronaler Netze....................................................................2 

2 Das biologische Vorbild......................................................................................................2 

3 Künstliche Neuronale Netze...............................................................................................3 

3.1 Allgemeines.................................................................................................................3 

3.2 Die Verarbeitungseinheit.............................................................................................3 

3.2.1 Die Netzeingabe ..................................................................................................3 

3.2.2 Der Aktivierungszustand.....................................................................................4 

3.2.3 Die Ausgabe.........................................................................................................4 

3.3 Die Netztopologie........................................................................................................5 

3.3.1 Topologieklassen.................................................................................................5 

3.3.2 Topologiedesign...................................................................................................5 

3.3.2.1 Die Neuronenanzahl.....................................................................................6 

3.3.2.2 Die Schichtenanzahl.....................................................................................6 

3.4 Die Lernregel...............................................................................................................6 

3.4.1 Lernmechanismen................................................................................................7 

3.4.2 Lernverfahren......................................................................................................7 

3.4.3 Lernalgorithmen..................................................................................................7 

3.4.3.1 Hebbsche Lernregel.....................................................................................7 

3.4.3.2 Delta-Regel..................................................................................................8 

3.4.3.3 Backpropagation..........................................................................................8 

4 Zur Leistungsfähigkeit künstlicher Neuronaler Netze........................................................9 

Literaturverzeichnis..............................................................................................................10 

1


1 Die Motivation künstlicher Neuronaler Netze 

Die Informationsarchitektur des menschlichen 

Gehirns, das sogenannte Neuronale Netz, ist 

in vielerlei Hinsicht bemerkenswert 

leistungsfähig. Als Beispiel sei hier, 

wenngleich zunächst trivial erscheinend, die Registrierung in einem Internetforum 

angeführt. Aufgrund immer elaborierter agierender Spambots besteht mittlerweile 

die Notwendigkeit, die Authentizität eines potentiellen Forenmitglieds nicht nur 

mittels der Eingabemaske zu verifizieren, sondern zusätzlich über spezielle 

Bildcodes (Abbildung 1). Diese in der Regel zufällig generierten Grafiken machen 

sich dabei einige Eigenschaften des menschlichen Denkens zunutze, die selbst 

modernste Software bisher nur in sehr beschränktem Maße besitzt: Fehlertoleranz 

und Robustheit gegenüber Abweichungen, ein ausgeprägtes 

Generalisierungsvermögen sowie die Fähigkeit, zu lernen und Gelerntes – auch 

auf unbekannte Bereiche – wieder erfolgreich anzuwenden [1, 691]. So gelingt es 

einem Menschen im Allgemeinen mühelos, die abgebildete Zeichenfolge zu 

erkennen, während Bots effektiv daran gehindert werden, sich zu registrieren. 

Dass man Neuronale Netze schließlich auch als möglichen Lösungsansatz für 

Probleme in der Informatik erkannte, ist daher nur konsequent. 

2 Das biologische Vorbild 

Das biologische Vorbild künstlicher Neuronaler Netze, das menschliche Gehirn, 

besteht aus einer Vielzahl einfacher Verarbeitungseinheiten, sogenannten 

Neuronen. Diese sammeln über Dendriten, verästelte Ausläufer, die 

Kontaktstellen zu zahlreichen anderen Neuronen realisieren, elektrische Impulse 

auf und erzeugen gegebenenfalls selbst ein Aktionspotential, falls die 

gesammelten Impulse einen bestimmten Schwellenwert überschreiten. Dieses 

elektrische Potential wird wiederum über eine Nervenfaser der Zelle, das 

sogenannte Axon, an verschiedene, als Synapsen bezeichnete Kontakte zu den 

Dendriten folgender Neuronen weitergeleitet. Die Leistungsfähigkeit des Systems 

resultiert dabei letztlich aus der hochgradigen Verknüpfung und Parallelität 

mehrerer Milliarden dieser Neuronen. [3, 120f.] 

Abb. 1: Bildcode 

(Quelle: w w w.die-informatiker.net) 

2


3 Künstliche Neuronale Netze 

3.1 Allgemeines 

Ein künstliches Neuronales Netz kann nun zunächst als gerichteter, gewichteter 

Graph interpretiert werden. Die Knoten des Graphen werden dabei, dem 

biologischen Vorbild Rechnung tragend, als Neuronen bezeichnet, die Kanten als 

Verbindungen. [5, 11f.] Gerichtet bezieht sich, wie aus der Graphentheorie 

bekannt, auf die Art des Informationsaustauschs zwischen zwei Neuronen, 

gewichtet auf die Modifikation dieser Information durch einen multiplikativen 

Faktor. 

Hinzu tritt eine sogenannte Lernregel, ein Algorithmus, der sicherstellt, dass das 

Netz in endlicher Zeit lernt, für gegebene Eingaben gewünschte Ausgaben zu 

produzieren [6]. Ein künstliches Neuronales Netz ist so in der Lage, Datenmengen 

zu klassifizieren, etwa Bankkunden bezüglich ihrer Kreditwürdigkeit. Liegt keine 

Trainingsmenge vor, bedarf es – wiederum mit Hilfe der Lernregel – einer 

Selbstorganisation des Netzes [4, 52], die dem Clustering der Daten entspricht. 

Die folgenden Kapitel sollen einen Überblick über die prinzipiellen Mechanismen 

in einem künstlichen Neuronalen Netz bieten. 

3.2 Die Verarbeitungseinheit 

Das zentrale Element Neuronaler Netze ist das Neuron. Wie sein biologisches 

Pendant sammelt dabei auch das künstliche Neuron gewichtete Ausgaben 

anderer Neurone auf, die eine entsprechend gerichtete Verbindung besitzen. Aus 

dieser sogenannten Netzeingabe leitet sich der Aktivierungszustand des Neurons 

ab, der wiederum bestimmt, ob das Neuron selbst eine Ausgabe an folgende 

Neuronen weiterleitet. [5, 12] Der mathematische Zusammenhang dieser 

Komponenten ist nachfolgend näher beschrieben. 

3.2.1 Die Netzeingabe 

Die Netzeingabe net i eines Neurons i ergibt sich aus der Propagierungsfunktion 

des Neuronalen Netzes. Typischerweise ist dies die Summe der gewichteten 

Ausgaben aller Neurone, die eine Verbindung zu Neuron i besitzen: 

3


net i 

=∑ 

h 

o h 

⋅w hi 

Der Faktor o h entspricht hierbei der Ausgabe eines Neurons h, w hi dem 

Verbindungsgewicht der Kante von Neuron h zu Neuron i. Der Wert der 

Netzeingabe liegt theoretisch im Bereich ]-∞;∞[. [4, 37] 

3.2.2 Der Aktivierungszustand 

Die Berechnung des Aktivierungszustands a i eines Neurons i erfolgt nun mit Hilfe 

der sogenannten Aktivierungsfunktion f a , die die Netzeingabe normalisiert: 

a i 

= f a 

net i 

 

Je nach Problemstellung sind hierbei unterschiedliche Aktivierungsfunktionen 

gebräuchlich, etwa eine Schwellenwertfunktion für binäre Zustände: 

f a 

net i 

= {1, falls net i ≥ 

0, falls net i 

 

Unterschreitet die Netzeingabe die Konstante Θ, so wird als Aktivierung 0 

ausgegeben, andernfalls 1. Eine weitere Möglichkeit ist die Verwendung einer 

sigmoiden Funktion, die sich aufgrund ihrer Differenzierbarkeit gerade in Netzen 

mit Backpropagation anbietet: 

f a 

net i 

= 1 

1e −net i 

Die Aktivierung nähert sich dabei mit zunehmender Netzeingabe der 1 an und 

besitzt den Wertebereich ]0;1[. Benötigt man demgegenüber auch negative 

Aktivierungen, bietet sich die Funktion 

]-1;1[ an. [5, 12f.; 4, 37ff.] 

3.2.3 Die Ausgabe 

f a 

net i 

=tanh net i 

mit Wertebereich 

Die Ausgabe o i des Neurons i wird schließlich mittels einer sogenannten 

Outputfunktion f o berechnet, die als Parameter den Aktivierungszustand 

entgegennimmt: o i 

= f o 

a i 

. In der Regel entspricht diese Funktion der Identität, 

sodass die Ausgabe des Neurons gerade seiner Aktivierung entspricht: o i 

=a i . 

[4, 40] 

4


nachfolgend erörtert werden. 

3.3.2.1 Die Neuronenanzahl 

Die Neuronenanzahl ist von entscheidender Bedeutung für die Leistungsfähigkeit 

eines Neuronalen Netzes. Innerhalb der Eingabe- und Ausgabeschicht ergibt sie 

sich dabei mehr oder weniger aus der vorliegenden Problemstellung und den zur 

Verfügung stehenden Daten. So erscheint es sinnvoll, jede relevante numerische 

Eingabe mit einem Eingabeneuron zu assoziieren und für jede boolsche 

Entscheidung ein Ausgabeneuron vorzusehen. Für die Anzahl in den inneren 

Schichten existiert hingegen kein Patentrezept, sodass sich lediglich einige 

Heuristiken angeben lassen, um sich experimentell der passenden Neuronenzahl 

anzunähern. So lässt etwa eine niedrige Klassifikationsgüte des Netzes, das heißt 

die mangelnde Fähigkeit, die Trainingsmenge zu lernen, auf eine zu geringe 

Anzahl innerer Neuronen schließen, wohingegen bei zu vielen Neuronen ein 

Overfitting-Effekt auftreten kann. Letzterer lässt sich mittels einer von der 

Trainingsmenge disjunkten Testmenge nachweisen. [8] 

3.3.2.2 Die Schichtenanzahl 

Wie die Neuronenanzahl ist auch die Schichtenanzahl eine bedeutende 

Einflussgröße der Leistungsfähigkeit des Netzes. So kann ein Neuronales Netz 

ohne versteckte Schicht beispielsweise nur eine lineare Separation des 

Eingaberaumes vornehmen, das heißt zwei Bereiche durch eine Gerade 

respekive (Hyper-)Ebene abtrennen. Viele Problemstellungen innerhalb der 

Informatik, so etwa das XOR-Problem, lassen sich hierdurch jedoch nicht lösen, 

sodass in der Regel zumindest eine versteckte Schicht existiert, um die 

Klassifizierung konvexer Mengen zu ermöglichen. Die Hinzunahme einer zweiten 

versteckten Schicht erlaubt schließlich – eine passende Neuronenanzahl 

vorausgesetzt – die Klassifikation beliebiger Mengen. [4, 82ff.] 

3.4 Die Lernregel 

Besitzt das künstliche Neuronale Netze mittlerweile bereits prinzipiell die 

Fähigkeit, eine – wenngleich zufällige – Ausgabe zu produzieren, ist es erst die 

Hinzunahme einer Lernregel, die ihm ermöglicht, Cluster zu bilden und Daten zu 

6


klassifizieren. Die folgenden Kapitel widmen sich daher den Mechanismen, 

Verfahren und Algorithmen des Lernens. 

3.4.1 Lernmechanismen 

Um das Lernen in einem Neuronalen Netz grundsätzlich zu ermöglichen, bedarf 

es zunächst eines Mechanismus, der die Modifikation desselben und somit die 

Annäherung an die gewünschte Ausgabe gestattet. Potentielle Mechanismen sind 

etwa das Hinzufügen oder Löschen von Verbindungen oder Neuronen, die 

Änderung des Lernalgorithmus respektive der in Kapitel 3.2 beschriebenen 

Funktionen, sowie die Modifikation der Verbindungsgewichte. [7, 55] 

3.4.2 Lernverfahren 

Im Gegensatz zu Lernmechanismen, die ausgehend von der Struktur Neuronaler 

Netze technische Möglichkeiten zur Realisierung eines Lernvorgangs aufzeigen, 

beschreiben die sogenannten Lernverfahren eine eher konzeptuelle Ebene des 

Lernens. So unterscheidet man hier im Allgemeinen zwischen überwachtem und 

unüberwachtem Lernen. Während Ersteres stets eine Trainingsmenge 

voraussetzt, die gelernt und über die generalisiert werden kann, erfordert das 

auch als unsupervised learning bezeichnete unüberwachte Lernen eine gewisse 

Selbstorganisation des Netzes, die letztlich als Clustering der Daten interpretiert 

werden kann. [3, 122] 

3.4.3 Lernalgorithmen 

Die Lernalgorithmen schließlich stellen die praktische Umsetzung des 

Lernvorgangs dar. Wie die meisten in der Praxis eingesetzten Algorithmen 

beschränkt sich dabei auch diese Arbeit auf Lernen mittels Gewichtsmodifikation, 

formal durch die Gleichung w ij 

t1=w ij 

tw ij für ein beliebiges Gewicht w ij 

und seine Modifikation ∆w ij zum Zeitpunkt (t+1) beschreibbar. [7, 73] 

3.4.3.1 Hebbsche Lernregel 

Die Hebbsche Lernregel ist ein auf den Psychologen Donald Hebb 

zurückgehendes, unüberwachtes [7, 72] Lernverfahren aus dem Jahre 1949. 

Sinngemäß kann es wie folgt formuliert werden: „Wenn Neuron j eine Eingabe von 

7


Neuron i erhält und beide gleichzeitig stark aktiv sind, dann erhöhe das Gewicht w ij 

(also die Stärke der Verbindung von i nach j).“ Der Algorithmus verstärkt demnach 

die bereits latent existierenden Korrelationen der Aktivierungszustände zweier 

Neurone, indem er das Kantengewicht ihrer Verbindung modifiziert. In eine 

mathematische Formel überführt lautet die Lernregel demnach w ij 

=⋅o i 

⋅a j , 

mit η als konstanter Lernrate, die gleichsam Geschwindigkeit wie Vergessensrate 

des Lernprozesses in sich vereint. So ist ersichtlich, dass die Gewichtsänderung 

pro Lernschritt mit größer werdendem η ebenfalls zunimmt, der vorherige 

Gewichtswert jedoch umso weniger ins Gewicht fällt. [4, 66f.; 2, 86f.] 

3.4.3.2 Delta-Regel 

Die Delta-Regel stellt demgegenüber ein überwachtes Lernverfahren für 

Neuronale Netze ohne versteckte Schichten dar, benötigt demnach eine 

Trainingsmenge. Ist diese gegeben, werden die Gewichte nach der Formel 

w ij 

=⋅o i 

⋅ j mit j 

=t j 

−o j 

modifiziert. Der Faktor δ j steht hierbei für die 

Abweichung der aktuellen Ausgabe des Neurons j von seiner gewünschten 

Ausgabe t j . Der Betrag der Gewichtsänderung von w ij erhöht sich folglich mit 

zunehmender Differenz der Ausgabe vom sogenannten teaching output. [2, 87] 

3.4.3.3 Backpropagation 

Backpropagation als ein in den 1970er Jahren entwickeltes, überwachtes 

Lernverfahren kann schließlich als Verallgemeinerung der Delta-Regel für Netze 

mit inneren Schichten angesehen werden [7, 87ff.]. Die prinzipielle Idee besteht 

dabei in der sukzessiven Rückpropagierung des berechneten Netzfehlers an die 

einzelnen Schichten und einer damit einhergehenden Modifikation der Gewichte 

gemäß ihrem jeweiligen Fehleranteil. So ergibt sich etwa für die letzten, an die 

Ausgabeschicht grenzenden Gewichte zunächst die Gleichung w jk 

=⋅o j 

⋅ k mit 

k 

= f a 

' net k 

⋅t k 

−o k 

. [4, 87ff.] Gegenüber der Delta-Regel unterscheidet sie 

sich lediglich durch den multiplikativen Faktor f a '(net k ), der – sehr stark 

simplifizierend – als Anteil des Gewichts w jk am Gesamtfehler interpretiert werden 

kann [4, 77f.] und offensichtlich eine differenzierbare Aktivierungsfunktion 

voraussetzt [4, 87]. Ausgehend von den so bestimmten Gewichten w jk und den 

8


Abweichungen d k der Ausgabeneurone können nun die nächsten Gewichte w ij 

unter Verwendung der Rekurrenz j 

= f a 

' net j 

⋅∑ w jk 

⋅ k 

bestimmt werden 

k 

[4, 91]. Die Summe über k addiert dabei die gewichteten Abweichungen d k 

derjenigen Neurone k, die Eingaben von Neuron j erhalten. 

4 Zur Leistungsfähigkeit künstlicher Neuronaler Netze 

Wie ihr biologisches Vorbild besitzen auch künstliche Neuronale Netze eine hohe 

Leistungsfähigkeit. So eignen sie sich aufgrund ihrer Lernfähigkeit selbst für nicht 

prozedural oder wissensbasiert lösbare Probleme [5, 11] und sind prinzipiell in der 

Lage, jede beliebige Menge zu klassifizieren respektive zu clustern. Dieser 

theoretischen Mächtigkeit sind praktisch – technische Beschränkungen 

vernachlässigend – nur insofern Grenzen gesetzt, als zur Klassifizierung 

einerseits verlässliche und möglichst genaue Trainingsdaten benötigt werden und 

andererseits die Güte der Klassifikation vom – meist nur experimentell 

bestimmbaren – Topologiedesign abhängt. Und so steht und fällt die 

Leistungsfähigkeit eines künstlichen Neuronalen Netzes letztlich mit der des 

biologischen Pendants. 

9


Literaturverzeichnis 

[1] Klösgen, W., & Żytkow, J. M. (2002). Handbook of data mining and knowledge discovery. 

Oxford: Oxford University Press. 

[2] Köhle, M. (1990). Neurale Netze. Wien: Springer. 

[3] Kramer, O. (2009). Computational Intelligence: Eine Einführung. Berlin: Springer. 

[4] Kriesel, D. (2007). Ein kleiner Überblick über Neuronale Netze. Online am 24.04.2010 

abgerufen unter http://www.dkriesel.com/_media/science/neuronalenetze-de-epsilondkrieselcom.pdf 

[5] Laemmel, U. (2003). Data-Mining mittels künstlicher neuronaler Netze (Wismarer 

Diskussionspapiere Heft 07/2003). Wismar: Hochschule Wismar, Fachbereich Wirtschaft. Online 

am 24.04.2010 abgerufen unter http://www.wi.hs-wismar.de/~wdp/2003/0307_Laemmel.pdf 

[6] Lippe, W. (2001). Einführung in Neuronale Netze - Prinzipien. Online am 24.04.2010 abgerufen 

unter http://cs.uni-muenster.de/Studieren/Scripten/Lippe/wwwnnscript/prin.html 

[7] Lippe, W. (2005). Soft-Computing: Mit neuronalen Netzen, Fuzzy-Logic und evolutionären 

Algorithmen. Berlin: Springer. 

[8] Mielke, A. (2007). Neuronale Netze: Netzwerk. Online am 24.04.2010 abgerufen unter 

http://www.andreas-mielke.de/nn-4.html 

10

Neuronale Netze - Timo Becker

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?