Mustererkennung mit Neuronalen Netzen - Informatik

Bildverarbeitung und Biometrik   

Prof. Dr.-Ing. Thomas Zielke " 

Mustererkennung 

mit 

Künstlichen Neuronalen Netzen 

(KNN) 

Bildverarbeitung und Biometrik 

SS13 7.1

Warum künstliche neuronale Netze ?" 

Die frühen Forschungsarbeiten waren überwiegend biologisch motiviert. 

Kann man das Gehirn besser verstehen lernen, wenn man Teilsysteme 

mathematisch modelliert und ihr Verhalten auf "Reize" von außen simuliert? 

Für die theoretische Informatik stellt das Gehirn eine Herausforderung 

dar, weil es der Existenzbeweis für einen bei vielen Aufgaben besseren 

"Computer" darstellt. 

Was ist die "Rechnerarchitektur" des Gehirns? (sicher nicht "von Neumann") 

Kann man die "Rechnerarchitektur" des Gehirns simulieren (künstliche 

"neuronale Netze") und damit praktische Probleme der Informatik lösen? 


SS13 7.2

Warum künstliche neuronale Netze ?" 

70 Jahre nach den ersten Forschungsarbeiten* hat sich eine biologisch 

inspirierte Technologie als Standardverfahren etabliert, deren erwiesene 

Stärken bei Problemen der Informationsverarbeitung bei "natürlichen" 

Daten liegen: 

• Mustererkennung: 

Weise ein Muster einer Klasse zu, zu der es höchstwahrscheinlich gehört. 

• Daten-Modellierung: 

Modelliere ein unbekanntes System aufgrund der Daten, die es generiert. 

• Prädiktion (Vorhersage): 

Mache eine Vorhersage über neue Daten auf der Basis von gegebenen 

Daten aus einem Prozess. 

* W. McCulloch & W. Pitts, 

A logical calculus of ideas immanent in nervous activity. 

Bulletin of Mathematical Biophysics, 5, 1943. 

F. Rosenblatt, The Perceptron: 

A Probabilistic Model for Information Storage and Organization in the Brain. 

Psychological Review, 65:386-408, 1958. 


SS13 7.3

Neurone: Grundbausteine der  

biologischen Informationsverarbeitung " 

Biologische Informationsverarbeitung 

basiert auf Nervenzellen (Neuronen) 

Den Nervensystemen der verschiedenen Lebewesen 

liegt ein gemeinsames Grundmuster zugrunde. 

Ein Neuron besteht prinzipiell aus: 

• Zellkörper 

• Zellkern (Nucleus) 

Der Zellkern hat die Aufgabe, die Eingangssignale 

zu verarbeiten und unter gewissen Randbedingungen 

die Weiterleitung von Ausgangssignalen anzustoßen. 

• Dendriten 

Die Dendriten sind dünne, röhrenförmige und meist 

stark verästelte Fortsätze der Zelle, mit denen die 

Zelle Eingangssignale aufnimmt. 

• Nervenfaser (Axon) 

Die Nervenfaser übernimmt die Weiterleitung der 

Ausgangssignale des Neurons. Sie verdichtet sich 

an ihren Enden und bildet die Synapsen. 

• Synapsen 

Kontaktstelle zwischen dem Ende des Axons einer Nervenzelle 

und dem Dendriten einer anderen Nervenzelle. 


SS13 7.4

Nervensysteme " 

Erst durch das Zusammenwirken vieler Nervenzellen in einem 

Nervensystem kann eine leistungsfähige 

Informationsverarbeitung erfolgen. 

Einige charakteristische Daten für das 

Nervensystem des Menschen: 

• Anzahl der Nervenzellen: ca. 10 11 - 10 12 

• Schaltzeit einer Nervenzelle: ca. 10 -3 /sec 

• Schaltvorgänge pro Sek. 

(Nervenzelle): ca. 10 3 

• Länge einer 

Nervenzelle: 

bis 1 m 

• Schaltvorgänge 

insgesamt: 

ca. 

10 12 - 10 13 /sec 

Elektronenmikroskop- 

Aufnahme der Großhirnrinde 

(Cortex) 


SS13 7.5

Modellierung von Neuronen  

für künstliche neuronale Netze" 

Die Bestandteile eines künstlichen neuronalen Netzwerks sind stark 

idealisierte Neurone. 

In Anlehnung an das biologische Vorbild haben auch künstliche 

Neurone die folgenden Komponenten: 

• Zellkörper 

(das abstrakte 

Rechenelement a i) 

• Dendriten 

(summieren alle 

Eingänge auf) 

• Axon 

(transportiert den 

Ausgabewert o i) 

• Synapsen 

(treten mit den Dendriten anderer 

Neurone in Kontakt) 

Die Stärke der Synapsen werden durch numerische Werte, die 

Verbindungsgewichte (w ij), dargestellt. 

Zwei Neurone 

a i und a j 


SS13 7.6

Mathematisches Modell eines Künstlichen Neurons  

Ursprung: McCulloch und Pitts (1943) " 

Eingänge 

X i 

Multiplikation 

mit den 

Gewichten 

W i 

Aktivierungsfunktion 

y = f (a - Θ) 

- 

n 

" 

y = f ( x i ! w i 

i=1 

Θ 

Ausgang 

y 

Aktivierungs- 

schwellwert (Bias) 

# $) 


SS13 7.7

Funktionale Darstellung eines künstlichen Neurons" 

In einem Neuron werden zwei 

Funktionen berechnet: 

• Integrationsfunktion g(x 1, ..., x n) 

Die Eingänge werden gewichtet 

aufsummiert. 

• Entscheidungsfunktion f( g(x 1, ..., x n) ) 

Die gewichtete Summe der Eingänge 

muss einen bestimmten Schwellwert 

erreichen, damit das Neuron feuert. 

x 1 

x 2 

x 3 

x 4 

w 1 

w 2 

w 3 

w 4 

g 

f 

y 

Feuern bedeutet die Weitergabe 

eines Wertes nahe 1 durch die 

Entscheidungsfunktion. 

Die Entscheidungsfunktion ist 

immer eine Sprungfunktion oder 

eine differenzierbare Näherung 

davon: 

a = g(...) 

y = f(a-Θ) 


SS13 7.8

Entscheidungs-/Aktivierungsfunktion" 

Bei einfachen Neurontypen, 

wie dem Perzeptron, besteht die 

Aktivierungsfunktion aus einer 

Schwellwertoperation: 

f (x) = 

" 1 wenn x ! thr 

# 

$ 0 wenn x < thr 

Häufig wird eine 

Sigmoid-Funktion verwendet, 

was zwei Vorteile hat: 

• Differenzierbarkeit 

(notwendig für die meisten 

Lernverfahren) 

• "Weicher" parametrisierbarer 

Zustandswechsel. 

y(x) = 

Sigmoid 

1 

1+ e 

!( x! ") p 


SS13 7.9

Verborgene Schicht 

Eingangsschicht 

Ausgangsschicht 

Topologie  

neuronaler Netze (1)" 

Ein neuronales Netz 

entsteht durch die 

Verknüpfung mehrerer 

(vieler) einzelner Neurone. 

In der Praxis werden oft 

feedforward-Netze 

(vorwärtsgekoppelte Netze) 

eingesetzt. 

• keine Rückkopplungen 

• hierarchische Organisation in 

Schichten 

Das Verbindungsschema, 

die Anzahl der Schichten 

und deren Neuronenanzahl 

bilden die Topologie des 

neuronalen Netzes. 


SS13 7.10

Topologie neuronaler Netze (3)  

Beispiel" 

i 

↓ 

Alle freien Felder werden mit Null besetzt. 

Darstellung der 

Verbindungsstruktur 

durch eine Tabelle 

(Gewichtsmatrix) 

W = [ w ] i, j 

→ j 


SS13 7.12

Das Perzeptron  

(nach Rosenblatt "Principles of Neurodynamics", 1962) " 

x 1 

x 2 

x 3 

x n 

Assoziationseinheiten 

(Prädikate) 

Eingangsmuster 

w 1 

w 2 

w 3 

w n 

Gewichte 

Der einfachste Mustererkenner nach 

dem Prinzip der neuronalen Netze 

ist das (einstufige) Perzeptron 

Schwellwert 

(Bias) 

Diese Vorverarbeitungseinheiten berechnen 

Merkmale auf Bildregionen. 

Ihr Wert ist i.d.R. binär, 

also entweder 0 oder 1. 

Das Perzeptron 

"feuert" wenn 

der Ausgangsschwellwert 

überschritten ist. 


SS13 7.13

Das Perzeptron als Klassifikationsmethode" 

Das (einschichtige) Perzeptron berechnet eine lineare Trennfunktion im 

Merkmalsraum. 

Durch die Wichtung der Merkmale und den Bias-Term erfolgt eine Zerlegung 

des Merkmalsraums in zwei Halbräume. 

! w2 

w1x1 + w2 x2 > ! ⇔ w1x1 + w2 x2 ! " > 0 

! w1 

! w2 

! w1 

x1 w1 w2 x2 -1 

Θ 

Bias Θ kann auch 

als Gewicht eines 

konstanten Inputs 

(-1) aufgefasst 

werden. 


SS13 7.14

Mehrschichtiges Perzeptron (1)  

Multilayer Perceptron" 

Das einschichtige Perzeptron kann nur bei linear separierbaren 

Klassen eingesetzt werden. 

Hidden Layer(s) 

Input Layer 

x1 w1 w2 x2 -1 

Θ 

x 1 

x 2 

Output 

Layer 

Durch die Kombination von zwei oder mehreren Neuronen 

(units) können komplexe Trennfunktionen realisiert werden. 

Die Trennfunktionen (Hyperebenen/Hyperplanes) sind 

stückweise linear. Ihre Komplexität ist durch die Anzahl der 

verborgenen Neuronen (hidden units) 

begrenzt. 


SS13 7.15

Mehrschichtiges Perzeptron (2)  

Multilayer Perceptron! 

Das am häufigsten verwendete feedforward-Netz ist das Multilayer-Perzeptron. 

Multilayer-Perzeptrons können komplexe Probleme lösen und jede Boolsche 

Funktion darstellen. 

Im Merkmalsraums überlagern sich die Entscheidungsgrenzen 

(Trennflächen) von mehreren Neuronen. 

x 1 

x 2 

x 1 

x 2 

x 1 

x 2 

x 3 


SS13 7.16

Prinzipielle Möglichkeiten für das Lernen  

in Neuronalen Netzen (1)" 

Das Lernen innerhalb eines Netzes erfolgt durch 

Selbstmodifikation gemäß einer festgelegten Vorschrift 

(Lernregel). Prinzipiell kann der Lernprozess bestehen aus: 

• Entwicklung neuer Verbindungen 

• Löschen existierender Verbindungen 

• Modifikation der Stärken der Verbindungen (Veränderung der Gewichte) 

• Modifikation des Schwellenwertes 

• Modifikation der Aktivierungs- bzw. Ausgabefunktion 

• Entwickeln neuer Zellen 

• Löschen bestehender Zellen 

Das Lernen durch Veränderung der Gewichte und Schwellwerte 

ist die am häufigsten verwendete Lernmethode. 

Verfahren, die auch eine Veränderung der Topologie 

beinhalten, haben in der Forschung eine gewisse Bedeutung, 

jedoch noch nicht in der praktischen Anwendung. 


SS13 7.17

Wie lernt ein Perzeptron ?" 

Als Lernen bezeichnen wir eine iterative Prozedur, die die 

Gewichte (weights) und (optional) die Schwellwerte (biases) 

eines Netzes verändert. 

Bei jeder Iteration t werden die neuen Werte (t+1) mit einem 

Korrekturwert aus den alten Werten berechnet: 

w i (t +1) = w i (t) + !w i (t) 

"(t +1) = "(t) + !"(t) 

Die Korrekturwerte werden aus der Antwort des Netzes auf das 

jeweilige Lernbeispiel abgeleitet. 

Das Lernproblem kann also wie folgt formuliert werden: 

Wie müssen Δw i(t) und ΔΘ(t) berechnet werden, damit die 

Anzahl der Falschklassifikationen von Lernmustern geringer 

wird? 


SS13 7.19

Lernregel für das Perzeptron (1)" 

Gegeben sei eine Menge von Lernbeispielen 

(Trainingsbeispiele) für den Eingangsvektor Χ. 

Für jedes Beispiel ist der gewünschten Ausgangswert d(Χ) 

bekannt. Bei einer Klassifikationsaufgabe ist d(Χ) 

üblicherweise +1 oder -1. 

Die Lernregel für das Perzeptron ist wie folgt: 

Beginne mit Zufallswerten für alle Gewichte 

Wähle einen (den nächsten) Eingangsvektor Χ aus der 

Menge der Trainingsbeispiele 

Wenn der berechnete Ausgangswert y(Χ) nicht mit dem 

gewünschten Ausgangswert übereinstimmt ( y(Χ) ≠ d(Χ) ), 

verändere alle Gewichte mit Δw i = d(Χ) x i . 

Gehe zurück zu Schritt 2 


SS13 7.20

Lernregel für das Perzeptron (2)" 

Die Schritte 2 und 3 werden normalerweise pro 

Trainingszyklus (Epoche) für alle Beispiele durchgeführt. 

Danach wird getestet, ob sich der Gesamtfehler noch 

signifikant verringert hat. Wenn nicht, wird das Training 

beendet. 

Die Änderung des Schwellwerts des Perzeptrons ergibt 

sich zu: 

!" = 

# 0 wenn das Perzeptron richtig antwortet 

$ 

% 

d(X) sonst. 

Es existiert ein Konvergenz-Theorem (Rosenblatt 1959), 

das für beliebige Anfangswerte der Gewichte das Finden 

einer Lösung mit einer endlichen Anzahl von Iterationen 

garantiert. 


SS13 7.21

(-0.5,0.5) 

Beispiel zur Perzeptron-Lernregel" 

Iterat. Beispiel d(X) y(X) w 1 w 2 ! "w 1 "w 2 "! 

1 (0.5 , 1.5) +1 +1 1 2 -2 0 0 0 

2 (-0.5 , 0.5) -1 -1 1 2 -2 0 0 0 

3 (0.5 , 0.5) +1 -1 1 2 -2 0.5 0.5 1 

4 ... 1.5 2.5 -1 

(0.5,1.5) 

(0.5,0.5) 

Ein Update der Gewichte wird 

vorgenommen, wenn die Antwort des 

Netzes für das aktuelle Beispiel nicht mit 

dem Vorgabewert übereinstimmt, z.B: 

w 1 (4) = 1.5 = w 1 (3) + !w 1 (3) 

w 2 (4) = 2.5 = w 2 (3) + !w 2 (3) 

"(4) = #1 = "(3) + !"(3) 

ursprüngliche Trennfunktion 

Trennfunktion nach dem Gewichts-Update 


SS13 7.22

Das Backpropagation - Lernverfahren" 

Die Basis für das Lernen mit 

Backpropagation 

(Rückwärts – Verbreitung) 

bildet ein mehrschichtiges 

vorwärtsgekoppeltes Netz 

(feedforward-Netz), bestehend 

aus einer Eingabeschicht, einer 

Ausgabeschicht und mindestens 

einer verborgenen Schicht 

Forward-Pass 

(Hidden-Layer). Backward-Pass 


SS13 7.23

Das Backpropagation - Lernverfahren" 

Das Lernen (für ein Beispiel) erfolgt in zwei 

Phasen: 

• In der ersten Phase wird dem Netz ein Input-Muster 

präsentiert. Die Aktivierung einer jeden Unit in dem (den) 

Hidden-Layer(s) wird Schicht für Schicht berechnet, bis 

der Output-Layer erreicht ist. 

Am Ausgang wird der Fehler (Soll – Ist) gemessen. 

• In der zweiten Phase erfolgt die Gewichtsänderung 

anhand des Fehlers zwischen Soll- und Ist-Antwort 

des Netzes. Dabei wird das Fehlersignal vom Output- 

Layer aus "zurückgesandt". 

In den Hidden-Layers werden die Gewichte anhand des 

Fehlersignals von der jeweils vorhergehenden Schicht 

geändert. Dann wird ein korrigiertes Fehlersignal an die 

nächste Schicht weitergeleitet, bis zum letzten Hidden- 

Layer. 

Forward-Pass 

Backward-Pass 


SS13 7.24

Das Backpropagation–Verfahren im Detail  

(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)" 

Beim Trainieren wird der 

Fehler der Ausgabe eines 

Neurons j als Funktion der 

Gewichte aller eingehenden 

Netzverbindungen betrachtet. 

Eine mögliche 

Fehlerkurve, erzeugt 

durch zwei Gewichte: 

Minimierung des Fehlers durch 

Gradientenabstiegsverfahren 


SS13 7.25



Aus der partiellen ersten 

Ableitung der Fehlerfunktion 

nach einer Gewichtsvariablen 

wird für die Korrektur dieses 

Gewichts berechnet: 

Der Faktor λ stellt die Lernrate 

dar und steuert den Grad der 

Änderung des Gewichtes. 

Das negative Vorzeichen 

kennzeichnet die Veränderung 

entgegen dem Kurvenanstieg 

in Richtung eines Tals der 

Fehlerkurve. 

Der Fehler und damit die 

Änderung des Gewichtes sind 

abhängig vom Trainingsmuster. 

Der Fehler ist die Abweichung 

der Ausgabe von der 

erwarteten Ausgabe. 

Die Ausgabe und die 

Verbindungsgewichte hängen 

wie folgt zusammen: 

(identische Funktion) 


SS13 7.26



Mit der logistischen Aktivierungsfunktion wird 

Der Fehler für jeweils ein Ausgabe-Neuron wird als quadrierte Differenz zwischen t j , dem 

Zielwert des Neurons für das Trainingsmuster, und der tatsächlich berechneten Ausgabe o j 

ausgedrückt. Bei mehreren Ausgabe-Neuronen ist der Gesamtfehler die Summe der 

quadrierten Differenzen definiert als: 

Der Faktor ½ dient lediglich der Vereinfachung der ersten Ableitung: 


SS13 7.29



Für ein inneres Neuron wird der Fehler aus den Fehlersignalen der nachfolgenden 

Neuronen ermittelt: 

Das Fehlersignal δ ist dabei als Produkt des ersten und zweiten Faktors der Gleichung 

- δ j 

definiert: 


SS13 7.30



Zusammenfassend ergibt sich für das Fehlersignal δ unter Verwendung der logistischen 

Funktion als Aktivierungsfunktion: 

Die Änderung eines Verbindungsgewichtes wird unter Berücksichtigung des Lernfaktors λ 

aus der Ausgabe des vorgeschalteten Neurons und des zurückpropagierten Fehlersignals 

berechnet: 


SS13 7.31




SS13 7.32

Generalisierung und Überanpassung  

Generalisierung and Overfitting " 

Beispiel: 

Die Trainings- und die Testmuster 

der Klassen A und B lassen sich mit 

einer Geraden trennen. 

Bei der Verwendung von zwei 

Hidden-Units bilden sich zwei 

Trennflächen, womit beim Training 

ein kleinerer Fehler erreicht werden 

kann. Die Generalisierungsfähigkeit 

wird jedoch schlechter! 

Trainingsmuster 

Testsmuster 

Fehlklassifikation 


SS13 7.34

Generalisierung und Überanpassung  

Generalisierung and Overfitting " 

Generalisierung ist die Fähigkeit des Netzes, auch solche 

Muster richtig zu klassifizieren, die es zuvor noch nicht 

"gesehen" hat. 

Zu viele Freiheitsgrade (Trennflächen) und/oder zu langes 

Training führt zu einer Überanpassung an die Trainingsdaten 

("Auswendiglernen"). 

Mit Hilfe eines Validierungsdatensatzes kann der 

Trainingsverlauf überwacht werden und das Netz mit der 

besten Generalisierungsfähigkeit ausgewählt werden. 

Überanpassung stellt vor Allem dann ein großes Problem dar, 

wenn die Anzahl der Trainingsbeispiele und ihre 

Mustervariationen gering sind, die Netztopologie jedoch relativ 

groß ist. 


SS13 7.35

"Deep Neural Network" Architecture  

Example: GerDA" 

Stuhlsatz, A.; Lippel, J.; Zielke, T.: 

Feature Extraction With Deep Neural Networks by a Generalized Discriminant Analysis. 

IEEE Transactions on Neural Networks and Learning Systems, Volume: 23 Issue:4, 

April 2012, 596 - 608. 


SS13 7.36

Dimensionality Reduction and Visualization 

using GerDA" 

2D Feature 

Space 


SS13 7.37

Mustererkennung mit Neuronalen Netzen - Informatik

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?