Mustererkennung mit Neuronalen Netzen - Informatik
Mustererkennung mit Neuronalen Netzen - Informatik
Mustererkennung mit Neuronalen Netzen - Informatik
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Bildverarbeitung und Biometrik <br />
Prof. Dr.-Ing. Thomas Zielke "<br />
<strong>Mustererkennung</strong><br />
<strong>mit</strong><br />
Künstlichen <strong>Neuronalen</strong> <strong>Netzen</strong><br />
(KNN)<br />
Bildverarbeitung und Biometrik<br />
SS13 7.1
Warum künstliche neuronale Netze ?"<br />
Die frühen Forschungsarbeiten waren überwiegend biologisch motiviert.<br />
Kann man das Gehirn besser verstehen lernen, wenn man Teilsysteme<br />
mathematisch modelliert und ihr Verhalten auf "Reize" von außen simuliert?<br />
Für die theoretische <strong>Informatik</strong> stellt das Gehirn eine Herausforderung<br />
dar, weil es der Existenzbeweis für einen bei vielen Aufgaben besseren<br />
"Computer" darstellt.<br />
Was ist die "Rechnerarchitektur" des Gehirns? (sicher nicht "von Neumann")<br />
Kann man die "Rechnerarchitektur" des Gehirns simulieren (künstliche<br />
"neuronale Netze") und da<strong>mit</strong> praktische Probleme der <strong>Informatik</strong> lösen?<br />
Bildverarbeitung und Biometrik<br />
SS13 7.2
Warum künstliche neuronale Netze ?"<br />
70 Jahre nach den ersten Forschungsarbeiten* hat sich eine biologisch<br />
inspirierte Technologie als Standardverfahren etabliert, deren erwiesene<br />
Stärken bei Problemen der Informationsverarbeitung bei "natürlichen"<br />
Daten liegen:<br />
• <strong>Mustererkennung</strong>:<br />
Weise ein Muster einer Klasse zu, zu der es höchstwahrscheinlich gehört.<br />
• Daten-Modellierung:<br />
Modelliere ein unbekanntes System aufgrund der Daten, die es generiert.<br />
• Prädiktion (Vorhersage):<br />
Mache eine Vorhersage über neue Daten auf der Basis von gegebenen<br />
Daten aus einem Prozess.<br />
* W. McCulloch & W. Pitts,<br />
A logical calculus of ideas immanent in nervous activity.<br />
Bulletin of Mathematical Biophysics, 5, 1943.<br />
F. Rosenblatt, The Perceptron:<br />
A Probabilistic Model for Information Storage and Organization in the Brain.<br />
Psychological Review, 65:386-408, 1958.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.3
Neurone: Grundbausteine der <br />
biologischen Informationsverarbeitung "<br />
Biologische Informationsverarbeitung<br />
basiert auf Nervenzellen (Neuronen)<br />
Den Nervensystemen der verschiedenen Lebewesen<br />
liegt ein gemeinsames Grundmuster zugrunde.<br />
Ein Neuron besteht prinzipiell aus:<br />
• Zellkörper<br />
• Zellkern (Nucleus)<br />
Der Zellkern hat die Aufgabe, die Eingangssignale<br />
zu verarbeiten und unter gewissen Randbedingungen<br />
die Weiterleitung von Ausgangssignalen anzustoßen.<br />
• Dendriten<br />
Die Dendriten sind dünne, röhrenförmige und meist<br />
stark verästelte Fortsätze der Zelle, <strong>mit</strong> denen die<br />
Zelle Eingangssignale aufnimmt.<br />
• Nervenfaser (Axon)<br />
Die Nervenfaser übernimmt die Weiterleitung der<br />
Ausgangssignale des Neurons. Sie verdichtet sich<br />
an ihren Enden und bildet die Synapsen.<br />
• Synapsen<br />
Kontaktstelle zwischen dem Ende des Axons einer Nervenzelle<br />
und dem Dendriten einer anderen Nervenzelle.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.4
Nervensysteme "<br />
Erst durch das Zusammenwirken vieler Nervenzellen in einem<br />
Nervensystem kann eine leistungsfähige<br />
Informationsverarbeitung erfolgen.<br />
Einige charakteristische Daten für das<br />
Nervensystem des Menschen:<br />
• Anzahl der Nervenzellen: ca. 10 11 - 10 12<br />
• Schaltzeit einer Nervenzelle: ca. 10 -3 /sec<br />
• Schaltvorgänge pro Sek.<br />
(Nervenzelle): ca. 10 3<br />
• Länge einer<br />
Nervenzelle:<br />
bis 1 m<br />
• Schaltvorgänge<br />
insgesamt:<br />
ca.<br />
10 12 - 10 13 /sec<br />
Elektronenmikroskop-<br />
Aufnahme der Großhirnrinde<br />
(Cortex)<br />
Bildverarbeitung und Biometrik<br />
SS13 7.5
Modellierung von Neuronen <br />
für künstliche neuronale Netze"<br />
Die Bestandteile eines künstlichen neuronalen Netzwerks sind stark<br />
idealisierte Neurone.<br />
In Anlehnung an das biologische Vorbild haben auch künstliche<br />
Neurone die folgenden Komponenten:<br />
• Zellkörper<br />
(das abstrakte<br />
Rechenelement a i)<br />
• Dendriten<br />
(summieren alle<br />
Eingänge auf)<br />
• Axon<br />
(transportiert den<br />
Ausgabewert o i)<br />
• Synapsen<br />
(treten <strong>mit</strong> den Dendriten anderer<br />
Neurone in Kontakt)<br />
Die Stärke der Synapsen werden durch numerische Werte, die<br />
Verbindungsgewichte (w ij), dargestellt.<br />
Zwei Neurone<br />
a i und a j<br />
Bildverarbeitung und Biometrik<br />
SS13 7.6
Mathematisches Modell eines Künstlichen Neurons <br />
Ursprung: McCulloch und Pitts (1943) "<br />
Eingänge<br />
X i<br />
Multiplikation<br />
<strong>mit</strong> den<br />
Gewichten<br />
W i<br />
Aktivierungsfunktion<br />
y = f (a - Θ)<br />
-<br />
n<br />
"<br />
y = f ( x i ! w i<br />
i=1<br />
Θ<br />
Ausgang<br />
y<br />
Aktivierungs-<br />
schwellwert (Bias)<br />
# $)<br />
Bildverarbeitung und Biometrik<br />
SS13 7.7
Funktionale Darstellung eines künstlichen Neurons"<br />
In einem Neuron werden zwei<br />
Funktionen berechnet:<br />
• Integrationsfunktion g(x 1, ..., x n)<br />
Die Eingänge werden gewichtet<br />
aufsummiert.<br />
• Entscheidungsfunktion f( g(x 1, ..., x n) )<br />
Die gewichtete Summe der Eingänge<br />
muss einen bestimmten Schwellwert<br />
erreichen, da<strong>mit</strong> das Neuron feuert.<br />
x 1<br />
x 2<br />
x 3<br />
x 4<br />
w 1<br />
w 2<br />
w 3<br />
w 4<br />
g<br />
f<br />
y<br />
Feuern bedeutet die Weitergabe<br />
eines Wertes nahe 1 durch die<br />
Entscheidungsfunktion.<br />
Die Entscheidungsfunktion ist<br />
immer eine Sprungfunktion oder<br />
eine differenzierbare Näherung<br />
davon:<br />
a = g(...)<br />
y = f(a-Θ)<br />
Bildverarbeitung und Biometrik<br />
SS13 7.8
Entscheidungs-/Aktivierungsfunktion"<br />
Bei einfachen Neurontypen,<br />
wie dem Perzeptron, besteht die<br />
Aktivierungsfunktion aus einer<br />
Schwellwertoperation:<br />
f (x) =<br />
" 1 wenn x ! thr<br />
#<br />
$ 0 wenn x < thr<br />
Häufig wird eine<br />
Sigmoid-Funktion verwendet,<br />
was zwei Vorteile hat:<br />
• Differenzierbarkeit<br />
(notwendig für die meisten<br />
Lernverfahren)<br />
• "Weicher" parametrisierbarer<br />
Zustandswechsel.<br />
y(x) =<br />
Sigmoid<br />
1<br />
1+ e<br />
!( x! ") p<br />
Bildverarbeitung und Biometrik<br />
SS13 7.9
Verborgene Schicht<br />
Eingangsschicht<br />
Ausgangsschicht<br />
Topologie <br />
neuronaler Netze (1)"<br />
Ein neuronales Netz<br />
entsteht durch die<br />
Verknüpfung mehrerer<br />
(vieler) einzelner Neurone.<br />
In der Praxis werden oft<br />
feedforward-Netze<br />
(vorwärtsgekoppelte Netze)<br />
eingesetzt.<br />
• keine Rückkopplungen<br />
• hierarchische Organisation in<br />
Schichten<br />
Das Verbindungsschema,<br />
die Anzahl der Schichten<br />
und deren Neuronenanzahl<br />
bilden die Topologie des<br />
neuronalen Netzes.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.10
Topologie neuronaler Netze (3) <br />
Beispiel"<br />
i<br />
↓<br />
Alle freien Felder werden <strong>mit</strong> Null besetzt.<br />
Darstellung der<br />
Verbindungsstruktur<br />
durch eine Tabelle<br />
(Gewichtsmatrix)<br />
W = [ w ] i, j<br />
→ j<br />
Bildverarbeitung und Biometrik<br />
SS13 7.12
Das Perzeptron <br />
(nach Rosenblatt "Principles of Neurodynamics", 1962) "<br />
x 1<br />
x 2<br />
x 3<br />
x n<br />
Assoziationseinheiten<br />
(Prädikate)<br />
Eingangsmuster<br />
w 1<br />
w 2<br />
w 3<br />
w n<br />
Gewichte<br />
Der einfachste Mustererkenner nach<br />
dem Prinzip der neuronalen Netze<br />
ist das (einstufige) Perzeptron<br />
Schwellwert<br />
(Bias)<br />
Diese Vorverarbeitungseinheiten berechnen<br />
Merkmale auf Bildregionen.<br />
Ihr Wert ist i.d.R. binär,<br />
also entweder 0 oder 1.<br />
Das Perzeptron<br />
"feuert" wenn<br />
der Ausgangsschwellwert<br />
überschritten ist.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.13
Das Perzeptron als Klassifikationsmethode"<br />
Das (einschichtige) Perzeptron berechnet eine lineare Trennfunktion im<br />
Merkmalsraum.<br />
Durch die Wichtung der Merkmale und den Bias-Term erfolgt eine Zerlegung<br />
des Merkmalsraums in zwei Halbräume.<br />
! w2<br />
w1x1 + w2 x2 > ! ⇔ w1x1 + w2 x2 ! " > 0<br />
! w1<br />
! w2<br />
! w1<br />
x1 w1 w2 x2 -1<br />
Θ<br />
Bias Θ kann auch<br />
als Gewicht eines<br />
konstanten Inputs<br />
(-1) aufgefasst<br />
werden.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.14
Mehrschichtiges Perzeptron (1) <br />
Multilayer Perceptron"<br />
Das einschichtige Perzeptron kann nur bei linear separierbaren<br />
Klassen eingesetzt werden.<br />
Hidden Layer(s)<br />
Input Layer<br />
x1 w1 w2 x2 -1<br />
Θ<br />
x 1<br />
x 2<br />
Output<br />
Layer<br />
Durch die Kombination von zwei oder mehreren Neuronen<br />
(units) können komplexe Trennfunktionen realisiert werden.<br />
Die Trennfunktionen (Hyperebenen/Hyperplanes) sind<br />
stückweise linear. Ihre Komplexität ist durch die Anzahl der<br />
verborgenen Neuronen (hidden units)<br />
begrenzt.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.15
Mehrschichtiges Perzeptron (2) <br />
Multilayer Perceptron!<br />
Das am häufigsten verwendete feedforward-Netz ist das Multilayer-Perzeptron.<br />
Multilayer-Perzeptrons können komplexe Probleme lösen und jede Boolsche<br />
Funktion darstellen.<br />
Im Merkmalsraums überlagern sich die Entscheidungsgrenzen<br />
(Trennflächen) von mehreren Neuronen.<br />
x 1<br />
x 2<br />
x 1<br />
x 2<br />
x 1<br />
x 2<br />
x 3<br />
Bildverarbeitung und Biometrik<br />
SS13 7.16
Prinzipielle Möglichkeiten für das Lernen <br />
in <strong>Neuronalen</strong> <strong>Netzen</strong> (1)"<br />
Das Lernen innerhalb eines Netzes erfolgt durch<br />
Selbstmodifikation gemäß einer festgelegten Vorschrift<br />
(Lernregel). Prinzipiell kann der Lernprozess bestehen aus:<br />
• Entwicklung neuer Verbindungen<br />
• Löschen existierender Verbindungen<br />
• Modifikation der Stärken der Verbindungen (Veränderung der Gewichte)<br />
• Modifikation des Schwellenwertes<br />
• Modifikation der Aktivierungs- bzw. Ausgabefunktion<br />
• Entwickeln neuer Zellen<br />
• Löschen bestehender Zellen<br />
Das Lernen durch Veränderung der Gewichte und Schwellwerte<br />
ist die am häufigsten verwendete Lernmethode.<br />
Verfahren, die auch eine Veränderung der Topologie<br />
beinhalten, haben in der Forschung eine gewisse Bedeutung,<br />
jedoch noch nicht in der praktischen Anwendung.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.17
Wie lernt ein Perzeptron ?"<br />
Als Lernen bezeichnen wir eine iterative Prozedur, die die<br />
Gewichte (weights) und (optional) die Schwellwerte (biases)<br />
eines Netzes verändert.<br />
Bei jeder Iteration t werden die neuen Werte (t+1) <strong>mit</strong> einem<br />
Korrekturwert aus den alten Werten berechnet:<br />
w i (t +1) = w i (t) + !w i (t)<br />
"(t +1) = "(t) + !"(t)<br />
Die Korrekturwerte werden aus der Antwort des Netzes auf das<br />
jeweilige Lernbeispiel abgeleitet.<br />
Das Lernproblem kann also wie folgt formuliert werden:<br />
Wie müssen Δw i(t) und ΔΘ(t) berechnet werden, da<strong>mit</strong> die<br />
Anzahl der Falschklassifikationen von Lernmustern geringer<br />
wird?<br />
Bildverarbeitung und Biometrik<br />
SS13 7.19
Lernregel für das Perzeptron (1)"<br />
Gegeben sei eine Menge von Lernbeispielen<br />
(Trainingsbeispiele) für den Eingangsvektor Χ.<br />
Für jedes Beispiel ist der gewünschten Ausgangswert d(Χ)<br />
bekannt. Bei einer Klassifikationsaufgabe ist d(Χ)<br />
üblicherweise +1 oder -1.<br />
Die Lernregel für das Perzeptron ist wie folgt:<br />
Beginne <strong>mit</strong> Zufallswerten für alle Gewichte<br />
Wähle einen (den nächsten) Eingangsvektor Χ aus der<br />
Menge der Trainingsbeispiele<br />
Wenn der berechnete Ausgangswert y(Χ) nicht <strong>mit</strong> dem<br />
gewünschten Ausgangswert übereinstimmt ( y(Χ) ≠ d(Χ) ),<br />
verändere alle Gewichte <strong>mit</strong> Δw i = d(Χ) x i .<br />
Gehe zurück zu Schritt 2<br />
Bildverarbeitung und Biometrik<br />
SS13 7.20
Lernregel für das Perzeptron (2)"<br />
Die Schritte 2 und 3 werden normalerweise pro<br />
Trainingszyklus (Epoche) für alle Beispiele durchgeführt.<br />
Danach wird getestet, ob sich der Gesamtfehler noch<br />
signifikant verringert hat. Wenn nicht, wird das Training<br />
beendet.<br />
Die Änderung des Schwellwerts des Perzeptrons ergibt<br />
sich zu:<br />
!" =<br />
# 0 wenn das Perzeptron richtig antwortet<br />
$<br />
%<br />
d(X) sonst.<br />
Es existiert ein Konvergenz-Theorem (Rosenblatt 1959),<br />
das für beliebige Anfangswerte der Gewichte das Finden<br />
einer Lösung <strong>mit</strong> einer endlichen Anzahl von Iterationen<br />
garantiert.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.21
(-0.5,0.5)<br />
Beispiel zur Perzeptron-Lernregel"<br />
Iterat. Beispiel d(X) y(X) w 1 w 2 ! "w 1 "w 2 "!<br />
1 (0.5 , 1.5) +1 +1 1 2 -2 0 0 0<br />
2 (-0.5 , 0.5) -1 -1 1 2 -2 0 0 0<br />
3 (0.5 , 0.5) +1 -1 1 2 -2 0.5 0.5 1<br />
4 ... 1.5 2.5 -1<br />
(0.5,1.5)<br />
(0.5,0.5)<br />
Ein Update der Gewichte wird<br />
vorgenommen, wenn die Antwort des<br />
Netzes für das aktuelle Beispiel nicht <strong>mit</strong><br />
dem Vorgabewert übereinstimmt, z.B:<br />
w 1 (4) = 1.5 = w 1 (3) + !w 1 (3)<br />
w 2 (4) = 2.5 = w 2 (3) + !w 2 (3)<br />
"(4) = #1 = "(3) + !"(3)<br />
ursprüngliche Trennfunktion<br />
Trennfunktion nach dem Gewichts-Update<br />
Bildverarbeitung und Biometrik<br />
SS13 7.22
Das Backpropagation - Lernverfahren"<br />
Die Basis für das Lernen <strong>mit</strong><br />
Backpropagation<br />
(Rückwärts – Verbreitung)<br />
bildet ein mehrschichtiges<br />
vorwärtsgekoppeltes Netz<br />
(feedforward-Netz), bestehend<br />
aus einer Eingabeschicht, einer<br />
Ausgabeschicht und mindestens<br />
einer verborgenen Schicht<br />
Forward-Pass<br />
(Hidden-Layer). Backward-Pass<br />
Bildverarbeitung und Biometrik<br />
SS13 7.23
Das Backpropagation - Lernverfahren"<br />
Das Lernen (für ein Beispiel) erfolgt in zwei<br />
Phasen:<br />
• In der ersten Phase wird dem Netz ein Input-Muster<br />
präsentiert. Die Aktivierung einer jeden Unit in dem (den)<br />
Hidden-Layer(s) wird Schicht für Schicht berechnet, bis<br />
der Output-Layer erreicht ist.<br />
Am Ausgang wird der Fehler (Soll – Ist) gemessen.<br />
• In der zweiten Phase erfolgt die Gewichtsänderung<br />
anhand des Fehlers zwischen Soll- und Ist-Antwort<br />
des Netzes. Dabei wird das Fehlersignal vom Output-<br />
Layer aus "zurückgesandt".<br />
In den Hidden-Layers werden die Gewichte anhand des<br />
Fehlersignals von der jeweils vorhergehenden Schicht<br />
geändert. Dann wird ein korrigiertes Fehlersignal an die<br />
nächste Schicht weitergeleitet, bis zum letzten Hidden-<br />
Layer.<br />
Forward-Pass<br />
Backward-Pass<br />
Bildverarbeitung und Biometrik<br />
SS13 7.24
Das Backpropagation–Verfahren im Detail <br />
(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />
Beim Trainieren wird der<br />
Fehler der Ausgabe eines<br />
Neurons j als Funktion der<br />
Gewichte aller eingehenden<br />
Netzverbindungen betrachtet.<br />
Eine mögliche<br />
Fehlerkurve, erzeugt<br />
durch zwei Gewichte:<br />
Minimierung des Fehlers durch<br />
Gradientenabstiegsverfahren<br />
Bildverarbeitung und Biometrik<br />
SS13 7.25
Das Backpropagation–Verfahren im Detail <br />
(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />
Aus der partiellen ersten<br />
Ableitung der Fehlerfunktion<br />
nach einer Gewichtsvariablen<br />
wird für die Korrektur dieses<br />
Gewichts berechnet:<br />
Der Faktor λ stellt die Lernrate<br />
dar und steuert den Grad der<br />
Änderung des Gewichtes.<br />
Das negative Vorzeichen<br />
kennzeichnet die Veränderung<br />
entgegen dem Kurvenanstieg<br />
in Richtung eines Tals der<br />
Fehlerkurve.<br />
Der Fehler und da<strong>mit</strong> die<br />
Änderung des Gewichtes sind<br />
abhängig vom Trainingsmuster.<br />
Der Fehler ist die Abweichung<br />
der Ausgabe von der<br />
erwarteten Ausgabe.<br />
Die Ausgabe und die<br />
Verbindungsgewichte hängen<br />
wie folgt zusammen:<br />
(identische Funktion)<br />
Bildverarbeitung und Biometrik<br />
SS13 7.26
Das Backpropagation–Verfahren im Detail <br />
(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />
Mit der logistischen Aktivierungsfunktion wird<br />
Der Fehler für jeweils ein Ausgabe-Neuron wird als quadrierte Differenz zwischen t j , dem<br />
Zielwert des Neurons für das Trainingsmuster, und der tatsächlich berechneten Ausgabe o j<br />
ausgedrückt. Bei mehreren Ausgabe-Neuronen ist der Gesamtfehler die Summe der<br />
quadrierten Differenzen definiert als:<br />
Der Faktor ½ dient lediglich der Vereinfachung der ersten Ableitung:<br />
Bildverarbeitung und Biometrik<br />
SS13 7.29
Das Backpropagation–Verfahren im Detail <br />
(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />
Für ein inneres Neuron wird der Fehler aus den Fehlersignalen der nachfolgenden<br />
Neuronen er<strong>mit</strong>telt:<br />
Das Fehlersignal δ ist dabei als Produkt des ersten und zweiten Faktors der Gleichung<br />
- δ j<br />
definiert:<br />
Bildverarbeitung und Biometrik<br />
SS13 7.30
Das Backpropagation–Verfahren im Detail <br />
(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />
Zusammenfassend ergibt sich für das Fehlersignal δ unter Verwendung der logistischen<br />
Funktion als Aktivierungsfunktion:<br />
Die Änderung eines Verbindungsgewichtes wird unter Berücksichtigung des Lernfaktors λ<br />
aus der Ausgabe des vorgeschalteten Neurons und des zurückpropagierten Fehlersignals<br />
berechnet:<br />
Bildverarbeitung und Biometrik<br />
SS13 7.31
Das Backpropagation–Verfahren im Detail <br />
(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />
Bildverarbeitung und Biometrik<br />
SS13 7.32
Generalisierung und Überanpassung <br />
Generalisierung and Overfitting "<br />
Beispiel:<br />
Die Trainings- und die Testmuster<br />
der Klassen A und B lassen sich <strong>mit</strong><br />
einer Geraden trennen.<br />
Bei der Verwendung von zwei<br />
Hidden-Units bilden sich zwei<br />
Trennflächen, wo<strong>mit</strong> beim Training<br />
ein kleinerer Fehler erreicht werden<br />
kann. Die Generalisierungsfähigkeit<br />
wird jedoch schlechter!<br />
Trainingsmuster<br />
Testsmuster<br />
Fehlklassifikation<br />
Bildverarbeitung und Biometrik<br />
SS13 7.34
Generalisierung und Überanpassung <br />
Generalisierung and Overfitting "<br />
Generalisierung ist die Fähigkeit des Netzes, auch solche<br />
Muster richtig zu klassifizieren, die es zuvor noch nicht<br />
"gesehen" hat.<br />
Zu viele Freiheitsgrade (Trennflächen) und/oder zu langes<br />
Training führt zu einer Überanpassung an die Trainingsdaten<br />
("Auswendiglernen").<br />
Mit Hilfe eines Validierungsdatensatzes kann der<br />
Trainingsverlauf überwacht werden und das Netz <strong>mit</strong> der<br />
besten Generalisierungsfähigkeit ausgewählt werden.<br />
Überanpassung stellt vor Allem dann ein großes Problem dar,<br />
wenn die Anzahl der Trainingsbeispiele und ihre<br />
Mustervariationen gering sind, die Netztopologie jedoch relativ<br />
groß ist.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.35
"Deep Neural Network" Architecture <br />
Example: GerDA"<br />
Stuhlsatz, A.; Lippel, J.; Zielke, T.:<br />
Feature Extraction With Deep Neural Networks by a Generalized Discriminant Analysis.<br />
IEEE Transactions on Neural Networks and Learning Systems, Volume: 23 Issue:4,<br />
April 2012, 596 - 608.<br />
Bildverarbeitung und Biometrik<br />
SS13 7.36
Dimensionality Reduction and Visualization<br />
using GerDA"<br />
2D Feature<br />
Space<br />
Bildverarbeitung und Biometrik<br />
SS13 7.37