22.07.2013 Aufrufe

Mustererkennung mit Neuronalen Netzen - Informatik

Mustererkennung mit Neuronalen Netzen - Informatik

Mustererkennung mit Neuronalen Netzen - Informatik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Bildverarbeitung und Biometrik 
<br />

Prof. Dr.-Ing. Thomas Zielke "<br />

<strong>Mustererkennung</strong><br />

<strong>mit</strong><br />

Künstlichen <strong>Neuronalen</strong> <strong>Netzen</strong><br />

(KNN)<br />

Bildverarbeitung und Biometrik<br />

SS13 7.1


Warum künstliche neuronale Netze ?"<br />

Die frühen Forschungsarbeiten waren überwiegend biologisch motiviert.<br />

Kann man das Gehirn besser verstehen lernen, wenn man Teilsysteme<br />

mathematisch modelliert und ihr Verhalten auf "Reize" von außen simuliert?<br />

Für die theoretische <strong>Informatik</strong> stellt das Gehirn eine Herausforderung<br />

dar, weil es der Existenzbeweis für einen bei vielen Aufgaben besseren<br />

"Computer" darstellt.<br />

Was ist die "Rechnerarchitektur" des Gehirns? (sicher nicht "von Neumann")<br />

Kann man die "Rechnerarchitektur" des Gehirns simulieren (künstliche<br />

"neuronale Netze") und da<strong>mit</strong> praktische Probleme der <strong>Informatik</strong> lösen?<br />

Bildverarbeitung und Biometrik<br />

SS13 7.2


Warum künstliche neuronale Netze ?"<br />

70 Jahre nach den ersten Forschungsarbeiten* hat sich eine biologisch<br />

inspirierte Technologie als Standardverfahren etabliert, deren erwiesene<br />

Stärken bei Problemen der Informationsverarbeitung bei "natürlichen"<br />

Daten liegen:<br />

• <strong>Mustererkennung</strong>:<br />

Weise ein Muster einer Klasse zu, zu der es höchstwahrscheinlich gehört.<br />

• Daten-Modellierung:<br />

Modelliere ein unbekanntes System aufgrund der Daten, die es generiert.<br />

• Prädiktion (Vorhersage):<br />

Mache eine Vorhersage über neue Daten auf der Basis von gegebenen<br />

Daten aus einem Prozess.<br />

* W. McCulloch & W. Pitts,<br />

A logical calculus of ideas immanent in nervous activity.<br />

Bulletin of Mathematical Biophysics, 5, 1943.<br />

F. Rosenblatt, The Perceptron:<br />

A Probabilistic Model for Information Storage and Organization in the Brain.<br />

Psychological Review, 65:386-408, 1958.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.3


Neurone: Grundbausteine der
<br />

biologischen Informationsverarbeitung "<br />

Biologische Informationsverarbeitung<br />

basiert auf Nervenzellen (Neuronen)<br />

Den Nervensystemen der verschiedenen Lebewesen<br />

liegt ein gemeinsames Grundmuster zugrunde.<br />

Ein Neuron besteht prinzipiell aus:<br />

• Zellkörper<br />

• Zellkern (Nucleus)<br />

Der Zellkern hat die Aufgabe, die Eingangssignale<br />

zu verarbeiten und unter gewissen Randbedingungen<br />

die Weiterleitung von Ausgangssignalen anzustoßen.<br />

• Dendriten<br />

Die Dendriten sind dünne, röhrenförmige und meist<br />

stark verästelte Fortsätze der Zelle, <strong>mit</strong> denen die<br />

Zelle Eingangssignale aufnimmt.<br />

• Nervenfaser (Axon)<br />

Die Nervenfaser übernimmt die Weiterleitung der<br />

Ausgangssignale des Neurons. Sie verdichtet sich<br />

an ihren Enden und bildet die Synapsen.<br />

• Synapsen<br />

Kontaktstelle zwischen dem Ende des Axons einer Nervenzelle<br />

und dem Dendriten einer anderen Nervenzelle.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.4


Nervensysteme "<br />

Erst durch das Zusammenwirken vieler Nervenzellen in einem<br />

Nervensystem kann eine leistungsfähige<br />

Informationsverarbeitung erfolgen.<br />

Einige charakteristische Daten für das<br />

Nervensystem des Menschen:<br />

• Anzahl der Nervenzellen: ca. 10 11 - 10 12<br />

• Schaltzeit einer Nervenzelle: ca. 10 -3 /sec<br />

• Schaltvorgänge pro Sek.<br />

(Nervenzelle): ca. 10 3<br />

• Länge einer<br />

Nervenzelle:<br />

bis 1 m<br />

• Schaltvorgänge<br />

insgesamt:<br />

ca.<br />

10 12 - 10 13 /sec<br />

Elektronenmikroskop-<br />

Aufnahme der Großhirnrinde<br />

(Cortex)<br />

Bildverarbeitung und Biometrik<br />

SS13 7.5


Modellierung von Neuronen
<br />

für künstliche neuronale Netze"<br />

Die Bestandteile eines künstlichen neuronalen Netzwerks sind stark<br />

idealisierte Neurone.<br />

In Anlehnung an das biologische Vorbild haben auch künstliche<br />

Neurone die folgenden Komponenten:<br />

• Zellkörper<br />

(das abstrakte<br />

Rechenelement a i)<br />

• Dendriten<br />

(summieren alle<br />

Eingänge auf)<br />

• Axon<br />

(transportiert den<br />

Ausgabewert o i)<br />

• Synapsen<br />

(treten <strong>mit</strong> den Dendriten anderer<br />

Neurone in Kontakt)<br />

Die Stärke der Synapsen werden durch numerische Werte, die<br />

Verbindungsgewichte (w ij), dargestellt.<br />

Zwei Neurone<br />

a i und a j<br />

Bildverarbeitung und Biometrik<br />

SS13 7.6


Mathematisches Modell eines Künstlichen Neurons
<br />

Ursprung: McCulloch und Pitts (1943) "<br />

Eingänge<br />

X i<br />

Multiplikation<br />

<strong>mit</strong> den<br />

Gewichten<br />

W i<br />

Aktivierungsfunktion<br />

y = f (a - Θ)<br />

-<br />

n<br />

"<br />

y = f ( x i ! w i<br />

i=1<br />

Θ<br />

Ausgang<br />

y<br />

Aktivierungs-<br />

schwellwert (Bias)<br />

# $)<br />

Bildverarbeitung und Biometrik<br />

SS13 7.7


Funktionale Darstellung eines künstlichen Neurons"<br />

In einem Neuron werden zwei<br />

Funktionen berechnet:<br />

• Integrationsfunktion g(x 1, ..., x n)<br />

Die Eingänge werden gewichtet<br />

aufsummiert.<br />

• Entscheidungsfunktion f( g(x 1, ..., x n) )<br />

Die gewichtete Summe der Eingänge<br />

muss einen bestimmten Schwellwert<br />

erreichen, da<strong>mit</strong> das Neuron feuert.<br />

x 1<br />

x 2<br />

x 3<br />

x 4<br />

w 1<br />

w 2<br />

w 3<br />

w 4<br />

g<br />

f<br />

y<br />

Feuern bedeutet die Weitergabe<br />

eines Wertes nahe 1 durch die<br />

Entscheidungsfunktion.<br />

Die Entscheidungsfunktion ist<br />

immer eine Sprungfunktion oder<br />

eine differenzierbare Näherung<br />

davon:<br />

a = g(...)<br />

y = f(a-Θ)<br />

Bildverarbeitung und Biometrik<br />

SS13 7.8


Entscheidungs-/Aktivierungsfunktion"<br />

Bei einfachen Neurontypen,<br />

wie dem Perzeptron, besteht die<br />

Aktivierungsfunktion aus einer<br />

Schwellwertoperation:<br />

f (x) =<br />

" 1 wenn x ! thr<br />

#<br />

$ 0 wenn x < thr<br />

Häufig wird eine<br />

Sigmoid-Funktion verwendet,<br />

was zwei Vorteile hat:<br />

• Differenzierbarkeit<br />

(notwendig für die meisten<br />

Lernverfahren)<br />

• "Weicher" parametrisierbarer<br />

Zustandswechsel.<br />

y(x) =<br />

Sigmoid<br />

1<br />

1+ e<br />

!( x! ") p<br />

Bildverarbeitung und Biometrik<br />

SS13 7.9


Verborgene Schicht<br />

Eingangsschicht<br />

Ausgangsschicht<br />

Topologie
<br />

neuronaler Netze (1)"<br />

Ein neuronales Netz<br />

entsteht durch die<br />

Verknüpfung mehrerer<br />

(vieler) einzelner Neurone.<br />

In der Praxis werden oft<br />

feedforward-Netze<br />

(vorwärtsgekoppelte Netze)<br />

eingesetzt.<br />

• keine Rückkopplungen<br />

• hierarchische Organisation in<br />

Schichten<br />

Das Verbindungsschema,<br />

die Anzahl der Schichten<br />

und deren Neuronenanzahl<br />

bilden die Topologie des<br />

neuronalen Netzes.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.10


Topologie neuronaler Netze (3)
<br />

Beispiel"<br />

i<br />

↓<br />

Alle freien Felder werden <strong>mit</strong> Null besetzt.<br />

Darstellung der<br />

Verbindungsstruktur<br />

durch eine Tabelle<br />

(Gewichtsmatrix)<br />

W = [ w ] i, j<br />

→ j<br />

Bildverarbeitung und Biometrik<br />

SS13 7.12


Das Perzeptron
<br />

(nach Rosenblatt "Principles of Neurodynamics", 1962) "<br />

x 1<br />

x 2<br />

x 3<br />

x n<br />

Assoziationseinheiten<br />

(Prädikate)<br />

Eingangsmuster<br />

w 1<br />

w 2<br />

w 3<br />

w n<br />

Gewichte<br />

Der einfachste Mustererkenner nach<br />

dem Prinzip der neuronalen Netze<br />

ist das (einstufige) Perzeptron<br />

Schwellwert<br />

(Bias)<br />

Diese Vorverarbeitungseinheiten berechnen<br />

Merkmale auf Bildregionen.<br />

Ihr Wert ist i.d.R. binär,<br />

also entweder 0 oder 1.<br />

Das Perzeptron<br />

"feuert" wenn<br />

der Ausgangsschwellwert<br />

überschritten ist.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.13


Das Perzeptron als Klassifikationsmethode"<br />

Das (einschichtige) Perzeptron berechnet eine lineare Trennfunktion im<br />

Merkmalsraum.<br />

Durch die Wichtung der Merkmale und den Bias-Term erfolgt eine Zerlegung<br />

des Merkmalsraums in zwei Halbräume.<br />

! w2<br />

w1x1 + w2 x2 > ! ⇔ w1x1 + w2 x2 ! " > 0<br />

! w1<br />

! w2<br />

! w1<br />

x1 w1 w2 x2 -1<br />

Θ<br />

Bias Θ kann auch<br />

als Gewicht eines<br />

konstanten Inputs<br />

(-1) aufgefasst<br />

werden.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.14


Mehrschichtiges Perzeptron (1)
<br />

Multilayer Perceptron"<br />

Das einschichtige Perzeptron kann nur bei linear separierbaren<br />

Klassen eingesetzt werden.<br />

Hidden Layer(s)<br />

Input Layer<br />

x1 w1 w2 x2 -1<br />

Θ<br />

x 1<br />

x 2<br />

Output<br />

Layer<br />

Durch die Kombination von zwei oder mehreren Neuronen<br />

(units) können komplexe Trennfunktionen realisiert werden.<br />

Die Trennfunktionen (Hyperebenen/Hyperplanes) sind<br />

stückweise linear. Ihre Komplexität ist durch die Anzahl der<br />

verborgenen Neuronen (hidden units)<br />

begrenzt.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.15


Mehrschichtiges Perzeptron (2)
<br />

Multilayer Perceptron!<br />

Das am häufigsten verwendete feedforward-Netz ist das Multilayer-Perzeptron.<br />

Multilayer-Perzeptrons können komplexe Probleme lösen und jede Boolsche<br />

Funktion darstellen.<br />

Im Merkmalsraums überlagern sich die Entscheidungsgrenzen<br />

(Trennflächen) von mehreren Neuronen.<br />

x 1<br />

x 2<br />

x 1<br />

x 2<br />

x 1<br />

x 2<br />

x 3<br />

Bildverarbeitung und Biometrik<br />

SS13 7.16


Prinzipielle Möglichkeiten für das Lernen
<br />

in <strong>Neuronalen</strong> <strong>Netzen</strong> (1)"<br />

Das Lernen innerhalb eines Netzes erfolgt durch<br />

Selbstmodifikation gemäß einer festgelegten Vorschrift<br />

(Lernregel). Prinzipiell kann der Lernprozess bestehen aus:<br />

• Entwicklung neuer Verbindungen<br />

• Löschen existierender Verbindungen<br />

• Modifikation der Stärken der Verbindungen (Veränderung der Gewichte)<br />

• Modifikation des Schwellenwertes<br />

• Modifikation der Aktivierungs- bzw. Ausgabefunktion<br />

• Entwickeln neuer Zellen<br />

• Löschen bestehender Zellen<br />

Das Lernen durch Veränderung der Gewichte und Schwellwerte<br />

ist die am häufigsten verwendete Lernmethode.<br />

Verfahren, die auch eine Veränderung der Topologie<br />

beinhalten, haben in der Forschung eine gewisse Bedeutung,<br />

jedoch noch nicht in der praktischen Anwendung.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.17


Wie lernt ein Perzeptron ?"<br />

Als Lernen bezeichnen wir eine iterative Prozedur, die die<br />

Gewichte (weights) und (optional) die Schwellwerte (biases)<br />

eines Netzes verändert.<br />

Bei jeder Iteration t werden die neuen Werte (t+1) <strong>mit</strong> einem<br />

Korrekturwert aus den alten Werten berechnet:<br />

w i (t +1) = w i (t) + !w i (t)<br />

"(t +1) = "(t) + !"(t)<br />

Die Korrekturwerte werden aus der Antwort des Netzes auf das<br />

jeweilige Lernbeispiel abgeleitet.<br />

Das Lernproblem kann also wie folgt formuliert werden:<br />

Wie müssen Δw i(t) und ΔΘ(t) berechnet werden, da<strong>mit</strong> die<br />

Anzahl der Falschklassifikationen von Lernmustern geringer<br />

wird?<br />

Bildverarbeitung und Biometrik<br />

SS13 7.19


Lernregel für das Perzeptron (1)"<br />

Gegeben sei eine Menge von Lernbeispielen<br />

(Trainingsbeispiele) für den Eingangsvektor Χ.<br />

Für jedes Beispiel ist der gewünschten Ausgangswert d(Χ)<br />

bekannt. Bei einer Klassifikationsaufgabe ist d(Χ)<br />

üblicherweise +1 oder -1.<br />

Die Lernregel für das Perzeptron ist wie folgt:<br />

Beginne <strong>mit</strong> Zufallswerten für alle Gewichte<br />

Wähle einen (den nächsten) Eingangsvektor Χ aus der<br />

Menge der Trainingsbeispiele<br />

Wenn der berechnete Ausgangswert y(Χ) nicht <strong>mit</strong> dem<br />

gewünschten Ausgangswert übereinstimmt ( y(Χ) ≠ d(Χ) ),<br />

verändere alle Gewichte <strong>mit</strong> Δw i = d(Χ) x i .<br />

Gehe zurück zu Schritt 2<br />

Bildverarbeitung und Biometrik<br />

SS13 7.20


Lernregel für das Perzeptron (2)"<br />

Die Schritte 2 und 3 werden normalerweise pro<br />

Trainingszyklus (Epoche) für alle Beispiele durchgeführt.<br />

Danach wird getestet, ob sich der Gesamtfehler noch<br />

signifikant verringert hat. Wenn nicht, wird das Training<br />

beendet.<br />

Die Änderung des Schwellwerts des Perzeptrons ergibt<br />

sich zu:<br />

!" =<br />

# 0 wenn das Perzeptron richtig antwortet<br />

$<br />

%<br />

d(X) sonst.<br />

Es existiert ein Konvergenz-Theorem (Rosenblatt 1959),<br />

das für beliebige Anfangswerte der Gewichte das Finden<br />

einer Lösung <strong>mit</strong> einer endlichen Anzahl von Iterationen<br />

garantiert.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.21


(-0.5,0.5)<br />

Beispiel zur Perzeptron-Lernregel"<br />

Iterat. Beispiel d(X) y(X) w 1 w 2 ! "w 1 "w 2 "!<br />

1 (0.5 , 1.5) +1 +1 1 2 -2 0 0 0<br />

2 (-0.5 , 0.5) -1 -1 1 2 -2 0 0 0<br />

3 (0.5 , 0.5) +1 -1 1 2 -2 0.5 0.5 1<br />

4 ... 1.5 2.5 -1<br />

(0.5,1.5)<br />

(0.5,0.5)<br />

Ein Update der Gewichte wird<br />

vorgenommen, wenn die Antwort des<br />

Netzes für das aktuelle Beispiel nicht <strong>mit</strong><br />

dem Vorgabewert übereinstimmt, z.B:<br />

w 1 (4) = 1.5 = w 1 (3) + !w 1 (3)<br />

w 2 (4) = 2.5 = w 2 (3) + !w 2 (3)<br />

"(4) = #1 = "(3) + !"(3)<br />

ursprüngliche Trennfunktion<br />

Trennfunktion nach dem Gewichts-Update<br />

Bildverarbeitung und Biometrik<br />

SS13 7.22


Das Backpropagation - Lernverfahren"<br />

Die Basis für das Lernen <strong>mit</strong><br />

Backpropagation<br />

(Rückwärts – Verbreitung)<br />

bildet ein mehrschichtiges<br />

vorwärtsgekoppeltes Netz<br />

(feedforward-Netz), bestehend<br />

aus einer Eingabeschicht, einer<br />

Ausgabeschicht und mindestens<br />

einer verborgenen Schicht<br />

Forward-Pass<br />

(Hidden-Layer). Backward-Pass<br />

Bildverarbeitung und Biometrik<br />

SS13 7.23


Das Backpropagation - Lernverfahren"<br />

Das Lernen (für ein Beispiel) erfolgt in zwei<br />

Phasen:<br />

• In der ersten Phase wird dem Netz ein Input-Muster<br />

präsentiert. Die Aktivierung einer jeden Unit in dem (den)<br />

Hidden-Layer(s) wird Schicht für Schicht berechnet, bis<br />

der Output-Layer erreicht ist.<br />

Am Ausgang wird der Fehler (Soll – Ist) gemessen.<br />

• In der zweiten Phase erfolgt die Gewichtsänderung<br />

anhand des Fehlers zwischen Soll- und Ist-Antwort<br />

des Netzes. Dabei wird das Fehlersignal vom Output-<br />

Layer aus "zurückgesandt".<br />

In den Hidden-Layers werden die Gewichte anhand des<br />

Fehlersignals von der jeweils vorhergehenden Schicht<br />

geändert. Dann wird ein korrigiertes Fehlersignal an die<br />

nächste Schicht weitergeleitet, bis zum letzten Hidden-<br />

Layer.<br />

Forward-Pass<br />

Backward-Pass<br />

Bildverarbeitung und Biometrik<br />

SS13 7.24


Das Backpropagation–Verfahren im Detail
<br />

(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />

Beim Trainieren wird der<br />

Fehler der Ausgabe eines<br />

Neurons j als Funktion der<br />

Gewichte aller eingehenden<br />

Netzverbindungen betrachtet.<br />

Eine mögliche<br />

Fehlerkurve, erzeugt<br />

durch zwei Gewichte:<br />

Minimierung des Fehlers durch<br />

Gradientenabstiegsverfahren<br />

Bildverarbeitung und Biometrik<br />

SS13 7.25


Das Backpropagation–Verfahren im Detail
<br />

(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />

Aus der partiellen ersten<br />

Ableitung der Fehlerfunktion<br />

nach einer Gewichtsvariablen<br />

wird für die Korrektur dieses<br />

Gewichts berechnet:<br />

Der Faktor λ stellt die Lernrate<br />

dar und steuert den Grad der<br />

Änderung des Gewichtes.<br />

Das negative Vorzeichen<br />

kennzeichnet die Veränderung<br />

entgegen dem Kurvenanstieg<br />

in Richtung eines Tals der<br />

Fehlerkurve.<br />

Der Fehler und da<strong>mit</strong> die<br />

Änderung des Gewichtes sind<br />

abhängig vom Trainingsmuster.<br />

Der Fehler ist die Abweichung<br />

der Ausgabe von der<br />

erwarteten Ausgabe.<br />

Die Ausgabe und die<br />

Verbindungsgewichte hängen<br />

wie folgt zusammen:<br />

(identische Funktion)<br />

Bildverarbeitung und Biometrik<br />

SS13 7.26


Das Backpropagation–Verfahren im Detail
<br />

(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />

Mit der logistischen Aktivierungsfunktion wird<br />

Der Fehler für jeweils ein Ausgabe-Neuron wird als quadrierte Differenz zwischen t j , dem<br />

Zielwert des Neurons für das Trainingsmuster, und der tatsächlich berechneten Ausgabe o j<br />

ausgedrückt. Bei mehreren Ausgabe-Neuronen ist der Gesamtfehler die Summe der<br />

quadrierten Differenzen definiert als:<br />

Der Faktor ½ dient lediglich der Vereinfachung der ersten Ableitung:<br />

Bildverarbeitung und Biometrik<br />

SS13 7.29


Das Backpropagation–Verfahren im Detail
<br />

(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />

Für ein inneres Neuron wird der Fehler aus den Fehlersignalen der nachfolgenden<br />

Neuronen er<strong>mit</strong>telt:<br />

Das Fehlersignal δ ist dabei als Produkt des ersten und zweiten Faktors der Gleichung<br />

- δ j<br />

definiert:<br />

Bildverarbeitung und Biometrik<br />

SS13 7.30


Das Backpropagation–Verfahren im Detail
<br />

(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />

Zusammenfassend ergibt sich für das Fehlersignal δ unter Verwendung der logistischen<br />

Funktion als Aktivierungsfunktion:<br />

Die Änderung eines Verbindungsgewichtes wird unter Berücksichtigung des Lernfaktors λ<br />

aus der Ausgabe des vorgeschalteten Neurons und des zurückpropagierten Fehlersignals<br />

berechnet:<br />

Bildverarbeitung und Biometrik<br />

SS13 7.31


Das Backpropagation–Verfahren im Detail
<br />

(Quelle: Lämmel und Cleve, "Künstliche Intelligenz", Hanser Verlag)"<br />

Bildverarbeitung und Biometrik<br />

SS13 7.32


Generalisierung und Überanpassung
<br />

Generalisierung and Overfitting "<br />

Beispiel:<br />

Die Trainings- und die Testmuster<br />

der Klassen A und B lassen sich <strong>mit</strong><br />

einer Geraden trennen.<br />

Bei der Verwendung von zwei<br />

Hidden-Units bilden sich zwei<br />

Trennflächen, wo<strong>mit</strong> beim Training<br />

ein kleinerer Fehler erreicht werden<br />

kann. Die Generalisierungsfähigkeit<br />

wird jedoch schlechter!<br />

Trainingsmuster<br />

Testsmuster<br />

Fehlklassifikation<br />

Bildverarbeitung und Biometrik<br />

SS13 7.34


Generalisierung und Überanpassung
<br />

Generalisierung and Overfitting "<br />

Generalisierung ist die Fähigkeit des Netzes, auch solche<br />

Muster richtig zu klassifizieren, die es zuvor noch nicht<br />

"gesehen" hat.<br />

Zu viele Freiheitsgrade (Trennflächen) und/oder zu langes<br />

Training führt zu einer Überanpassung an die Trainingsdaten<br />

("Auswendiglernen").<br />

Mit Hilfe eines Validierungsdatensatzes kann der<br />

Trainingsverlauf überwacht werden und das Netz <strong>mit</strong> der<br />

besten Generalisierungsfähigkeit ausgewählt werden.<br />

Überanpassung stellt vor Allem dann ein großes Problem dar,<br />

wenn die Anzahl der Trainingsbeispiele und ihre<br />

Mustervariationen gering sind, die Netztopologie jedoch relativ<br />

groß ist.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.35


"Deep Neural Network" Architecture
<br />

Example: GerDA"<br />

Stuhlsatz, A.; Lippel, J.; Zielke, T.:<br />

Feature Extraction With Deep Neural Networks by a Generalized Discriminant Analysis.<br />

IEEE Transactions on Neural Networks and Learning Systems, Volume: 23 Issue:4,<br />

April 2012, 596 - 608.<br />

Bildverarbeitung und Biometrik<br />

SS13 7.36


Dimensionality Reduction and Visualization<br />

using GerDA"<br />

2D Feature<br />

Space<br />

Bildverarbeitung und Biometrik<br />

SS13 7.37

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!