Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
14 1. Grundlagen<br />
schen Methoden zu analysieren, um auf diese Weise seine wichtigsten Eigenschaften,<br />
funktionale Abhängigkeiten bzw. Korrelationen zwischen den Koordinatenwerten, zu<br />
finden. Eine Vielzahl hochdimensionaler Beobachtungen muss auf einen kleinen Satz<br />
<strong>von</strong> Modellparametern reduziert werden, mit denen der Datensatz hinreichend genau<br />
beschrieben werden kann. Diese Aufgabe heißt Dimensionsreduktion.<br />
Bei der Dimensionsreduktion mit der Absicht, die wichtigsten Eigenschaften eines Datensatzes<br />
zu finden, oder ihn eventuell besser darstellen zu können, handelt es sich um<br />
ein Standardproblem der klassischen Statistik. Eine bevorzugte Methode ist die Approximation<br />
der Verteilungsdichte p des gegebenen Datensatzes durch eine Mischung<br />
<strong>von</strong> Basisfunktionen, die durch wenige Parameter vollständig beschrieben sind (Duda<br />
& Hart, 1973). Diese sollten auch in hohen Dimensionen einfach handhabbar sein,<br />
weshalb man oft Gauß’sche Glockenkurven (GF) in d Dimensionen als Basisfunktionen<br />
verwendet, die sich in eindimensionale Funktionen faktorisieren lassen,<br />
GF(x;c, σ) =<br />
d�<br />
GF(xi; ci, σ) ∀x ∈ R d . (1-1)<br />
i=1<br />
Dabei ist c ∈ R d das Zentrum der Funktion und σ die Standardabweichung. Beim<br />
Übergang zu multivariaten Normalverteilungen ändert sich bis auf eine Drehung des<br />
Koordinatensystems nichts an der Faktorisierung.<br />
Die parametrische Dichteschätzung mit einer gewichteten Summe multivariater Normalverteilungen<br />
wurde <strong>von</strong> Duda & Hart (1973) ausführlich beschrieben. Im folgenden<br />
Abschnitt möchte ich diese Methode und den multivar-Algorithmus <strong>von</strong> Kloppenburg<br />
& Tavan (1997) vorstellen, welcher die Schätzung durch sequentielle Parameteradaption<br />
durchführt. Erst nach der rein mathematischen Betrachtung werde ich in Abschnitt 1.2<br />
genauer auf die biophysikalischen Interpretationen eingehen, die das multivar-Netzwerk<br />
als effektives Modell für das Ein-/Ausgabe-Verhalten <strong>von</strong> Nervenzellverbänden ausweisen.<br />
1.1 Dichteschätzung mit einer Mischung multivariater<br />
Normalverteilungen<br />
Das Ziel einer Dichteschätzung besteht darin, für einen gegebenen Datensatz X ⊂ M<br />
im sogenannten Merkmalsraum M ⊂R d eine Approximation ˆp der zugrundeliegenden<br />
Verteilungsdichte p zu finden. In praktischen Anwendungen enthält der Datensatz<br />
immer endlich viele Punkte, 1<br />
X := {x«∈ M | α=1, . . ., T }. (1-2)<br />
1 Es handelt sich um ein Approximationsproblem mit unvollständigen Daten. Die Verteilungsdichte,<br />
nach welcher der Datensatz generiert wurde, kann nicht beliebig genau bestimmt werden. Statt der<br />
zugrundeliegenden Verteilungsdichte könnte man auch die Häufigkeit der Datenpunkte schätzen. Es<br />
handelte sich dann strenggenommen um ein Interpolations- und kein Dichteschätzungsproblem. Im<br />
folgenden wird kein Unterschied mehr zwischen diesen beiden Sichtweisen gemacht.