Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
46 2. On-line Lernen mit univar<br />
Außer den Markov-artig schaltenden Datengeneratoren werden auch deterministisch<br />
schaltende verwendet. Bei ihnen sind erwartete und tatsächliche Lebensdauern gleich,<br />
ihre Zeitskalen TS sind vorgegeben. Auch die deterministisch schaltenden Systeme<br />
werden hier sowohl mit verrauschten als auch mit unverrauschten Zuständen verwendet.<br />
Für randomisierte Datenströme lässt sich formal ebenfalls eine Lebensdauer <strong>von</strong> Zuständen<br />
angeben. Ein randomisierter Datenstrom wie in Abb. 6a kann so erzeugt<br />
werden, dass man einen stochastischen Prozess mit zwei Zuständen zugrundelegt, die<br />
ohne Beachtung des jeweils letzten Zustandes zufällig angenommen werden. Dieser<br />
Prozess ist der triviale Fall eines Markov-Systems, denn aus den Übergangswahrscheinlichkeiten<br />
P(α|α) werden einfache statistische Gewichte P(α) der Zustände. Nach<br />
Gleichung (2-11) ist in diesem Fall<br />
TS,«=<br />
1<br />
. (2-13)<br />
1 − P(α)<br />
In Abb. 6a haben beide Zustände gleiches statistisches Gewicht, dort gilt also TS =2.<br />
Jeder randomisierende Datengenerator mit K gleich gewichteten Zuständen hat nur<br />
eine einzige Zeitskala, nämlich<br />
TS =<br />
1<br />
1 − 1/K<br />
K<br />
= . (2-14)<br />
K − 1<br />
Da der triviale Fall K =1 außer acht gelassen werden darf, gilt im randomisierten Fall<br />
immer TS ≤2. Mit anderen Worten, die Systemdynamik ist immer so schnell, das die<br />
Lerndynamik nicht ankoppeln kann.<br />
Auch bei nicht-Markov’schen Systemen gibt es Korrelationszeiten und mittlere Lebensdauern.<br />
Aus Gründen der Anschaulichkeit werde ich mich jedoch auf einfache Systeme<br />
beschränken.<br />
2.1.3 Phasenübergänge durch σ-Annealing<br />
Die Phasenübergänge des Codebuchs, die in Abschnitt 1.1.2 anhand <strong>von</strong> Abb. 11 und 12<br />
beschrieben wurden, sind Reaktionen des lernenden MVNN auf die Ausdehnungen der<br />
räumlichen Strukturen im Datensatz. Annealing- und der daraus resultierende Aufspaltungsprozess<br />
können so verstanden werden, dass der Datensatz auf verschiedenen<br />
Raumskalen σ ” betrachtet“ (lokal gemittelt) wird, und dass jeweils diejenigen Strukturen<br />
neu ” erkannt“ werden, deren Ausdehnung in der Größenordnung <strong>von</strong> σ liegt. Da σ<br />
deterministisch verkleinert wird, werden die kleineren Raumskalen nach den größeren<br />
entdeckt. In der Sequenz der Aufspaltungen wird dadurch eine Hierarchie <strong>von</strong> Modellen<br />
mit zunehmend feinerer Auflösung erzeugt. Für den ersten Phasenübergang<br />
müssen, wie schon mit Gleichung (1-50) <strong>von</strong> Rose, Gurewitz & Fox (1990) bewiesen,<br />
die größte Varianz des Systems, die als globales Moment berechnet wird, und der Parameter<br />
σ 2 des Lerners gleich sein. Die Gleichheit <strong>von</strong> räumlichen Skalen in System und<br />
Lerner (als solche möchte ich die beiden Varianzen hier verstehen) führt zum ersten<br />
Phasenübergang. Anschließend findet, wie auf den Seiten 18ff erklärt, eine Berechnung