21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

46 2. On-line Lernen mit univar<br />

Außer den Markov-artig schaltenden Datengeneratoren werden auch deterministisch<br />

schaltende verwendet. Bei ihnen sind erwartete und tatsächliche Lebensdauern gleich,<br />

ihre Zeitskalen TS sind vorgegeben. Auch die deterministisch schaltenden Systeme<br />

werden hier sowohl mit verrauschten als auch mit unverrauschten Zuständen verwendet.<br />

Für randomisierte Datenströme lässt sich formal ebenfalls eine Lebensdauer <strong>von</strong> Zuständen<br />

angeben. Ein randomisierter Datenstrom wie in Abb. 6a kann so erzeugt<br />

werden, dass man einen stochastischen Prozess mit zwei Zuständen zugrundelegt, die<br />

ohne Beachtung des jeweils letzten Zustandes zufällig angenommen werden. Dieser<br />

Prozess ist der triviale Fall eines Markov-Systems, denn aus den Übergangswahrscheinlichkeiten<br />

P(α|α) werden einfache statistische Gewichte P(α) der Zustände. Nach<br />

Gleichung (2-11) ist in diesem Fall<br />

TS,«=<br />

1<br />

. (2-13)<br />

1 − P(α)<br />

In Abb. 6a haben beide Zustände gleiches statistisches Gewicht, dort gilt also TS =2.<br />

Jeder randomisierende Datengenerator mit K gleich gewichteten Zuständen hat nur<br />

eine einzige Zeitskala, nämlich<br />

TS =<br />

1<br />

1 − 1/K<br />

K<br />

= . (2-14)<br />

K − 1<br />

Da der triviale Fall K =1 außer acht gelassen werden darf, gilt im randomisierten Fall<br />

immer TS ≤2. Mit anderen Worten, die Systemdynamik ist immer so schnell, das die<br />

Lerndynamik nicht ankoppeln kann.<br />

Auch bei nicht-Markov’schen Systemen gibt es Korrelationszeiten und mittlere Lebensdauern.<br />

Aus Gründen der Anschaulichkeit werde ich mich jedoch auf einfache Systeme<br />

beschränken.<br />

2.1.3 Phasenübergänge durch σ-Annealing<br />

Die Phasenübergänge des Codebuchs, die in Abschnitt 1.1.2 anhand <strong>von</strong> Abb. 11 und 12<br />

beschrieben wurden, sind Reaktionen des lernenden MVNN auf die Ausdehnungen der<br />

räumlichen Strukturen im Datensatz. Annealing- und der daraus resultierende Aufspaltungsprozess<br />

können so verstanden werden, dass der Datensatz auf verschiedenen<br />

Raumskalen σ ” betrachtet“ (lokal gemittelt) wird, und dass jeweils diejenigen Strukturen<br />

neu ” erkannt“ werden, deren Ausdehnung in der Größenordnung <strong>von</strong> σ liegt. Da σ<br />

deterministisch verkleinert wird, werden die kleineren Raumskalen nach den größeren<br />

entdeckt. In der Sequenz der Aufspaltungen wird dadurch eine Hierarchie <strong>von</strong> Modellen<br />

mit zunehmend feinerer Auflösung erzeugt. Für den ersten Phasenübergang<br />

müssen, wie schon mit Gleichung (1-50) <strong>von</strong> Rose, Gurewitz & Fox (1990) bewiesen,<br />

die größte Varianz des Systems, die als globales Moment berechnet wird, und der Parameter<br />

σ 2 des Lerners gleich sein. Die Gleichheit <strong>von</strong> räumlichen Skalen in System und<br />

Lerner (als solche möchte ich die beiden Varianzen hier verstehen) führt zum ersten<br />

Phasenübergang. Anschließend findet, wie auf den Seiten 18ff erklärt, eine Berechnung

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!