20.01.2015 Aufrufe

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Kapitel 3. Lokal polynomiale Modellierung Seite 67<br />

3.10 Suche nach nächsten Nachbarn<br />

E<strong>in</strong> großer Vorteil <strong>lokale</strong>r <strong>Modelle</strong> ist ihre Effizienz. Sie rührt natürlich daher, dass<br />

das eigentliche Modell nur anhand sehr weniger Tra<strong>in</strong><strong>in</strong>gspunkte, eben den nächsten<br />

Nachbarn, berechnet werden muss. Aber bei dieser Argumentation lässt man den<br />

eigentlich wichtigsten Punkt <strong>in</strong> Bezug auf die Laufzeitbetrachtung unter den Tisch<br />

fallen: wie f<strong>in</strong>det man möglichst schnell die nächsten Nachbarn e<strong>in</strong>es Punktes<br />

Das Problem ist folgen<strong>der</strong>maßen def<strong>in</strong>iert: Gegeben sei e<strong>in</strong>e Menge von Punkten<br />

M = {x 1 , . . . , x n } mit x i ∈ R d , ∀i, e<strong>in</strong>e Metrik ‖ · ‖ sowie e<strong>in</strong> Anfragepunkt q ∈ R d .<br />

Gesucht s<strong>in</strong>d die k Punkte aus M, die bezüglich <strong>der</strong> gegebenen Metrik die ger<strong>in</strong>gste<br />

Distanz zum Anfragepunkt q haben.<br />

Die Suche nach nächsten Nachbarn ist mittlerweile Kern zahlreicher Algorithmen,<br />

<strong>in</strong>sb. <strong>in</strong> Gebieten wie Data M<strong>in</strong><strong>in</strong>g, Mustererkennung, Klassifikation, Mach<strong>in</strong>e Learn<strong>in</strong>g,<br />

Datenkompression und Statistik [21]. Es ist e<strong>in</strong> sehr komplexes Problem und<br />

es gibt nicht den besten Algorithmus zur Suche nach nächsten Nachbarn; vielmehr<br />

hängt es vom Anwendungsfall ab, welcher Algorithmus am schnellsten arbeitet. Hierbei<br />

s<strong>in</strong>d mehrere Parameter entscheidend, <strong>in</strong>sb. die Dimension d des Raumes, die<br />

Anzahl n <strong>der</strong> Punkte und ihre Verteilung im Raum, sowie die verwendete Metrik<br />

und die Verteilung <strong>der</strong> Anfragepunkte q i .<br />

Je<strong>der</strong> Algorithmus zur Suche nach nächsten Nachbarn muss sich zunächst mit dem<br />

sog. Brute-Force Ansatz messen. Hierbei werden e<strong>in</strong>fach alle Distanzen zwischen<br />

Anfragepunkt und den restlichen Punkten des Datensatzes berechnet und die k<br />

Punkte mit den ger<strong>in</strong>gsten Distanzen zurückgegeben. Dieses Verfahren benötigt ke<strong>in</strong>erlei<br />

Präprozess<strong>in</strong>g und bis auf die Punkte selbst ke<strong>in</strong>en zusätzlichen Speicherplatz,<br />

hat jedoch e<strong>in</strong>e Laufzeit von O(nd) für alle L p -Distanzen. Bei Verwendung solcher<br />

L p -Distanzen ist bei höherdimensionalen Problemen e<strong>in</strong>e Beschleunigung durch Verwendung<br />

des sog. Partial Distance Search (PDS) möglich, wo die Berechnung <strong>der</strong><br />

Distanz abgebrochen wird, sobald diese größer wird als die des bislang gefundenen<br />

letzten nächsten Nachbarn. Durch PDS kann natürlich je<strong>der</strong> Algorithmus zur Suche<br />

nächster Nachbarn beschleunigt werden, <strong>der</strong> L p -Distanzen verwendet.<br />

Die meisten effizienten Algorithmen zur Suche nach nächsten Nachbarn basieren auf<br />

e<strong>in</strong>er hierarchischen Zerlegung <strong>der</strong> Punktmenge, die meist <strong>in</strong> e<strong>in</strong>em Suchbaum als<br />

Datenstruktur gespeichert wird. Diese Zerlegung wird <strong>in</strong> e<strong>in</strong>em Präprozess<strong>in</strong>g durchgeführt;<br />

die Suche selbst f<strong>in</strong>det dann auf diesem Suchbaum statt. Es gibt zahlreiche<br />

Methoden zur Zerlegung <strong>der</strong> Punktmenge und zur Bildung e<strong>in</strong>er geeignete Datenstruktur.<br />

Im folgenden sollen zunächst Algorithmen auf Basis von k-d-Bäumen vorgestellt<br />

werden, da sie zu den ältesten und populärsten Methoden gehören und viele<br />

an<strong>der</strong>e Algorithmen zur Suche nächster Nachbarn diesen im Pr<strong>in</strong>zip ähneln. Daran<br />

anschließend wird <strong>der</strong> ATRIA-Algorithmus vorgestellt, <strong>der</strong> <strong>in</strong> dem Programmpaket<br />

TSTOOL [15] <strong>in</strong>tegriert ist und <strong>der</strong> auch für diese Arbeit verwendet wurde.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!