12.07.2015 Aufrufe

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

F 4 = {(D ↦→ BF ↦→ A)[2]}Zu <strong>de</strong>n 1er-Sequenzen gehören die Items A, B, D und F . Die Items C und E sindausgeschie<strong>de</strong>n, weil sie bei weniger als 50% <strong>de</strong>r Kun<strong>de</strong>n aufgetreten sind. Es folgendie 2er- und 3er-Sequenzen und zum Schluss eine vierer Sequenz. In <strong>de</strong>n rechteckigenKlammern wird die Häufigkeit <strong><strong>de</strong>s</strong> jeweiligen Items bzw. <strong>de</strong>r Subsequenz notiert.Aus <strong>de</strong>n gefun<strong>de</strong>nen Sequenzen lassen sich nun Regeln ableiten. BF“ beispielsweise”existiert viermal und ABF“ existiert dreimal. Eine Regel wäre nun, dass wenn”” BF“ auftritt zu 75% bzw. drei von vier Mal auch A“ eintritt. Man sagt, die Regel”(BF ) ↦→ (BF A) hat eine Konfi<strong>de</strong>nz von 75%. Dem zugrun<strong>de</strong> liegt folgen<strong>de</strong>r kleinerAlgorithmus:RegelAlg(F, min konf) :for alle häufigen Sequenzen β ∈ F dofor alle Subsequenzen α ≺ β dokonf = fr(β)/fr(α) :if (konf ≥ min konf) thenAusgabe <strong>de</strong>r Regel α ↦→ β und konfMan sieht, dass <strong>de</strong>m Algorithmus die Parameter ”F“ für die Sequenzen und ”min konf“für die Minimalkonfi<strong>de</strong>nz übergegeben wer<strong>de</strong>n. Für je<strong>de</strong> einzelne Sequenz β wirdnun geprüft ob es eine Sequenz α gibt, die in ihr enthalten ist bzw. die Subsequenzvon β ist. Für <strong>de</strong>n Fall, dass das zutrifft wird mitHäufigkeit(β)/Häufigkeit(α) (28)die Konfi<strong>de</strong>nz ermittelt. Ist diese Konfi<strong>de</strong>nz größer o<strong>de</strong>r gleich <strong>de</strong>r gewünschtenMinimalkonfi<strong>de</strong>nz, wur<strong>de</strong> eine neue Regel gefun<strong>de</strong>n, die im Format α ↦→ β und <strong>de</strong>rzugehörigen Konfi<strong>de</strong>nz ausgegeben wird.5.3.2 SPADESPADE be<strong>de</strong>utet Sequential PAttern Discovery using Equivalence classes [Zak97].Der SPADE-Algorithmus wur<strong>de</strong> entwickelt um <strong>de</strong>n vorangegangen GSP zu optimieren.Die Autoren kritisieren, wie schon oben erwähnt, die häufigen Datenbankoperationensowie die Speicherung in Hash-Strukturen. Deshalb macht SPADEgewöhnlich nur drei Datenbankscans und auch auf die kritisierten Hash-Strukturenwird verzichtet. Das Berechnen <strong>de</strong>r häufigen Sequenzen erfolgt mit einfachen JOIN-Operationen, weshalb sich dieser Algorithmus für eine direkte Integration mit einemDBMS anbietet.SPADE unterteilt das Problem in mehrere kleine Unterprobleme, die unabhängigvoneinan<strong>de</strong>r gelöst wer<strong>de</strong>n können. Zur Erklärung <strong>de</strong>r Funktionsweise wird das Beispielaus <strong>de</strong>m GSP übernommen. Dort gab es eine 1er-Sequenz mit A, B, D, F . Nunwer<strong>de</strong>n folgen<strong>de</strong> Definitionen vorgenommen: x ist <strong>de</strong>r Bezeichner für ein beliebiges,aber häufiges Item und B ist eine Menge häufiger Sequenzen. Das sogenannteTemplate x[B] bezeichnet die Menge {xβ|β ∈ B} und das Template x ↦→ [B] bezeichnetdie Menge {x ↦→ β|β ∈ B}. x ist also das Präfix für alle Sequenzen in B.Mit f(i)x wird nun die Menge aller i-Sequenzen bezeichnet, die das Präfix x habeno<strong>de</strong>r <strong>de</strong>ren Präfix lexikographisch gesehen größer ist als x. Für i = 1 wären das alsof1A = {ABDF }, f1B = {BDF }, f1D{DF } und f1F = {F }. Diese 1er-Sequenzensind in <strong>de</strong>r Darstellung, siehe Abbildung 7, ganz unten zu sehen. Mit je<strong>de</strong>r Zeilenach oben wer<strong>de</strong>n die Mengen aus <strong>de</strong>n vorangegangenen Zeilen übernommen.Die 2er-Sequenzen A[f1B] sind ausgeschrieben, gemäß obiger Definition, in (29)zu sehen.A[BDF ] (29)22

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!