12.07.2015 Aufrufe

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

CID TT Items1 10 C D1 15 A B C1 20 A B F1 25 A C D F2 15 A B F2 20 E3 10 A B F4 10 D G H4 20 B F4 25 A G HTabelle 1: Tabellarische Darstellung <strong>de</strong>r Transaktionen [Zak97]Sequenzen. Die FOR-Schleife über die folgen<strong>de</strong>n vier Zeilen ermittelt die jeweiligenKandidaten während die innere FOR-Schleife in <strong>de</strong>r vierten Zeile die Unterstützungermittelt. Das Ergebnis in <strong>de</strong>r letzten Zeile ist die Menge aller häufigen Sequenzen.Im Detail funktioniert <strong>de</strong>r GSP folgen<strong>de</strong>rmaßen: Die Menge <strong>de</strong>r Sequenzen mitk = k − 1 wird mit sich selbst in einer JOIN-Operation verbun<strong>de</strong>n (Self-JOIN),die dann entstan<strong>de</strong>ne Menge bil<strong>de</strong>t die Kandidaten für <strong>de</strong>n nächsten Durchgang.In einer weiteren Phase wer<strong>de</strong>n alle Sequenzen entfernt, bei <strong>de</strong>nen min<strong><strong>de</strong>s</strong>tens eineSubsequenz nicht häufig (genug) ist. Die einzelnen Kandidaten-Sequenzen wer<strong>de</strong>nin einem Hash-Baum gespeichert. Das Zählen <strong>de</strong>r Unterstützung geschieht in einemweiteren Schritt. Um alle Kandidaten innerhalb <strong>de</strong>r Kun<strong>de</strong>nsequenz S (siehe Algorithmus)zu fin<strong>de</strong>n, bil<strong>de</strong>t man alle k-Subsequenzen von S. Stimmt ein Kandidatim Hash-Baum mit einer <strong>de</strong>r Subsequenzen überein, wird sein Zähler erhöht.Nachteil <strong><strong>de</strong>s</strong> GSPNachteilig ist, dass <strong>de</strong>r GSP für je<strong>de</strong>n Level einen Datebankscan macht. Wenn dielängste Sequenz k lang ist, wer<strong>de</strong>n k Datenbankdurchgänge benötigt. Dies erzeugthohe Input-Output-Kosten. Des Weiteren wer<strong>de</strong>n die einzelnen Sequenzen in komplexenHash-Strukturen gespeichert, was sich nachteilig auf die Performance auswirkt.Praktisches BeispielGegeben sind die acht Items A bis H, vier Kun<strong>de</strong>n und zehn Transaktionen. Dieminimale Häufigkeit soll 50% betragen und entspricht damit zwei Kun<strong>de</strong>n. Gegebenist außer<strong>de</strong>m die Tabelle 1, die in <strong>de</strong>r ersten Spalte <strong>de</strong>n Kun<strong>de</strong>nbezeichner CID(engl. Customer-ID), in <strong>de</strong>r zweiten Zeile die Transaktionszeit T T und in <strong>de</strong>r drittenZeile die gekauften Items enthält. Zu sehen ist, dass <strong>de</strong>r Kun<strong>de</strong> mit CID = 1 vierTransaktionen, Kun<strong>de</strong> 2 zwei Transaktionen, Kun<strong>de</strong> 3 eine Transaktion und Kun<strong>de</strong>4 drei Transaktionen tätigt.Der GSP wür<strong>de</strong> jetzt die einzelnen Kun<strong>de</strong>ntransaktionen mit <strong>de</strong>n vorhan<strong>de</strong>nenacht Items vergleichen und die entsprechen<strong>de</strong>n häufigen Sequenzen ermitteln. Diegefun<strong>de</strong>n Sequenzen sind in (27) zu sehen.F 1 = {(A)[4], (B)[4], (D)[2], (F )[4]} (27)F 2 = {(AB)[3], (AF )[3], (B ↦→ A)[2], (BF )[4],(D ↦→ A)[2], (D ↦→ B)[2], (D ↦→ F )[2], (F ↦→ A)[2]}F 3 = {(ABF )[3], (BF ↦→ A)[2], (D ↦→ BF )[2],(D ↦→ B ↦→ A)[2], (D ↦→ F ↦→ A)[2]}21

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!