Temporale Aspekte des Data Mining - diko-project.de

Weitere Magazine

Empfehlungen

Info

GSP-AlgorithmusF k = {häufige 1er-Seq.};for (k = 2; F k−1 ≠ 0; k = k + 1) doC k =Menge der Kandidaten der k-Seq.;for alle Kunden-Seq. S in der DB doErhöhe Zähler für alle α ∈ C k enthalten in SF k = {α ∈ C k |α.sup ≥ min sup};Menge aller häufigen Sequenzen = ∪ k F k ;Abbildung 6: GSP-Algorithmusdie initialen Parameter festzulegen. Wie schon bei der Klassifizierung ist es schwierig,Sequenzen mit einander zu vergleichen. Hier muss ein aussagekräftiger Maßstabgefunden werden, an Hand dessen Sequenzen als ähnlich bezeichnet werden können.COBWEBEin Ansatz des Clustering von temporalen Daten ist die Verwendung einer hierarchischenClustering-Methode. Der entsprechende Algorithmus nennt sich COBWEB[Fis87]. COBWEB funktioniert in zwei Stufen. Zuerst werden die Elemente einerSequenz gruppiert und dann die Sequenzen selbst. In Bezug auf temporale Datenstellt der erste Schritt kein größeres Problem dar. Ganz im Gegensatz dazu allerdingsder zweite Schritt: Hier ist es notwendig die Sequenzen zu generalisieren, waswiederum voraussetzt, dass es einen gemeinsamen Nenner gibt, der beschreibt, wasin verschiedenen Sequenzen gemeinsam ist.5.3 Analyse sequentieller Muster5.3.1 GSP-AlgorithmusGSP steht für ”Generalized Sequential Pattern“. Wie bereits oben erwähnt handeltes sich bei diesem Algorithmus um eine Anlehnung an den Apriori-Algorithmus.Laut Mohammed J. Zaki [Zak97] handelt es sich bei diesem Algorithmus um denbesten existierenden Algorithmus für das Auffinden sequentieller Muster. Apriori-Derivate gibt es mehrere. Zwei dieser Algorithmen, AprioriSome und DynamicSomegenerieren ausschließlich die maximalen sequentiellen Muster. Das heißt, sie findennur die Muster mit der maximalen Anzahl an Sequenzen. Oftmals werden aber alleMuster benötigt, das heißt, dass auch Muster, die nur aus zwei Sequenzen besteheninteressant sind. Diese Ansätze waren deshalb unzureichend. Mit der Veröffentlichungvon AprioriAll wurde dies geändert. Der im Folgenden vorgestellte GSP setztauf dem AprioriAll auf und optimiert ihn hinsichtlich der Geschwindigkeit um das20fache [Zak97].FunktionsweiseIm ersten Durchgang des Allgorithmus werden für k = 1 alle 1er-Sequenzen bzw. alleItems gezählt. Von den Sequenzen, die abhängig von der minimalen Unterstützungals häufig bestimmt wurden, werden nun die die Kandidaten für die häufigen 2er-Sequenzen gebildet (k = 2). Erneut wird die Unterstützung ermittelt und alle häufigenSequenzen werden Kandidaten für den nächsten Durchgang. Dieser Vorgangwird so lange wiederholt bis alle häufigen Sequenzen gefunden wurden. Der GSPmacht also für jeden Level (1er-/2er-/...-Sequenzen) eine Suche über die Datenbank(Scan).Der abgebildete Algorithmus (siehe Abbildung 6) enthält in der ersten Zeile alle 1er20
CID TT Items1 10 C D1 15 A B C1 20 A B F1 25 A C D F2 15 A B F2 20 E3 10 A B F4 10 D G H4 20 B F4 25 A G HTabelle 1: Tabellarische Darstellung der Transaktionen [Zak97]Sequenzen. Die FOR-Schleife über die folgenden vier Zeilen ermittelt die jeweiligenKandidaten während die innere FOR-Schleife in der vierten Zeile die Unterstützungermittelt. Das Ergebnis in der letzten Zeile ist die Menge aller häufigen Sequenzen.Im Detail funktioniert der GSP folgendermaßen: Die Menge der Sequenzen mitk = k − 1 wird mit sich selbst in einer JOIN-Operation verbunden (Self-JOIN),die dann entstandene Menge bildet die Kandidaten für den nächsten Durchgang.In einer weiteren Phase werden alle Sequenzen entfernt, bei denen mindestens eineSubsequenz nicht häufig (genug) ist. Die einzelnen Kandidaten-Sequenzen werdenin einem Hash-Baum gespeichert. Das Zählen der Unterstützung geschieht in einemweiteren Schritt. Um alle Kandidaten innerhalb der Kundensequenz S (siehe Algorithmus)zu finden, bildet man alle k-Subsequenzen von S. Stimmt ein Kandidatim Hash-Baum mit einer der Subsequenzen überein, wird sein Zähler erhöht.Nachteil des GSPNachteilig ist, dass der GSP für jeden Level einen Datebankscan macht. Wenn dielängste Sequenz k lang ist, werden k Datenbankdurchgänge benötigt. Dies erzeugthohe Input-Output-Kosten. Des Weiteren werden die einzelnen Sequenzen in komplexenHash-Strukturen gespeichert, was sich nachteilig auf die Performance auswirkt.Praktisches BeispielGegeben sind die acht Items A bis H, vier Kunden und zehn Transaktionen. Dieminimale Häufigkeit soll 50% betragen und entspricht damit zwei Kunden. Gegebenist außerdem die Tabelle 1, die in der ersten Spalte den Kundenbezeichner CID(engl. Customer-ID), in der zweiten Zeile die Transaktionszeit T T und in der drittenZeile die gekauften Items enthält. Zu sehen ist, dass der Kunde mit CID = 1 vierTransaktionen, Kunde 2 zwei Transaktionen, Kunde 3 eine Transaktion und Kunde4 drei Transaktionen tätigt.Der GSP würde jetzt die einzelnen Kundentransaktionen mit den vorhandenenacht Items vergleichen und die entsprechenden häufigen Sequenzen ermitteln. Diegefunden Sequenzen sind in (27) zu sehen.F 1 = {(A)[4], (B)[4], (D)[2], (F )[4]} (27)F 2 = {(AB)[3], (AF )[3], (B ↦→ A)[2], (BF )[4],(D ↦→ A)[2], (D ↦→ B)[2], (D ↦→ F )[2], (F ↦→ A)[2]}F 3 = {(ABF )[3], (BF ↦→ A)[2], (D ↦→ BF )[2],(D ↦→ B ↦→ A)[2], (D ↦→ F ↦→ A)[2]}21
Seite 1 und 2: Temporale Aspekte des Data MiningOl
Seite 3 und 4: Themas. Zu den Grundlagen gehören
Seite 5 und 6: Zur Darstellung der Zeit gibt es dr
Seite 7 und 8: vergeben werden kann.Mit Hilfe der
Seite 9 und 10: Abbildung 2: Tabellarische Darstell
Seite 11 und 12: oder falsch genutzten Datenbeständ
Seite 14 und 15: ist eine Sequenz von Schnappschüss
Seite 16 und 17: Abbildung 4: Taxonomie zeitlicher B
Seite 18 und 19: 4.6 Unusual MovementsBei unusual Mo
Seite 22 und 23: F 4 = {(D ↦→ BF ↦→ A)[2]}Zu
Seite 24 und 25: Die Berechnung der 1er-Sequenzen er
Seite 26 und 27: ergänzt werden. Durch diese, anfan
Seite 28 und 29: Literatur[All83] J .F. Allen. Maint

Temporale Aspekte des Data Mining - diko-project.de

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?