12.07.2015 Aufrufe

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

GSP-AlgorithmusF k = {häufige 1er-Seq.};for (k = 2; F k−1 ≠ 0; k = k + 1) doC k =Menge <strong>de</strong>r Kandidaten <strong>de</strong>r k-Seq.;for alle Kun<strong>de</strong>n-Seq. S in <strong>de</strong>r DB doErhöhe Zähler für alle α ∈ C k enthalten in SF k = {α ∈ C k |α.sup ≥ min sup};Menge aller häufigen Sequenzen = ∪ k F k ;Abbildung 6: GSP-Algorithmusdie initialen Parameter festzulegen. Wie schon bei <strong>de</strong>r Klassifizierung ist es schwierig,Sequenzen mit einan<strong>de</strong>r zu vergleichen. Hier muss ein aussagekräftiger Maßstabgefun<strong>de</strong>n wer<strong>de</strong>n, an Hand <strong><strong>de</strong>s</strong>sen Sequenzen als ähnlich bezeichnet wer<strong>de</strong>n können.COBWEBEin Ansatz <strong><strong>de</strong>s</strong> Clustering von temporalen Daten ist die Verwendung einer hierarchischenClustering-Metho<strong>de</strong>. Der entsprechen<strong>de</strong> Algorithmus nennt sich COBWEB[Fis87]. COBWEB funktioniert in zwei Stufen. Zuerst wer<strong>de</strong>n die Elemente einerSequenz gruppiert und dann die Sequenzen selbst. In Bezug auf temporale Datenstellt <strong>de</strong>r erste Schritt kein größeres Problem dar. Ganz im Gegensatz dazu allerdings<strong>de</strong>r zweite Schritt: Hier ist es notwendig die Sequenzen zu generalisieren, waswie<strong>de</strong>rum voraussetzt, dass es einen gemeinsamen Nenner gibt, <strong>de</strong>r beschreibt, wasin verschie<strong>de</strong>nen Sequenzen gemeinsam ist.5.3 Analyse sequentieller Muster5.3.1 GSP-AlgorithmusGSP steht für ”Generalized Sequential Pattern“. Wie bereits oben erwähnt han<strong>de</strong>ltes sich bei diesem Algorithmus um eine Anlehnung an <strong>de</strong>n Apriori-Algorithmus.Laut Mohammed J. Zaki [Zak97] han<strong>de</strong>lt es sich bei diesem Algorithmus um <strong>de</strong>nbesten existieren<strong>de</strong>n Algorithmus für das Auffin<strong>de</strong>n sequentieller Muster. Apriori-Derivate gibt es mehrere. Zwei dieser Algorithmen, AprioriSome und DynamicSomegenerieren ausschließlich die maximalen sequentiellen Muster. Das heißt, sie fin<strong>de</strong>nnur die Muster mit <strong>de</strong>r maximalen Anzahl an Sequenzen. Oftmals wer<strong>de</strong>n aber alleMuster benötigt, das heißt, dass auch Muster, die nur aus zwei Sequenzen besteheninteressant sind. Diese Ansätze waren <strong><strong>de</strong>s</strong>halb unzureichend. Mit <strong>de</strong>r Veröffentlichungvon AprioriAll wur<strong>de</strong> dies geän<strong>de</strong>rt. Der im Folgen<strong>de</strong>n vorgestellte GSP setztauf <strong>de</strong>m AprioriAll auf und optimiert ihn hinsichtlich <strong>de</strong>r Geschwindigkeit um das20fache [Zak97].FunktionsweiseIm ersten Durchgang <strong><strong>de</strong>s</strong> Allgorithmus wer<strong>de</strong>n für k = 1 alle 1er-Sequenzen bzw. alleItems gezählt. Von <strong>de</strong>n Sequenzen, die abhängig von <strong>de</strong>r minimalen Unterstützungals häufig bestimmt wur<strong>de</strong>n, wer<strong>de</strong>n nun die die Kandidaten für die häufigen 2er-Sequenzen gebil<strong>de</strong>t (k = 2). Erneut wird die Unterstützung ermittelt und alle häufigenSequenzen wer<strong>de</strong>n Kandidaten für <strong>de</strong>n nächsten Durchgang. Dieser Vorgangwird so lange wie<strong>de</strong>rholt bis alle häufigen Sequenzen gefun<strong>de</strong>n wur<strong>de</strong>n. Der GSPmacht also für je<strong>de</strong>n Level (1er-/2er-/...-Sequenzen) eine Suche über die Datenbank(Scan).Der abgebil<strong>de</strong>te Algorithmus (siehe Abbildung 6) enthält in <strong>de</strong>r ersten Zeile alle 1er20

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!