Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Weitere Magazine

Empfehlungen

Info

3 ALGORITHMEN 20 3 Algorithmen In diesem Kapitel werden Algorithmen vorgestellt, die für die Durchführung des Data Minings in Frage kommen. Da es gerade beim Konzept der sequentiellen Muster viele verschiedene Algorithmen gibt, werden stellvertretend nur jeweils zwei Algorithmen für jedes Konzept vorgestellt. Im Anschluss daran werden die Algorithmen bezüglich ihrer Effizienz miteinander verglichen. Basierend auf diesem Vergleich soll eine Auswahl eines Algorithmus für jedes Konzept für die Implementierung getroffen werden. Im Abschnitt 3.4 wird gezeigt wie aus der Menge der sequentiellen Muster geschlossene und maximale sequentielle Muster bzw. aus der Menge der häufigen, geschlossenen partiellen Ordnungen häufige, maximale partielle Ordnungen berechnet werden können. Schließlich wird im Abschnitt 3.5 auf andere Algorithmen verwiesen. 3.1 Suche nach sequentiellen Mustern Im Folgenden werden für die Suche nach sequentiellen Mustern stellvertretend zwei Algorithmen vorgestellt, welche für zwei gegensätzliche Ansätze im Bereich der Suche nach sequentiellen Mustern stehen. Als ” Klassiker“ der sogenannten ” Generate-and-test“- Algorithmen soll hier der GSP-Algorithmus [SA96] beschrieben werden, welcher ein verbesserter AprioriAll-Allgorithmus [AS95] ist, dem ersten Algorithmus für die Suche nach sequentiellen Mustern. In Vergleich dazu wird mit dem PrefixSpan-Algorithmus [PH01] ein Vertreter der ” Pattern-growth“-Algorithmen vorgestellt. PrefixSpan stellt dabei eine Optimierung des FreeSpan-Algorithmus [HP00] dar, dem ersten ” Pattern-growth“- Algorithmus für die Suche nach sequentiellen Mustern. 3.1.1 Der GSP-Algorithmus GSP [SA96] ist ein effizienter, auf Breitensuche basierender Algorithmus für die Suche nach sequentiellen Mustern in einer Sequenzdatenbank. Bei der Suche nach sequentiellen Mustern wird die Sequenzdatenbank mehrmals durchlaufen. GSP verwendet dabei die Apriori-Eigenschaft, so dass nur die häufigen Items in der Sequenzdatenbank als Ausgangsmenge für die Suche nach sequentiellen Mustern berücksichtigt werden. Der erste Durchlauf bestimmt den Support für jedes Item, das in der Sequenzdatenbank auftritt, also für jede Sequenz mit der i-Länge = 1. Diejenigen 1-Sequenzen mit Support ≥ MinSupport werden in der Zielmenge der 1-Muster L 1 aufgenommen. Die gefundenen Muster in einem Durchlauf dienen jeweils als Ausgangsmenge L k−1 für den darauffolgenden Durchlauf. Aus dieser Ausgangsmenge L k−1 wird die Kandidatenmenge C k generiert. Die Kandidatengenerierung wird dabei durch eine Joinphase und eine Pruningphase realisiert. Für alle k-Kandidaten aus C k wird wiederum der Support ermittelt. Die k-Kandidaten, welche die MinSupport-Bedingung erfüllen, werden in die Zielmenge der k-Muster L k
3 ALGORITHMEN 21 aufgenommen. Der Algorithmus ist beendet, wenn am Ende eines Durchlaufs die Menge L k leer ist und somit keine Kandidaten mehr generiert werden kann. In Abbildung 10 ist der GSP-Algorithmus dargestellt. Eingabe: Sequenzdatenbank S, Supportschwelle MinSupport Ausgabe: Die komplette Menge der sequentiellen Muster Vorgehen: 1. L 1 = die Menge aller Items in S mit Support(Item) ≥ MinSupport. 2. for (k=2; L k−1 ≠ ∅; k++) { C k = die Menge der k-Kandidaten, generiert aus L k−1 . Für jede Sequenz s ∈ S inkrementiere für alle Kandidaten c ∈ C k den Support(c) wenn c ⊑ s. L k = die Menge der Kandidaten c ∈ C mit Support(c) ≥ MinSupport. } 3. Gib ⋃ k L k als die komplette Menge der sequentiellen Muster zurück. Abbildung 10: GSP-Algorithmus Im Folgenden wird die Kandidatengenerierung des GSP-Algorithmus beschrieben, welches aus einer Join- und Pruningphase besteht. 1. Joinphase. Ziel der Joinphase ist es, aus der Ausgangsmenge L k−1 die Kandidatenmenge C k zu generieren. Die k-Kandidaten werden durch einen Verbund von L k−1 mit L k−1 erzeugt. Dabei wird eine Sequenz s 1 mit einer Sequenz s 2 gejoint, wenn das (k−2)-Suffix von s 1 gleich dem (k−2)-Präfix von s 2 ist. Das (k−2)-Suffix einer k − 1-Sequenz s erhält man, in dem das erste Item von s gelöscht wird, respektive erhält man das (k−2)-Präfix durch das Entfernen des letzten Items von s. Die, aus dem Join von s 1 und s 2 , entstandene Kandidatensequenz c ist die Sequenz s 1 erweitert um das letzte Item von s 2 . Das hinzugefügte Item aus s 2 wird als eigenständiges Element in s 1 aufgenommen, wenn es auch ein eigenständiges Element in s 2 war. Anderenfalls wird es als ein Teil des letzten Elementes in s 1 hinzugefügt. Eine Ausnahme bildet das Joinen von L 1 mit L 1 . In diesem Fall wird das Item aus s 2 sowohl als eigenständiges Element, als auch als Teil der Itemmenge von s 1 hinzugefügt. 2. Pruningphase. In dieser Phase werden diejenigen Kandidatensequenzen aus C k entfernt, die Teilsequenzen, welche die MinSupport-Bedingung nicht erfüllen, beinhalten.
Seite 1: Data Mining von Sequenzdaten Diplom
Seite 4 und 5: IV Zusammenfassung Das Forschungsfe
Seite 6 und 7: INHALTSVERZEICHNIS VI 5.1 PrefixSpa
Seite 8 und 9: 1 EINLEITUNG 2 Ein anderes wichtige
Seite 10 und 11: 1 EINLEITUNG 4 〈32100, 05/08, {
Seite 12 und 13: 1 EINLEITUNG 6 Dabei sollen die Dat
Seite 14 und 15: 2 GRUNDLAGEN 8 tern. Mit Hilfe des
Seite 16 und 17: 2 GRUNDLAGEN 10 ist, und d ein Prod
Seite 18 und 19: 2 GRUNDLAGEN 12 Beispiel 2.9. Gegeb
Seite 20 und 21: 2 GRUNDLAGEN 14 Abbildung 5: Darste
Seite 22 und 23: 2 GRUNDLAGEN 16 Zum Beispiel ist di
Seite 24 und 25: 2 GRUNDLAGEN 18 Wie schon im Anfang
Seite 28 und 29: 3 ALGORITHMEN 22 Um zu zeigen, dass
Seite 30 und 31: 3 ALGORITHMEN 24 3-Muster 2-Präfix
Seite 32 und 33: 3 ALGORITHMEN 26 1. Sei {x 1 , x 2
Seite 34 und 35: 3 ALGORITHMEN 28 Präfix projiziert
Seite 36 und 37: 3 ALGORITHMEN 30 dabei unterschiedl
Seite 38 und 39: 3 ALGORITHMEN 32 Abbildung 14: gesc
Seite 40 und 41: 3 ALGORITHMEN 34 nach häufigen, ge
Seite 42 und 43: 3 ALGORITHMEN 36 Eingabe: Sequenzda
Seite 44 und 45: 3 ALGORITHMEN 38 ist. Deshalb brauc
Seite 46 und 47: 3 ALGORITHMEN 40 th). Auch wird bei
Seite 48 und 49: 3 ALGORITHMEN 42 Respektive erhält
Seite 50 und 51: 4 DURCHFÜHRUNG DES DATA MININGS 44
Seite 58 und 59: 5 IMPLEMENTIERUNG 52 5 Implementier
Seite 60 und 61: 5 IMPLEMENTIERUNG 54 Abbildung 25:
Seite 62 und 63: 5 IMPLEMENTIERUNG 56 Methodenübers
Seite 64 und 65: 5 IMPLEMENTIERUNG 58 • boolean: i
Seite 70 und 71: 5 IMPLEMENTIERUNG 64 Berechnet den
Seite 74 und 75: 5 IMPLEMENTIERUNG 68 den MinSupport
Seite 76 und 77:
5 IMPLEMENTIERUNG 70 Auch lassen si
Seite 78 und 79:
5 IMPLEMENTIERUNG 72 Auswahlparamet
Seite 80 und 81:
5 IMPLEMENTIERUNG 74 (a) Kontextdia
Seite 82 und 83:
5 IMPLEMENTIERUNG 76 Im Folgenden s
Seite 84 und 85:
6 ERGEBNISSE 78 6 Ergebnisse In die
Seite 86 und 87:
6 ERGEBNISSE 80 (a) maximale sequen
Seite 88 und 89:
6 ERGEBNISSE 82 Im Folgenden sollen
Seite 90 und 91:
Seite 92 und 93:
6 ERGEBNISSE 86 jekt Technische Inf
Seite 94 und 95:
Seite 96 und 97:
6 ERGEBNISSE 90 dienverläufen. Es
Seite 98 und 99:
Seite 100 und 101:
6 ERGEBNISSE 94 Informationssysteme
Seite 102 und 103:
6 ERGEBNISSE 96 Elektrotechnische G
Seite 104 und 105:
7 SCHLUSS 98 7.2 Ausblick In dieser
Seite 106 und 107:
8 ANHANG 100 8.2 Beispiel für die
Seite 108 und 109:
8 ANHANG 102 8.4 Regelstudienplan d
Seite 110 und 111:
LITERATUR 104 Literatur [AG02] [AS9
Seite 112:
Erklärung Hiermit versichere ich,
Alle anzeigen

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?