Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Weitere Magazine

Empfehlungen

Info

3 ALGORITHMEN 42 Respektive erhält man die Menge der maximalen sequentiellen Muster mit folgender Bedingung. φ := (s k ❁ s l ) (11) Analog zu den sequentiellen Mustern können aus der Menge der häufigen, geschlossenen partiellen Ordnungen die Menge der häufigen maximalen partiellen Ordnungen berechnet werden. Sei die Menge der häufigen, geschlossenen partiellen Ordnungen R nach der i-Länge sortiert gegeben, wobei eine Kante ein Item darstellt, dann ist s k eine häufige, geschlossenen partielle Ordnung in R mit der i-Länge k. Sei n die i-Länge der häufigen, geschlossenen partiellen Ordnung mit den meisten Kanten in R, dann lässt sich die Menge der häufigen, maximalen partiellen Ordnungen mit folgender Bedingung berechnen: φ := (s k ≺ s l ) (12) 3.5 Andere Algorithmen Die Suche nach sequentiellen Mustern ist ein weit erforschtes Gebiet. Dementsprechend gibt es die verschiedensten Algorithmen. Neben den vorgestellten Algorithmen gibt es eine Vielzahl an Algorithmen, welche nicht alle in dieser Arbeit behandelt werden können. Hier sollen auf Algorithmen verwiesen werden, welche in der aktuellen Literatur neben den vorgestellten Algorithmen oft erwähnt werden. Für die Suche nach sequentiellen Mustern sind die folgenden drei Algorithmen zu nennen: SPADE [Zaki01] teilt das Problem der Suche nach sequentiellen Mustern in Äquivalenzklassen von häufigen Sequenzen auf. SPADE braucht nur drei Datenbankdurchläufe, um die komplette Menge der sequentiellen Muster zu finden. Dabei werden die Sequenzen als vertikale ID-Listen im Hauptspeicher gespeichert. Dadurch erreicht SPADE eine hohe Effizienz beim Zählen des Supports. SPAM [AG02] ist ein Algorithmus, der auf Tiefensuche in einem lexikografischem Baum von Sequenzen basiert. Für die Speicherung der Sequenzen verwendet SPAM eine vertikale Bitmap-Darstellung, so dass ein effizientes Zählen des Supports ermöglicht wird. Dabei setzt SPAM voraus, dass die gesamte Datenbank im Hauptspeicher gespeichert werden kann. MEMISP [LL05] baut auf der Intention auf, dass aufgrund der sinkenden Kosten für Hauptspeicher die Kapazitäten für Hauptspeicher stetig anwachsen, und somit kleinere bis mittlere Datenbanken problemlos in den Hauptspeicher passen. Um mehrfache Datenbankdurchläufe zu vermeiden, speichert MEMISP die komplette Datenbank als Speicherdatenbank im Hauptspeicher ab. Durch Verwendung von Speicherindexen kann dann effizient nach sequentiellen Mustern gesucht werden. Weiterhin gibt es Algorithmen, welche direkt geschlossene sequentielle Muster finden. Diese Vorgehensweise kann mitunter zur Effizienzsteigerung führen. Für die Suche nach
3 ALGORITHMEN 43 geschlossenen sequentiellen Mustern sind die folgenden zwei Algorithmen zu nennen: CloSpan [YH03] gehört zu der Gruppe der ” Generate-and-test“-Algorithmen. CloSpan findet geschlossene sequentielle in zwei Haupstchritten. Zuerst wird eine Obermenge von geschlossenen sequentiellen Mustern als Kandidatenmenge generiert. Danach werden alle nicht geschlossenen sequentiellen Mustern in der Kandidatenmenge geprunt. Dabei werden effiziente Pruningtechniken eingesetzt. BIDE [WH04], stellt eine Erweiterung zum PrefixSpan-Algorithmus dar. Demzufolge gehört BIDE zu der Gruppe der ” Pattern-growth“-Algorithmen. BIDE verwendet die sogenannte BI-direktionale Technik um zu prüfen, ob ein gefundenes sequentielles Muster geschlossen ist. Im Vergleich zur Suche nach sequentiellen Mustern, ist die Suche nach partiellen Ordnungen in Sequenzdaten noch nicht weit erforscht. Im Folgenden werden auf Arbeiten verwiesen, welche sich mit diesem Problem befassen. In [MT97] wird das Problem der Suche von häufigen Episoden in Ereignissequenzen betrachtet. Dabei können Episoden als partielle Ordnungen und Ereignissequenzen als Strings aufgefasst werden. [MM00] befasst sich mit der Suche nach einer globalen partiellen Ordnung, welche die Ordnungsbeziehungen von allen Sequenzen in den Sequenzdaten am besten wiedergibt. Weiterhin ist in [Gar05] der Ansatz beschrieben, wie aus der Menge der geschlossenen sequentiellen Mustern geschlossene partielle Ordnungen bestimmt werden können.
Seite 1: Data Mining von Sequenzdaten Diplom
Seite 4 und 5: IV Zusammenfassung Das Forschungsfe
Seite 6 und 7: INHALTSVERZEICHNIS VI 5.1 PrefixSpa
Seite 8 und 9: 1 EINLEITUNG 2 Ein anderes wichtige
Seite 10 und 11: 1 EINLEITUNG 4 〈32100, 05/08, {
Seite 12 und 13: 1 EINLEITUNG 6 Dabei sollen die Dat
Seite 14 und 15: 2 GRUNDLAGEN 8 tern. Mit Hilfe des
Seite 16 und 17: 2 GRUNDLAGEN 10 ist, und d ein Prod
Seite 18 und 19: 2 GRUNDLAGEN 12 Beispiel 2.9. Gegeb
Seite 20 und 21: 2 GRUNDLAGEN 14 Abbildung 5: Darste
Seite 22 und 23: 2 GRUNDLAGEN 16 Zum Beispiel ist di
Seite 24 und 25: 2 GRUNDLAGEN 18 Wie schon im Anfang
Seite 26 und 27: 3 ALGORITHMEN 20 3 Algorithmen In d
Seite 28 und 29: 3 ALGORITHMEN 22 Um zu zeigen, dass
Seite 30 und 31: 3 ALGORITHMEN 24 3-Muster 2-Präfix
Seite 32 und 33: 3 ALGORITHMEN 26 1. Sei {x 1 , x 2
Seite 34 und 35: 3 ALGORITHMEN 28 Präfix projiziert
Seite 36 und 37: 3 ALGORITHMEN 30 dabei unterschiedl
Seite 38 und 39: 3 ALGORITHMEN 32 Abbildung 14: gesc
Seite 40 und 41: 3 ALGORITHMEN 34 nach häufigen, ge
Seite 42 und 43: 3 ALGORITHMEN 36 Eingabe: Sequenzda
Seite 44 und 45: 3 ALGORITHMEN 38 ist. Deshalb brauc
Seite 46 und 47: 3 ALGORITHMEN 40 th). Auch wird bei
Seite 50 und 51: 4 DURCHFÜHRUNG DES DATA MININGS 44
Seite 58 und 59: 5 IMPLEMENTIERUNG 52 5 Implementier
Seite 60 und 61: 5 IMPLEMENTIERUNG 54 Abbildung 25:
Seite 62 und 63: 5 IMPLEMENTIERUNG 56 Methodenübers
Seite 64 und 65: 5 IMPLEMENTIERUNG 58 • boolean: i
Seite 70 und 71: 5 IMPLEMENTIERUNG 64 Berechnet den
Seite 74 und 75: 5 IMPLEMENTIERUNG 68 den MinSupport
Seite 76 und 77: 5 IMPLEMENTIERUNG 70 Auch lassen si
Seite 78 und 79: 5 IMPLEMENTIERUNG 72 Auswahlparamet
Seite 80 und 81: 5 IMPLEMENTIERUNG 74 (a) Kontextdia
Seite 82 und 83: 5 IMPLEMENTIERUNG 76 Im Folgenden s
Seite 84 und 85: 6 ERGEBNISSE 78 6 Ergebnisse In die
Seite 86 und 87: 6 ERGEBNISSE 80 (a) maximale sequen
Seite 88 und 89: 6 ERGEBNISSE 82 Im Folgenden sollen
Seite 92 und 93: 6 ERGEBNISSE 86 jekt Technische Inf
Seite 96 und 97: 6 ERGEBNISSE 90 dienverläufen. Es
Seite 98 und 99:
6 ERGEBNISSE 92 (a) maximale sequen
Seite 100 und 101:
6 ERGEBNISSE 94 Informationssysteme
Seite 102 und 103:
6 ERGEBNISSE 96 Elektrotechnische G
Seite 104 und 105:
7 SCHLUSS 98 7.2 Ausblick In dieser
Seite 106 und 107:
8 ANHANG 100 8.2 Beispiel für die
Seite 108 und 109:
8 ANHANG 102 8.4 Regelstudienplan d
Seite 110 und 111:
LITERATUR 104 Literatur [AG02] [AS9
Seite 112:
Erklärung Hiermit versichere ich,
Alle anzeigen

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?