Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Weitere Magazine

Empfehlungen

Info

2 GRUNDLAGEN 10 ist, und d ein Produkt, welches billig eingekauft werden kann. Der Online-Shop könnte versuchen das Produkt d sehr günstig anzubieten, in der Hoffnung dass die Kunden d und in der Konsequenz in einer späteren Transaktion auch c kaufen. Eine andere Möglichkeit wäre, dass für einen Kunden die Transaktionssequenz (ab)d ermittelt wurde. Der Online- Shop kann dann gezielt Werbung für das Produkt c an den Kunden richten. Da die Wahrscheinlichkeit hoch ist, dass das gefundene Kaufmuster (ab)dc sich bestätigt. Grundlegende Begriffe Ein Item steht für ein bestimmtes Ereignis von Interesse. So bezeichnet das Item a aus Beispiel 2.1 den Kauf des Produktes a. Sei I = {i 1 , i 2 , . . . , i n } eine Menge von unterschiedlichen Items, dann ist ein Itemset eine Teilmenge von I. Eine Sequenz ist dann eine geordnete Liste von Itemsets. Es wird dabei folgende Schreibweise verwendet: Sequenz s = s 1 s 2 · · · s l , wobei jedes s j (1 ≤ j ≤ l) ein Itemset ist. s j = (x 1 x 2 · · · x m ) wird als ein Element oder eine Transaktion von s an der Position j bezeichnet, wobei x k (1 ≤ k ≤ m) ein Item ist. Aus Gründen der Übersichtlichkeit werden die Klammern weggelassen, wenn ein Element nur ein einzelnes Item beinhaltet: (x) −→ x. Die i- Länge s gibt die Summe der Items in allen Elmenten von s wieder. Eine Sequenz mit der i-Länge l wird als l-Sequenz bezeichnet. Definition 2.2 (Teilsequenzbeziehung). Eine Sequenz α = a 1 a 2 · · · a n wird als Teilsequenz einer anderen Sequenz β = b 1 b 2 · · · b m und β als Obersequenz von α bezeichnet, gekennzeichnet als: α ⊑ β , wenn ganzzahlige Werte 1 ≤ j 1 < j 2 < · · · < j n ≤ m existieren, so dass gilt: a 1 ⊆ b j1 , a 2 ⊆ b j2 , . . . , a n ⊆ b jn . sid s 1 s 1 2 s 2 . n . s n Tabelle 2: Sequenzdatenbank S Definition 2.3 (Support einer Sequenz). Sei eine Sequenzdatenbank S (siehe Tabelle 2) als eine Menge von Tupeln in der Form (sid, s) gegeben. Ein Tupel (sid, s) enthält die Sequenz α, wenn α ⊑ s gilt. Der Support einer Sequenz α in einer Sequenzdatenbank S ist die Anzahl der Tupel in S, die α enthalten. Es gilt: Support S (α) = | {(sid, s)|(sid, s) ∈ S ∧ (α ⊑ s)} | (1) Definition 2.4 (Sequentielle Muster). Bei einer gegebenen positiven ganzen Zahl MinSupport als die Support-Schwelle, wird eine Sequenz α als sequentielles Muster oder als häufige Sequenz in der Sequenzdatenbank S bezeichnet, wenn folgende
2 GRUNDLAGEN 11 Bedingung erfüllt ist: Support S (α) ≥ MinSupport (2) Beispiel 2.5 (laufendes Beispiel). Gegeben seien MinSupport = 2 und die Sequenzdatenbank aus Tabelle 1. Dann ist die Menge der Items in der Sequenzdatenbank I = {a, b, c, d, e, f, g}. Während in der 9-Sequenz K1 a zwar drei mal vorkommt, trägt K1 nur ein mal zum Support(a) bei. Support(a) beträgt 4, da a in allen 4 Sequenzen als Teilsequenz auftritt. Weil die Sequenzen K1 und K2 die einzigen zwei Sequenzen sind, die die Sequenz s = a(bc)a als Teilsequenz beinhaltet, hat s einen Support von 2. s ist also ein sequentielles Muster mit der i-Länge 4, deshalb wird s als ein 4-Muster bezeichnet. 2.2.2 Maximale und geschlossene sequentielle Muster Die komplette Menge der sequentiellen Muster in eine Sequenzdatenbank kann redundante Informationen aufweisen. Für die Darstellung oder Weiterverarbeitung von sequentiellen Mustern ist es oftmals von Vorteil, wenn diese Redundanz behoben werden kann um somit eine komprimierte Menge von sequentiellen Mustern zu erhalten. In diesem Abschnitt werden die Konzepte der maximalen und geschlossenen sequentiellen Muster vorgestellt. Beide Konzepte nutzen die Apriori-Eigenschaft des Supports um redundante Informationen zu identifizieren. Eigenschaft 2.6 (Apriori-Eigenschaft). Gegeben seien zwei Sequenzen s und s ′ mit s ′ ⊒ s innerhalb einer Sequenzdatenbank, dann gilt: Support(s ′ ) ≤ Support(s). Daraus folgt: wenn s ′ ein sequentielles Muster ist, so ist auch s ein sequentielles Muster. Die Apriori-Eigenschaft besagt, dass wenn eine Sequenz häufig ist, dann ist auch jede Teilsequenz davon häufig. Umgekehrt gilt, dass wenn eine Sequenz nicht häufig ist, dann kann auch keine Obersequenz davon häufig sein. Definition 2.7 (Maximale sequentielle Muster). Innerhalb einer gegebenen Menge von sequentiellen Mustern ist ein sequentielles Muster s maximal, wenn es kein sequentielles Muster s ′ mit s ′ ❂ s gibt. Definition 2.8 (Geschlossene sequentielle Muster). Innerhalb einer gegebenen Menge von sequentiellen Mustern ist ein sequentielles Muster s geschlossen, wenn es kein sequentielles Muster s ′ mit s ′ ❂ s und Support(s ′ ) = Support(s) gibt. Kunden-id K1 K2 K3 K4 Transaktionssequenz a(abc)(ac)d(cf) (ad)c(bc)(ae) (ef)(ab)(df)cb eg(af)cbc Tabelle 3: Transaktionssequenzdatenbank
Seite 1: Data Mining von Sequenzdaten Diplom
Seite 4 und 5: IV Zusammenfassung Das Forschungsfe
Seite 6 und 7: INHALTSVERZEICHNIS VI 5.1 PrefixSpa
Seite 8 und 9: 1 EINLEITUNG 2 Ein anderes wichtige
Seite 10 und 11: 1 EINLEITUNG 4 〈32100, 05/08, {
Seite 12 und 13: 1 EINLEITUNG 6 Dabei sollen die Dat
Seite 14 und 15: 2 GRUNDLAGEN 8 tern. Mit Hilfe des
Seite 18 und 19: 2 GRUNDLAGEN 12 Beispiel 2.9. Gegeb
Seite 20 und 21: 2 GRUNDLAGEN 14 Abbildung 5: Darste
Seite 22 und 23: 2 GRUNDLAGEN 16 Zum Beispiel ist di
Seite 24 und 25: 2 GRUNDLAGEN 18 Wie schon im Anfang
Seite 26 und 27: 3 ALGORITHMEN 20 3 Algorithmen In d
Seite 28 und 29: 3 ALGORITHMEN 22 Um zu zeigen, dass
Seite 30 und 31: 3 ALGORITHMEN 24 3-Muster 2-Präfix
Seite 32 und 33: 3 ALGORITHMEN 26 1. Sei {x 1 , x 2
Seite 34 und 35: 3 ALGORITHMEN 28 Präfix projiziert
Seite 36 und 37: 3 ALGORITHMEN 30 dabei unterschiedl
Seite 38 und 39: 3 ALGORITHMEN 32 Abbildung 14: gesc
Seite 40 und 41: 3 ALGORITHMEN 34 nach häufigen, ge
Seite 42 und 43: 3 ALGORITHMEN 36 Eingabe: Sequenzda
Seite 44 und 45: 3 ALGORITHMEN 38 ist. Deshalb brauc
Seite 46 und 47: 3 ALGORITHMEN 40 th). Auch wird bei
Seite 48 und 49: 3 ALGORITHMEN 42 Respektive erhält
Seite 50 und 51: 4 DURCHFÜHRUNG DES DATA MININGS 44
Seite 58 und 59: 5 IMPLEMENTIERUNG 52 5 Implementier
Seite 60 und 61: 5 IMPLEMENTIERUNG 54 Abbildung 25:
Seite 62 und 63: 5 IMPLEMENTIERUNG 56 Methodenübers
Seite 64 und 65: 5 IMPLEMENTIERUNG 58 • boolean: i
Seite 66 und 67:
5 IMPLEMENTIERUNG 60 Abbildung 30:
Seite 68 und 69:
Seite 70 und 71:
5 IMPLEMENTIERUNG 64 Berechnet den
Seite 72 und 73:
Seite 74 und 75:
5 IMPLEMENTIERUNG 68 den MinSupport
Seite 76 und 77:
5 IMPLEMENTIERUNG 70 Auch lassen si
Seite 78 und 79:
5 IMPLEMENTIERUNG 72 Auswahlparamet
Seite 80 und 81:
5 IMPLEMENTIERUNG 74 (a) Kontextdia
Seite 82 und 83:
5 IMPLEMENTIERUNG 76 Im Folgenden s
Seite 84 und 85:
6 ERGEBNISSE 78 6 Ergebnisse In die
Seite 86 und 87:
6 ERGEBNISSE 80 (a) maximale sequen
Seite 88 und 89:
6 ERGEBNISSE 82 Im Folgenden sollen
Seite 90 und 91:
Seite 92 und 93:
6 ERGEBNISSE 86 jekt Technische Inf
Seite 94 und 95:
Seite 96 und 97:
6 ERGEBNISSE 90 dienverläufen. Es
Seite 98 und 99:
Seite 100 und 101:
6 ERGEBNISSE 94 Informationssysteme
Seite 102 und 103:
6 ERGEBNISSE 96 Elektrotechnische G
Seite 104 und 105:
7 SCHLUSS 98 7.2 Ausblick In dieser
Seite 106 und 107:
8 ANHANG 100 8.2 Beispiel für die
Seite 108 und 109:
8 ANHANG 102 8.4 Regelstudienplan d
Seite 110 und 111:
LITERATUR 104 Literatur [AG02] [AS9
Seite 112:
Erklärung Hiermit versichere ich,
Alle anzeigen

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?