Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2 GRUNDLAGEN 10<br />
ist, <strong>und</strong> d ein Produkt, welches billig eingekauft werden kann. Der Online-Shop könnte<br />
versuchen das Produkt d sehr günstig anzubieten, in der Hoffnung dass die K<strong>und</strong>en d <strong>und</strong><br />
in der Konsequenz in einer späteren Transaktion auch c kaufen. Eine andere Möglichkeit<br />
wäre, dass für einen K<strong>und</strong>en die Transaktionssequenz (ab)d ermittelt wurde. Der Online-<br />
Shop kann dann gezielt Werbung für das Produkt c an den K<strong>und</strong>en richten. Da die<br />
Wahrscheinlichkeit hoch ist, dass das gef<strong>und</strong>ene Kaufmuster (ab)dc sich bestätigt.<br />
Gr<strong>und</strong>legende Begriffe<br />
Ein Item steht für ein bestimmtes Ereignis <strong>von</strong> Interesse. So bezeichnet das Item a<br />
aus Beispiel 2.1 den Kauf des Produktes a. Sei I = {i 1 , i 2 , . . . , i n } eine Menge <strong>von</strong><br />
unterschiedlichen Items, dann ist ein Itemset eine Teilmenge <strong>von</strong> I. Eine Sequenz ist<br />
dann eine geordnete Liste <strong>von</strong> Itemsets. Es wird dabei folgende Schreibweise verwendet:<br />
Sequenz s = s 1 s 2 · · · s l , wobei jedes s j (1 ≤ j ≤ l) ein Itemset ist. s j = (x 1 x 2 · · · x m )<br />
wird als ein Element oder eine Transaktion <strong>von</strong> s an der Position j bezeichnet, wobei<br />
x k (1 ≤ k ≤ m) ein Item ist. Aus Gründen der Übersichtlichkeit werden die Klammern<br />
weggelassen, wenn ein Element nur ein einzelnes Item beinhaltet: (x) −→ x. Die i-<br />
Länge s gibt die Summe der Items in allen Elmenten <strong>von</strong> s wieder. Eine Sequenz mit<br />
der i-Länge l wird als l-Sequenz bezeichnet.<br />
Definition 2.2 (Teilsequenzbeziehung). Eine Sequenz α = a 1 a 2 · · · a n wird als Teilsequenz<br />
einer anderen Sequenz β = b 1 b 2 · · · b m <strong>und</strong> β als Obersequenz <strong>von</strong> α bezeichnet,<br />
gekennzeichnet als: α ⊑ β , wenn ganzzahlige Werte 1 ≤ j 1 < j 2 < · · · < j n ≤ m<br />
existieren, so dass gilt: a 1 ⊆ b j1 , a 2 ⊆ b j2 , . . . , a n ⊆ b jn .<br />
sid<br />
s<br />
1 s 1<br />
2 s 2<br />
.<br />
n<br />
.<br />
s n<br />
Tabelle 2: <strong>Sequenzdaten</strong>bank S<br />
Definition 2.3 (Support einer Sequenz). Sei eine <strong>Sequenzdaten</strong>bank S (siehe Tabelle<br />
2) als eine Menge <strong>von</strong> Tupeln in der Form (sid, s) gegeben. Ein Tupel (sid, s) enthält<br />
die Sequenz α, wenn α ⊑ s gilt. Der Support einer Sequenz α in einer <strong>Sequenzdaten</strong>bank<br />
S ist die Anzahl der Tupel in S, die α enthalten. Es gilt:<br />
Support S (α) = | {(sid, s)|(sid, s) ∈ S ∧ (α ⊑ s)} | (1)<br />
Definition 2.4 (Sequentielle Muster). Bei einer gegebenen positiven ganzen Zahl<br />
MinSupport als die Support-Schwelle, wird eine Sequenz α als sequentielles Muster<br />
oder als häufige Sequenz in der <strong>Sequenzdaten</strong>bank S bezeichnet, wenn folgende