01.11.2013 Aufrufe

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2 GRUNDLAGEN 10<br />

ist, <strong>und</strong> d ein Produkt, welches billig eingekauft werden kann. Der Online-Shop könnte<br />

versuchen das Produkt d sehr günstig anzubieten, in der Hoffnung dass die K<strong>und</strong>en d <strong>und</strong><br />

in der Konsequenz in einer späteren Transaktion auch c kaufen. Eine andere Möglichkeit<br />

wäre, dass für einen K<strong>und</strong>en die Transaktionssequenz (ab)d ermittelt wurde. Der Online-<br />

Shop kann dann gezielt Werbung für das Produkt c an den K<strong>und</strong>en richten. Da die<br />

Wahrscheinlichkeit hoch ist, dass das gef<strong>und</strong>ene Kaufmuster (ab)dc sich bestätigt.<br />

Gr<strong>und</strong>legende Begriffe<br />

Ein Item steht für ein bestimmtes Ereignis <strong>von</strong> Interesse. So bezeichnet das Item a<br />

aus Beispiel 2.1 den Kauf des Produktes a. Sei I = {i 1 , i 2 , . . . , i n } eine Menge <strong>von</strong><br />

unterschiedlichen Items, dann ist ein Itemset eine Teilmenge <strong>von</strong> I. Eine Sequenz ist<br />

dann eine geordnete Liste <strong>von</strong> Itemsets. Es wird dabei folgende Schreibweise verwendet:<br />

Sequenz s = s 1 s 2 · · · s l , wobei jedes s j (1 ≤ j ≤ l) ein Itemset ist. s j = (x 1 x 2 · · · x m )<br />

wird als ein Element oder eine Transaktion <strong>von</strong> s an der Position j bezeichnet, wobei<br />

x k (1 ≤ k ≤ m) ein Item ist. Aus Gründen der Übersichtlichkeit werden die Klammern<br />

weggelassen, wenn ein Element nur ein einzelnes Item beinhaltet: (x) −→ x. Die i-<br />

Länge s gibt die Summe der Items in allen Elmenten <strong>von</strong> s wieder. Eine Sequenz mit<br />

der i-Länge l wird als l-Sequenz bezeichnet.<br />

Definition 2.2 (Teilsequenzbeziehung). Eine Sequenz α = a 1 a 2 · · · a n wird als Teilsequenz<br />

einer anderen Sequenz β = b 1 b 2 · · · b m <strong>und</strong> β als Obersequenz <strong>von</strong> α bezeichnet,<br />

gekennzeichnet als: α ⊑ β , wenn ganzzahlige Werte 1 ≤ j 1 < j 2 < · · · < j n ≤ m<br />

existieren, so dass gilt: a 1 ⊆ b j1 , a 2 ⊆ b j2 , . . . , a n ⊆ b jn .<br />

sid<br />

s<br />

1 s 1<br />

2 s 2<br />

.<br />

n<br />

.<br />

s n<br />

Tabelle 2: <strong>Sequenzdaten</strong>bank S<br />

Definition 2.3 (Support einer Sequenz). Sei eine <strong>Sequenzdaten</strong>bank S (siehe Tabelle<br />

2) als eine Menge <strong>von</strong> Tupeln in der Form (sid, s) gegeben. Ein Tupel (sid, s) enthält<br />

die Sequenz α, wenn α ⊑ s gilt. Der Support einer Sequenz α in einer <strong>Sequenzdaten</strong>bank<br />

S ist die Anzahl der Tupel in S, die α enthalten. Es gilt:<br />

Support S (α) = | {(sid, s)|(sid, s) ∈ S ∧ (α ⊑ s)} | (1)<br />

Definition 2.4 (Sequentielle Muster). Bei einer gegebenen positiven ganzen Zahl<br />

MinSupport als die Support-Schwelle, wird eine Sequenz α als sequentielles Muster<br />

oder als häufige Sequenz in der <strong>Sequenzdaten</strong>bank S bezeichnet, wenn folgende

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!