01.11.2013 Aufrufe

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2 GRUNDLAGEN 11<br />

Bedingung erfüllt ist:<br />

Support S (α) ≥ MinSupport (2)<br />

Beispiel 2.5 (laufendes Beispiel). Gegeben seien MinSupport = 2 <strong>und</strong> die <strong>Sequenzdaten</strong>bank<br />

aus Tabelle 1. Dann ist die Menge der Items in der <strong>Sequenzdaten</strong>bank I =<br />

{a, b, c, d, e, f, g}. Während in der 9-Sequenz K1 a zwar drei mal vorkommt, trägt K1<br />

nur ein mal zum Support(a) bei. Support(a) beträgt 4, da a in allen 4 Sequenzen als Teilsequenz<br />

auftritt. Weil die Sequenzen K1 <strong>und</strong> K2 die einzigen zwei Sequenzen sind, die<br />

die Sequenz s = a(bc)a als Teilsequenz beinhaltet, hat s einen Support <strong>von</strong> 2. s ist also<br />

ein sequentielles Muster mit der i-Länge 4, deshalb wird s als ein 4-Muster bezeichnet.<br />

2.2.2 Maximale <strong>und</strong> geschlossene sequentielle Muster<br />

Die komplette Menge der sequentiellen Muster in eine <strong>Sequenzdaten</strong>bank kann red<strong>und</strong>ante<br />

Informationen aufweisen. Für die Darstellung oder Weiterverarbeitung <strong>von</strong> sequentiellen<br />

Mustern ist es oftmals <strong>von</strong> Vorteil, wenn diese Red<strong>und</strong>anz behoben werden kann<br />

um somit eine komprimierte Menge <strong>von</strong> sequentiellen Mustern zu erhalten. In diesem<br />

Abschnitt werden die Konzepte der maximalen <strong>und</strong> geschlossenen sequentiellen Muster<br />

vorgestellt. Beide Konzepte nutzen die Apriori-Eigenschaft des Supports um red<strong>und</strong>ante<br />

Informationen zu identifizieren.<br />

Eigenschaft 2.6 (Apriori-Eigenschaft). Gegeben seien zwei Sequenzen s <strong>und</strong> s ′ mit<br />

s ′ ⊒ s innerhalb einer <strong>Sequenzdaten</strong>bank, dann gilt: Support(s ′ ) ≤ Support(s). Daraus<br />

folgt: wenn s ′ ein sequentielles Muster ist, so ist auch s ein sequentielles Muster.<br />

Die Apriori-Eigenschaft besagt, dass wenn eine Sequenz häufig ist, dann ist auch jede<br />

Teilsequenz da<strong>von</strong> häufig. Umgekehrt gilt, dass wenn eine Sequenz nicht häufig ist, dann<br />

kann auch keine Obersequenz da<strong>von</strong> häufig sein.<br />

Definition 2.7 (Maximale sequentielle Muster). Innerhalb einer gegebenen Menge<br />

<strong>von</strong> sequentiellen Mustern ist ein sequentielles Muster s maximal, wenn es kein sequentielles<br />

Muster s ′ mit s ′ ❂ s gibt.<br />

Definition 2.8 (Geschlossene sequentielle Muster). Innerhalb einer gegebenen<br />

Menge <strong>von</strong> sequentiellen Mustern ist ein sequentielles Muster s geschlossen, wenn es<br />

kein sequentielles Muster s ′ mit s ′ ❂ s <strong>und</strong> Support(s ′ ) = Support(s) gibt.<br />

K<strong>und</strong>en-id<br />

K1<br />

K2<br />

K3<br />

K4<br />

Transaktionssequenz<br />

a(abc)(ac)d(cf)<br />

(ad)c(bc)(ae)<br />

(ef)(ab)(df)cb<br />

eg(af)cbc<br />

Tabelle 3: Transaktionssequenzdatenbank

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!