Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2 GRUNDLAGEN 11<br />
Bedingung erfüllt ist:<br />
Support S (α) ≥ MinSupport (2)<br />
Beispiel 2.5 (laufendes Beispiel). Gegeben seien MinSupport = 2 <strong>und</strong> die <strong>Sequenzdaten</strong>bank<br />
aus Tabelle 1. Dann ist die Menge der Items in der <strong>Sequenzdaten</strong>bank I =<br />
{a, b, c, d, e, f, g}. Während in der 9-Sequenz K1 a zwar drei mal vorkommt, trägt K1<br />
nur ein mal zum Support(a) bei. Support(a) beträgt 4, da a in allen 4 Sequenzen als Teilsequenz<br />
auftritt. Weil die Sequenzen K1 <strong>und</strong> K2 die einzigen zwei Sequenzen sind, die<br />
die Sequenz s = a(bc)a als Teilsequenz beinhaltet, hat s einen Support <strong>von</strong> 2. s ist also<br />
ein sequentielles Muster mit der i-Länge 4, deshalb wird s als ein 4-Muster bezeichnet.<br />
2.2.2 Maximale <strong>und</strong> geschlossene sequentielle Muster<br />
Die komplette Menge der sequentiellen Muster in eine <strong>Sequenzdaten</strong>bank kann red<strong>und</strong>ante<br />
Informationen aufweisen. Für die Darstellung oder Weiterverarbeitung <strong>von</strong> sequentiellen<br />
Mustern ist es oftmals <strong>von</strong> Vorteil, wenn diese Red<strong>und</strong>anz behoben werden kann<br />
um somit eine komprimierte Menge <strong>von</strong> sequentiellen Mustern zu erhalten. In diesem<br />
Abschnitt werden die Konzepte der maximalen <strong>und</strong> geschlossenen sequentiellen Muster<br />
vorgestellt. Beide Konzepte nutzen die Apriori-Eigenschaft des Supports um red<strong>und</strong>ante<br />
Informationen zu identifizieren.<br />
Eigenschaft 2.6 (Apriori-Eigenschaft). Gegeben seien zwei Sequenzen s <strong>und</strong> s ′ mit<br />
s ′ ⊒ s innerhalb einer <strong>Sequenzdaten</strong>bank, dann gilt: Support(s ′ ) ≤ Support(s). Daraus<br />
folgt: wenn s ′ ein sequentielles Muster ist, so ist auch s ein sequentielles Muster.<br />
Die Apriori-Eigenschaft besagt, dass wenn eine Sequenz häufig ist, dann ist auch jede<br />
Teilsequenz da<strong>von</strong> häufig. Umgekehrt gilt, dass wenn eine Sequenz nicht häufig ist, dann<br />
kann auch keine Obersequenz da<strong>von</strong> häufig sein.<br />
Definition 2.7 (Maximale sequentielle Muster). Innerhalb einer gegebenen Menge<br />
<strong>von</strong> sequentiellen Mustern ist ein sequentielles Muster s maximal, wenn es kein sequentielles<br />
Muster s ′ mit s ′ ❂ s gibt.<br />
Definition 2.8 (Geschlossene sequentielle Muster). Innerhalb einer gegebenen<br />
Menge <strong>von</strong> sequentiellen Mustern ist ein sequentielles Muster s geschlossen, wenn es<br />
kein sequentielles Muster s ′ mit s ′ ❂ s <strong>und</strong> Support(s ′ ) = Support(s) gibt.<br />
K<strong>und</strong>en-id<br />
K1<br />
K2<br />
K3<br />
K4<br />
Transaktionssequenz<br />
a(abc)(ac)d(cf)<br />
(ad)c(bc)(ae)<br />
(ef)(ab)(df)cb<br />
eg(af)cbc<br />
Tabelle 3: Transaktionssequenzdatenbank