Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
3 ALGORITHMEN 26<br />
1. Sei {x 1 , x 2 , . . . , x n } die komplette Menge der sequentiellen Muster mit der i-Länge<br />
1 in eine <strong>Sequenzdaten</strong>bank S. Dann kann die komplette Menge der sequentiellen<br />
Muster in S in n disjunkte Teilmengen aufgeteilt werden. Die i-te Teilmenge (1 ≤<br />
i ≤ n) ist die Menge der sequentiellen Muster mit dem Präfix x i .<br />
2. Sei α ein sequentielles Muster mit der i-Länge l <strong>und</strong> {β 1 , β 2 , . . . , β m } eine Menge<br />
<strong>von</strong> allen sequentiellen Mustern der i-Länge (l + 1) mit dem Präfix α. Dann kann<br />
die komplette Menge der sequentiellen Muster mit dem Präfix α, ausgenommen α<br />
selber, in m disjunkte Teilmengen aufgeteilt werden. Die j-te Teilmenge (1 ≤ j ≤<br />
n) ist die Menge der sequentiellen Muster mit dem Präfix β j .<br />
Diese rekursive Partitionierung in Teilmengen <strong>von</strong> sequentiellen Mustern basiert auf<br />
das ”<br />
Teile <strong>und</strong> herrsche“-Prinzip. Dabei durchläuft PrefixSpan mit Hilfe der Tiefensuche<br />
den in Abbildung 11 dargestellten Sequenzaufzählungsbaum.<br />
Abbildung 11: Der Sequenzaufzählungsbaum für das Itemset {a, b, c, d}.<br />
Für die Suche nach Teilmengen <strong>von</strong> sequentiellen Muster verwendet PrefixSpan eine<br />
projizierte Datenbank.<br />
Definition 3.7 (Projizierte Datenbank). Sei α ein sequentielles Muster in eine <strong>Sequenzdaten</strong>bank<br />
S. Dann ist die α-projizierte Datenbank, gekennzeichnet als S| α , eine<br />
Sammlung <strong>von</strong> Suffixen <strong>von</strong> Sequenzen in S bezüglich dem Präfix α.<br />
K<strong>und</strong>en-id<br />
K1<br />
K2<br />
K3<br />
K4<br />
Transaktionssequenz<br />
a(abc)(ac)d(cf)<br />
(ad)c(bc)(ae)<br />
(ef)(ab)(df)cb<br />
eg(af)cbc<br />
Tabelle 12: Transaktionssequenzdatenbank<br />
Das folgende Beispiel beschreibt diesen präfix-basierten Ansatz.