01.11.2013 Aufrufe

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

3 ALGORITHMEN 26<br />

1. Sei {x 1 , x 2 , . . . , x n } die komplette Menge der sequentiellen Muster mit der i-Länge<br />

1 in eine <strong>Sequenzdaten</strong>bank S. Dann kann die komplette Menge der sequentiellen<br />

Muster in S in n disjunkte Teilmengen aufgeteilt werden. Die i-te Teilmenge (1 ≤<br />

i ≤ n) ist die Menge der sequentiellen Muster mit dem Präfix x i .<br />

2. Sei α ein sequentielles Muster mit der i-Länge l <strong>und</strong> {β 1 , β 2 , . . . , β m } eine Menge<br />

<strong>von</strong> allen sequentiellen Mustern der i-Länge (l + 1) mit dem Präfix α. Dann kann<br />

die komplette Menge der sequentiellen Muster mit dem Präfix α, ausgenommen α<br />

selber, in m disjunkte Teilmengen aufgeteilt werden. Die j-te Teilmenge (1 ≤ j ≤<br />

n) ist die Menge der sequentiellen Muster mit dem Präfix β j .<br />

Diese rekursive Partitionierung in Teilmengen <strong>von</strong> sequentiellen Mustern basiert auf<br />

das ”<br />

Teile <strong>und</strong> herrsche“-Prinzip. Dabei durchläuft PrefixSpan mit Hilfe der Tiefensuche<br />

den in Abbildung 11 dargestellten Sequenzaufzählungsbaum.<br />

Abbildung 11: Der Sequenzaufzählungsbaum für das Itemset {a, b, c, d}.<br />

Für die Suche nach Teilmengen <strong>von</strong> sequentiellen Muster verwendet PrefixSpan eine<br />

projizierte Datenbank.<br />

Definition 3.7 (Projizierte Datenbank). Sei α ein sequentielles Muster in eine <strong>Sequenzdaten</strong>bank<br />

S. Dann ist die α-projizierte Datenbank, gekennzeichnet als S| α , eine<br />

Sammlung <strong>von</strong> Suffixen <strong>von</strong> Sequenzen in S bezüglich dem Präfix α.<br />

K<strong>und</strong>en-id<br />

K1<br />

K2<br />

K3<br />

K4<br />

Transaktionssequenz<br />

a(abc)(ac)d(cf)<br />

(ad)c(bc)(ae)<br />

(ef)(ab)(df)cb<br />

eg(af)cbc<br />

Tabelle 12: Transaktionssequenzdatenbank<br />

Das folgende Beispiel beschreibt diesen präfix-basierten Ansatz.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!