01.11.2013 Aufrufe

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3 ALGORITHMEN 42<br />

Respektive erhält man die Menge der maximalen sequentiellen Muster mit folgender<br />

Bedingung.<br />

φ := (s k ❁ s l ) (11)<br />

Analog zu den sequentiellen Mustern können aus der Menge der häufigen, geschlossenen<br />

partiellen Ordnungen die Menge der häufigen maximalen partiellen Ordnungen<br />

berechnet werden. Sei die Menge der häufigen, geschlossenen partiellen Ordnungen R<br />

nach der i-Länge sortiert gegeben, wobei eine Kante ein Item darstellt, dann ist s k eine<br />

häufige, geschlossenen partielle Ordnung in R mit der i-Länge k. Sei n die i-Länge der<br />

häufigen, geschlossenen partiellen Ordnung mit den meisten Kanten in R, dann lässt<br />

sich die Menge der häufigen, maximalen partiellen Ordnungen mit folgender Bedingung<br />

berechnen:<br />

φ := (s k ≺ s l ) (12)<br />

3.5 Andere Algorithmen<br />

Die Suche nach sequentiellen Mustern ist ein weit erforschtes Gebiet. Dementsprechend<br />

gibt es die verschiedensten Algorithmen. Neben den vorgestellten Algorithmen gibt es eine<br />

Vielzahl an Algorithmen, welche nicht alle in dieser Arbeit behandelt werden können.<br />

Hier sollen auf Algorithmen verwiesen werden, welche in der aktuellen Literatur neben<br />

den vorgestellten Algorithmen oft erwähnt werden. Für die Suche nach sequentiellen<br />

Mustern sind die folgenden drei Algorithmen zu nennen:<br />

SPADE [Zaki01] teilt das Problem der Suche nach sequentiellen Mustern in Äquivalenzklassen<br />

<strong>von</strong> häufigen Sequenzen auf. SPADE braucht nur drei Datenbankdurchläufe,<br />

um die komplette Menge der sequentiellen Muster zu finden. Dabei werden die Sequenzen<br />

als vertikale ID-Listen im Hauptspeicher gespeichert. Dadurch erreicht SPADE eine<br />

hohe Effizienz beim Zählen des Supports.<br />

SPAM [AG02] ist ein Algorithmus, der auf Tiefensuche in einem lexikografischem<br />

Baum <strong>von</strong> Sequenzen basiert. Für die Speicherung der Sequenzen verwendet SPAM eine<br />

vertikale Bitmap-Darstellung, so dass ein effizientes Zählen des Supports ermöglicht wird.<br />

Dabei setzt SPAM voraus, dass die gesamte Datenbank im Hauptspeicher gespeichert<br />

werden kann.<br />

MEMISP [LL05] baut auf der Intention auf, dass aufgr<strong>und</strong> der sinkenden Kosten für<br />

Hauptspeicher die Kapazitäten für Hauptspeicher stetig anwachsen, <strong>und</strong> somit kleinere<br />

bis mittlere <strong>Datenbanken</strong> problemlos in den Hauptspeicher passen. Um mehrfache<br />

Datenbankdurchläufe zu vermeiden, speichert MEMISP die komplette Datenbank als<br />

Speicherdatenbank im Hauptspeicher ab. Durch Verwendung <strong>von</strong> Speicherindexen kann<br />

dann effizient nach sequentiellen Mustern gesucht werden.<br />

Weiterhin gibt es Algorithmen, welche direkt geschlossene sequentielle Muster finden.<br />

Diese Vorgehensweise kann mitunter zur Effizienzsteigerung führen. Für die Suche nach

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!