Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3 ALGORITHMEN 42<br />
Respektive erhält man die Menge der maximalen sequentiellen Muster mit folgender<br />
Bedingung.<br />
φ := (s k ❁ s l ) (11)<br />
Analog zu den sequentiellen Mustern können aus der Menge der häufigen, geschlossenen<br />
partiellen Ordnungen die Menge der häufigen maximalen partiellen Ordnungen<br />
berechnet werden. Sei die Menge der häufigen, geschlossenen partiellen Ordnungen R<br />
nach der i-Länge sortiert gegeben, wobei eine Kante ein Item darstellt, dann ist s k eine<br />
häufige, geschlossenen partielle Ordnung in R mit der i-Länge k. Sei n die i-Länge der<br />
häufigen, geschlossenen partiellen Ordnung mit den meisten Kanten in R, dann lässt<br />
sich die Menge der häufigen, maximalen partiellen Ordnungen mit folgender Bedingung<br />
berechnen:<br />
φ := (s k ≺ s l ) (12)<br />
3.5 Andere Algorithmen<br />
Die Suche nach sequentiellen Mustern ist ein weit erforschtes Gebiet. Dementsprechend<br />
gibt es die verschiedensten Algorithmen. Neben den vorgestellten Algorithmen gibt es eine<br />
Vielzahl an Algorithmen, welche nicht alle in dieser Arbeit behandelt werden können.<br />
Hier sollen auf Algorithmen verwiesen werden, welche in der aktuellen Literatur neben<br />
den vorgestellten Algorithmen oft erwähnt werden. Für die Suche nach sequentiellen<br />
Mustern sind die folgenden drei Algorithmen zu nennen:<br />
SPADE [Zaki01] teilt das Problem der Suche nach sequentiellen Mustern in Äquivalenzklassen<br />
<strong>von</strong> häufigen Sequenzen auf. SPADE braucht nur drei Datenbankdurchläufe,<br />
um die komplette Menge der sequentiellen Muster zu finden. Dabei werden die Sequenzen<br />
als vertikale ID-Listen im Hauptspeicher gespeichert. Dadurch erreicht SPADE eine<br />
hohe Effizienz beim Zählen des Supports.<br />
SPAM [AG02] ist ein Algorithmus, der auf Tiefensuche in einem lexikografischem<br />
Baum <strong>von</strong> Sequenzen basiert. Für die Speicherung der Sequenzen verwendet SPAM eine<br />
vertikale Bitmap-Darstellung, so dass ein effizientes Zählen des Supports ermöglicht wird.<br />
Dabei setzt SPAM voraus, dass die gesamte Datenbank im Hauptspeicher gespeichert<br />
werden kann.<br />
MEMISP [LL05] baut auf der Intention auf, dass aufgr<strong>und</strong> der sinkenden Kosten für<br />
Hauptspeicher die Kapazitäten für Hauptspeicher stetig anwachsen, <strong>und</strong> somit kleinere<br />
bis mittlere <strong>Datenbanken</strong> problemlos in den Hauptspeicher passen. Um mehrfache<br />
Datenbankdurchläufe zu vermeiden, speichert MEMISP die komplette Datenbank als<br />
Speicherdatenbank im Hauptspeicher ab. Durch Verwendung <strong>von</strong> Speicherindexen kann<br />
dann effizient nach sequentiellen Mustern gesucht werden.<br />
Weiterhin gibt es Algorithmen, welche direkt geschlossene sequentielle Muster finden.<br />
Diese Vorgehensweise kann mitunter zur Effizienzsteigerung führen. Für die Suche nach