Frequent String Mining in mehreren Datenbanken

ai.cs.uni.dortmund.de

Frequent String Mining in mehreren Datenbanken

Überblick

Einführung: Was, warum und wie?

Datenstruktur und Basisalgorithmus

Speicherplatzeffiziente Erweiterung des Basisalgorithmus

Ergebnisse

Basisalgorithmus

Struktur in den Daten

Datenstruktur

Der Basisalgorithmus

◮ Vorverarbeitung: Verkette die Originalstrings der Datenbank

zu Gesamtstring T , berechne Suffixarray, LCP-Array und

Informationen zum schnellen Berechnen von RMQLCP

◮ Berechne Array C ′

◮ Durchlaufe den lcp-Intervall-Baum (Postorder): Für jedes

ω-Intervall [l,r] berechne freq(ω, D) = SD(ω) − CD(ω)

◮ Speichere jeden relevanten String am lexikografisch kleinsten

Suffix, dessen Präfix er ist.

◮ Entferne alle relevanten Strings mit Trennsymbol #

Peter Fricke Frequent String Mining in mehreren Datenbanken

Weitere Magazine dieses Users
Ähnliche Magazine