Frequent String Mining in mehreren Datenbanken

ai.cs.uni.dortmund.de

Frequent String Mining in mehreren Datenbanken

Überblick

Einführung: Was, warum und wie?

Datenstruktur und Basisalgorithmus

Speicherplatzeffiziente Erweiterung des Basisalgorithmus

Ergebnisse

Wo sind wir?

Struktur in den Daten

Datenstruktur

Der Basisalgorithmus

Das waren Datenstruktur und Vorüberlegungen. Folgendes ist noch

zu tun:

◮ Wir müssen für jeden Knoten im lcp-Intervallbaum, der ein

ω-Intervall repräsentiert, die Anzahl SD(ω) der Vorkommen

von ω in T D insgesamt berechnen.

◮ Die eigentlich gesuchten Häufigkeiten berechnen wir so nicht

ganz korrekt, weil wir Strings, die in einem Originalstring

mehrfach vorkommen, fälschlich mehrfach zählen. Wir müssen

also für jedes dieser ω einen Korrekturterm CD(ω) berechnen,

so dass wir freq(ω, D) = SD(ω) − CD(ω) berechnen können.

◮ Wir müssen die Ergebnisse, die (möglicherweise quadratisch

vielen) relevanten Substrings platzsparend darstellen.

Peter Fricke Frequent String Mining in mehreren Datenbanken

Weitere Magazine dieses Users
Ähnliche Magazine