Frequent String Mining in mehreren Datenbanken

ai.cs.uni.dortmund.de

Frequent String Mining in mehreren Datenbanken

Überblick

Einführung: Was, warum und wie?

Datenstruktur und Basisalgorithmus

Speicherplatzeffiziente Erweiterung des Basisalgorithmus

Ergebnisse

lcp-Intervall-Baum

◮ Präfixbaum wie bei FPgrowth.

Struktur in den Daten

Datenstruktur

Der Basisalgorithmus

◮ Einzufügende Daten (Suffixe, geordnete Mengen) sind Pfade.

◮ Naiver Aufbau: Pfade übereinanderlegen.

◮ Struktur: Gemeinsamkeiten sind als gemeinsame Teilpfade zu

erkennen

◮ Hier kompaktere Darstellung: Bei FPgrowth wurde pro Kante

ein Item abgearbeitet, hier können pro Kante auch mehrere

Buchstaben abgearbeitet werden (Hinweis: Im Bild auf der

vorigen Seite wurden die ursprünglichen Blätter (=Intervalle

der Länge eins) gestrichen, um eine noch kompaktere

Darstellung zu erreichen).

Peter Fricke Frequent String Mining in mehreren Datenbanken

Weitere Magazine dieses Users
Ähnliche Magazine