Eine Subsequenz wird mit α ≼ β notiert.Beispiel: Im Folgen<strong>de</strong>n han<strong>de</strong>lt es sich beium eine Subsequenz vonα = (B ↦→ AC ↦→ D) (6)β = (AB ↦→ E ↦→ ACE ↦→ BE ↦→ DE), (7)also α ≼ β, da α vollständig in β enthalten ist.3.2.2 Beispiele für ZeitreihenB ⊆ AB, AC ⊆ ACE, D ⊆ DE (8)Zeitreihen erfassen in <strong>de</strong>r praktischen Anwendung beispielsweise Web-Visits proStun<strong>de</strong>, Verkäufe pro Monat, Anrufe pro Tag usw..3.3 Äquivalenz von Zeitreihen und temporalen DatenbankenLiegen die zu analysieren<strong>de</strong>n Daten innerhalb einer temporalen Datenbank vor, istes möglich diese in Sequenzen zu transformieren. Dazu benötigt man Snapshots (sieheKapitel 3.1), also Momentaufnahmen. Die Ausprägungen <strong>de</strong>r einzelnen Objektekönnen dann an Hand ihrer temporalen Attribute, d.h. Transaktions- und Gültigkeitszeit,in Zeitreihen umgewan<strong>de</strong>lt wer<strong>de</strong>n. Da eine Sequenz immer aus einemObjekt mit seinen Eigenschaften zu aufeinan<strong>de</strong>rfolgen<strong>de</strong>n Zeitpunkten besteht, isteine Transformation in diese Richtung möglich. Gibt es also in einer temporalenDatenbank ein Objekt ”Warenkorb“ kann anhand <strong>de</strong>r Transaktions- und Gültigkeitszeiteneine Schnappschussfolge gebil<strong>de</strong>t wer<strong>de</strong>n. So läßt sich dann <strong>de</strong>r Zustand<strong><strong>de</strong>s</strong> Warenkorbs zum Zeitpunkt 1,2,3,... bil<strong>de</strong>n. In <strong>de</strong>r Sequenz wer<strong>de</strong>n dann die jeweiligenWarenkörbe in zeitlicher Reihenfolge abgebil<strong>de</strong>t, die dazugehörigen Zeitengehen allerdings verloren [Zak97]. So ist es also möglich die Metho<strong>de</strong>n zur Analysevon Sequenzen zu verwen<strong>de</strong>n, wenn die Ursprungsdaten in temporalen Datenbankenvorliegen.Theoretisch ist auch ein umgekehrter Weg möglich. Man könnte die in <strong>de</strong>r Sequenzvorhan<strong>de</strong>nen Zustän<strong>de</strong> wie<strong>de</strong>r in eine temporale Datenbank schreiben. Dazuwür<strong>de</strong>n dann die Transaktionszeiten so gesetzt, dass die zweite Ausprägung <strong>de</strong>r Sequenzdort beginnt, wo die erste Ausprägung aufhört. Also ist die TZA <strong>de</strong>r zweitenAusprägung größer o<strong>de</strong>r gleich <strong>de</strong>r TZE <strong>de</strong>r ersten Ausprägung. Nach <strong>de</strong>m gleichenPrinzip müßte man dann die weiteren Tupel anlegen. Die Gültigkeitswerte in <strong>de</strong>rtemporalen Datenbank wür<strong>de</strong>n allerdings alle gleich gesetzt wer<strong>de</strong>n: gültig ab sofortbis eine Än<strong>de</strong>rung vorgenommen wird. Man kann also sagen, dass die Daten innerhalbeiner Sequenz nur <strong>de</strong>n Verlauf <strong>de</strong>r Daten innerhalb <strong>de</strong>r temporalen Datenbankwie<strong>de</strong>rgeben.Die Möglichkeit <strong>de</strong>r Umwandlung von temporalen Daten zu Sequenzen ist insofernvon Be<strong>de</strong>utung, da die im Verlauf dieser Ausarbeitung vorgestellten Technikenhauptsächlich auf <strong>de</strong>r Verwendung von Sequenzen basieren.4 <strong>Temporale</strong> MusterAufgrund <strong>de</strong>r Flut an Informationen, die die mo<strong>de</strong>rne Technik <strong>de</strong>r Informationsgesellschaftmit sich brachte, wur<strong>de</strong>n immer öfter Entscheidungen nicht auf Grundlage<strong>de</strong>r informationsreichen Datenbanken getroffen, son<strong>de</strong>rn überwiegend nach Intuition<strong><strong>de</strong>s</strong> Verantwortlichen. Kamber und Han [HK01] bezeichnen solche ungenutzten10
o<strong>de</strong>r falsch genutzten Datenbestän<strong>de</strong> als ”<strong>Data</strong> Tombs“, zu Deutsch Datengräber.Einen Ausweg aus dieser Misere versprechen <strong>Data</strong> <strong>Mining</strong>-Techniken wie sie in <strong>de</strong>nvorangegangenen Ausarbeitungen vorgestellt wur<strong>de</strong>n.<strong>Data</strong> <strong>Mining</strong>-Werkzeuge ent<strong>de</strong>cken Muster innerhalb großer Datenmengen, die für<strong>de</strong>n Benutzer von großem Nutzen sein können. Ähnlich wird auch bei temporalenDaten vorgegangen. Hier bemüht man sich temporale Muster zu ent<strong>de</strong>cken.Im folgen<strong>de</strong>n Abschnitt wer<strong>de</strong>n verschie<strong>de</strong>ne Formen von temporalen Mustern vorgestelltund teilweise vertieft beschrieben. Dazu gehören sequentielle Muster, zeitlicheAssoziationsregeln und kalendarische Muster sowie intervall-basieren<strong>de</strong> Ereignisse,Trends und ”unusual Movements“. Der Weg zu diesen Mustern, das heißt dieDatenanalyse wird im nächsten Kapitel dargestellt.4.1 Sequentielle MusterEin sequentielles Muster [Zak97] ist ein Muster, das beim ”mining“ über mehrereSequenzen ent<strong>de</strong>ckt wer<strong>de</strong>n kann. Mit Hilfe sequentieller Muster wer<strong>de</strong>n Regeln aufgestellt.Diese sind zu vergleichen mit Assoziationsregeln. Assoziationsregeln stellenRelationen und Zusammenhänge zwischen einzelnen Objekten o<strong>de</strong>r <strong>de</strong>ren Attributeher. Sequentielle Muster erfüllen eine ähnliche Aufgabe, doch in einem Punktunterschei<strong>de</strong>n sie sich von <strong>de</strong>n Assoziationsregeln gänzlich. Assoziationsregeln sindso genannte Intra-Transaktionsmuster, also Muster innerhalb einer Transaktion,beispielsweise innerhalb eines Warenkorbs. Sequentielle Muster dagegen sind Inter-Transaktionsmuster, das heißt, es wer<strong>de</strong>n Muster zwischen verschie<strong>de</strong>nen Transaktionenund nicht zwangsläufig innerhalb dieser untersucht (siehe Abbildung 3).Abbildung 3: Unterschied zwischen Intra- und Inter-TransaktionsmusterSo können beispielsweise Zusammenhänge bei verschie<strong>de</strong>nen Einkäufen übereinen Zeitraum von mehreren Wochen ent<strong>de</strong>ckt wer<strong>de</strong>n. Formal wird ein sequentiellesMuster wie folgt beschrieben:T ist <strong>de</strong>r ein<strong>de</strong>utige Bezeichner einer Transaktion, die eine Menge von Items I, alsoein so genanntes Itemset enthält.T ⊆ I (9)Mit C wird eine Kun<strong><strong>de</strong>s</strong>equenz bezeichnet, <strong>de</strong>r eine Liste von Transaktionen zugeordnetist. Die Transaktionen sind in <strong>de</strong>r Reihenfolge ihrer Transaktionszeit geordnet.C = T 1 ↦→ T 2 ↦→ · · · ↦→ T n (10)Eine Datenbank D enthält wie<strong>de</strong>rum eine Menge solcher Kun<strong>de</strong>nsequenzen.11