Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data MiningOliver WienWildenslohsdamm 12,26188 Edewecht,EMail: oliver@wien.deMatrikel-Nr: 7238950StudiengangWirtschaftswissenschaftenmit Schwerpunkt Informatik8. März 2003ZusammenfassungDie vorliegende Arbeit beschäftigt sich mit den temporalen Aspekten desData Mining. Es werden wichtige Grundlagen zum Zeitbegriff und seiner Verwendunggemacht sowie die Granularität von Zeitpunkt und Zeitraum bestimmt.Die Repräsentationsformen ”Temporale Datenbank“ und ”Zeitreihen“ sowieihre Eigenschaften werden vorgestellt. Deutlich gemacht wird dabei der Nutzenvon Transaktions- und Gültigkeitszeit in Form des bitemporalen Modells.Das Data Mining über einzelne Transaktionen hinaus birgt weitere Vorteile inso genannten Inter-Transaktionsmustern.Diese Muster decken Zusammenhänge auf, die ohne temporale Komponentennicht realisiert werden würden. Zu den bekanntesten gehören dabei sequentielleMuster und zeitliche Assoziationsregeln.Die Analyse der zeitlichen Assoziationsregeln sowie zwei Algorithmen zur Entdeckungvon sequentiellen Mustern werden zum Abschluss dieser Ausarbeitungausführlich und mit Beispielen dargestellt.Inhaltsverzeichnis1 Einleitung 22 Grundlagen und Begriffe 32.1 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Der Zeitbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Granularität - Zeitpunkt - Zeitraum . . . . . . . . . . . . . . . . . . 43 Repräsentationsformen 53.1 Temporale Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . 53.1.1 Zeittypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.1.2 Zeitstempelung . . . . . . . . . . . . . . . . . . . . . . . . . . 73.1.3 Bitemporales Modell . . . . . . . . . . . . . . . . . . . . . . . 83.2 Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2.1 Subsequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2.2 Beispiele für Zeitreihen . . . . . . . . . . . . . . . . . . . . . 103.3 Äquivalenz von Zeitreihen und temporalen Datenbanken . . . . . . . 101

4 Temporale Muster 104.1 Sequentielle Muster . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.1.1 Häufigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.1.2 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.2 Zeitliche Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . 124.2.1 Länge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2.2 Unterstützung . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2.3 Stabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2.4 Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2.5 Praktische Beispiele . . . . . . . . . . . . . . . . . . . . . . . 144.3 Kalendarische Muster . . . . . . . . . . . . . . . . . . . . . . . . . . 144.4 Intervall-basierende Ereignisse . . . . . . . . . . . . . . . . . . . . . . 154.5 Trends . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.6 Unusual Movements . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.6.1 Isolated Outliners . . . . . . . . . . . . . . . . . . . . . . . . 184.6.2 Level Shift . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Temporale Datenanalyse 195.1 Klassifizierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.1.1 Verschmelzung . . . . . . . . . . . . . . . . . . . . . . . . . . 195.1.2 Weitere Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . 195.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.3 Analyse sequentieller Muster . . . . . . . . . . . . . . . . . . . . . . 205.3.1 GSP-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . 205.3.2 SPADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.4 Analyse zeitlicher Assoziationsregeln . . . . . . . . . . . . . . . . . . 246 Ausblick 257 Schlussbetrachtung 261 EinleitungMotivationIn der Praxis ist es oftmals erforderlich, dass zu einem bestimmten Objekt nichtnur eine Menge an Informationen verfügbar, sondern auch ein zeitlicher Zusammenhangvon großer Bedeutung ist. Dazu gehört beispielsweise die Änderungen der zueinem Objekt bereitgehaltenen Informationen. Aber auch die Gültigkeit eines Objektesbzw. spezieller Objektdaten ist oftmals von Interesse. Letztendlich bringt dieErweiterung um temporale Aspekte auch die Option, Operationen auf den Datennachzuvollziehen und ggf. beliebig weit rückgängig zu machen.Data Mining ist ein Verfahren, das es ermöglicht wiederkehrende Muster, aber auchUnregelmäßigkeiten, wie z.B. Ausreißer in großen und sehr großen Datenbeständenaufzufinden.Das Verwenden temporaler Aspekte bedeutet eine Erweiterung des ”Knowledge Discovery“.Als Knowledge Discovery wird der Prozess verstanden mit dem Muster inDatenbanken gefunden werden, Data Mining stellt einen Schritt in diesem Prozessdar [FPSS96]. In der Erweiterung des Data Mining begründet sich auch die Motivationzu dieser Ausarbeitung: Es soll deutlich gemacht werden, welche Möglichkeiten,aber auch welche Grenzen die temporale Dimensionen in diesem Umfeld bieten.VorgehensweiseIm Anschluss an diese Einleitung finden sich im zweiten Kapitel die Grundlagen des2

Themas. Zu den Grundlagen gehören eine knappe Einführung in das Data Mining,die Definition des Zeitbegriffs und die Erläuterung der notwendigen Voraussetzungen,um die Arbeit mit temporalen Daten zu ermöglichen.Zwei möglichen Repräsentationsformen ist das dritte Kapitel gewidmet. Hier werdenzwei Wege vorgestellt, die zeigen wie mit temporalen Daten gearbeitet werden kann.Dazu gehören einerseits temporale Datenbanken, insbesondere die Erweiterung derbekannten relationalen Systeme und zum anderen geht es um Zeitreihen.Das vierte Kapitel ”Temporale Muster“ stellt den Kern des Data Mining dar, schließlichist das Entdecken von Mustern (engl. Pattern) dessen Hauptziel. Innerhalb diesesKapitels werden ausgewählte temporale Muster vorgestellt, die beispielsweise zurPersonalisierung verwendet werden können. Es gilt dabei häufige und wiederkehrendeVorgänge festzustellen und allgemein gültig zu beschreiben. Zu den bekanntestenMustern gehören die ”temporalen Assoziationsregeln“.Die Analyse der temporalen Daten steht im Mittelpunkt des fünften Kapitels. Inder Datenanalyse werden die zuvor beschriebenen Muster ausfindig gemacht. ZurErläuterung der Analysetechniken werden verschiedene Algorithmen vorgestellt, diespeziell für die Bearbeitung von temporalen Daten konzipiert oder daran angepasstwurden. Dazu gehören Clustering- und Klassifikationsverfahren sowie der GSP- undSPADE-Algorithmus.Die letzten beiden Kapitel dieser Arbeit zeigen eine Einordnung dieses Teilthemas indas Gesamtbild des Projekts ”DIKO - Data in Knowledge out“ und die Schlussbetrachtung.Das Projekt beschäftigt sich mit der Personalisierung internetbasierenderHandelsszenarien. Den Schluss dieser Arbeit bilden Glossar und Literaturverzeichnis.2 Grundlagen und BegriffeIn diesem Kapitel werden die wichtigen Begriffe und notwendigen Voraussetzungenerläutert. Dazu gehören der Zeitbegriff und die verwandten Begriffe ”Zeitraum“und ”Zeitpunkt“ sowie die ”Granularität“. Darüberhinaus gibt es unterschiedlicheModelle die Zeit darzustellen und es wird klar, dass der Zeitbegriff an sich sehrsubjektiv sein kann. Bevor allerdings die mit den temporalen Aspekten in Zusammenhangstehenden Begriffe eingeführt werden, soll noch knapp das Data Miningerklärt werden.2.1 Data MiningIm Zeitalter der Informationstechnik wächst die Zahl der Daten, die in Unternehmensowie in Wissenschaft und Forschung gespeichert werden ins Unüberschaubare[HK01]. Die Bemühungen, trotz der Menge der Daten die notwendigen wichtigen Informationenaufzudecken, werden unter dem Oberbegriff ”Knowledge Discovery inDatabases“ (KDD) zusammengefasst. KKD ist der ”nicht-triviale“ Prozess, dessenZiel es ist, ”gültige, neue, potentiell nützliche und letztendlich verständliche Musterin Daten“ zu finden [FPSS96]. Man spricht deshalb vom KDD-Prozess. DieserProzess besteht aus neun Schritten:1. Datenverständnis und Zielbestimmung (Kundensicht)2. Auswahl der Daten3. Aufbereitung der Daten (Preprocessing)4. Reduzierung und Projektion der Daten5. Wahl einer geeigneten Data-Mining-Methode3

6. Wahl geeigneter Data-Mining-Algorithmen7. Data-Mining8. Interpretation der gefundenen Muster und ggf. Wiederholung der vorangegangenenSchritte9. Festigung und Übertragung des neuens WissenDer siebte Schritt, das ”Data Mining“ beschäftigt sich mit der Suche nach interessantenMustern, die in einer bestimmten Darstellungsform vorliegen [FPSS96].Bei den temporalen Aspekten des Data Mining handelt es sich um die Erweiterungder zu analysierenden Daten und der Analyseergebnisse um eine weitere Dimension:der Zeit. Durch Erweiterung der Daten um zeitliche Attribute, ist es möglichdas Data Mining zu vertiefen. Existiert eine zeitliche Dimension, so können auchdie Ergebnisse des Data Mining mit einer zeitlichen Komponenten aufwarten. Dannwerden Muster gefunden, die die ebenfalls temporal bestimmt sind. Es lassen sichzudem Zusammenhänge feststellen, die für die spätere Projektarbeit von Nutzensein könnten und ohne zeitliche Dimension nicht nachvollziehbar wären. WelcheZusammenhänge es gibt, wird weiter unten gezeigt.2.2 Der ZeitbegriffMeyers Lexikon definiert die Zeit als Existenzform der Materie in der alle ihre”Änderungen und Bewegungen ablaufen“[M0101]. Allgemein handelt es sich um dieAbfolge eines Geschehens, die im menschlichen Bewusstsein als Vergangenheit,”Gegenwart und Zukunft am Entstehen und Vergehen der Dinge erfahren wird. DieGegenwart lässt sich als Grenze zwischen Noch-nicht (Zukunft) und Nicht-Mehr(Vergangenheit) bestimmen.“ Für den Mensch gilt die Zeit also auch als Maßstab,um Vorgänge und Geschehen in einem Kontext richtig einzuordnen. Die Einordnungfindet dann in zeitlicher Reihenfolge statt. Erwähnenswert ist an dieser Stelle, dassdas Zeitempfinden allgemein sehr subjektiv ist. Neu“ oder alt“ sind Adjektive, die” ”lediglich eine Unterscheidung zur Vergangenheit machen, nicht aber als Maßstabverwendet werden können. Im Rahmen der zu machenden Analysen muss also sehrsensibel mit der Zeit umgegangen werden.2.3 Granularität - Zeitpunkt - ZeitraumFür den Zeitbegriff ist es notwendig, zwischen Zeitraum und Zeitpunkt zu unterscheiden.Nur so können Analyseergebnisse richtig interpretiert werden. Währendein Zeitpunkt z.B. ein exaktes Datum beschreibt, gehen wir davon aus, dass einZeitraum mindestens zwei Zeitpunkte enthält, die aus einem Start- und einem Endzeitpunktbestehen. Dabei ergibt sich folgendes Problem: Bezeichnet man ein Datum,z.B. den 18.11.2002 als Zeitpunkt, so stellt er zugleich einen Zeitraum dar.Schließlich steht ein Datum immer für einen Tag, der wiederum aus 24 Stundenbesteht. Aber nicht mal eine Stunde dieses Tages könnte zweifelsfrei als Zeitpunktdefiniert werden, da auch eine Stunde wieder aus 60 Minuten besteht. Diese Verfeinerunglässt sich unendlich lange fortsetzen bis unendlich kleine Zeiteinheitenvorliegen. Die gängigen Uhren beschränken sich auf Minuten und Sekunden alskleinste Zeiteinheit. Wenige Ausnahmen gibt es z.B. bei Sportveranstaltungen woauf eine Hundertstel Sekunde genau gemessen wird.Bei der Implementierung temporaler Daten ist die so genannte ”Granularität“ dafürumso wichtiger. Mit Granularität meint man die Körnigkeit, in diesem speziellenFall die Unterscheidung zwischen Zeitraum und Zeitpunkt. Wann ist ein Zeitraumgleich einem Zeitpunkt?4

Zur Darstellung der Zeit gibt es drei gängige mathematische Modelle. Das stetigeModell ist isomorph zum Bereich der reelen Zahlen und wird mit diesen gleichgesetzt.Das dichte Modell basiert auf den rationalen Zahlen. Je genauer ein Modell,desto feinere Zeiteinheiten gibt es. So bietet das stetige Modell eine detailliertereEinteilung als das dichte Modell. Ein Modell , dass ”nur“ mit natürlichen Zahlenauskommt, ist das diskrete Modell. Üblicherweise verwendet man bei temporalenDaten das diskrete Modell. Die kleinste Zeiteinheit wird hier als ”Chronon“ bezeichnetund wird dabei als das kleinste mögliche Zeitsegment verstanden, z.B. einAugenblick. In allen drei Modellen wird von einem linearen Zeitverlauf ausgegangen.Darüberhinaus gibt es aber auch Modelle mit anderen Zeitverläufe, die in dieserAusarbeitung unberücksichtigt bleiben sollen. Hier sei das Zeitmodell von Minkowskigenannt, dass sich einer kegelförmigen Darstellung bedient [Mar99].3 RepräsentationsformenEs gibt unterschiedliche Repräsentationsformen für temporale Daten, von denenim Folgenden zwei vorgestellt werden sollen. Einerseits gibt es temporale Datenbankmanagementsysteme(DBMS), die eine Erweiterung der relationalen DBMSdarstellen und andererseits gibt es Zeitreihen (auch Sequenzen genannt).3.1 Temporale DatenbankenBei der Erklärung temporaler Datenbanken wird wie folgt vorgegangen. Im erstenSchritt werden temporale Datenbanken mit konventionellen Datenbanken verglichenund ihre Besonderheiten, wie unter anderem die verwendeten Zeittypen aufgezeigt.Daraufhin wird erläutert wie Daten auf zwei verschiedene Arten mit Zeitstempelnversehen werden können. Den Abschluss bildet das bitemporale Datenmodell, dasalle zuvor genannten Grundlagen in sich vereint.Temporale DBMS verwalten zeitbezogene Daten. Sie unterscheiden sich damit vonden so genannten Schnappschuss-Datenbanken [Kai00]: Im Normalfall wird in einerDatenbank der aktuelle Zustand der in ihr enthaltenen Objekte gespeichert.Das heißt auch, dass nach einer Veränderung der Attribute eines Objektes der Ursprungszustandüberschrieben ist und nicht wieder hergestellt werden kann. Zwarbieten moderne DBMS die Möglichkeit eines ”Undo“mit dem zwischen zwei unterschiedlichealten Sichten (engl. view) gewechselt werden kann, doch können nichtmehrere Sichten zeitgleich angezeigt werden. Dies kann in bestimmten Anwendungenvon großem Nachteil sein, da in vielen Fällen noch auf ältere Daten zurückgegriffenwerden muss. In Oracle werden diese Ansichten als ”materialized views“bezeichnet. Man bezeichnet diesen Typ auch als Rollback-DMBS.Es gibt Attribute, die von vornherein nur eine begrenzte Gültigkeit aufweisen.So sind Vertragsdaten beispielsweise mit unter durch Start- und Enddatum gekennzeichnet.An diesem Punkt kommen temporale DBMS ins Spiel. Stahlknecht[SH02] beschreibt sie wie folgt: ”Zeitorientierte (temporale) Datenbanken verwaltenden Datenbestand als Folge zeitlich aufeinander folgender Zustände einschließlichder Zeitpunkte der Änderungen (Historisierung).“ Bei zeitbezogenen Daten istdemzufolge nicht erlaubt, Daten zu löschen oder zu überschreiben[KM96]. Nur sokönnen zeitabhängige Versionen festgehalten werden, die wiederum eine Historisierungermöglichen. Ein Löschvorgang wäre dann also nur logisch als Statusveränderungin der Datenbank zu verstehen, nicht aber physikalisch.Um unterschiedliche Versionen von einander abgrenzen zu können, werden temporaleAttribute benötigt, die die einzelnen Versionen beschreiben. Wie diese Attributeaussehen, wird im folgenden Abschnitt ”Zeittypen“ behandelt. Insgesamt gibt es5

vier verschiedene Ausprägungen von Datenbanken in Abhängigkeit der genutztenZeittypen [AS86]. Die bereits erwähnte Schnappschuss-Datenbak verwendet keinetemporalen Attribute, die Rollback-Datenbank verfügt über Transaktionszeiten. EineDatenbank, die lediglich über Gültigkeitszeiten verfügt, wird als historische Datenbankbezeichnet. ”Bitemporal“ ist eine Datenbank, die sowohl Transaktions- alsauch Gültigkeitszeit verwendet.3.1.1 ZeittypenZu den gebräuchlichen Zeittypen gehören die Transaktionszeit (engl. TransactionTime), die Gültigkeitszeit (engl. Valid Time) und die benutzerdefinierte Zeit (engl.User-defined-time). Letzterer Zeittyp ist bereits von nicht-temporalen DBMS bekannt.Mit diesem Zeittypen werden beliebige zeitliche Daten, wie z.B. das Geburtsdatumfestgehalten. Die Transaction Time und die Valid Time bieten mehrMöglichkeiten, da sie direkt in DBMS integriert sind. Die Vorzüge sollen im Folgendendeutlich werden.User-defined-timeDie User-defined-time [JCG + 92] bzw. die benutzerdefinierte Zeit wird vom DBMSnicht interpretiert. Es handelt es sich genauso um eine Domäne für zeitliche Wertewie Integer für Zahlenwerte. Als Domäne wird im allgemeinen eine Menge atomarerWerte verstanden [Goi]. Im Gegensatz zu den folgenden Zeittypen findet dieUser-Defined-Time eine spezielle Unterstützung in der Data Manipulation Language(DML). Informationen zur DML finden sich in [PAT99]. Aufgrund vorhandenerUser-defined-time kann nicht auf eine temporale Datenbank geschlossen werden[KM96].Valid TimeUnter der Valid Time [JCG + 92], der Gültigkeitszeit, versteht man einen Zeitraumzu dem ein Fakt in der modellierten Welt ”wahr“ bzw. gültig ist. So ist es durchWahl entsprechender Werte für die Valid Time auch möglich, dass ein Fakt erstin der Zukunft wahr wird. Durch Verwaltung der Gültigkeitszeit entsteht eine historisierteDatenbank aus der jederzeit ersichtlich ist, wann welcher Zustand gültigwar, gültig ist oder gültig sein wird [JCG + 92]. Es werden als zwei Werte GZA, derGültigkeitszeitanfang und GZE, das Gültigkeitszeitende, gespeichert.Transaction TimeEin Fakt wird zu einem bestimmen Zeitpunkt in der Datenbank gespeichert unddanach immer wieder abgerufen. Die Transaction Time [JCG + 92] gibt an, wanndieser Fakt in der Datenbank gültig ist. Es handelt sich dabei um die Erweiterungder bisherigen Dimensionen Objekt und Eigenschaft. Es wird also immer ein zusätzlicherWert für jedes Objekt gespeichert, der die zeitliche Dimension darstellt. DieTransaktionszeit kann nicht in der Zukunft liegen. Ebenso wenig kann eine Transaktionszeitim Nachhinein geändert werden, da es nicht möglich ist, die Vergangenheitzu ändern.Es werden je nach Zeitstempelung (siehe unten) zwei Zeiten je Tupel bzw. Attributgespeichert. Ein Wert TZA“ steht für den Transaktionszeitanfang und ein Wert”TZE“ für das Transaktionszeitende. Der erste Wert wird zu Beginn einer Transaktiongesetzt, z.B. dann, wenn ein Tupel in die Datenbank eingefügt wird und”entspricht der dann aktuellen Systemzeit. Der zweite Wert bestimmt das Ende derTransaktion, das ist der Zeitpunkt, wenn ein Wert aus der Datenbank gelöscht“ ”wird.Die Transaktionszeit ist von der Gültigkeitszeit unabhängig und umgekehrt, da dieTransaktionszeit (s.o.) vom System und die Gültigkeitszeit auch vom Anwender6

vergeben werden kann.Mit Hilfe der Transaktionszeit wird eine Rollback-Relation geschaffen: es könntejeder Veränderungsschritt rückgängig gemacht bzw. Änderungen jederzeit nachvollzogenwerden. Beliebige Zustände zu unterschiedlichen Zeiten können abgerufenwerden.3.1.2 ZeitstempelungBei einer Zeitstempelung wird ein Tupel oder ein Attribut vom DBMS, teils automatisch,mit einem Zeitwert versehen. Es gibt zwei unterschiedliche Ansätze beider Zeitstempelung (engl. Timestamp). Zum einen gibt es die Tupel-Zeitstempelungund zum anderen die Attributzeitstempelung.Tupel-ZeitstempelungHierbei handelt es sich um die einfachste und am häufigsten verwendete Methode[JDS98]. Die Zeitstempelung erfolgt hier für jedes Tupel. Die vorhandene Relationwürde um entsprechende Attribute erweitert werden. Der große Vorteil ist darinzu sehen, dass die konventionellen rationalen DBMS problemlos mit dieser Art dertemporalen Erweiterung umgehen können [KM96]. Die Form der Datenbank bleibterhalten. Je nach verwendeter Zeitdimension wird das Datenbank-Schema auf Tupelebenewie folgt ergänzt. Für die Gültigkeitszeitstempelung wird je ein Attribut fürden Anfangs- und für den Endwert des Gültigkeitszeitraums notiert. Bei der Transaktionzeitstempelungwerden die Werte für Start und Ende des Transaktionsintervallsgespeichert, das heißt, von wann bis wann ein Fakt in der Datenbank gültig ist.Speichert man sowohl die Gültigskeitszeiten als auch die Transaktionszeiten, sprichtman von ”bitemporaler Zeitstempelung“ (siehe unten). In diesem Fall werden insgesamtvier zusätzliche Attribute für die Zeitstempelung vorgehalten. Der Vorteil derTupel-Zeitstemplung liegt darin, dass die Zeitstempelung in vorhandene konventionelleDatenbanksysteme relativ einfach implementiert werden kann. Nachteilig ist,dass für alle Attribute eines Tupels nur eine Zeitstempelung erfolgt. In der Regelfindet immer nur die Änderung eines oder mehrerer Attribute statt, die Änderungaller Attributwerte tritt nur selten auf. Da bei temporalen Datenbank Änderungenin einem neuen Tupel mit einem neuen Zeitstempel gespeichert werden (sieheoben), kommt es auf diesem Weg zwangsläufig zu Redundanzen: mehrere Attributemüssen neu gespeichert werden, obwohl es für sie keine Veränderung gegeben hat.Attribut-ZeitstempelungIm Gegensatz zur Tupel-Zeitstempelung werden hier einzelne Attribute mit einemZeitstempel versehen [JDS98]. Dabei gilt es zeitabhängige und zeitunabhängige Attributezu unterscheiden. Bei unabhängigen Attributen tritt im Laufe der Zeit keineVeränderung auf. Bei abhängigen Attributen muss davon ausgegangen werden, dasseine Veränderung des Attributs potentiell möglich ist. Ist eine Änderung möglich,wird auch eine Gültigkeitszeitstempelung nötig, sonst nicht. Für die Transaktionszeitist die zeitliche Abhängigkeit nicht relevant, sowohl die abhängigen als auch dieunabhängigen erhalten hier einen Zeitstempel.Dadurch, dass die Zeiten bei den einzelnen Attributen stehen, ergibt sich eine komplexemehrwertige Speicherung. Änderungen eines Attributs werden in der Relationnur beim Attribut selbst gespeichert. Redundanzen werden hierdurch vermieden. Daalle Versionen in einem einzigen Tupel gespeichert werden, unterliegt die Relationnicht mehr der ersten Normalform, da deren Bedingung Atomarität lautet [PAT99].Die Einhaltung der ersten Normalform ist wiederum Bedingung für die meistenkommerziell verfügbaren relationalen Datenbanksysteme. Dem gegenüber stehendie Vorteile der flexiblen Modellierung und Anpassbarkeit sowie die vergleichsweisegeringere Datenmenge. Nachteilig wirkt sich dann allerdings die Komplexitätsstei-7

gerung in punkto Modellierung und Realisierung aus.3.1.3 Bitemporales ModellBesitzt ein Modell sowohl Transaktionszeit als auch Gültigkeitszeit, handelt es sichum ein bitemporales Modell. Das Bitemporal Conceptual Data Model (BCDM)wurde 1993 vom TSQL2 Language Design Commitee entworfen. Mitglieder des Komiteeeswaren unter andem R. Snodgrass, J. Clifford und C. Jensen. Zu den Eigenschaftendes BCDM gehören die bereits besprochenen Transaktions- und Gültigkeitszeiten,aber auch die Basierung auf dem Modell der diskreten Zeit mit demChronon als kleinster Zeiteinheit [Sno95]. Von Vorteil ist, dass die Vorteile vonTransaktionszeit und Gültigkeitszeit bei diesem Modell kombiniert werden. Es handeltsich dann also nicht nur um eine Rollback-Relation (Transaktionszeit) oder umeine Objekt-Historie (Gültigkeitszeit), sondern um die Möglichkeit der Rekonstruktionder Objekt-Historie. Es kann so die Entwicklung der Gültigkeit im Nachhineinbetrachtet werden. Wird die Gültigkeit eines Tupels nachträglich geändert, so wirddas in diesem Modell festgehalten.Beispiel zum bitemporalen ModellDas folgende Beispiel soll die Funktionsweise des BCDM verdeutlichen [Lan96]:Zum Zeitpunkt 5 wird vom Personalchef eines Kaufhauses festgelegt, dass Herr”Meier für das Zeitintervall 11-44 in der Abteilung Spielzeuge arbeiten soll. ZumZeitpunkt 15 meldet ein Mitarbeiter, dass Herr Meier nicht in der Abteilung arbeitet.Der Personalchef verändert daraufhin seine Konzeption und teilt Herrn Meiernun im Zeitintervall 20-32 für die Spielzeugabteilung ein. Bei der Feststellung desMitarbeiters, dass Herr Meier zum Zeitpunkt 15 noch keine Spielzeuge verkaufte,handelte es sich um jedoch um einen Irrtum. Deshalb übernimmt der Personalchefzum Zeitpunkt 25 wieder die ursprüngliche Arbeitseinteilung für Herrn Meier.“Abbildung 1: Grafische Darstellung des BCDM-Beispiels [Lan96]In der Abbildung 1 sieht man, dass der Graph die ursprünglichen Angaben desPersonalchefs enthält. Auf der Abszisse ist die Transaktionszeit und auf der Ordinatedie Gültigkeitszeit zu sehen. Zum Zeitpunkt 5, zu dem der Personalchef seinePlanung festgelegt, wird auf der Abszisse die Transaktionszeit 5 und auf der Ordinatedie dazugehörige Gültigkeitszeit 11 bis 44 eingetragen. Zum Zeitpunkt 15 kommtes nun zu einer Änderung, die - so veranschaulicht es der zweite Graph - erneutfestgehalten wird ohne die bisherigen Angaben zu überschreiben. Als der Personalchefdie zuletzt gemachten Angaben korrigiert, verändern sich die in der Datenbankgespeicherten Werte gemäß Graph 3. Wäre diese Relation nicht bitemporal, würdeentweder die Gültigkeitszeit oder der Verlauf der Gültigkeitszeit nicht notiert wordensein. Der gleiche Vorgang ist noch einmal in einer Tabelle zu beobachten (sieheAbbildung 2). Es handelt sich hier um eine Attributzeitstempelung.8

Abbildung 2: Tabellarische Darstellung des BCDM-Beispiels [Lan96]Beispiele für temporale Datenbanken In der Praxis werden in temporalenDatenbanken zum Beispiel Point-Of-Sale-Daten, Inventar-Daten und Call-Center-Daten gespeichert. Bei Inventar-Daten ist es mit diesen temporalen Komponentenmöglich, Inventarveränderungen, d.h. Abgänge und Zugänge zu protokollieren. ImPoint-Of-Sale-Bereich kann es wiederum wichtig sein, fehlerhafte Buchungen undderen Stornierungen nachzvollziehen zu können.3.2 ZeitreihenBei den so genannten Zeitreihen, im Folgenden ”Sequenzen“ genannt, handelt essich um ”eine Folge von Werten, die sich auf aufeinander folgende Zeitpunkte oderZeiträume bezieht.“ Bei Sequenzen handelt es sich nicht zwangsläufig um Relationen,sondern vielmehr um eine Folge von Kombinationen aus (ggf. mehrdimensionalen)”Wert“ und ”Zeitpunkt“. Unabhängig davon können Sequenzen auch Relationengespeichert werden. Formal lässt sich eine Sequenz folgendermaßen darstellen:UnterI = {i 1 , i 2 , ..., i m } (1)versteht man eine Menge verschiedener Attribute, die man Literale oder Items (imFolgenden Items) nennt [Zak97] [Hip01]. Eine nicht leere Menge von ItemsI = {i 1 , i 2 , ..., i k } = α j (2)mit i j als Item wird als Itemset bezeichnet. Eine Sequenz ist dann eine zeitlichgeordnete Liste von Itemsets. Gibt es ein Itemset mit k Items, so wird dieses alsk-Itemset“ bezeichnet und die Länge ist k. Eine Sequenz α wird mit”α = (α 1 ↦→ α 2 ↦→ ... ↦→ α q ) (3)bezeichnet. Bei jedem Element α j dieser Sequenz handelt es sich um ein Itemset.Jedes Item kann nur einmal in einem Itemset vorkommen. Unabhängig davon ist esnatürlich möglich, dass ein Item in mehreren Itemsets enthalten ist. Eine Sequenzmit k Itemsets (k = ∑ j |α j|) wird als ”k-Sequenz“ bezeichnet.3.2.1 SubsequenzenEine Sequenzα = (α 1 ↦→ α 2 ↦→ ... ↦→ α n ), N = {1, 2, ..., n} (4)wird als Subsequenz einer weiteren Sequenzβ = (β 1 ↦→ β 2 ↦→ ... ↦→ β m ), M = {1, 2, ..., m} (5)bezeichnet, wenn für alle x ∈ N ein Index j x ∈ M existiert, so dass α x ⊆ β jx .Außerdem gilt für alle x, y ∈ N, dass wenn x > y auch j x > j y gilt [Zak97].9

Eine Subsequenz wird mit α ≼ β notiert.Beispiel: Im Folgenden handelt es sich beium eine Subsequenz vonα = (B ↦→ AC ↦→ D) (6)β = (AB ↦→ E ↦→ ACE ↦→ BE ↦→ DE), (7)also α ≼ β, da α vollständig in β enthalten ist.3.2.2 Beispiele für ZeitreihenB ⊆ AB, AC ⊆ ACE, D ⊆ DE (8)Zeitreihen erfassen in der praktischen Anwendung beispielsweise Web-Visits proStunde, Verkäufe pro Monat, Anrufe pro Tag usw..3.3 Äquivalenz von Zeitreihen und temporalen DatenbankenLiegen die zu analysierenden Daten innerhalb einer temporalen Datenbank vor, istes möglich diese in Sequenzen zu transformieren. Dazu benötigt man Snapshots (sieheKapitel 3.1), also Momentaufnahmen. Die Ausprägungen der einzelnen Objektekönnen dann an Hand ihrer temporalen Attribute, d.h. Transaktions- und Gültigkeitszeit,in Zeitreihen umgewandelt werden. Da eine Sequenz immer aus einemObjekt mit seinen Eigenschaften zu aufeinanderfolgenden Zeitpunkten besteht, isteine Transformation in diese Richtung möglich. Gibt es also in einer temporalenDatenbank ein Objekt ”Warenkorb“ kann anhand der Transaktions- und Gültigkeitszeiteneine Schnappschussfolge gebildet werden. So läßt sich dann der Zustanddes Warenkorbs zum Zeitpunkt 1,2,3,... bilden. In der Sequenz werden dann die jeweiligenWarenkörbe in zeitlicher Reihenfolge abgebildet, die dazugehörigen Zeitengehen allerdings verloren [Zak97]. So ist es also möglich die Methoden zur Analysevon Sequenzen zu verwenden, wenn die Ursprungsdaten in temporalen Datenbankenvorliegen.Theoretisch ist auch ein umgekehrter Weg möglich. Man könnte die in der Sequenzvorhandenen Zustände wieder in eine temporale Datenbank schreiben. Dazuwürden dann die Transaktionszeiten so gesetzt, dass die zweite Ausprägung der Sequenzdort beginnt, wo die erste Ausprägung aufhört. Also ist die TZA der zweitenAusprägung größer oder gleich der TZE der ersten Ausprägung. Nach dem gleichenPrinzip müßte man dann die weiteren Tupel anlegen. Die Gültigkeitswerte in dertemporalen Datenbank würden allerdings alle gleich gesetzt werden: gültig ab sofortbis eine Änderung vorgenommen wird. Man kann also sagen, dass die Daten innerhalbeiner Sequenz nur den Verlauf der Daten innerhalb der temporalen Datenbankwiedergeben.Die Möglichkeit der Umwandlung von temporalen Daten zu Sequenzen ist insofernvon Bedeutung, da die im Verlauf dieser Ausarbeitung vorgestellten Technikenhauptsächlich auf der Verwendung von Sequenzen basieren.4 Temporale MusterAufgrund der Flut an Informationen, die die moderne Technik der Informationsgesellschaftmit sich brachte, wurden immer öfter Entscheidungen nicht auf Grundlageder informationsreichen Datenbanken getroffen, sondern überwiegend nach Intuitiondes Verantwortlichen. Kamber und Han [HK01] bezeichnen solche ungenutzten10

oder falsch genutzten Datenbestände als ”Data Tombs“, zu Deutsch Datengräber.Einen Ausweg aus dieser Misere versprechen Data Mining-Techniken wie sie in denvorangegangenen Ausarbeitungen vorgestellt wurden.Data Mining-Werkzeuge entdecken Muster innerhalb großer Datenmengen, die fürden Benutzer von großem Nutzen sein können. Ähnlich wird auch bei temporalenDaten vorgegangen. Hier bemüht man sich temporale Muster zu entdecken.Im folgenden Abschnitt werden verschiedene Formen von temporalen Mustern vorgestelltund teilweise vertieft beschrieben. Dazu gehören sequentielle Muster, zeitlicheAssoziationsregeln und kalendarische Muster sowie intervall-basierende Ereignisse,Trends und ”unusual Movements“. Der Weg zu diesen Mustern, das heißt dieDatenanalyse wird im nächsten Kapitel dargestellt.4.1 Sequentielle MusterEin sequentielles Muster [Zak97] ist ein Muster, das beim ”mining“ über mehrereSequenzen entdeckt werden kann. Mit Hilfe sequentieller Muster werden Regeln aufgestellt.Diese sind zu vergleichen mit Assoziationsregeln. Assoziationsregeln stellenRelationen und Zusammenhänge zwischen einzelnen Objekten oder deren Attributeher. Sequentielle Muster erfüllen eine ähnliche Aufgabe, doch in einem Punktunterscheiden sie sich von den Assoziationsregeln gänzlich. Assoziationsregeln sindso genannte Intra-Transaktionsmuster, also Muster innerhalb einer Transaktion,beispielsweise innerhalb eines Warenkorbs. Sequentielle Muster dagegen sind Inter-Transaktionsmuster, das heißt, es werden Muster zwischen verschiedenen Transaktionenund nicht zwangsläufig innerhalb dieser untersucht (siehe Abbildung 3).Abbildung 3: Unterschied zwischen Intra- und Inter-TransaktionsmusterSo können beispielsweise Zusammenhänge bei verschiedenen Einkäufen übereinen Zeitraum von mehreren Wochen entdeckt werden. Formal wird ein sequentiellesMuster wie folgt beschrieben:T ist der eindeutige Bezeichner einer Transaktion, die eine Menge von Items I, alsoein so genanntes Itemset enthält.T ⊆ I (9)Mit C wird eine Kundesequenz bezeichnet, der eine Liste von Transaktionen zugeordnetist. Die Transaktionen sind in der Reihenfolge ihrer Transaktionszeit geordnet.C = T 1 ↦→ T 2 ↦→ · · · ↦→ T n (10)Eine Datenbank D enthält wiederum eine Menge solcher Kundensequenzen.11

4.1.1 HäufigkeitAls Kriterium für die Qualität eines aufgestellten Musters gilt die Häufigkeit bzw.Frequenz (engl. frequency) oder auch Unterstützung (engl. support) genannt. DieFrequenz einer Sequenz α ist die Anzahl ihres Vorkommen in den Kundensequenzender Datenbank im Verhältnis zur Gesamtanzahl der Kundensequenzen der entsprechendenDatenbank.|{C ∈ D|C ≽ α}|fr(α, D) = (11)|D|Nach der Analyse der vorhandenen Kundensequenzen wird eine bestimmte Mengedas gefundene Muster unterstützen. Ist die relative Anzahl der unterstützendenKundensequenzen gleich oder größer als ein zuvor genannter Mindestwert ”min sup“,so wird die gefundene Regel akzeptiert.4.1.2 BeispielEin sequentielles Muster könnte z.B. ”(B) ↦→ (C) mit einer Unterstützung von 30%“lauten. In der Praxis ergeben sich dann Zusammenhänge wie z.B. ”30% aller Käufervon Dieter Bohlens Buch ,Nichts als die Wahrheit’ (B) kaufen innerhalb eines Monatsauch die CD ’Greatest Hits’ (C) von Dieter Bohlen“.Das Aufstellen solcher Muster hat vielfältige Anwendungsgebiete. Es kann, wie dasobige Beispiel zeigt, einfach im Handel eingesetzt werden, um Kunden Vorschlägefür weitere Einkäufe zu unterbreiten. Im Bereich der Telekommunikation ist es ebensodenkbar wie in der Medizin. In beiden Bereichen sind Vorhersagen von großemNutzen. Wenn im medizinischen Bereich mit hoher Unterstützung festgestellt werdenkann, dass für bestimmte Krankheiten immer wieder die gleichen Symptomeauftreten, ist es möglich eine Krankheit frühzeitig zu erkennen und gezielt zu behandeln.Bei all den Möglichkeiten muss natürlich bedacht werden, dass für jede Aussageeine ausreichende Datenmenge die Grundlage der Analyse bilden muss. Wennman Schlussfolgerungen in medizinischen Bereichen trifft ohne dabei qualitativ undquantitativ ausreichende Daten untersucht zu haben, kann dies schwerwiegende Folgenhaben. Gleiches gilt natürlich für die Unterstützung aufgestellter Muster. DasAuffinden sequentieller Muster wird im Kapitel der temporalen Datenanalyse, sieheKapitel 5, besprochen.4.2 Zeitliche AssoziationsregelnBei den zeitlichen Assoziationsregeln (engl. temporal Association Rules) handelt essich um ein weiteres Beispiel für temporale Muster. In einem Artikel von Wang,Yang und Muntz [WYM01] werden hierzu Entwicklungen bestimmter Attributemiteinander verglichen.Das Ziel der zeitlichen Assoziationsregeln in diesem Artikel ist der Nachweis vonZusammenhängen zwischen einzelnen Objekten an Hand deren numerischen Attributen.Hierzu wird eine Sequenz mit unterschiedlichen Zuständen dieser Attributebenötigt. Diese Sequenz könnte unter anderem aus Schnappschüssen einer Datenbankbestehen. Die erste Sequenz enthält Zustandsveränderungen des ersten Objektesund kann mit einer weiteren Sequenz verglichen werden, die ebenfalls Zustandsveränderungeneines Objektes enthält. Natürlich müssen die zeitlichen Abständezwischen den Zuständen miteinander vergleichbar sein.Nimmt man beispielsweise das Objekt ”Angestellter“ mit seinem Attribut ”Gehalt“so würde die dazugehörige Sequenz Aufschluss über die Gehaltsveränderungen imLaufe der Zeit geben. Existiert eine zweite Sequenz mit einem Attribut ”Wohnausgaben“lassen sich davon Regeln ableiten.12

ist eine Sequenz von Schnappschüssen. Die Stabilität selbst wird dann mitStabilität =Support(X ∩ Y, Ω)Support(X, Ω) × Support(Y, Ω)(15)berechnet [WYM01]. Die Stabilität ist also der Quotient aus den unterstütztenSequenzen Support(X ∩ Y, Ω) und dem Kreuzprodukt der Sequenzen, die jeweilsnur einen Zustand der Regel aufweisen.4.2.4 DichteDadurch, dass in diesem Falle numerische Attribute verglichen werden, ist es möglich,dass Regeln aufgestellt werden, die numerische Bereiche abzudecken scheinen, indenen es nicht ein tatsächliches Objekt gibt. In Bezug auf das oben gewählteBeispiel könnte man die Notwendigkeit eines Dichte-Parameters so erklären: Eswird von einem Gehalt im Intervall [40.000,55.000] auf Wohnausgaben im Intervall[10.000,15.000] geschlossen. Möglicherweise gibt es nun viele Objekte zu Beginnund Ende des jeweiligen Intervalls, die dazu geführt haben, dass diese Regel aufgestelltwurde. Doch besagt diese Regel ja auch, dass beliebige Werte-Kombinationeninnerhalb dieses Intervalls möglich sind. Es kann also eine Kombination Gehalt-Wohnausgaben mit Werten von 50.000 bzw. 13.000 geben, obwohl es in den analysiertenDaten nie solch eine Kombination gegeben hat. Es ist gut möglich, dass es sogarKombinationen gibt, die sehr unwahrscheinlich sind. Mit dem Dichte-Parameterwird nun bestimmt, wieviele Testdaten in einem Bereich liegen müssen, damit derBereich als Teil eines umfassenden Intervalls bezeichnet werden kann.4.2.5 Praktische BeispieleMit Hilfe einer temporalen Assoziationsregel lassen sich zum Beispiel folgende Zusammenhängeformulieren: ”Wenn der Preis von Produkt A unter 1 Euro fällt, dannsteigt der monatliche Verkauf von Produkt B um 10.000 - 20.000. “ ”Neue Angestelltezwischen 20 und 30 Jahren starten mit einem Gehalt von 40.000 - 60.000Euro. Die jährliche Erhöhung beträgt mindestens 2.000 Euro.“4.3 Kalendarische MusterMuster, die in Anlehnung an ein kalendarisches Schema, z.B. einen Jahres-, MonatsoderWochenkalender gesucht werden, nennt man kalendarische Muster. Ein kalendarischesMuster wird ebenfalls mit temporalen Assoziationsregeln beschrieben. DerUnterschied zu den zuvor vorgestellten Regeln ist, dass es sich hierbei um Regelnhandelt, die zu bestimmten Zeitpunkten oder in bestimmten Zeiträumen gelten. Dertemporale Aspekt einer solchen Regel könnte zum Beispiel jeden Dienstag“ oder”jeden ersten Mai“ oder ähnlich lauten.”Um eine Regel aufstellen zu können, wird ein relationales KalenderschemaR = (f n : D n , f n−1 : D n−1 , · · · , f 1 : D 1 ) (16)benötigt [LNWJ01]. Dabei handelt es bei f i um ein Attribut, z.B. um das Jahr, denMonat, den Tag etc. und D als Zeit-Domäne. Die Gültigkeit dieses Schemas wirdmitD n × D n−1 × · · · × D 1 (17)festgelegt. Für jedes Attribut kommen dann bestimmte Integerwerte in Frage, diedurch die obige Gültigkeit eingeschränkt sind. Auf diesem Weg werden bestimmteWertkombinationen ausgeschlossen. Es gibt dann beispielsweise keinen 32. Januaretc..14

Ein Muster ist dann ein Tupel in R mit der Form 〈d n , d n−1 , . . . , d 1 〉. Haben wirein kalendarisches Schema bestehend aus Woche, Tag und Stunde würde das Tupel〈1, 1, 10〉 für die Stunde 10 am ersten Tag in der ersten Woche stehen. Darüberhinaus gibt es die Möglichkeit Wildcards zu verwenden. Wildcards sind Platzhalter,die für jeden beliebigen, aber zulässigen Wert stehen. Ein Wildcard wird miteinem Stern ”∗“ gekennzeichnet. Das Tupel 〈1, ∗, 10〉 steht dann also für die Stunde10 an jedem Tag in der ersten Woche. Eine temporale Assoziationsregel hat nundie Form (r, e) mit r als Assoziationsregel und e als kalendarischem Muster. Habenwir nun ein Kalender-Schema mit 〈Jahr, Monat, Donnerstag〉 könnten wir bei derAnalyse von Transaktionen im amerikanischen Supermarkt folgende Regel aufstellen:(T ruthahn ↦→ Kürbiskuchen, 〈∗, 11, 4〉). Diese Regel besagt schließlich, dass injedem Jahr am vierten Donnerstag im November mit nach jedem Truthahn auchein Kürbiskuchen gekauft wird. Die Amerikaner feiern nämlich an jedem viertenDonnerstag im November ihr alljährliches Thanksgiving. Mit dieser Aussage wurdedas ”Precise Match“-Verfahren angewandt, dass nur 100% gültige Regeln ermittelt.Eine Erweiterung ist das Fuzzy-Match-Verfahren. Dieses Verfahren findet Regeln,die mindestens einen bestimmten Prozentsatz an Gültigkeit aufweisen. Die ”MatchRatio“ m legt fest wie genau die Regeln sein müssen. Für m wird ein Wert mit(0 < m < 1) gewählt. Mit diesem Verfahren könnte dann die selbe Regel mit einemneuen kalendarischen Muster e = 〈∗, 11, ∗〉 aufgestellt werden. Die Regel wäre dannan mindestens 100m% Tagen gültig.Der zur Ermittlung dieser Regeln verwendete Algorithmus ist ein Derivat des Apriori.Das Prinzip des Apriori wird weiter unten anhand des GSP-Algorithmus vorgestellt.Vorteil der kalendarischen Muster Ein Vorteil der Verwendung kalendarischerMuster ist, dass Zusammenhänge aufgestellt werden können, die ohne kalendarischeEinschränkungen nicht festgestellt würden. Ein Zusammenhang Ei ↦→ Kaffee istmit einer Unterstützung von 3% trotz hoher Konfidenz relativ unbedeutend. Fügtman eine zeitliche Dimension hinzu und beschränkt die Regel auf die Tageszeit 7-11 Uhr vormittags erhöht sich die Unterstützung auf 40% (außerhalb dieser Zeit0,005%). Die neu entstandene Regel ist bedeutend interessanter.4.4 Intervall-basierende EreignisseBei den bisherigen Mustern handelte es sich um Zusammenhänge zwischen einzelnenEreignissen (Transaktionen, etc.), die meist als Zeitpunkte begriffen wurden. Jetztsollen Ereignisse als Intervalle betrachtet werden [KF00]. Als Folge dessen lassensich dann neue Zusammenhänge aufzeigen, die zuvor nicht berücksichtigt wurde.Ein Beispiel ist folgendes: 75% der Kunden kaufen Erdnüsse, wenn Butter ins Sonderangebotkommt und bevor Brot ausverkauft ist.“”Es handelt sich hierbei um drei intervall-basierende Ereignisse Kunden kaufen”Erdnüsse“, Butter kommt ins Sonderangebot“ und bevor Brot ausverkauft ist“.” ”Es lassen sich hierbei verschiedene zeitliche Relationen aufstellen: Zwei Ereignissekönnen auf einander folgen (X vor Y), zur gleichen Zeit stattfinden (X gleich Y),an einander anschließen (X trifft Y), sich überschneiden (X überschneidet Y), ineinem weiteren Ereignis enthalten sein (X während Y), zeitgleich beginnen (X startetmit Y) und zeitgleich enden (X endet mit Y). Zu jeder dieser Relationen gibtes eine inverse Relation, z.B. (Y nach X). Die Grafik, siehe Abbildung 4, zeigt dieTaxonomy of temporal Relationships“ nach Allen [All83].”Es ist dort gut zu sehen, dass es insgesamt dreizehn mögliche Beziehungen zwischenzwei Intervallen X und Y gibt.Zur praktischen Verdeutlichung wird jetzt eine Datenbank mit medizinischen Datensätzenangenommen [KF00]. Dabei werden Personendaten und die aufgetretenen15

Abbildung 4: Taxonomie zeitlicher Beziehungen[All83]Krankheiten festgehalten. Jede Krankheit wird als Intervall festgehalten. Für jedesIntervall gibt es eine Startzeit t s und eine Endzeit t e , wobei gilt, dass t s ≤ t e . ZurVereinfachung wird nun jede Krankheit einer Person als Ereignis bezeichnet. Dabeiwird jedes Ereignis einem Ereignistypen E zugeordnet. Ein Ereignis E besteht nunaus (A, t s , t e ) wobei A ∈ E ein Ereignistyp ist. Wird daraufhin eine Sequenz gebildet,sind darin die Ereignisse einer einzelnen Person in chronologischer Reihenfolgemit ihren Start- und Endzeiten notiert. Die Sequenzs j = 〈(A 1 , t s1 , t e1 ), (A 2 , t s2 , t e2 ), · · · , (A n , t sn , t en )〉 (18)ist dann eine Sequenz für die Person j. Die einzelnen Ereignisse werden nach ihrenEndzeiten geordnet.t ei ≤ t ei+1 (19)Zwischen den einzelnen Ereignissen dieser Sequenz können nun Relationen gemäßder oben besprochenen Abbildung gebildet werden. Diese Relationen werden durchdie Relationen zwischen den Endpunkten der Intervalle ausgedrückt, die als ”EndpunktBegrenzung“ bezeichnet werden. Die Sequenz〈E 1 = (A, 5, 10)〉 (20)zeigt, dass ”A überschneidet B“. Die hierzu erfüllten Bedingungen sind folgende:E 1 .t s < E 2 .t s (21)E 1 .t e > E 2 .t sE 1 .t e < E 2 .t eVon den oben aufgeführten dreizehn Relationen werden effektiv nur sieben verwendet,da es sich bei den anderen um Relationen mit der gleichen Aussage handelt. Obman nun sagt ”X überschneidet Y“ oder ”Y wird von X überschnitten“ ist lediglich16

von der unterschiedlichen Beschreibung ein und desselben Vorgangs abhängig. Diesesieben zeitlichen Relationen werden mit Rel bezeichnet. Für das Finden von temporalenMustern wird zwischen atomaren Mustern, die aus einem einzelnen Ereignisbestehen und zusammengesetzten Mustern, die entsprechend aus mindestens zweiEreignissen bestehen, unterschieden. Die Größe eines Musters gibt die Anzahl derenthaltenen atomaren Muster an.Gibt es ein Ereignis E vom Typ X innerhalb einer Sequenz S, so hat das atomareMuster X ein ”mapping“ in S [KF00].Die Dauer dieses ”mappings“ wird mitM(X, S) = {E} (22)M(X, S).t s = E.t s (23)M(X, S).t e = E.t eangegeben; X ist in S enthalten.Ein vergleichbares Mapping gibt es auch für die zusammengesetzten Muster. Umdie Intervalllänge zu begrenzen und nur Ereignisse zu finden, die dicht genug beieinanderliegen, gibt es als Parameter die Fenstergröße. Es werden dann nur Intervallegefunden, die innerhalb des spezifizierten Fensters liegen.Zu guter Letzt wird auch bei intervall-basierenden Ereignissen die Häufigkeit gemessen.Dies geschieht wie auch bei den anderen Mustern durch das Verhältnis derunterstützten Sequenzen zu den Sequenzen in der Datenbank.4.5 TrendsEin Trend bezeichnet die Veränderungen zwischen zwei Objekteigenschaften. DasBeispiel(SS#, =)(Rank, ≠) ↦→ Next (Sal, ≠) (24)sagt aus, dass mit einer Änderung des Rangs auch eine Änderung des Gehalts stattfindet[Wij01]. Es handelt sich dabei um eine zeitliche Abhängigkeit (engl. temporaldependency), die als Trendabhängigkeit bezeichnet wird. Dabei steht SS#für die Sozialversicherungsnummer, die unverändert bleibt (=). Rank kennzeichnetden Rang innerhalb eines Unternehmens, der beispielsweise durch eine Beförderungverändert wird und Sal steht für das Gehalt (engl. salary). Bei beiden findet eineÄnderung statt (≠). In dieser Form können verschiedene Trends angegeben werden.Beispiele für Trends sind: Gehälter von Angestellten sinken im Allgemeinen nicht.“”Eine Beförderung schließt eine Gehaltsminderung aus.“”Weitere Anwendungsmöglichkeiten Das Ermitteln von Trends kann auch fürdie Datenverwaltung selbst von Vorteil sein. Man kann Trends verwenden, um dieDatenintegrität zu verbessern. Unplausible Daten können aufgrund bestehenderTrends ausgeschlossen werden. So können dann Restriktionen, so genannte Constraints[PAT99] für die Datenbank festgelegt werden, die aus Trend-Regeln bestehen.Besagt das obige Beispiel, dass eine Beförderung eine Gehaltsminderung ausschließt,kann verhindert werden, dass eine Datenänderung oder ein neuer Datensatz,der diesem Anspruch nicht genügt, auch nicht in die Datenbank aufgenommenwird. Selbstverständlich muss man sich bei dieser Vorgehensweise im Klaren sein,dass Unterstützung und Konfidenz solcher Regel sehr hoch sein müssen, um sie alsRestriktion für Datenbanken verwenden zu können. Eine Regel wie die obige, diebesagt, dass Gehälter im Allgemeinen nicht sinken, wäre hierfür ungeeignet. So istes denkbar, dass ein Mitarbeiter beispielsweise auf Teilzeit umstellt und dadurchein geringeres Gehalt erhält.17

4.6 Unusual MovementsBei unusual Movements [MY01] handelt es sich um ungewöhnliche Entwicklungen.Diese Entwicklungen sind als kurzfristige Ausnahmen aber auch langfristigeVeränderungen zu verstehen, die bei einer entsprechend großen Datenbasis festgestelltwerden können. Zu den bekanntesten Erscheinungen, die im Folgenden kurzvorgestellt werden, gehören ”isolated outliner“ und ”level shifts“.4.6.1 Isolated OutlinersWie die Grafik (siehe Abbildung 5) zeigt, handelt es sich bei Outlinern um Ausreißer.Ausreißer sind starke, kurzfristige Veränderungen, die durch ein außergewöhnlichesEreignis hervorgerufen worden sind. Ein solches Ereignis kann z.B. ein plötzlicherPreisnachlass innerhalb einer zeitlich begrenzten Werbeaktion sein. Denkbar istauch, dass es sich lediglich um einen Messfehler handelt. Die Schreibweisey ∗ t 0= y t0 + c (25)zeigt, dass die Beobachtung y t zum Zeitpunkt t 0 um die Konstante c erhöht ist. DieseVeränderung ist auf den Zeitpunkt t 0 begrenzt, weshalb es sich um einen Ausreißerhandelt.Abbildung 5: Unusual Movements: Isolated Outliner und Level Shifts [MY01]4.6.2 Level ShiftBei einem Level Shift handelt es sich wie auch bei den Ausreißern um eine Veränderunggegenüber den Vergleichswerten. Doch in diesem Fall ist es keine kurzfristigeVeränderung, sondern ein Wechsel, der andauert. Die Ursache für dieses Phänomenkönnte eine langfristige Steigerung der Nachfrage durch Senkung der Preise sein.Die Abbildung 5 zeigt zwei Level Shifts und es ist deutlich zu erkennen, dass dieWerte der gezeigten Funktion für einen langen Zeitraum auf einer anderen, höherenEbene liegen. Unabhängig des weiterhin ungleichmäßigem Kurvenverlauf kann derAnstieg auf einer neuen Ebene abgelesen werden. Formal wird ein Level Shift mitiny ∗ t = y t0 + c (26)dargestellt. Diesmal ist die Beobachtung y t nicht nur für den Zeitpunkt t 0 um dieKonstante c erhöht, sondern auch darüber hinaus.18

5 Temporale DatenanalyseUm die zuvor vorgestellten temporalen Muster ausfindig zu machen, ist eine ausführlicheAnalyse der Daten notwendig. In diesem Abschnitt werden deshalb Verfahrenvorgestellt mit deren Hilfe beispielsweise sequentielle Muster gefunden werdenkönnen.Zu Beginn wird Bezug zu den gängigen Verfahren der nicht-temporalen Datenanalysegenommen. Zu den bekannten Verfahren gehören in der Regel die Klassifikationund das Clustering. Im Anschluss wird der sogenannte GSP-Algorithmus,der sich mit sequentiellen Muster beschäftigt. Eine Optimierung des GSP stellt derSPADE-Algorithmus“ dar, der ebenfalls in diesem Kapitel ausgeführt wird. Abschließendwird dieses Kapitel noch einen kurzen Einblick in die Analyse temporaler”Assoziationsregeln geben.5.1 KlassifikationDie Klassifikation gehört zu den bekanntesten Verfahren der Datenanalyse. Währendsie in vielen Anwendungen des Data Mining erfolgreich ist, gibt es hierfür im Bereichder temporalen Daten wenig Verwendung. Denn gerade die Kernidee, das Einteilenin unterschiedliche Klassen stellt sich als schwierig dar. Dies bestätigt auch derMangel an passender Literatur [AO01]. Die folgenden Darstellungen sollen kurzaufzeigen, in welche Richtung es bereits Klassifikationsansätze gibt.5.1.1 VerschmelzungEin Ansatz probiert Sequenzen durch Verschmelzung (engl. to merge) zu klassifizieren[KP98]. Dabei werden zwei unterschiedliche Sequenzen mit einander verschmolzen,so dass das Ergebnis ein Kompromiss zwischen diesen beiden Sequenzenist. Die wiederholte Verwendung des so genannten Merge-Operators ermöglicht dieKombination mehrerer Sequenzen. Bei der Verschmelzung wird ein so genannterEinflussfaktor benutzt, um den Einfluss der zu verschmelzenden Sequenzen in dieneue Sequenz zu kontrollieren. Werden also zwei Sequenzen verschmolzen, gibt dieserFaktor für jede Ursprungssequenz an, ob die Sequenz im Vergleich zur neuenSequenz eine Verallgemeinerung oder eine Spezialisierung darstellt. Je nach Ausprägungdieses Faktors entsteht eine generalisierte Klasse (positiver Faktor) odereine spezialisierte Klasse (negativer Faktor). Dieses Verfahren wird entsprechend oftwiederholt bis eine bestimmte Anzahl von Klassen entstanden ist. Leider funktioniertdieser Vorgang nur mit wenigen Sequenzen, da sie für diesen Vorgang graphischdarstellbar sein müssen. Möglich ist die z.B. mit EKG-Daten, Aktienwerten etc..5.1.2 Weitere AnsätzeProblematisch bei der Klassifizierung ist, dass Daten meist so hoch dimensioniertsind, dass eine Zuordnung zu bestimmten Klassen unter unterschiedlichen Gesichtspunktenmöglich ist. Idee ist nun, dass man einen Mechanismus verwendet, der dierelevanten Daten extrahiert und aufgrund dieser eine Klassifizierung vornimmt. Dabeisucht man innerhalb der Sequenzen nach häufigen Subsequenzen und verwendetdiese als relevante Kennzeichen. Steht fest wonach die Daten klassifiziert werden sollen,können die traditionellen Verfahren nach Bayes oder Winnow verwendet werden[LZO99].5.2 ClusteringDas grundsätzliche Problem beim Clustern von temporalen Daten ist die Ermittlungder Anzahl von Clustern, um die unterschiedlichen Sequenzen darzustellen und19

GSP-AlgorithmusF k = {häufige 1er-Seq.};for (k = 2; F k−1 ≠ 0; k = k + 1) doC k =Menge der Kandidaten der k-Seq.;for alle Kunden-Seq. S in der DB doErhöhe Zähler für alle α ∈ C k enthalten in SF k = {α ∈ C k |α.sup ≥ min sup};Menge aller häufigen Sequenzen = ∪ k F k ;Abbildung 6: GSP-Algorithmusdie initialen Parameter festzulegen. Wie schon bei der Klassifizierung ist es schwierig,Sequenzen mit einander zu vergleichen. Hier muss ein aussagekräftiger Maßstabgefunden werden, an Hand dessen Sequenzen als ähnlich bezeichnet werden können.COBWEBEin Ansatz des Clustering von temporalen Daten ist die Verwendung einer hierarchischenClustering-Methode. Der entsprechende Algorithmus nennt sich COBWEB[Fis87]. COBWEB funktioniert in zwei Stufen. Zuerst werden die Elemente einerSequenz gruppiert und dann die Sequenzen selbst. In Bezug auf temporale Datenstellt der erste Schritt kein größeres Problem dar. Ganz im Gegensatz dazu allerdingsder zweite Schritt: Hier ist es notwendig die Sequenzen zu generalisieren, waswiederum voraussetzt, dass es einen gemeinsamen Nenner gibt, der beschreibt, wasin verschiedenen Sequenzen gemeinsam ist.5.3 Analyse sequentieller Muster5.3.1 GSP-AlgorithmusGSP steht für ”Generalized Sequential Pattern“. Wie bereits oben erwähnt handeltes sich bei diesem Algorithmus um eine Anlehnung an den Apriori-Algorithmus.Laut Mohammed J. Zaki [Zak97] handelt es sich bei diesem Algorithmus um denbesten existierenden Algorithmus für das Auffinden sequentieller Muster. Apriori-Derivate gibt es mehrere. Zwei dieser Algorithmen, AprioriSome und DynamicSomegenerieren ausschließlich die maximalen sequentiellen Muster. Das heißt, sie findennur die Muster mit der maximalen Anzahl an Sequenzen. Oftmals werden aber alleMuster benötigt, das heißt, dass auch Muster, die nur aus zwei Sequenzen besteheninteressant sind. Diese Ansätze waren deshalb unzureichend. Mit der Veröffentlichungvon AprioriAll wurde dies geändert. Der im Folgenden vorgestellte GSP setztauf dem AprioriAll auf und optimiert ihn hinsichtlich der Geschwindigkeit um das20fache [Zak97].FunktionsweiseIm ersten Durchgang des Allgorithmus werden für k = 1 alle 1er-Sequenzen bzw. alleItems gezählt. Von den Sequenzen, die abhängig von der minimalen Unterstützungals häufig bestimmt wurden, werden nun die die Kandidaten für die häufigen 2er-Sequenzen gebildet (k = 2). Erneut wird die Unterstützung ermittelt und alle häufigenSequenzen werden Kandidaten für den nächsten Durchgang. Dieser Vorgangwird so lange wiederholt bis alle häufigen Sequenzen gefunden wurden. Der GSPmacht also für jeden Level (1er-/2er-/...-Sequenzen) eine Suche über die Datenbank(Scan).Der abgebildete Algorithmus (siehe Abbildung 6) enthält in der ersten Zeile alle 1er20

CID TT Items1 10 C D1 15 A B C1 20 A B F1 25 A C D F2 15 A B F2 20 E3 10 A B F4 10 D G H4 20 B F4 25 A G HTabelle 1: Tabellarische Darstellung der Transaktionen [Zak97]Sequenzen. Die FOR-Schleife über die folgenden vier Zeilen ermittelt die jeweiligenKandidaten während die innere FOR-Schleife in der vierten Zeile die Unterstützungermittelt. Das Ergebnis in der letzten Zeile ist die Menge aller häufigen Sequenzen.Im Detail funktioniert der GSP folgendermaßen: Die Menge der Sequenzen mitk = k − 1 wird mit sich selbst in einer JOIN-Operation verbunden (Self-JOIN),die dann entstandene Menge bildet die Kandidaten für den nächsten Durchgang.In einer weiteren Phase werden alle Sequenzen entfernt, bei denen mindestens eineSubsequenz nicht häufig (genug) ist. Die einzelnen Kandidaten-Sequenzen werdenin einem Hash-Baum gespeichert. Das Zählen der Unterstützung geschieht in einemweiteren Schritt. Um alle Kandidaten innerhalb der Kundensequenz S (siehe Algorithmus)zu finden, bildet man alle k-Subsequenzen von S. Stimmt ein Kandidatim Hash-Baum mit einer der Subsequenzen überein, wird sein Zähler erhöht.Nachteil des GSPNachteilig ist, dass der GSP für jeden Level einen Datebankscan macht. Wenn dielängste Sequenz k lang ist, werden k Datenbankdurchgänge benötigt. Dies erzeugthohe Input-Output-Kosten. Des Weiteren werden die einzelnen Sequenzen in komplexenHash-Strukturen gespeichert, was sich nachteilig auf die Performance auswirkt.Praktisches BeispielGegeben sind die acht Items A bis H, vier Kunden und zehn Transaktionen. Dieminimale Häufigkeit soll 50% betragen und entspricht damit zwei Kunden. Gegebenist außerdem die Tabelle 1, die in der ersten Spalte den Kundenbezeichner CID(engl. Customer-ID), in der zweiten Zeile die Transaktionszeit T T und in der drittenZeile die gekauften Items enthält. Zu sehen ist, dass der Kunde mit CID = 1 vierTransaktionen, Kunde 2 zwei Transaktionen, Kunde 3 eine Transaktion und Kunde4 drei Transaktionen tätigt.Der GSP würde jetzt die einzelnen Kundentransaktionen mit den vorhandenenacht Items vergleichen und die entsprechenden häufigen Sequenzen ermitteln. Diegefunden Sequenzen sind in (27) zu sehen.F 1 = {(A)[4], (B)[4], (D)[2], (F )[4]} (27)F 2 = {(AB)[3], (AF )[3], (B ↦→ A)[2], (BF )[4],(D ↦→ A)[2], (D ↦→ B)[2], (D ↦→ F )[2], (F ↦→ A)[2]}F 3 = {(ABF )[3], (BF ↦→ A)[2], (D ↦→ BF )[2],(D ↦→ B ↦→ A)[2], (D ↦→ F ↦→ A)[2]}21

F 4 = {(D ↦→ BF ↦→ A)[2]}Zu den 1er-Sequenzen gehören die Items A, B, D und F . Die Items C und E sindausgeschieden, weil sie bei weniger als 50% der Kunden aufgetreten sind. Es folgendie 2er- und 3er-Sequenzen und zum Schluss eine vierer Sequenz. In den rechteckigenKlammern wird die Häufigkeit des jeweiligen Items bzw. der Subsequenz notiert.Aus den gefundenen Sequenzen lassen sich nun Regeln ableiten. BF“ beispielsweise”existiert viermal und ABF“ existiert dreimal. Eine Regel wäre nun, dass wenn”” BF“ auftritt zu 75% bzw. drei von vier Mal auch A“ eintritt. Man sagt, die Regel”(BF ) ↦→ (BF A) hat eine Konfidenz von 75%. Dem zugrunde liegt folgender kleinerAlgorithmus:RegelAlg(F, min konf) :for alle häufigen Sequenzen β ∈ F dofor alle Subsequenzen α ≺ β dokonf = fr(β)/fr(α) :if (konf ≥ min konf) thenAusgabe der Regel α ↦→ β und konfMan sieht, dass dem Algorithmus die Parameter ”F“ für die Sequenzen und ”min konf“für die Minimalkonfidenz übergegeben werden. Für jede einzelne Sequenz β wirdnun geprüft ob es eine Sequenz α gibt, die in ihr enthalten ist bzw. die Subsequenzvon β ist. Für den Fall, dass das zutrifft wird mitHäufigkeit(β)/Häufigkeit(α) (28)die Konfidenz ermittelt. Ist diese Konfidenz größer oder gleich der gewünschtenMinimalkonfidenz, wurde eine neue Regel gefunden, die im Format α ↦→ β und derzugehörigen Konfidenz ausgegeben wird.5.3.2 SPADESPADE bedeutet Sequential PAttern Discovery using Equivalence classes [Zak97].Der SPADE-Algorithmus wurde entwickelt um den vorangegangen GSP zu optimieren.Die Autoren kritisieren, wie schon oben erwähnt, die häufigen Datenbankoperationensowie die Speicherung in Hash-Strukturen. Deshalb macht SPADEgewöhnlich nur drei Datenbankscans und auch auf die kritisierten Hash-Strukturenwird verzichtet. Das Berechnen der häufigen Sequenzen erfolgt mit einfachen JOIN-Operationen, weshalb sich dieser Algorithmus für eine direkte Integration mit einemDBMS anbietet.SPADE unterteilt das Problem in mehrere kleine Unterprobleme, die unabhängigvoneinander gelöst werden können. Zur Erklärung der Funktionsweise wird das Beispielaus dem GSP übernommen. Dort gab es eine 1er-Sequenz mit A, B, D, F . Nunwerden folgende Definitionen vorgenommen: x ist der Bezeichner für ein beliebiges,aber häufiges Item und B ist eine Menge häufiger Sequenzen. Das sogenannteTemplate x[B] bezeichnet die Menge {xβ|β ∈ B} und das Template x ↦→ [B] bezeichnetdie Menge {x ↦→ β|β ∈ B}. x ist also das Präfix für alle Sequenzen in B.Mit f(i)x wird nun die Menge aller i-Sequenzen bezeichnet, die das Präfix x habenoder deren Präfix lexikographisch gesehen größer ist als x. Für i = 1 wären das alsof1A = {ABDF }, f1B = {BDF }, f1D{DF } und f1F = {F }. Diese 1er-Sequenzensind in der Darstellung, siehe Abbildung 7, ganz unten zu sehen. Mit jeder Zeilenach oben werden die Mengen aus den vorangegangenen Zeilen übernommen.Die 2er-Sequenzen A[f1B] sind ausgeschrieben, gemäß obiger Definition, in (29)zu sehen.A[BDF ] (29)22

Abbildung 7: SPADE: Erstellung der Subsequenzen [Zak97]oder{(AB), (AD), (AF )}{(A ↦→ A), (A ↦→ B), (A ↦→ D), (A ↦→ F )} (30)Die Auflösung von A ↦→ [ABDF ] ist in (30) zu sehen. In der nächsten Zeile stehennun alle 2er-Sequenzen, die jetzt nach dem selben Prinzip wie bei den 1er-Sequenzenwieder neu bezeichnet werden. Diese Blöcke dienen dann wiederum als Quelle fürdie 3er-Sequenzen. Dieser Vorgang wird so lange wiederholt bis alle Subsequenzenerstellt sind. Es gibt dann ein Gitter mit allen möglichen Subsequenzen.Das horizontale Schema des GSP benutzt eine Relation mit Kundenbezeichner (cid),Transaktionsbezeichner (tid) und den Items selbst (siehe Abbildung 1). SPADE verwendetim Gegensatz dazu ein vertikales Datenbankschema. Hier werden jedem Itemder Kundenbezeichner und der Transaktionsbezeichner zugewiesen. Es handelt sichdabei um die so genante ctid-Liste.Im Folgenden wird nun für jede Sequenz solch eine Liste angelegt. Darüber hinausgehört zu jeder Sequenz ein Array mit den Items dieser Sequzenz, ihre Unterstützungin Form eines Zählers und ein Integerwert, der ihr Sequenz-Template bestimmt. Miteinem Bit-Wert werden in diesem Template die Relationen zwischen den einzelnenItems vermerkt, 0 steht für keine Relation, entsprechend 1 für eine Relation. Damitlassen sich binäre Werte wie 111 ermitteln. Letzterer Wert steht für drei aufeinanderfolgende Relationen innerhalb einer Sequenz.23

Die Berechnung der 1er-Sequenzen erfolgt mit einem Datenbankscan. Für jedesItem wird die erwähnte ctid-Liste angelegt, in den Speicher geladen und die Unterstützunggezählt. Das Sequenz-Template hat logischerweise den Wert 0. ZurErmittlung der 2er-Sequenzen wird an Hand ihrer Schnittmengen die Häufigkeitberechnet. In diesem Falle wird kurzer Hand auch das horizontale Datenschemaverwendet, um die Datenbankoperationen in diesem Schritt so gering wie möglichzu halten. Um nun die k-Sequenzen zu ermitteln, werden die häufigen Sequenzenauf Äquivalenz-Klassen verteilt, so dass die unterschiedlichen Klassen unabhängigvon einander verwendet werden können. Die Klassen werden nun in absteigenderReihenfolge bearbeitet, um das beschneiden der Kandidaten zu erleichtern. Zu Beginnenthält jede Klasse die 2er-Sequenzen bis dann im nächsten Schritt iterativdie Kandidaten für die nächste Stufe ermittelt werden. Jede Klasse erstellt dabeieine Menge neuer Klassen, die zum Schluss in eine Klasse mit dem neuen Index kverschmolzen werden. Dieser Vorgang stoppt erst dann, wenn alle häufigen Klassen- und damit auch die Sequenzen - generiert wurden.5.4 Analyse zeitlicher AssoziationsregelnZum Abschluss der temporalen Datenanalyse soll noch kurz auf die Ermittlung temporalerAssoziationsregeln eingegangen werden. Die folgenden Ausführungen orientierensich dabei an die Arbeit von Chris P. Rainsford [Rai99].Wie bereits im Kapitel der zeitlichen Assoziationsregeln erläutert (siehe 4.2), handeltes sich hierbei um eine Erweiterung der bekannten Assoziationsregeln, die Zusammenhängezwischen Items innerhalb einer Transaktion beschreiben. Wenn mansich allerdings das praktische Beispiel eines Shops vor Augen führt, wo ein Kunde inder Regel mehrere Transaktionen bzw. Einkäufe vornimmt, wird klar, dass Zusammenhängemit einem zeitlichen Horizont zusätzliche Informationen liefern können.Eine Regel wird mitX ⇒ Y ∧ P 1 ∧ P 2 · · · ∧ P n (31)notiert. X und Y sind bestimmte Attribute während P für ein Prädikat steht. DiePrädikate entsprechen Allens Taxonomie (siehe Abbildung 4) und können beliebigverknüpft werden. Rainsford verwendet darüberhinaus Konfidenzfaktoren c und tc,die für die Konfidenz der Regel bzw. des jeweiligen Prädikats gelten.Bei Allens Taxonomie gibt es dreizehn zeitliche Beziehungen, aber keine Verallgemeinerungen.In [Rai99] wird deshalb darüberhinaus die Generalisierung von Freksa[Fre91] verwendet, was den Vorteil hat, dass zusätzliche, verallgemeinernde Regelngefunden werden können.Der Vorgang der Analyse wird in vier Phasen eingeteilt. In der ersten Phase werdenauf herkömmlichen Wege alle Assoziationsregeln in den vorhanden Daten gesucht.Um Zusammenhänge auch über den Rahmen einer einzelnen Transaktion hinauszu finden, werden die Transaktionen eines jeden Kunden dabei in ein gemeinsamesItemset überführt. Dies hat zur Folge, dass die 1. Normalform gebrochen werdenmuß und in einem Tupel jeweils ein Kunde mit allen zugehörigen Items verbleibt.Dabei erhalten temporale Attribute eine besondere Berücksichtigung in dem diedazugehörigen Zeitpunkte und Intervalle ebenfalls gespeichert werden.Nicht-temporale Items werden in dieser Phase entfernt, da sie nicht Teil einer zeitlichenBeziehung sein können.Erst wenn die nicht-temporalen Regeln aufgestellt sind, wird unter denen, die diegewünschte Unterstützung erreichen, die Kandidatenliste für die temporalen Regelnerstellt.In der zweiten Phase werden alle zeitlichen Beziehungen gesucht. Besteht eine Regeldabei aus z.B. drei Items müssen Beziehungen zwischen allen drei Items untersucht24

while not EOFread next itemset into current itemset;y = first candidateitem relationship;R y = rule associated with y;for x = 0 to candcount dobeginif (R y is a subset of the itemset)begindetermine relationship between the two items in y;increment the relationship count for this for thisrelationship for the candidate y;endy = next candidate item relationship;R y = rule associated with y;endendwhileAbbildung 8: Algorithmus der dritten Phasewerden. Tupel, die eine Regel unterstützen, werden mit Allens Taxonomie verglichen.Für jede der dreizehn Beziehungen und jedes Attributpaar wird ein Zählerangelegt. Diese Zähler werden beim nächsten Datenbankscan gepflegt und zeigendann an, ob zwischen den einzelnen Elementen temporale Beziehungen bestehen.Zur Vereinfachung wird in dieser Phase davon ausgegangen, dass ein Item nur einmalin einem Itemset sein kann, ebenso werden die Generalisierungen von Freksa nochvernachlässigt. Der Algorithmus in Abbildung 8 soll die Funktionsweise dieser Phaseverdeutlichen. In der letzten Phase geht es nun darum mit Hilfe der Zähler die bestehendenBeziehungen zu bestimmen. Sollte die Unterstützung für die Beziehungennach Allen nicht reichen, existieren vielleicht allgemeinere Beziehungen wie die nachFreksa. Die sogenannten ”Nachbarschaftsbeziehungen“ oder auch ”Semi-Intervallbasierende“-Beziehungenfassen jeweils einige von Allens Beziehungen zusammen.Das Ergebnis sind dann die bereits genannten Assoziationsregeln mit den jeweiligenPrädikaten.6 AusblickJe besser man etwas personalisieren möchte, desto notwendiger sind temporaleAspekte. Im Rahmen des Projekts ”DIKO“ (Data in Knowlowdge out) wird es sichum einen Kartenanbieter handeln, der Händler unterschiedlicher Art bei der Personalisierungihrer Angebote unterstützen will. Mit Hilfe von Kundenkarten werdendemographische Daten erfasst, die mit den getätigten Transaktionen des Karteninhabersin Verbindung gebracht werden können. Durch die Anwendung von DataMining und den entsprechenden Assoziationsregeln etc. wird es möglich sein, Vorhersagenüber das Einkaufsverhalten bestimmter Kunden und Kundengruppen zutreffen. Man wird von Milch auf Brot und von Brot auf Butter schließen können undkann so den Käufer bei seinem Einkauf ”unterstützen“. Diese Unterstützung durchden Händler führt natürlich auch dazu, dass der Umsatz zu gesteigert wird, aberobjektiv gesehen kann auch der Kunde bei qualitativ hochwertiger Personalisierungseinen Nutzen haben.Das Thema ”Temporale Aspekte“ kann wie folgt von großem Vorteil für DIKOsein. In der Modellierungsphase können alle Schmemata um temporale Attribute25

ergänzt werden. Durch diese, anfangs vielleicht mühsame Erweiterung besteht in einerspäteren Phase ein großes Potential für die Datenanalyse. Nur so können temporaleUntersuchungen vorgenommen werden. Die bekannten Data Mining-Methoden,wie u.a. Clustering, Klassifikation und Assoziationsregeln können so mit temporalenMethoden ergänzt werden. Es können zeitliche Verläufe beobachtet werden undauch zeitliche Muster oder Assoziationen gefunden werden, die unter Umständenvon besonderer Bedeutung sind.Beispiele für Ergebnisse einer temporalen Betrachtung, insbesondere mögliche sequentielleMuster und zeitliche Assoziationsregeln wurden im vorangegangenen Textausführlich beschrieben. Viele dieser Beispiele können 1:1 auf dieses Projekt übertragenwerden. Dieser Beitrag kann im Projektgruppenkontext also dazu beitragen,dass sich die Projektgruppe gezielt um eine Personalisierung unter temporalenAspekten bemüht, um einerseits dem Konsumenten einen einfachen und zuvorkommendenEinkauf zu ermöglichen und andererseits den Umsatz des Händlers zusteigern.Mit Hilfe temporaler Daten kann ein Kundenverhalten optimaler analysiert werden.Und je besser ein Kundenverhalten vorausgesagt werden kann, desto gezielter kannein personalisiertes Angebot gerichtet sein.7 SchlussbetrachtungAuf den vergangenen Seiten wurden ausgewählte Techniken und Verfahren vorgestellt,die sich mit der ”temporalen Seite“ des Data Mining beschäftigen. Im erstenKapitel wurden die Repräsentationsformen dargestellt. Dazu gehören einerseits dietemporalen Datenbanken und andererseits die Zeitreihen. Je nach gewähltem Datenmodelllassen sich hier enorme Vorteile bei der Speicherung der Daten gewinnen.Abhängig von der zu benutzenden Anwendung können Objekt-Historien, Rollback-Relationen oder eine Kombination dieser eingesetzt werden. Bei der Verwendung derTupelzeitstempelung lassen sich konventionellen DBMS ebenfalls für die Speicherungtemporaler Daten nutzen. Die vorgestellten Zeitreihen bzw. Sequenzen zeigeneinen anderen Weg der Datenspeicherung auf. Ihr Verständnis ist wichtig für dasAnwenden der im dritten Kapitel vorgestellten Muster und ihren im vierten Teil gezeigtenAnalysemethoden. Grundsätzlich lassen sich aus temporalen Datenbankenjederzeit Sequenzen bilden.Die vorgestellten Methoden sind einer Auswahl zahlreicher Möglichkeiten. Das Auffindenvon sequentiellen Mustern und zeitlichen Assoziationsregel kann als elementarfür das temporale Data Mining bezeichnet werden. Die meisten weiteren Ansätzelehnen sich oftmals an diese an oder stellen Lösungen für sehr spezielle Anwendungendar.In der Regel bringt jedes temporale Muster seine eigenen Datenanalysetechnikenmit. Die hier vorgestellten Algorithmen finden allerdings so oder in ähnlicher Formbei verschiedenen Mustern ihre Anwendung. Abschließend lässt sich sagen, dass essich bei dem temporalen Data Mining noch um ein relativ neues Gebiet handelt, daserst seit 12-15 Jahren populär ist. Die praktische Anwendung ist über den Bereichvon Forschung und Wissenschaft nur vereinzelt hinausgekommen. Auch die Dokumentationin Literatur und Internet weist Lücken auf, die darauf schließen lassen,dass temporale Datenhaltung längst nicht zum Alltag gehört. Insgesamt stellen geradedie temporalen Aspekte ein enormes Potential dar, dass sowohl in Forschungund Wissenschaft als auch im kommerziellen Bereich seine Anwendung finden wird.26

GlossarAttributzeitstempelung Jedes Attribut einer Datenbank erhält eigene Temporalisierung.Je nach Modell werden den zeitabhängigen Attributen TransaktionsundGültigkeitszeit hinzugefügt, Seite 4.Bitemporales Modell Beim bitemporalen Modell werden sowohl Transaktionsalsauch Gültigkeitszeit gespeichert, Seite 5.Chronon Ein Chronon ist die kleinste, gewählte Zeiteinheit innerhalb eines Datenbankmodells,Seite 2.Granularität Die Granularität gibt die Einteilung der Zeiteinheiten an. Eine hoheGranularität bedeutet sehr kurze Zeitabschnitte, Seite 2.Gültigkeitszeit Die Gültigkeitszeit gibt den Zeitraum an, zu dem ein Tupel in dermodellierten Welt wahr ist, Seite 4.ItemItems (oder Literale) sind Elemente, deren Mengen die Werte der Sequenzenbilden. Ein Item kann z.B. ein Element eines Warenkorbs sein, der wiederumfür eine Transaktion steht, Seite 6.Objekt-Historie Hier werden nur Gültigkeitszeiten verwaltet. Es kann für jedesObjekt festgestellt werden, wann es in der modellierten Welt wahr war,Seite 9.Rollback-Relation Hier wird die Transaktionszeit gespeichert. Transaktionen könnenso rückgängig gemacht werden, Seite 19.Schnappschuss-Datenbank Momentaufnahme einer temporalen Datenbank bzw.Bezeichnung einer konventionellen nicht-temporalen Datenbank, Seite 3.Sequenz Bei einer Sequenz handelt es sich um eine Folge von Werten, die sich aufaufeinander folgende Zeitpunkte oder Zeiträume bezieht, Seite 6.Subsequenz Eine Subsequenz ist eine Folge von Werten, die in einer anderen Sequenzenthalten ist. Dabei ist nicht die Übereinstimmung aller Werte entscheidend,sonder die Reihenfolge selbiger, Seite 7.Temporale Datenbank Eine temporale Datenbank ist eine Datenbank, die umtemporale Aspekte wie Transaktions- und Gültigkeitszeit erweitert wurde,Seite 3.Transaction Time siehe Transaktionszeit, Seite 4.Transaktion Vorgang des Speicherns in die Datenbank bzw. Vornehmen einerÄnderung in der Datenbank, Seite 4.Transaktionszeit Zeitpunkt zu dem eine Transaktion geschieht, Seite 4.Tupelzeitstempelung Die Zeitstempelung erfolgt hier pro Tupel. Dabei kannnicht pro Attribut unterschieden werden. Diese Zeitstempulng entsprichtder ersten Normalform und ist mit konventionellen DBMS konform, Seite 4.Valid Time siehe Gültigskeitszeit, Seite 4.Zeitreihe siehe Sequenz, Seite 6.Zeitstempelung siehe Attribut- bzw. Tupelzeistempelung, Seite 4.27

Literatur[All83] J .F. Allen. Maintaining Knowledge About Temporal Intervals, 1983[AO01][AS86][Fis87][FPSS96][Fre91][Goi]Cláudia M. Antunes und Arlindo L. Oliveira. Temporal DataMining: An Overview, 2001Ilsoo Ahn und Richard Snodgrass. Performance evaluation of atemporal database management system. International Conference onManagement of Data and Symposium on Principles of Database Systems,Seiten 96–107, 1986D. Fisher. Knowledge Acquisition via incremental conceptual Clustering,1987Usama M. Fayyad, Gregory Piatetsky-Shapiro und PadhraicSmyth. Knowledge Discovery and Data Mining: Towards a UnifyingFramework. In Knowledge Discovery and Data Mining, Seiten 82–88.1996. URL citeseer.nj.nec.com/fayyad96knowledge.htmlC. Freksa. Conceptual Neighbourhood and its Role in Temporal andSpatial Reasoning. IMACS Workshop on Decision Support Systems andQualitative Reasoning, 1991Martin Goik. Datenbanken und ihre Anwendungen[Hip01] Hippner. Data Mining im Marketing, 2001[HK01] Jiawei Han und Micheline Kamber. Data Mining: Concepts andTechniques. Morgan Kaufmann Publishers, 2001[JCG + 92] Christian S. Jensen, James Clifford, Shashi K. Gadia, ArieSegev und Richard T. Snodgrass. A Glossary of TemporalDatabase Concepts. SIGMOD Record, 21(3):35–43, 1992. URLciteseer.nj.nec.com/jensen92glossary.html[JDS98]Christian S. Jensen, Curtis Dyreson und Richard T. Snodgrass.The Consensus Glossary of Temporal Database Concepts. Technicalreport, Timecenter, Feber, 1998[Kai00] Alexander Kaiser. Die Modellierung Zeitbezogener Daten. PeterLand Verlag, Frankfurt am Main, 2000[KF00][KM96][KP98]Po-Shan Kam und Ada Wai-Chee Fu. Discovering Temporal Patternsfor Interval-Based Events. In Yahiko Kambayashi, Mukesh K.Mohania und A. Min Tjoa, editors, Second International Conferenceon Data Warehousing and Knowledge Discovery (DaWaK 2000),volume 1874, Seiten 317–326. Springer, London, UK, 2000. URLciteseer.nj.nec.com/327404.htmlGerhard Knolmayer und Thomas Myrach. Zur Abbildung zeitbezogenerDaten in betrieblichen Informationssystemen. Wirtschaftsinformatik,38:63–74, 1996Eamonn Keogh und M. Pazzani. An enhanced representation of timeseries which allows fast and accurate classification, clustering andrelevance feedback. In R. Agrawal, P. Stolorz und G. Piatetsky-Shapiro, editors, Fourth International Conference on Knowledge Discoveryand Data Mining (KDD’98), Seiten 239–241. ACM Press, New YorkCity, NY, 1998. URL citeseer.nj.nec.com/keogh98enhanced.html28

[Lan96][Lit98]Arne Lange. Anbindung der Temporalen Anfragesprache TSQL2 anein Objektorientiertes Datenbanksystem. Universität Rostock, 1996Hans Peter Litz. Statistische Methoden in den Wirtschafts- und Sozialwissenschaften.Oldenbourg, 1998[LNWJ01] Yingjiu Li, Peng Ning, Xiaoyang Sean Wang und SushilJajodia. Discovering Calendar-based Temporal AssociationRules. In TIME, Seiten 111–118. 2001. URLciteseer.nj.nec.com/li01discovering.html[LZO99][M0101][Mar99][MY01][PAT99][Rai99][SH02][Sno95][Wij01]Neal Lesh, Mohammed J. Zaki und Mitsunori Ogihara. MiningFeatures for Sequence Classification. In S. Chaudhuri und D. Madigan,editors, Fifth ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining. ACM Press, San Diego, 1999. URLciteseer.nj.nec.com/lesh99mining.htmlMeyers grosses Taschenlexikon in 25 Bänden. Standardausgabe.. BibliographischesInstitut, Mannheim, 2001Othmar Marti. Raum und Zeit: Eine Physikalische Zeitreise. AbteilungExperimentelle Physik, Universität Ulm, 1999R. Douglas Martin und Victor Yohai. Data Mining for UnusualMovements in Temporal Data. 7th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining (KDD-2001), 2001Stefano Paraboschi Paolo Atzeni, Stefano Ceri und RiccardoTorlone. Database Systems - Concepts, Languages and Architectures.McGraw-Hill, 1999Chris P. Rainsford. Accommodating Temporal Semantics in DataMining and Knowledge Discovery, 1999Peter Stahlknecht und Ulrich Hasenkamp. Einführung in DieWirtschaftsinformatik. Springer-Verlag, 2002Richard T. Snodgrass. The TSQL2 Temporal Query Language. KluwerAcademic Publishers, Boston, 1995Jef Wijsen. Trends in Databases: Reasoning and Mining. Ieee Trans.On Knowledge And Data Engineering, 13, 2001[WYM01] W. Wang, J. Yang und R. Muntz. Temporal association rules withnumerical attributes, 2001. URL citeseer.nj.nec.com/201771.html[Zak97] Mohammed Javeed Zaki. Fast Mining of Sequential Patternsin Very Large Databases. Technical Report TR668, 1997. URLciteseer.nj.nec.com/zaki97fast.html29

Temporale Aspekte des Data Mining - diko-project.de

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?