ist eine Sequenz von Schnappschüssen. Die Stabilität selbst wird dann mitStabilität =Support(X ∩ Y, Ω)Support(X, Ω) × Support(Y, Ω)(15)berechnet [WYM01]. Die Stabilität ist also <strong>de</strong>r Quotient aus <strong>de</strong>n unterstütztenSequenzen Support(X ∩ Y, Ω) und <strong>de</strong>m Kreuzprodukt <strong>de</strong>r Sequenzen, die jeweilsnur einen Zustand <strong>de</strong>r Regel aufweisen.4.2.4 DichteDadurch, dass in diesem Falle numerische Attribute verglichen wer<strong>de</strong>n, ist es möglich,dass Regeln aufgestellt wer<strong>de</strong>n, die numerische Bereiche abzu<strong>de</strong>cken scheinen, in<strong>de</strong>nen es nicht ein tatsächliches Objekt gibt. In Bezug auf das oben gewählteBeispiel könnte man die Notwendigkeit eines Dichte-Parameters so erklären: Eswird von einem Gehalt im Intervall [40.000,55.000] auf Wohnausgaben im Intervall[10.000,15.000] geschlossen. Möglicherweise gibt es nun viele Objekte zu Beginnund En<strong>de</strong> <strong><strong>de</strong>s</strong> jeweiligen Intervalls, die dazu geführt haben, dass diese Regel aufgestelltwur<strong>de</strong>. Doch besagt diese Regel ja auch, dass beliebige Werte-Kombinationeninnerhalb dieses Intervalls möglich sind. Es kann also eine Kombination Gehalt-Wohnausgaben mit Werten von 50.000 bzw. 13.000 geben, obwohl es in <strong>de</strong>n analysiertenDaten nie solch eine Kombination gegeben hat. Es ist gut möglich, dass es sogarKombinationen gibt, die sehr unwahrscheinlich sind. Mit <strong>de</strong>m Dichte-Parameterwird nun bestimmt, wieviele Testdaten in einem Bereich liegen müssen, damit <strong>de</strong>rBereich als Teil eines umfassen<strong>de</strong>n Intervalls bezeichnet wer<strong>de</strong>n kann.4.2.5 Praktische BeispieleMit Hilfe einer temporalen Assoziationsregel lassen sich zum Beispiel folgen<strong>de</strong> Zusammenhängeformulieren: ”Wenn <strong>de</strong>r Preis von Produkt A unter 1 Euro fällt, dannsteigt <strong>de</strong>r monatliche Verkauf von Produkt B um 10.000 - 20.000. “ ”Neue Angestelltezwischen 20 und 30 Jahren starten mit einem Gehalt von 40.000 - 60.000Euro. Die jährliche Erhöhung beträgt min<strong><strong>de</strong>s</strong>tens 2.000 Euro.“4.3 Kalendarische MusterMuster, die in Anlehnung an ein kalendarisches Schema, z.B. einen Jahres-, Monatso<strong>de</strong>rWochenkalen<strong>de</strong>r gesucht wer<strong>de</strong>n, nennt man kalendarische Muster. Ein kalendarischesMuster wird ebenfalls mit temporalen Assoziationsregeln beschrieben. DerUnterschied zu <strong>de</strong>n zuvor vorgestellten Regeln ist, dass es sich hierbei um Regelnhan<strong>de</strong>lt, die zu bestimmten Zeitpunkten o<strong>de</strong>r in bestimmten Zeiträumen gelten. Dertemporale Aspekt einer solchen Regel könnte zum Beispiel je<strong>de</strong>n Dienstag“ o<strong>de</strong>r”je<strong>de</strong>n ersten Mai“ o<strong>de</strong>r ähnlich lauten.”Um eine Regel aufstellen zu können, wird ein relationales Kalen<strong>de</strong>rschemaR = (f n : D n , f n−1 : D n−1 , · · · , f 1 : D 1 ) (16)benötigt [LNWJ01]. Dabei han<strong>de</strong>lt es bei f i um ein Attribut, z.B. um das Jahr, <strong>de</strong>nMonat, <strong>de</strong>n Tag etc. und D als Zeit-Domäne. Die Gültigkeit dieses Schemas wirdmitD n × D n−1 × · · · × D 1 (17)festgelegt. Für je<strong><strong>de</strong>s</strong> Attribut kommen dann bestimmte Integerwerte in Frage, diedurch die obige Gültigkeit eingeschränkt sind. Auf diesem Weg wer<strong>de</strong>n bestimmteWertkombinationen ausgeschlossen. Es gibt dann beispielsweise keinen 32. Januaretc..14
Ein Muster ist dann ein Tupel in R mit <strong>de</strong>r Form 〈d n , d n−1 , . . . , d 1 〉. Haben wirein kalendarisches Schema bestehend aus Woche, Tag und Stun<strong>de</strong> wür<strong>de</strong> das Tupel〈1, 1, 10〉 für die Stun<strong>de</strong> 10 am ersten Tag in <strong>de</strong>r ersten Woche stehen. Darüberhinaus gibt es die Möglichkeit Wildcards zu verwen<strong>de</strong>n. Wildcards sind Platzhalter,die für je<strong>de</strong>n beliebigen, aber zulässigen Wert stehen. Ein Wildcard wird miteinem Stern ”∗“ gekennzeichnet. Das Tupel 〈1, ∗, 10〉 steht dann also für die Stun<strong>de</strong>10 an je<strong>de</strong>m Tag in <strong>de</strong>r ersten Woche. Eine temporale Assoziationsregel hat nundie Form (r, e) mit r als Assoziationsregel und e als kalendarischem Muster. Habenwir nun ein Kalen<strong>de</strong>r-Schema mit 〈Jahr, Monat, Donnerstag〉 könnten wir bei <strong>de</strong>rAnalyse von Transaktionen im amerikanischen Supermarkt folgen<strong>de</strong> Regel aufstellen:(T ruthahn ↦→ Kürbiskuchen, 〈∗, 11, 4〉). Diese Regel besagt schließlich, dass inje<strong>de</strong>m Jahr am vierten Donnerstag im November mit nach je<strong>de</strong>m Truthahn auchein Kürbiskuchen gekauft wird. Die Amerikaner feiern nämlich an je<strong>de</strong>m viertenDonnerstag im November ihr alljährliches Thanksgiving. Mit dieser Aussage wur<strong>de</strong>das ”Precise Match“-Verfahren angewandt, dass nur 100% gültige Regeln ermittelt.Eine Erweiterung ist das Fuzzy-Match-Verfahren. Dieses Verfahren fin<strong>de</strong>t Regeln,die min<strong><strong>de</strong>s</strong>tens einen bestimmten Prozentsatz an Gültigkeit aufweisen. Die ”MatchRatio“ m legt fest wie genau die Regeln sein müssen. Für m wird ein Wert mit(0 < m < 1) gewählt. Mit diesem Verfahren könnte dann die selbe Regel mit einemneuen kalendarischen Muster e = 〈∗, 11, ∗〉 aufgestellt wer<strong>de</strong>n. Die Regel wäre dannan min<strong><strong>de</strong>s</strong>tens 100m% Tagen gültig.Der zur Ermittlung dieser Regeln verwen<strong>de</strong>te Algorithmus ist ein Derivat <strong><strong>de</strong>s</strong> Apriori.Das Prinzip <strong><strong>de</strong>s</strong> Apriori wird weiter unten anhand <strong><strong>de</strong>s</strong> GSP-Algorithmus vorgestellt.Vorteil <strong>de</strong>r kalendarischen Muster Ein Vorteil <strong>de</strong>r Verwendung kalendarischerMuster ist, dass Zusammenhänge aufgestellt wer<strong>de</strong>n können, die ohne kalendarischeEinschränkungen nicht festgestellt wür<strong>de</strong>n. Ein Zusammenhang Ei ↦→ Kaffee istmit einer Unterstützung von 3% trotz hoher Konfi<strong>de</strong>nz relativ unbe<strong>de</strong>utend. Fügtman eine zeitliche Dimension hinzu und beschränkt die Regel auf die Tageszeit 7-11 Uhr vormittags erhöht sich die Unterstützung auf 40% (außerhalb dieser Zeit0,005%). Die neu entstan<strong>de</strong>ne Regel ist be<strong>de</strong>utend interessanter.4.4 Intervall-basieren<strong>de</strong> EreignisseBei <strong>de</strong>n bisherigen Mustern han<strong>de</strong>lte es sich um Zusammenhänge zwischen einzelnenEreignissen (Transaktionen, etc.), die meist als Zeitpunkte begriffen wur<strong>de</strong>n. Jetztsollen Ereignisse als Intervalle betrachtet wer<strong>de</strong>n [KF00]. Als Folge <strong><strong>de</strong>s</strong>sen lassensich dann neue Zusammenhänge aufzeigen, die zuvor nicht berücksichtigt wur<strong>de</strong>.Ein Beispiel ist folgen<strong><strong>de</strong>s</strong>: 75% <strong>de</strong>r Kun<strong>de</strong>n kaufen Erdnüsse, wenn Butter ins Son<strong>de</strong>rangebotkommt und bevor Brot ausverkauft ist.“”Es han<strong>de</strong>lt sich hierbei um drei intervall-basieren<strong>de</strong> Ereignisse Kun<strong>de</strong>n kaufen”Erdnüsse“, Butter kommt ins Son<strong>de</strong>rangebot“ und bevor Brot ausverkauft ist“.” ”Es lassen sich hierbei verschie<strong>de</strong>ne zeitliche Relationen aufstellen: Zwei Ereignissekönnen auf einan<strong>de</strong>r folgen (X vor Y), zur gleichen Zeit stattfin<strong>de</strong>n (X gleich Y),an einan<strong>de</strong>r anschließen (X trifft Y), sich überschnei<strong>de</strong>n (X überschnei<strong>de</strong>t Y), ineinem weiteren Ereignis enthalten sein (X während Y), zeitgleich beginnen (X startetmit Y) und zeitgleich en<strong>de</strong>n (X en<strong>de</strong>t mit Y). Zu je<strong>de</strong>r dieser Relationen gibtes eine inverse Relation, z.B. (Y nach X). Die Grafik, siehe Abbildung 4, zeigt dieTaxonomy of temporal Relationships“ nach Allen [All83].”Es ist dort gut zu sehen, dass es insgesamt dreizehn mögliche Beziehungen zwischenzwei Intervallen X und Y gibt.Zur praktischen Ver<strong>de</strong>utlichung wird jetzt eine Datenbank mit medizinischen Datensätzenangenommen [KF00]. Dabei wer<strong>de</strong>n Personendaten und die aufgetretenen15