Temporale Aspekte des Data Mining - diko-project.de

Weitere Magazine

Empfehlungen

Info

ist eine Sequenz von Schnappschüssen. Die Stabilität selbst wird dann mitStabilität =Support(X ∩ Y, Ω)Support(X, Ω) × Support(Y, Ω)(15)berechnet [WYM01]. Die Stabilität ist also der Quotient aus den unterstütztenSequenzen Support(X ∩ Y, Ω) und dem Kreuzprodukt der Sequenzen, die jeweilsnur einen Zustand der Regel aufweisen.4.2.4 DichteDadurch, dass in diesem Falle numerische Attribute verglichen werden, ist es möglich,dass Regeln aufgestellt werden, die numerische Bereiche abzudecken scheinen, indenen es nicht ein tatsächliches Objekt gibt. In Bezug auf das oben gewählteBeispiel könnte man die Notwendigkeit eines Dichte-Parameters so erklären: Eswird von einem Gehalt im Intervall [40.000,55.000] auf Wohnausgaben im Intervall[10.000,15.000] geschlossen. Möglicherweise gibt es nun viele Objekte zu Beginnund Ende des jeweiligen Intervalls, die dazu geführt haben, dass diese Regel aufgestelltwurde. Doch besagt diese Regel ja auch, dass beliebige Werte-Kombinationeninnerhalb dieses Intervalls möglich sind. Es kann also eine Kombination Gehalt-Wohnausgaben mit Werten von 50.000 bzw. 13.000 geben, obwohl es in den analysiertenDaten nie solch eine Kombination gegeben hat. Es ist gut möglich, dass es sogarKombinationen gibt, die sehr unwahrscheinlich sind. Mit dem Dichte-Parameterwird nun bestimmt, wieviele Testdaten in einem Bereich liegen müssen, damit derBereich als Teil eines umfassenden Intervalls bezeichnet werden kann.4.2.5 Praktische BeispieleMit Hilfe einer temporalen Assoziationsregel lassen sich zum Beispiel folgende Zusammenhängeformulieren: ”Wenn der Preis von Produkt A unter 1 Euro fällt, dannsteigt der monatliche Verkauf von Produkt B um 10.000 - 20.000. “ ”Neue Angestelltezwischen 20 und 30 Jahren starten mit einem Gehalt von 40.000 - 60.000Euro. Die jährliche Erhöhung beträgt mindestens 2.000 Euro.“4.3 Kalendarische MusterMuster, die in Anlehnung an ein kalendarisches Schema, z.B. einen Jahres-, MonatsoderWochenkalender gesucht werden, nennt man kalendarische Muster. Ein kalendarischesMuster wird ebenfalls mit temporalen Assoziationsregeln beschrieben. DerUnterschied zu den zuvor vorgestellten Regeln ist, dass es sich hierbei um Regelnhandelt, die zu bestimmten Zeitpunkten oder in bestimmten Zeiträumen gelten. Dertemporale Aspekt einer solchen Regel könnte zum Beispiel jeden Dienstag“ oder”jeden ersten Mai“ oder ähnlich lauten.”Um eine Regel aufstellen zu können, wird ein relationales KalenderschemaR = (f n : D n , f n−1 : D n−1 , · · · , f 1 : D 1 ) (16)benötigt [LNWJ01]. Dabei handelt es bei f i um ein Attribut, z.B. um das Jahr, denMonat, den Tag etc. und D als Zeit-Domäne. Die Gültigkeit dieses Schemas wirdmitD n × D n−1 × · · · × D 1 (17)festgelegt. Für jedes Attribut kommen dann bestimmte Integerwerte in Frage, diedurch die obige Gültigkeit eingeschränkt sind. Auf diesem Weg werden bestimmteWertkombinationen ausgeschlossen. Es gibt dann beispielsweise keinen 32. Januaretc..14
Ein Muster ist dann ein Tupel in R mit der Form 〈d n , d n−1 , . . . , d 1 〉. Haben wirein kalendarisches Schema bestehend aus Woche, Tag und Stunde würde das Tupel〈1, 1, 10〉 für die Stunde 10 am ersten Tag in der ersten Woche stehen. Darüberhinaus gibt es die Möglichkeit Wildcards zu verwenden. Wildcards sind Platzhalter,die für jeden beliebigen, aber zulässigen Wert stehen. Ein Wildcard wird miteinem Stern ”∗“ gekennzeichnet. Das Tupel 〈1, ∗, 10〉 steht dann also für die Stunde10 an jedem Tag in der ersten Woche. Eine temporale Assoziationsregel hat nundie Form (r, e) mit r als Assoziationsregel und e als kalendarischem Muster. Habenwir nun ein Kalender-Schema mit 〈Jahr, Monat, Donnerstag〉 könnten wir bei derAnalyse von Transaktionen im amerikanischen Supermarkt folgende Regel aufstellen:(T ruthahn ↦→ Kürbiskuchen, 〈∗, 11, 4〉). Diese Regel besagt schließlich, dass injedem Jahr am vierten Donnerstag im November mit nach jedem Truthahn auchein Kürbiskuchen gekauft wird. Die Amerikaner feiern nämlich an jedem viertenDonnerstag im November ihr alljährliches Thanksgiving. Mit dieser Aussage wurdedas ”Precise Match“-Verfahren angewandt, dass nur 100% gültige Regeln ermittelt.Eine Erweiterung ist das Fuzzy-Match-Verfahren. Dieses Verfahren findet Regeln,die mindestens einen bestimmten Prozentsatz an Gültigkeit aufweisen. Die ”MatchRatio“ m legt fest wie genau die Regeln sein müssen. Für m wird ein Wert mit(0 < m < 1) gewählt. Mit diesem Verfahren könnte dann die selbe Regel mit einemneuen kalendarischen Muster e = 〈∗, 11, ∗〉 aufgestellt werden. Die Regel wäre dannan mindestens 100m% Tagen gültig.Der zur Ermittlung dieser Regeln verwendete Algorithmus ist ein Derivat des Apriori.Das Prinzip des Apriori wird weiter unten anhand des GSP-Algorithmus vorgestellt.Vorteil der kalendarischen Muster Ein Vorteil der Verwendung kalendarischerMuster ist, dass Zusammenhänge aufgestellt werden können, die ohne kalendarischeEinschränkungen nicht festgestellt würden. Ein Zusammenhang Ei ↦→ Kaffee istmit einer Unterstützung von 3% trotz hoher Konfidenz relativ unbedeutend. Fügtman eine zeitliche Dimension hinzu und beschränkt die Regel auf die Tageszeit 7-11 Uhr vormittags erhöht sich die Unterstützung auf 40% (außerhalb dieser Zeit0,005%). Die neu entstandene Regel ist bedeutend interessanter.4.4 Intervall-basierende EreignisseBei den bisherigen Mustern handelte es sich um Zusammenhänge zwischen einzelnenEreignissen (Transaktionen, etc.), die meist als Zeitpunkte begriffen wurden. Jetztsollen Ereignisse als Intervalle betrachtet werden [KF00]. Als Folge dessen lassensich dann neue Zusammenhänge aufzeigen, die zuvor nicht berücksichtigt wurde.Ein Beispiel ist folgendes: 75% der Kunden kaufen Erdnüsse, wenn Butter ins Sonderangebotkommt und bevor Brot ausverkauft ist.“”Es handelt sich hierbei um drei intervall-basierende Ereignisse Kunden kaufen”Erdnüsse“, Butter kommt ins Sonderangebot“ und bevor Brot ausverkauft ist“.” ”Es lassen sich hierbei verschiedene zeitliche Relationen aufstellen: Zwei Ereignissekönnen auf einander folgen (X vor Y), zur gleichen Zeit stattfinden (X gleich Y),an einander anschließen (X trifft Y), sich überschneiden (X überschneidet Y), ineinem weiteren Ereignis enthalten sein (X während Y), zeitgleich beginnen (X startetmit Y) und zeitgleich enden (X endet mit Y). Zu jeder dieser Relationen gibtes eine inverse Relation, z.B. (Y nach X). Die Grafik, siehe Abbildung 4, zeigt dieTaxonomy of temporal Relationships“ nach Allen [All83].”Es ist dort gut zu sehen, dass es insgesamt dreizehn mögliche Beziehungen zwischenzwei Intervallen X und Y gibt.Zur praktischen Verdeutlichung wird jetzt eine Datenbank mit medizinischen Datensätzenangenommen [KF00]. Dabei werden Personendaten und die aufgetretenen15
Seite 1 und 2: Temporale Aspekte des Data MiningOl
Seite 3 und 4: Themas. Zu den Grundlagen gehören
Seite 5 und 6: Zur Darstellung der Zeit gibt es dr
Seite 7 und 8: vergeben werden kann.Mit Hilfe der
Seite 9 und 10: Abbildung 2: Tabellarische Darstell
Seite 11 und 12: oder falsch genutzten Datenbeständ
Seite 16 und 17: Abbildung 4: Taxonomie zeitlicher B
Seite 18 und 19: 4.6 Unusual MovementsBei unusual Mo
Seite 20 und 21: GSP-AlgorithmusF k = {häufige 1er-
Seite 22 und 23: F 4 = {(D ↦→ BF ↦→ A)[2]}Zu
Seite 24 und 25: Die Berechnung der 1er-Sequenzen er
Seite 26 und 27: ergänzt werden. Durch diese, anfan
Seite 28 und 29: Literatur[All83] J .F. Allen. Maint

Temporale Aspekte des Data Mining - diko-project.de

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?