12.07.2015 Aufrufe

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Ein Muster ist dann ein Tupel in R mit <strong>de</strong>r Form 〈d n , d n−1 , . . . , d 1 〉. Haben wirein kalendarisches Schema bestehend aus Woche, Tag und Stun<strong>de</strong> wür<strong>de</strong> das Tupel〈1, 1, 10〉 für die Stun<strong>de</strong> 10 am ersten Tag in <strong>de</strong>r ersten Woche stehen. Darüberhinaus gibt es die Möglichkeit Wildcards zu verwen<strong>de</strong>n. Wildcards sind Platzhalter,die für je<strong>de</strong>n beliebigen, aber zulässigen Wert stehen. Ein Wildcard wird miteinem Stern ”∗“ gekennzeichnet. Das Tupel 〈1, ∗, 10〉 steht dann also für die Stun<strong>de</strong>10 an je<strong>de</strong>m Tag in <strong>de</strong>r ersten Woche. Eine temporale Assoziationsregel hat nundie Form (r, e) mit r als Assoziationsregel und e als kalendarischem Muster. Habenwir nun ein Kalen<strong>de</strong>r-Schema mit 〈Jahr, Monat, Donnerstag〉 könnten wir bei <strong>de</strong>rAnalyse von Transaktionen im amerikanischen Supermarkt folgen<strong>de</strong> Regel aufstellen:(T ruthahn ↦→ Kürbiskuchen, 〈∗, 11, 4〉). Diese Regel besagt schließlich, dass inje<strong>de</strong>m Jahr am vierten Donnerstag im November mit nach je<strong>de</strong>m Truthahn auchein Kürbiskuchen gekauft wird. Die Amerikaner feiern nämlich an je<strong>de</strong>m viertenDonnerstag im November ihr alljährliches Thanksgiving. Mit dieser Aussage wur<strong>de</strong>das ”Precise Match“-Verfahren angewandt, dass nur 100% gültige Regeln ermittelt.Eine Erweiterung ist das Fuzzy-Match-Verfahren. Dieses Verfahren fin<strong>de</strong>t Regeln,die min<strong><strong>de</strong>s</strong>tens einen bestimmten Prozentsatz an Gültigkeit aufweisen. Die ”MatchRatio“ m legt fest wie genau die Regeln sein müssen. Für m wird ein Wert mit(0 < m < 1) gewählt. Mit diesem Verfahren könnte dann die selbe Regel mit einemneuen kalendarischen Muster e = 〈∗, 11, ∗〉 aufgestellt wer<strong>de</strong>n. Die Regel wäre dannan min<strong><strong>de</strong>s</strong>tens 100m% Tagen gültig.Der zur Ermittlung dieser Regeln verwen<strong>de</strong>te Algorithmus ist ein Derivat <strong><strong>de</strong>s</strong> Apriori.Das Prinzip <strong><strong>de</strong>s</strong> Apriori wird weiter unten anhand <strong><strong>de</strong>s</strong> GSP-Algorithmus vorgestellt.Vorteil <strong>de</strong>r kalendarischen Muster Ein Vorteil <strong>de</strong>r Verwendung kalendarischerMuster ist, dass Zusammenhänge aufgestellt wer<strong>de</strong>n können, die ohne kalendarischeEinschränkungen nicht festgestellt wür<strong>de</strong>n. Ein Zusammenhang Ei ↦→ Kaffee istmit einer Unterstützung von 3% trotz hoher Konfi<strong>de</strong>nz relativ unbe<strong>de</strong>utend. Fügtman eine zeitliche Dimension hinzu und beschränkt die Regel auf die Tageszeit 7-11 Uhr vormittags erhöht sich die Unterstützung auf 40% (außerhalb dieser Zeit0,005%). Die neu entstan<strong>de</strong>ne Regel ist be<strong>de</strong>utend interessanter.4.4 Intervall-basieren<strong>de</strong> EreignisseBei <strong>de</strong>n bisherigen Mustern han<strong>de</strong>lte es sich um Zusammenhänge zwischen einzelnenEreignissen (Transaktionen, etc.), die meist als Zeitpunkte begriffen wur<strong>de</strong>n. Jetztsollen Ereignisse als Intervalle betrachtet wer<strong>de</strong>n [KF00]. Als Folge <strong><strong>de</strong>s</strong>sen lassensich dann neue Zusammenhänge aufzeigen, die zuvor nicht berücksichtigt wur<strong>de</strong>.Ein Beispiel ist folgen<strong><strong>de</strong>s</strong>: 75% <strong>de</strong>r Kun<strong>de</strong>n kaufen Erdnüsse, wenn Butter ins Son<strong>de</strong>rangebotkommt und bevor Brot ausverkauft ist.“”Es han<strong>de</strong>lt sich hierbei um drei intervall-basieren<strong>de</strong> Ereignisse Kun<strong>de</strong>n kaufen”Erdnüsse“, Butter kommt ins Son<strong>de</strong>rangebot“ und bevor Brot ausverkauft ist“.” ”Es lassen sich hierbei verschie<strong>de</strong>ne zeitliche Relationen aufstellen: Zwei Ereignissekönnen auf einan<strong>de</strong>r folgen (X vor Y), zur gleichen Zeit stattfin<strong>de</strong>n (X gleich Y),an einan<strong>de</strong>r anschließen (X trifft Y), sich überschnei<strong>de</strong>n (X überschnei<strong>de</strong>t Y), ineinem weiteren Ereignis enthalten sein (X während Y), zeitgleich beginnen (X startetmit Y) und zeitgleich en<strong>de</strong>n (X en<strong>de</strong>t mit Y). Zu je<strong>de</strong>r dieser Relationen gibtes eine inverse Relation, z.B. (Y nach X). Die Grafik, siehe Abbildung 4, zeigt dieTaxonomy of temporal Relationships“ nach Allen [All83].”Es ist dort gut zu sehen, dass es insgesamt dreizehn mögliche Beziehungen zwischenzwei Intervallen X und Y gibt.Zur praktischen Ver<strong>de</strong>utlichung wird jetzt eine Datenbank mit medizinischen Datensätzenangenommen [KF00]. Dabei wer<strong>de</strong>n Personendaten und die aufgetretenen15

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!