Temporale Aspekte des Data Mining - diko-project.de

Weitere Magazine

Empfehlungen

Info

Die Berechnung der 1er-Sequenzen erfolgt mit einem Datenbankscan. Für jedesItem wird die erwähnte ctid-Liste angelegt, in den Speicher geladen und die Unterstützunggezählt. Das Sequenz-Template hat logischerweise den Wert 0. ZurErmittlung der 2er-Sequenzen wird an Hand ihrer Schnittmengen die Häufigkeitberechnet. In diesem Falle wird kurzer Hand auch das horizontale Datenschemaverwendet, um die Datenbankoperationen in diesem Schritt so gering wie möglichzu halten. Um nun die k-Sequenzen zu ermitteln, werden die häufigen Sequenzenauf Äquivalenz-Klassen verteilt, so dass die unterschiedlichen Klassen unabhängigvon einander verwendet werden können. Die Klassen werden nun in absteigenderReihenfolge bearbeitet, um das beschneiden der Kandidaten zu erleichtern. Zu Beginnenthält jede Klasse die 2er-Sequenzen bis dann im nächsten Schritt iterativdie Kandidaten für die nächste Stufe ermittelt werden. Jede Klasse erstellt dabeieine Menge neuer Klassen, die zum Schluss in eine Klasse mit dem neuen Index kverschmolzen werden. Dieser Vorgang stoppt erst dann, wenn alle häufigen Klassen- und damit auch die Sequenzen - generiert wurden.5.4 Analyse zeitlicher AssoziationsregelnZum Abschluss der temporalen Datenanalyse soll noch kurz auf die Ermittlung temporalerAssoziationsregeln eingegangen werden. Die folgenden Ausführungen orientierensich dabei an die Arbeit von Chris P. Rainsford [Rai99].Wie bereits im Kapitel der zeitlichen Assoziationsregeln erläutert (siehe 4.2), handeltes sich hierbei um eine Erweiterung der bekannten Assoziationsregeln, die Zusammenhängezwischen Items innerhalb einer Transaktion beschreiben. Wenn mansich allerdings das praktische Beispiel eines Shops vor Augen führt, wo ein Kunde inder Regel mehrere Transaktionen bzw. Einkäufe vornimmt, wird klar, dass Zusammenhängemit einem zeitlichen Horizont zusätzliche Informationen liefern können.Eine Regel wird mitX ⇒ Y ∧ P 1 ∧ P 2 · · · ∧ P n (31)notiert. X und Y sind bestimmte Attribute während P für ein Prädikat steht. DiePrädikate entsprechen Allens Taxonomie (siehe Abbildung 4) und können beliebigverknüpft werden. Rainsford verwendet darüberhinaus Konfidenzfaktoren c und tc,die für die Konfidenz der Regel bzw. des jeweiligen Prädikats gelten.Bei Allens Taxonomie gibt es dreizehn zeitliche Beziehungen, aber keine Verallgemeinerungen.In [Rai99] wird deshalb darüberhinaus die Generalisierung von Freksa[Fre91] verwendet, was den Vorteil hat, dass zusätzliche, verallgemeinernde Regelngefunden werden können.Der Vorgang der Analyse wird in vier Phasen eingeteilt. In der ersten Phase werdenauf herkömmlichen Wege alle Assoziationsregeln in den vorhanden Daten gesucht.Um Zusammenhänge auch über den Rahmen einer einzelnen Transaktion hinauszu finden, werden die Transaktionen eines jeden Kunden dabei in ein gemeinsamesItemset überführt. Dies hat zur Folge, dass die 1. Normalform gebrochen werdenmuß und in einem Tupel jeweils ein Kunde mit allen zugehörigen Items verbleibt.Dabei erhalten temporale Attribute eine besondere Berücksichtigung in dem diedazugehörigen Zeitpunkte und Intervalle ebenfalls gespeichert werden.Nicht-temporale Items werden in dieser Phase entfernt, da sie nicht Teil einer zeitlichenBeziehung sein können.Erst wenn die nicht-temporalen Regeln aufgestellt sind, wird unter denen, die diegewünschte Unterstützung erreichen, die Kandidatenliste für die temporalen Regelnerstellt.In der zweiten Phase werden alle zeitlichen Beziehungen gesucht. Besteht eine Regeldabei aus z.B. drei Items müssen Beziehungen zwischen allen drei Items untersucht24
while not EOFread next itemset into current itemset;y = first candidateitem relationship;R y = rule associated with y;for x = 0 to candcount dobeginif (R y is a subset of the itemset)begindetermine relationship between the two items in y;increment the relationship count for this for thisrelationship for the candidate y;endy = next candidate item relationship;R y = rule associated with y;endendwhileAbbildung 8: Algorithmus der dritten Phasewerden. Tupel, die eine Regel unterstützen, werden mit Allens Taxonomie verglichen.Für jede der dreizehn Beziehungen und jedes Attributpaar wird ein Zählerangelegt. Diese Zähler werden beim nächsten Datenbankscan gepflegt und zeigendann an, ob zwischen den einzelnen Elementen temporale Beziehungen bestehen.Zur Vereinfachung wird in dieser Phase davon ausgegangen, dass ein Item nur einmalin einem Itemset sein kann, ebenso werden die Generalisierungen von Freksa nochvernachlässigt. Der Algorithmus in Abbildung 8 soll die Funktionsweise dieser Phaseverdeutlichen. In der letzten Phase geht es nun darum mit Hilfe der Zähler die bestehendenBeziehungen zu bestimmen. Sollte die Unterstützung für die Beziehungennach Allen nicht reichen, existieren vielleicht allgemeinere Beziehungen wie die nachFreksa. Die sogenannten ”Nachbarschaftsbeziehungen“ oder auch ”Semi-Intervallbasierende“-Beziehungenfassen jeweils einige von Allens Beziehungen zusammen.Das Ergebnis sind dann die bereits genannten Assoziationsregeln mit den jeweiligenPrädikaten.6 AusblickJe besser man etwas personalisieren möchte, desto notwendiger sind temporaleAspekte. Im Rahmen des Projekts ”DIKO“ (Data in Knowlowdge out) wird es sichum einen Kartenanbieter handeln, der Händler unterschiedlicher Art bei der Personalisierungihrer Angebote unterstützen will. Mit Hilfe von Kundenkarten werdendemographische Daten erfasst, die mit den getätigten Transaktionen des Karteninhabersin Verbindung gebracht werden können. Durch die Anwendung von DataMining und den entsprechenden Assoziationsregeln etc. wird es möglich sein, Vorhersagenüber das Einkaufsverhalten bestimmter Kunden und Kundengruppen zutreffen. Man wird von Milch auf Brot und von Brot auf Butter schließen können undkann so den Käufer bei seinem Einkauf ”unterstützen“. Diese Unterstützung durchden Händler führt natürlich auch dazu, dass der Umsatz zu gesteigert wird, aberobjektiv gesehen kann auch der Kunde bei qualitativ hochwertiger Personalisierungseinen Nutzen haben.Das Thema ”Temporale Aspekte“ kann wie folgt von großem Vorteil für DIKOsein. In der Modellierungsphase können alle Schmemata um temporale Attribute25
Seite 1 und 2: Temporale Aspekte des Data MiningOl
Seite 3 und 4: Themas. Zu den Grundlagen gehören
Seite 5 und 6: Zur Darstellung der Zeit gibt es dr
Seite 7 und 8: vergeben werden kann.Mit Hilfe der
Seite 9 und 10: Abbildung 2: Tabellarische Darstell
Seite 11 und 12: oder falsch genutzten Datenbeständ
Seite 14 und 15: ist eine Sequenz von Schnappschüss
Seite 16 und 17: Abbildung 4: Taxonomie zeitlicher B
Seite 18 und 19: 4.6 Unusual MovementsBei unusual Mo
Seite 20 und 21: GSP-AlgorithmusF k = {häufige 1er-
Seite 22 und 23: F 4 = {(D ↦→ BF ↦→ A)[2]}Zu
Seite 26 und 27: ergänzt werden. Durch diese, anfan
Seite 28 und 29: Literatur[All83] J .F. Allen. Maint

Temporale Aspekte des Data Mining - diko-project.de

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?