12.07.2015 Aufrufe

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

Temporale Aspekte des Data Mining - diko-project.de

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5 <strong>Temporale</strong> DatenanalyseUm die zuvor vorgestellten temporalen Muster ausfindig zu machen, ist eine ausführlicheAnalyse <strong>de</strong>r Daten notwendig. In diesem Abschnitt wer<strong>de</strong>n <strong><strong>de</strong>s</strong>halb Verfahrenvorgestellt mit <strong>de</strong>ren Hilfe beispielsweise sequentielle Muster gefun<strong>de</strong>n wer<strong>de</strong>nkönnen.Zu Beginn wird Bezug zu <strong>de</strong>n gängigen Verfahren <strong>de</strong>r nicht-temporalen Datenanalysegenommen. Zu <strong>de</strong>n bekannten Verfahren gehören in <strong>de</strong>r Regel die Klassifikationund das Clustering. Im Anschluss wird <strong>de</strong>r sogenannte GSP-Algorithmus,<strong>de</strong>r sich mit sequentiellen Muster beschäftigt. Eine Optimierung <strong><strong>de</strong>s</strong> GSP stellt <strong>de</strong>rSPADE-Algorithmus“ dar, <strong>de</strong>r ebenfalls in diesem Kapitel ausgeführt wird. Abschließendwird dieses Kapitel noch einen kurzen Einblick in die Analyse temporaler”Assoziationsregeln geben.5.1 KlassifikationDie Klassifikation gehört zu <strong>de</strong>n bekanntesten Verfahren <strong>de</strong>r Datenanalyse. Währendsie in vielen Anwendungen <strong><strong>de</strong>s</strong> <strong>Data</strong> <strong>Mining</strong> erfolgreich ist, gibt es hierfür im Bereich<strong>de</strong>r temporalen Daten wenig Verwendung. Denn gera<strong>de</strong> die Kerni<strong>de</strong>e, das Einteilenin unterschiedliche Klassen stellt sich als schwierig dar. Dies bestätigt auch <strong>de</strong>rMangel an passen<strong>de</strong>r Literatur [AO01]. Die folgen<strong>de</strong>n Darstellungen sollen kurzaufzeigen, in welche Richtung es bereits Klassifikationsansätze gibt.5.1.1 VerschmelzungEin Ansatz probiert Sequenzen durch Verschmelzung (engl. to merge) zu klassifizieren[KP98]. Dabei wer<strong>de</strong>n zwei unterschiedliche Sequenzen mit einan<strong>de</strong>r verschmolzen,so dass das Ergebnis ein Kompromiss zwischen diesen bei<strong>de</strong>n Sequenzenist. Die wie<strong>de</strong>rholte Verwendung <strong><strong>de</strong>s</strong> so genannten Merge-Operators ermöglicht dieKombination mehrerer Sequenzen. Bei <strong>de</strong>r Verschmelzung wird ein so genannterEinflussfaktor benutzt, um <strong>de</strong>n Einfluss <strong>de</strong>r zu verschmelzen<strong>de</strong>n Sequenzen in dieneue Sequenz zu kontrollieren. Wer<strong>de</strong>n also zwei Sequenzen verschmolzen, gibt dieserFaktor für je<strong>de</strong> Ursprungssequenz an, ob die Sequenz im Vergleich zur neuenSequenz eine Verallgemeinerung o<strong>de</strong>r eine Spezialisierung darstellt. Je nach Ausprägungdieses Faktors entsteht eine generalisierte Klasse (positiver Faktor) o<strong>de</strong>reine spezialisierte Klasse (negativer Faktor). Dieses Verfahren wird entsprechend oftwie<strong>de</strong>rholt bis eine bestimmte Anzahl von Klassen entstan<strong>de</strong>n ist. Lei<strong>de</strong>r funktioniertdieser Vorgang nur mit wenigen Sequenzen, da sie für diesen Vorgang graphischdarstellbar sein müssen. Möglich ist die z.B. mit EKG-Daten, Aktienwerten etc..5.1.2 Weitere AnsätzeProblematisch bei <strong>de</strong>r Klassifizierung ist, dass Daten meist so hoch dimensioniertsind, dass eine Zuordnung zu bestimmten Klassen unter unterschiedlichen Gesichtspunktenmöglich ist. I<strong>de</strong>e ist nun, dass man einen Mechanismus verwen<strong>de</strong>t, <strong>de</strong>r dierelevanten Daten extrahiert und aufgrund dieser eine Klassifizierung vornimmt. Dabeisucht man innerhalb <strong>de</strong>r Sequenzen nach häufigen Subsequenzen und verwen<strong>de</strong>tdiese als relevante Kennzeichen. Steht fest wonach die Daten klassifiziert wer<strong>de</strong>n sollen,können die traditionellen Verfahren nach Bayes o<strong>de</strong>r Winnow verwen<strong>de</strong>t wer<strong>de</strong>n[LZO99].5.2 ClusteringDas grundsätzliche Problem beim Clustern von temporalen Daten ist die Ermittlung<strong>de</strong>r Anzahl von Clustern, um die unterschiedlichen Sequenzen darzustellen und19

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!