Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
1 EINLEITUNG 3<br />
meinsame Muster innerhalb der DNA <strong>von</strong> Patienten mit gleicher Erkrankung können<br />
Aufschlüsse über mögliche Ursachen der Erkrankung geben.<br />
Ereignissequenzen: Weblogs, Kaufverhalten <strong>und</strong> Verkaufszahlen<br />
Ereignissequenzen stellen eine der Hauptgruppen <strong>von</strong> <strong>Sequenzdaten</strong> dar. Solche Sequenzen<br />
sind nützlich um zu verstehen wie die betreffenden Akteure sich verhalten. Auf<br />
diese Weise kann für jeden Akteur ein Verhaltensmuster aufgestellt werden. Im Folgenden<br />
sind Beispiele für Ereignissequenzen aufgeführt.<br />
Ein Weblog ist eine Sequenz <strong>von</strong> Paaren aus Benutzerkennung <strong>und</strong> Ereignis. Ein Ereignis<br />
kann dabei eine Anforderung an eine bestimmte Web-Ressource, wie zum Beipiel<br />
eine Internetseite oder ein Web-Service sein. Zum Beispiel können bei jedem Aufruf einer<br />
Internetseite verschiedenste Daten registriert werden. So kann der Inhalt der Internetseite<br />
oder die Zeitdauer, die der Benutzer auf der Internetseite verbracht hat, gespeichert<br />
werden. Ereignisse in einem Weblog werden zeitlich aufsteigend in einer Liste gespeichert.<br />
In Abbildung 2 ist ein Beispiel eines Weblogs dargestellt. Dabei bezeichnen die<br />
Buchstaben a, b, c, d <strong>und</strong> e die Ereignisse <strong>und</strong> die Zahlen 100, 200, 300 <strong>und</strong> 400 die Benutzerkennungen.<br />
〈100, a〉 , 〈100, b〉 , 〈200, a〉 , 〈300, b〉 , 〈200, b〉 , 〈400, a〉 , 〈100, a〉 , 〈400, b〉<br />
〈300, a〉 , 〈100, c〉 , 〈200, c〉 , 〈400, a〉 , 〈400, e〉<br />
Abbildung 2: Auschnitt aus einer Weblog-Sequenz<br />
Kaufverhalten <strong>von</strong> K<strong>und</strong>en sind Sequenzen <strong>von</strong> Tupeln. Ein Tupel besteht zum Beispiel<br />
aus der K<strong>und</strong>enkennung, der Kaufzeit, dem Kaufort <strong>und</strong> der Menge der gekauften<br />
Waren. In Abbildung 3 sind Kaufverhalten <strong>von</strong> K<strong>und</strong>en dargestellt.<br />
〈223100, 05/05/08, 8:05, Hauptbahnhof, {Baguette, Kaffee}〉,<br />
〈223101, 05/05/08, 12:10, Kaufland, {Brot, Cola}〉,<br />
〈223100, 06/05/08, 8:02, Hauptbahnhof, {Baguette, Kaffee}〉,<br />
〈223100, 06/05/08, 14:05, Saturn, {Drucker}〉.<br />
〈223101, 06/05/08, 17:30, Saturn, {MP3-Player, Batterien}〉,<br />
Abbildung 3: Kaufverlauf <strong>von</strong> K<strong>und</strong>en<br />
Verkaufszahlen <strong>von</strong> Filial-Ketten sind Sequenzen <strong>von</strong> Tupeln, die beispielsweise die<br />
Filial-ID, den betreffenden Zeitraum, die Verkaufszahlen der einzelnen Waren für diesen<br />
Zeitraum <strong>und</strong> andere relevante Informationen enthalten. In Abbildung 4 sind die<br />
Verkaufszahlen einer Filialkette dargestellt.