Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Weitere Magazine

Empfehlungen

Info

2 GRUNDLAGEN 12 Beispiel 2.9. Gegeben sei die Sequenzdatenbank in der Tabelle 3 und ein MinSupport = 3. Die komplette Menge der sequentiellen Muster, sind in der Tabelle 4 aufgelistet. Die Menge der maximalen und geschlossenen Muster sind in den Tabellen 5 und 6 dargestellt. 1-Muster Support 2-Muster Support 3-Muster Support a 4 ab 4 acb 3 b 4 ac 4 acc 3 c 4 bc 3 d 3 cb 3 e 3 cc 3 f 3 dc 3 Tabelle 4: Menge der sequentiellen Muster 1-Muster Support 2-Muster Support 3-Muster Support e 3 bc 3 acb 3 f 3 dc 3 acc 3 Tabelle 5: Menge der maximalen sequentiellen Muster 1-Muster Support 2-Muster Support 3-Muster Support e 3 ab 4 acb 3 f 3 ac 4 acc 3 bc 3 dc 3 Tabelle 6: Menge der geschlossenen sequentiellen Muster Es ist erkennbar, dass durch Anwendung des Konzepts der maximalen sequentiellen Muster nur noch sechs Muster übrig bleiben. Aus diesen sechs Mustern können durch Bildung von Teilsequenzen die ursprünglichen 14 sequentiellen Mustern abgeleitet werden. Man spricht auch von einer verlustlosen Komprimierung der Daten, da keine Muster bei der Komprimierung veloren geht. Allerdings ist die Komprimierung mit Hilfe des Konzepts der maximalen Muster bezüglich der Supportinformationen nicht verlustlos. Beispielsweise kann die Information, dass das sequentielle Muster ab einen Support von vier besitzt, nicht aus der Menge der maximalen sequentiellen Muster abgeleitet werden. Wenn also sowohl die Sequenz als auch die dazugehörige Supportinformation verlustlos komprimiert werden soll, dann ist das Konzept der geschlossenen sequentiellen Mustern das geeignete Komprimierungsverfahren. In vielen Anwendungen reicht es aber aus, die gefundenen Muster als Muster ohne Supportinformationen zu betrachten. In dem Fall bietet sich das Konzept der maximalen sequentiellen Muster an, da es die höchste Komprimierung der Muster garantiert.
2 GRUNDLAGEN 13 2.2.3 Partielle Ordnungen Die Suche nach partiellen Ordnungen ist ein eigenständiges Konzept innerhalb des Data Minings von Sequenzdaten. Mit diesem Konzept sollen häufige partielle Ordnungen zwischen Items in einer Sequenzdatenbank gefunden werden. Interessanterweise können dadurch auch völlig widersprüchliche häufige partielle Ordnungen gefunden werden, die unterschiedliche, häufige Ordnungsbeziehungen zwischen den Items kennzeichnen. In Abschnitt 2.2.1 wurde das Konzept der Suche nach sequentiellen Mustern durch Finden von häufigen Teilsequenzen in der Sequenzdatenbank vorgestellt. Mitunter können häufige Teilsequenzen nicht vollständig die inhärenten Ordnungsbeziehungen zwischen den Items in einer Sequenzdatenbank entschlüsseln. Das folgende Beispiel über die Suche nach häufigen Studienverläufen soll dies verdeutlichen. Beispiel 2.10. Angenommen, eine Universität bietet ein Aufbaustudiengang an. Das Vorlesungsangebot umfasst sechs verschiedene Fächer, die im Folgenden mit den Buchstaben a, b, c, d, e und f gekennzeichnet werden. Die Studenten dürfen pro Semester nur eine Prüfung in einem Fach belegen. Alle bestandenen Prüfungen wurden in eine Sequenzdatenbank gespeichert. Die Sequenzdatenbank enthält die folgenden vier Prüfungssequenzen der Studenten: s 1 = abcdef s 2 = acbde s 3 = dabce s 4 = dcabe Die Sequenz s 1 kennzeichnet zum Beispiel den Studienverlauf, dass zuerst das Fach a bestanden wurde und in einem späteren Semester das Fach b, danach das Fach c usw., bestanden wurde. Weiterhin sollten aber noch mehr Informationen genutzt werden, welche implizit in den Sequenzen schon vorhanden sind. Betrachtet wird wieder die Sequenz s 1 . s 1 gibt nicht nur die Beziehung bezüglich der direkten zeitlichen Abfolge der sechs Fächer a, b, c, d, e und f, sondern auch implizit die Beziehung bezüglich der indirekten zeitlichen Abfolge zwischen jeweils zwei verschiedenen Fächern wieder. Man kann also die zusätzliche Information aus s 1 gewinnen, dass a vor b, a vor c, a vor d, a vor e und a vor f bestanden wurde. Analog dazu können Aussagen über die Fächer b, c, d und e getroffen werden. Eine Ausnahme bildet das Fach f aus s 1 , da es das letzte Element aus s 1 ist und deshalb vor keinem anderen Fach bestanden wurde. Diese zusätzliche Information innerhalb einer Sequenz lässt sich gut in einem Graph darstellen, wobei die Items der Sequenz als Knoten und die Beziehungen zwischen jeweils zwei Items als gerichtete Kanten abgebildet werden. Zum Beispiel kennzeichnet die Kante a → b die Beziehung, dass das Fach a vor Fach b bestanden wurde. In der Abbildung 5 sind die vier Sequenzen als Graphen dargestellt.
Seite 1: Data Mining von Sequenzdaten Diplom
Seite 4 und 5: IV Zusammenfassung Das Forschungsfe
Seite 6 und 7: INHALTSVERZEICHNIS VI 5.1 PrefixSpa
Seite 8 und 9: 1 EINLEITUNG 2 Ein anderes wichtige
Seite 10 und 11: 1 EINLEITUNG 4 〈32100, 05/08, {
Seite 12 und 13: 1 EINLEITUNG 6 Dabei sollen die Dat
Seite 14 und 15: 2 GRUNDLAGEN 8 tern. Mit Hilfe des
Seite 16 und 17: 2 GRUNDLAGEN 10 ist, und d ein Prod
Seite 20 und 21: 2 GRUNDLAGEN 14 Abbildung 5: Darste
Seite 22 und 23: 2 GRUNDLAGEN 16 Zum Beispiel ist di
Seite 24 und 25: 2 GRUNDLAGEN 18 Wie schon im Anfang
Seite 26 und 27: 3 ALGORITHMEN 20 3 Algorithmen In d
Seite 28 und 29: 3 ALGORITHMEN 22 Um zu zeigen, dass
Seite 30 und 31: 3 ALGORITHMEN 24 3-Muster 2-Präfix
Seite 32 und 33: 3 ALGORITHMEN 26 1. Sei {x 1 , x 2
Seite 34 und 35: 3 ALGORITHMEN 28 Präfix projiziert
Seite 36 und 37: 3 ALGORITHMEN 30 dabei unterschiedl
Seite 38 und 39: 3 ALGORITHMEN 32 Abbildung 14: gesc
Seite 40 und 41: 3 ALGORITHMEN 34 nach häufigen, ge
Seite 42 und 43: 3 ALGORITHMEN 36 Eingabe: Sequenzda
Seite 44 und 45: 3 ALGORITHMEN 38 ist. Deshalb brauc
Seite 46 und 47: 3 ALGORITHMEN 40 th). Auch wird bei
Seite 48 und 49: 3 ALGORITHMEN 42 Respektive erhält
Seite 50 und 51: 4 DURCHFÜHRUNG DES DATA MININGS 44
Seite 58 und 59: 5 IMPLEMENTIERUNG 52 5 Implementier
Seite 60 und 61: 5 IMPLEMENTIERUNG 54 Abbildung 25:
Seite 62 und 63: 5 IMPLEMENTIERUNG 56 Methodenübers
Seite 64 und 65: 5 IMPLEMENTIERUNG 58 • boolean: i
Seite 66 und 67: 5 IMPLEMENTIERUNG 60 Abbildung 30:
Seite 68 und 69:
5 IMPLEMENTIERUNG 62 Abbildung 33:
Seite 70 und 71:
5 IMPLEMENTIERUNG 64 Berechnet den
Seite 72 und 73:
5 IMPLEMENTIERUNG 66 Abbildung 34:
Seite 74 und 75:
5 IMPLEMENTIERUNG 68 den MinSupport
Seite 76 und 77:
5 IMPLEMENTIERUNG 70 Auch lassen si
Seite 78 und 79:
5 IMPLEMENTIERUNG 72 Auswahlparamet
Seite 80 und 81:
5 IMPLEMENTIERUNG 74 (a) Kontextdia
Seite 82 und 83:
5 IMPLEMENTIERUNG 76 Im Folgenden s
Seite 84 und 85:
6 ERGEBNISSE 78 6 Ergebnisse In die
Seite 86 und 87:
6 ERGEBNISSE 80 (a) maximale sequen
Seite 88 und 89:
6 ERGEBNISSE 82 Im Folgenden sollen
Seite 90 und 91:
Seite 92 und 93:
6 ERGEBNISSE 86 jekt Technische Inf
Seite 94 und 95:
Seite 96 und 97:
6 ERGEBNISSE 90 dienverläufen. Es
Seite 98 und 99:
Seite 100 und 101:
6 ERGEBNISSE 94 Informationssysteme
Seite 102 und 103:
6 ERGEBNISSE 96 Elektrotechnische G
Seite 104 und 105:
7 SCHLUSS 98 7.2 Ausblick In dieser
Seite 106 und 107:
8 ANHANG 100 8.2 Beispiel für die
Seite 108 und 109:
8 ANHANG 102 8.4 Regelstudienplan d
Seite 110 und 111:
LITERATUR 104 Literatur [AG02] [AS9
Seite 112:
Erklärung Hiermit versichere ich,
Alle anzeigen

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?