Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2 GRUNDLAGEN 13<br />
2.2.3 Partielle Ordnungen<br />
Die Suche nach partiellen Ordnungen ist ein eigenständiges Konzept innerhalb des <strong>Data</strong><br />
<strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong>. Mit diesem Konzept sollen häufige partielle Ordnungen<br />
zwischen Items in einer <strong>Sequenzdaten</strong>bank gef<strong>und</strong>en werden. Interessanterweise können<br />
dadurch auch völlig widersprüchliche häufige partielle Ordnungen gef<strong>und</strong>en werden, die<br />
unterschiedliche, häufige Ordnungsbeziehungen zwischen den Items kennzeichnen.<br />
In Abschnitt 2.2.1 wurde das Konzept der Suche nach sequentiellen Mustern durch<br />
Finden <strong>von</strong> häufigen Teilsequenzen in der <strong>Sequenzdaten</strong>bank vorgestellt. Mitunter können<br />
häufige Teilsequenzen nicht vollständig die inhärenten Ordnungsbeziehungen zwischen<br />
den Items in einer <strong>Sequenzdaten</strong>bank entschlüsseln. Das folgende Beispiel über<br />
die Suche nach häufigen Studienverläufen soll dies verdeutlichen.<br />
Beispiel 2.10. Angenommen, eine Universität bietet ein Aufbaustudiengang an. Das<br />
Vorlesungsangebot umfasst sechs verschiedene Fächer, die im Folgenden mit den Buchstaben<br />
a, b, c, d, e <strong>und</strong> f gekennzeichnet werden. Die Studenten dürfen pro Semester<br />
nur eine Prüfung in einem Fach belegen. Alle bestandenen Prüfungen wurden in eine<br />
<strong>Sequenzdaten</strong>bank gespeichert. Die <strong>Sequenzdaten</strong>bank enthält die folgenden vier Prüfungssequenzen<br />
der Studenten:<br />
s 1 = abcdef<br />
s 2 = acbde<br />
s 3 = dabce<br />
s 4 = dcabe<br />
Die Sequenz s 1 kennzeichnet zum Beispiel den Studienverlauf, dass zuerst das Fach a<br />
bestanden wurde <strong>und</strong> in einem späteren Semester das Fach b, danach das Fach c usw.,<br />
bestanden wurde.<br />
Weiterhin sollten aber noch mehr Informationen genutzt werden, welche implizit in<br />
den Sequenzen schon vorhanden sind. Betrachtet wird wieder die Sequenz s 1 . s 1 gibt nicht<br />
nur die Beziehung bezüglich der direkten zeitlichen Abfolge der sechs Fächer a, b, c, d, e<br />
<strong>und</strong> f, sondern auch implizit die Beziehung bezüglich der indirekten zeitlichen Abfolge<br />
zwischen jeweils zwei verschiedenen Fächern wieder. Man kann also die zusätzliche Information<br />
aus s 1 gewinnen, dass a vor b, a vor c, a vor d, a vor e <strong>und</strong> a vor f bestanden<br />
wurde. Analog dazu können Aussagen über die Fächer b, c, d <strong>und</strong> e getroffen werden.<br />
Eine Ausnahme bildet das Fach f aus s 1 , da es das letzte Element aus s 1 ist <strong>und</strong> deshalb<br />
vor keinem anderen Fach bestanden wurde.<br />
Diese zusätzliche Information innerhalb einer Sequenz lässt sich gut in einem Graph<br />
darstellen, wobei die Items der Sequenz als Knoten <strong>und</strong> die Beziehungen zwischen jeweils<br />
zwei Items als gerichtete Kanten abgebildet werden. Zum Beispiel kennzeichnet die Kante<br />
a → b die Beziehung, dass das Fach a vor Fach b bestanden wurde. In der Abbildung 5<br />
sind die vier Sequenzen als Graphen dargestellt.