01.11.2013 Aufrufe

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2 GRUNDLAGEN 13<br />

2.2.3 Partielle Ordnungen<br />

Die Suche nach partiellen Ordnungen ist ein eigenständiges Konzept innerhalb des <strong>Data</strong><br />

<strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong>. Mit diesem Konzept sollen häufige partielle Ordnungen<br />

zwischen Items in einer <strong>Sequenzdaten</strong>bank gef<strong>und</strong>en werden. Interessanterweise können<br />

dadurch auch völlig widersprüchliche häufige partielle Ordnungen gef<strong>und</strong>en werden, die<br />

unterschiedliche, häufige Ordnungsbeziehungen zwischen den Items kennzeichnen.<br />

In Abschnitt 2.2.1 wurde das Konzept der Suche nach sequentiellen Mustern durch<br />

Finden <strong>von</strong> häufigen Teilsequenzen in der <strong>Sequenzdaten</strong>bank vorgestellt. Mitunter können<br />

häufige Teilsequenzen nicht vollständig die inhärenten Ordnungsbeziehungen zwischen<br />

den Items in einer <strong>Sequenzdaten</strong>bank entschlüsseln. Das folgende Beispiel über<br />

die Suche nach häufigen Studienverläufen soll dies verdeutlichen.<br />

Beispiel 2.10. Angenommen, eine Universität bietet ein Aufbaustudiengang an. Das<br />

Vorlesungsangebot umfasst sechs verschiedene Fächer, die im Folgenden mit den Buchstaben<br />

a, b, c, d, e <strong>und</strong> f gekennzeichnet werden. Die Studenten dürfen pro Semester<br />

nur eine Prüfung in einem Fach belegen. Alle bestandenen Prüfungen wurden in eine<br />

<strong>Sequenzdaten</strong>bank gespeichert. Die <strong>Sequenzdaten</strong>bank enthält die folgenden vier Prüfungssequenzen<br />

der Studenten:<br />

s 1 = abcdef<br />

s 2 = acbde<br />

s 3 = dabce<br />

s 4 = dcabe<br />

Die Sequenz s 1 kennzeichnet zum Beispiel den Studienverlauf, dass zuerst das Fach a<br />

bestanden wurde <strong>und</strong> in einem späteren Semester das Fach b, danach das Fach c usw.,<br />

bestanden wurde.<br />

Weiterhin sollten aber noch mehr Informationen genutzt werden, welche implizit in<br />

den Sequenzen schon vorhanden sind. Betrachtet wird wieder die Sequenz s 1 . s 1 gibt nicht<br />

nur die Beziehung bezüglich der direkten zeitlichen Abfolge der sechs Fächer a, b, c, d, e<br />

<strong>und</strong> f, sondern auch implizit die Beziehung bezüglich der indirekten zeitlichen Abfolge<br />

zwischen jeweils zwei verschiedenen Fächern wieder. Man kann also die zusätzliche Information<br />

aus s 1 gewinnen, dass a vor b, a vor c, a vor d, a vor e <strong>und</strong> a vor f bestanden<br />

wurde. Analog dazu können Aussagen über die Fächer b, c, d <strong>und</strong> e getroffen werden.<br />

Eine Ausnahme bildet das Fach f aus s 1 , da es das letzte Element aus s 1 ist <strong>und</strong> deshalb<br />

vor keinem anderen Fach bestanden wurde.<br />

Diese zusätzliche Information innerhalb einer Sequenz lässt sich gut in einem Graph<br />

darstellen, wobei die Items der Sequenz als Knoten <strong>und</strong> die Beziehungen zwischen jeweils<br />

zwei Items als gerichtete Kanten abgebildet werden. Zum Beispiel kennzeichnet die Kante<br />

a → b die Beziehung, dass das Fach a vor Fach b bestanden wurde. In der Abbildung 5<br />

sind die vier Sequenzen als Graphen dargestellt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!