Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1 EINLEITUNG 6<br />
Dabei sollen die Daten nach geeigneten Modellen aufbereitet werden, so dass Werkzeuge<br />
des <strong>Data</strong> <strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong> darauf angewendet werden können. Für die<br />
Lösung des Problems sollen Algorithmen ausgearbeitet, ausgewählt <strong>und</strong> implementiert<br />
werden, welche Muster in den Prüfungsdaten finden. Gegebenfalls können dabei <strong>Data</strong><br />
<strong>Mining</strong>-Algorithmen der Open-Source-Anwendung Weka [Weka07] verwendet werden.<br />
Darüberhinaus sollen die verwendeten Algorithmen in einer grafischen Benutzeroberfläche<br />
eingeb<strong>und</strong>en werden, so dass dem Benutzer eine komfortable Möglichkeit geboten<br />
wird, die implementierten Algorithmen auf <strong>Sequenzdaten</strong> anzuwenden. Zusätzlich soll<br />
die grafische Benutzeroberfläche die gef<strong>und</strong>enen Muster aussagekräftig darstellen können,<br />
<strong>und</strong> eine komfortable Handhabung der Ergebnisse ermöglichen.<br />
1.4 Aufbau der Arbeit<br />
Diese Arbeit ist so aufgebaut, dass alle notwendigen Schritte zur Lösung der Aufgabenstellung<br />
nacheinander behandelt werden. Im Kapitel 2 werden als erstes Vorüberlegungen<br />
getroffen, inwieweit Konzepte des <strong>Data</strong> <strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong> dazu geeignet sind,<br />
die Aufgabenstellung zu lösen. Danach werden die für geeignet bef<strong>und</strong>enen Konzepte<br />
vorgestellt.<br />
Das dritte Kapitel beschäftigt sich mit den Algorithmen, die für die vorgestellten Konzepte<br />
aus Kapitel 2 geeignet sind. Es werden für jedes Konzept stellvertretend jeweils<br />
zwei Algorithmen vorgestellt. Anschließend wird im Zuge eines Vergleichs der Algorithmen<br />
eine Auswahl getroffen, welche Algorithmen implementiert werden sollen. Zusätzlich<br />
werden eigene Algorithmen für die Red<strong>und</strong>anzbehebung vorgestellt. Am Ende des Kapitels<br />
wird noch auf weitere Algorithmen verwiesen, die aufgr<strong>und</strong> ihres Umfangs nicht<br />
behandelt werden können.<br />
In Kapitel 4 werden zwei wichtige Schritte im <strong>Data</strong> <strong>Mining</strong>-Prozess beschrieben. Zuerst<br />
werden die zugr<strong>und</strong>eliegenden Daten für das <strong>Data</strong> <strong>Mining</strong> vorgestellt. Darüberhinaus<br />
wird beschrieben wie die Daten bereinigt <strong>und</strong> aufbereitet wurden. Danach erfolgt<br />
eine Erläuterung, wie die Ergebnisse des <strong>Data</strong> <strong>Mining</strong>s dargestellt werden können. Insbesondere<br />
wird das Visualisierungprogrammpaket GraphViz vorgestellt, welche für die<br />
Darstellung der Ergebnisse verwendet wird.<br />
Nach diesen Betrachtungen befasst sich das Kapitel 5 mit der Implemeniertung der<br />
augewählten <strong>Data</strong> <strong>Mining</strong>-Algorithmen aus Kapitel 3 <strong>und</strong> der grafischen Benutzeroberfläche.<br />
Bezüglich der Implementierung der Algorithmen werden dabei die verwendeten<br />
Datenstrukturen <strong>und</strong> Techniken beschrieben. Im Anschluss daran werden die Funktionalitäten<br />
<strong>und</strong> Benutzungshinweise für die grafische Benutzeroberfläche erläutert.<br />
Schließlich werden die Ergebnisse, die mit Hilfe der implementierten Algorithmen<br />
in den Prüfungsdaten gef<strong>und</strong>en wurden, in Kapitel 6 vorgestellt <strong>und</strong> interpretiert. Es<br />
erfolgt danach ein Fazit über die gef<strong>und</strong>enen Muster in den <strong>Sequenzdaten</strong>. Im Kaptitel 7<br />
wird eine Zusammenfassung der Arbeit dargelegt. Darauffolgend wird im Rahmen eines<br />
Ausblicks auf mögliche Verbesserungen hingewiesen.