Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
1 EINLEITUNG 1<br />
1 Einleitung<br />
1.1 <strong>Data</strong> <strong>Mining</strong> <strong>von</strong> <strong>Sequenzdaten</strong> - eine Einführung<br />
Die rasante technologische Entwicklung der letzten Jahrzehnte führte zu einer gigantischen<br />
Allgegenwart <strong>von</strong> Computern <strong>und</strong> Netzwerken in vielen verschiedenen Bereichen<br />
der Wirtschaft <strong>und</strong> Wissenschaft. Während die Rechenleistung <strong>von</strong> Computern kontinuierlich<br />
anstieg, sanken gleichzeitig die Kosten für Datenträger. Dies ermöglichte eine<br />
enorme Ansammlung <strong>von</strong> Datenbeständen, welche mit der Zeit zu unüberschaubaren<br />
Datenmengen heranwuchsen. Um diese riesige Datenmenge bewältigen zu können, entwickelte<br />
sich Ende der 80er Jahre das Forschungsfeld <strong>Data</strong> <strong>Mining</strong> mit der Zielsetzung, in<br />
den Daten wertvolle Informationen zu finden um dadurch die Daten nutzbar zu machen.<br />
So sind Unternehmen daran interessiert mehr über ihre K<strong>und</strong>en zu lernen um Werbekampagnen<br />
danach auszurichten, zukünftige Produkttrends vorherzusagen oder Betrugsfälle<br />
zu erkennen. Banken <strong>und</strong> Versicherungen wollen Investmentrisiken richtig einschätzen<br />
<strong>und</strong> zukünftige Börsenentwicklungen frühzeitig erkennen. Wissenschaftler aus<br />
vielen Bereichen suchen Muster in Daten aus ihren Experimenten. Auf der Suche nach<br />
geeigneten Behandlungsmethoden werden Gen- <strong>und</strong> Krankheitsdaten <strong>von</strong> Patienten in<br />
der Medizin nach möglichen Ursachen analysiert. Viele diese Bestrebungen können mit<br />
Hilfe <strong>von</strong> geeigneten <strong>Data</strong> <strong>Mining</strong>-Konzepten realisiert werden.<br />
In dieser Arbeit soll <strong>Data</strong> <strong>Mining</strong> als die Verwendung <strong>von</strong> spezifischen Algorithmen<br />
interpretiert werden um Muster aus Daten zu extrahieren. Aufgr<strong>und</strong> der starken Nachfrage<br />
gibt es inzwischen eine Vielzahl an <strong>Data</strong> <strong>Mining</strong>-Algorithmen <strong>und</strong> -Methoden für<br />
die verschiedensten Anwendungen. Deshalb ist es nicht verw<strong>und</strong>erlich, dass es verschiedene<br />
Teildisziplinen des <strong>Data</strong> <strong>Mining</strong>s gibt, die sich auf Nicht-Standard-Arten <strong>von</strong> Daten<br />
spezialisiert haben. Gegenstand dieser Arbeit ist die noch relativ neue <strong>und</strong> dynamische<br />
Teildisziplin: <strong>Data</strong> <strong>Mining</strong> <strong>von</strong> <strong>Sequenzdaten</strong>.<br />
<strong>Sequenzdaten</strong> kann man überall im täglichen Leben antreffen. Zum Beispiel stellt<br />
jeder Tagesablauf eine Sequenz <strong>von</strong> Tätigkeiten dar. Ein Gespräch zwischen zwei Personen<br />
kann man als eine Sequenz <strong>von</strong> Wörtern speichern. Wenn man mit der Straßenbahn<br />
fährt, wird eine bestimmte Sequenz <strong>von</strong> Haltestellen durchfahren. Aufgr<strong>und</strong> der besonderen<br />
Ordnungseigenschaft einer Sequenz eröffnen sich viele interessante <strong>und</strong> wichtige<br />
Anwendungen des <strong>Data</strong> <strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong>.<br />
Sequenzen treten auch häufig in vielen wissenschaftlichen, medizinischen oder wirtschaftlichen<br />
Bereichen auf. So können viele <strong>Data</strong> <strong>Mining</strong>-Probleme erst gelöst werden,<br />
wenn die zugr<strong>und</strong>eliegenden Daten als <strong>Sequenzdaten</strong> betrachtet werden. Ein klassisches<br />
Beispiel hierfür ist die das Gebiet der Analyse <strong>von</strong> DNA-Strukturen. Die DNA ist ein<br />
langes Kettenmolekül aus vielen Bausteinen, die als Nukleotide bezeichnet werden. Fasst<br />
man nun die DNA als eine Sequenz <strong>von</strong> Nukleotiden auf, bei der die Nukleotide nach<br />
ihren natürlichen Vorkommen in der DNA geordnet sind, können Konzepte des <strong>Data</strong><br />
<strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong> angewendet werden um interessante Muster in der DNA-<br />
Struktur zu finden.