01.11.2013 Aufrufe

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

Data Mining von Sequenzdaten - Fachgebiet Datenbanken und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

1 EINLEITUNG 1<br />

1 Einleitung<br />

1.1 <strong>Data</strong> <strong>Mining</strong> <strong>von</strong> <strong>Sequenzdaten</strong> - eine Einführung<br />

Die rasante technologische Entwicklung der letzten Jahrzehnte führte zu einer gigantischen<br />

Allgegenwart <strong>von</strong> Computern <strong>und</strong> Netzwerken in vielen verschiedenen Bereichen<br />

der Wirtschaft <strong>und</strong> Wissenschaft. Während die Rechenleistung <strong>von</strong> Computern kontinuierlich<br />

anstieg, sanken gleichzeitig die Kosten für Datenträger. Dies ermöglichte eine<br />

enorme Ansammlung <strong>von</strong> Datenbeständen, welche mit der Zeit zu unüberschaubaren<br />

Datenmengen heranwuchsen. Um diese riesige Datenmenge bewältigen zu können, entwickelte<br />

sich Ende der 80er Jahre das Forschungsfeld <strong>Data</strong> <strong>Mining</strong> mit der Zielsetzung, in<br />

den Daten wertvolle Informationen zu finden um dadurch die Daten nutzbar zu machen.<br />

So sind Unternehmen daran interessiert mehr über ihre K<strong>und</strong>en zu lernen um Werbekampagnen<br />

danach auszurichten, zukünftige Produkttrends vorherzusagen oder Betrugsfälle<br />

zu erkennen. Banken <strong>und</strong> Versicherungen wollen Investmentrisiken richtig einschätzen<br />

<strong>und</strong> zukünftige Börsenentwicklungen frühzeitig erkennen. Wissenschaftler aus<br />

vielen Bereichen suchen Muster in Daten aus ihren Experimenten. Auf der Suche nach<br />

geeigneten Behandlungsmethoden werden Gen- <strong>und</strong> Krankheitsdaten <strong>von</strong> Patienten in<br />

der Medizin nach möglichen Ursachen analysiert. Viele diese Bestrebungen können mit<br />

Hilfe <strong>von</strong> geeigneten <strong>Data</strong> <strong>Mining</strong>-Konzepten realisiert werden.<br />

In dieser Arbeit soll <strong>Data</strong> <strong>Mining</strong> als die Verwendung <strong>von</strong> spezifischen Algorithmen<br />

interpretiert werden um Muster aus Daten zu extrahieren. Aufgr<strong>und</strong> der starken Nachfrage<br />

gibt es inzwischen eine Vielzahl an <strong>Data</strong> <strong>Mining</strong>-Algorithmen <strong>und</strong> -Methoden für<br />

die verschiedensten Anwendungen. Deshalb ist es nicht verw<strong>und</strong>erlich, dass es verschiedene<br />

Teildisziplinen des <strong>Data</strong> <strong>Mining</strong>s gibt, die sich auf Nicht-Standard-Arten <strong>von</strong> Daten<br />

spezialisiert haben. Gegenstand dieser Arbeit ist die noch relativ neue <strong>und</strong> dynamische<br />

Teildisziplin: <strong>Data</strong> <strong>Mining</strong> <strong>von</strong> <strong>Sequenzdaten</strong>.<br />

<strong>Sequenzdaten</strong> kann man überall im täglichen Leben antreffen. Zum Beispiel stellt<br />

jeder Tagesablauf eine Sequenz <strong>von</strong> Tätigkeiten dar. Ein Gespräch zwischen zwei Personen<br />

kann man als eine Sequenz <strong>von</strong> Wörtern speichern. Wenn man mit der Straßenbahn<br />

fährt, wird eine bestimmte Sequenz <strong>von</strong> Haltestellen durchfahren. Aufgr<strong>und</strong> der besonderen<br />

Ordnungseigenschaft einer Sequenz eröffnen sich viele interessante <strong>und</strong> wichtige<br />

Anwendungen des <strong>Data</strong> <strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong>.<br />

Sequenzen treten auch häufig in vielen wissenschaftlichen, medizinischen oder wirtschaftlichen<br />

Bereichen auf. So können viele <strong>Data</strong> <strong>Mining</strong>-Probleme erst gelöst werden,<br />

wenn die zugr<strong>und</strong>eliegenden Daten als <strong>Sequenzdaten</strong> betrachtet werden. Ein klassisches<br />

Beispiel hierfür ist die das Gebiet der Analyse <strong>von</strong> DNA-Strukturen. Die DNA ist ein<br />

langes Kettenmolekül aus vielen Bausteinen, die als Nukleotide bezeichnet werden. Fasst<br />

man nun die DNA als eine Sequenz <strong>von</strong> Nukleotiden auf, bei der die Nukleotide nach<br />

ihren natürlichen Vorkommen in der DNA geordnet sind, können Konzepte des <strong>Data</strong><br />

<strong>Mining</strong>s <strong>von</strong> <strong>Sequenzdaten</strong> angewendet werden um interessante Muster in der DNA-<br />

Struktur zu finden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!