12.07.2015 Aufrufe

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2. Allgemeine Grundlagen 13Mittlerweile nehmen die Datenbestände einen nicht unbeträchtlichen Umfang an, dementsprechendviel Aufwand wird datenbankseitig investiert und dementsprechend vielseitigist das Angebot. Die Größe einiger Datenbanken bewegt sich mittlerweile in RichtungPetabyte 3 [3]. Ob ihrer Anzahl und Vielseitigkeit kann man schnell den Überblickverlieren. So stellen beispielsweise Cochrane und Galperin im Dezember 2009 in [9]fest, dass mit Ende des Jahres insgesamt 1230 Datenbanken in der Database Issue andDatabase Collection registriert 4 sind.Für statistische Auswertungen ist die Menge der zur Verfügung stehenden Datensätzewesentlich. Eine Vernetzung der Datenbestände untereinander sichert die Qualität derDaten und lässt komplexe Analysen zu, jedoch kommt neben der Datenmenge damitder einheitlichen Auszeichnung der Datenbestände wie auch der Qualität der Dateneine besondere Bedeutung zu [32].Aufgrund der rasant zunehmenden Datenbankgrößen ist es nicht verwunderlich, dassimmer wieder neue Methoden zur effizienten Speicherung und Filterung der Daten entwickeltwerden. Herkömmliche Abfragesprachen wie SQL (Structured Query Language)finden selten Anwendung, wenn aus der Menge aller Sequenzen nur bestimmte Sequenzengefunden werden sollen oder Sequenzen untereinander verglichen werden müssen.Die Filter verfolgen vielmehr das Prinzip der Suche nach Ähnlichkeiten, welche in irgendeinerForm quantifiziert werden müssen (siehe auch Kapitel 3.1 und Kapitel 3.2ff).FASTA 5 und BLAST 6 , die beiden bekanntesten Sequenzfilter, vergleichen bei einer Abfragebeispielsweise sämtliche Einträge der Datenbank mit der Ausgangssequenz (querysequence) und errechnen die Ähnlichkeiten mithilfe von Scoring-Matrizen, auch Substitutionsmatrizen(siehe Kapitel 3.6) genannt, um die Menge der Zielsequenzen (targetsequences) zu ermitteln [21, 31, 33]. Beide Algorithmen haben gemeinsam, dass siein einem Vorauswahlverfahren mittels Approximation aus allen Sequenzen eine stark3 Ein Petabyte sind 1000 Terabyte oder anders ausgedrückt etwa 10 hoch 15 Byte.4 Alljährlich wird im ersten Heft der Zeitschrift Nucleic Acids Research eines jeden Jahrgangs in derDatabase Issue and Database Collection“ ein Überblick über die Entwicklung molekularbiologischer”Datenbanken gegeben [9]. Eine aktuelle Liste der gesammelten Datenbanken findet man unter OnlineDatabase Collection, http://www.oxfordjournals.org/nar/database/a/ (Stand: 7. April 2010).5 FASTA (FAST-ALL) ist eine Suchmethode zur schnellen Filterung von Sequenzen in Datenbanken:http://www.ebi.ac.uk/Tools/fasta/ (Stand: 3. August 2010)6 BLAST (Basic Local Alignment Search Tool): http://www.ebi.ac.uk/Tools/blast/ (Stand: 3.August 2010)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!