MASTERARBEIT - Fachhochschule Salzburg

Weitere Magazine

Empfehlungen

Info

2. Allgemeine Grundlagen 13Mittlerweile nehmen die Datenbestände einen nicht unbeträchtlichen Umfang an, dementsprechendviel Aufwand wird datenbankseitig investiert und dementsprechend vielseitigist das Angebot. Die Größe einiger Datenbanken bewegt sich mittlerweile in RichtungPetabyte 3 [3]. Ob ihrer Anzahl und Vielseitigkeit kann man schnell den Überblickverlieren. So stellen beispielsweise Cochrane und Galperin im Dezember 2009 in [9]fest, dass mit Ende des Jahres insgesamt 1230 Datenbanken in der Database Issue andDatabase Collection registriert 4 sind.Für statistische Auswertungen ist die Menge der zur Verfügung stehenden Datensätzewesentlich. Eine Vernetzung der Datenbestände untereinander sichert die Qualität derDaten und lässt komplexe Analysen zu, jedoch kommt neben der Datenmenge damitder einheitlichen Auszeichnung der Datenbestände wie auch der Qualität der Dateneine besondere Bedeutung zu [32].Aufgrund der rasant zunehmenden Datenbankgrößen ist es nicht verwunderlich, dassimmer wieder neue Methoden zur effizienten Speicherung und Filterung der Daten entwickeltwerden. Herkömmliche Abfragesprachen wie SQL (Structured Query Language)finden selten Anwendung, wenn aus der Menge aller Sequenzen nur bestimmte Sequenzengefunden werden sollen oder Sequenzen untereinander verglichen werden müssen.Die Filter verfolgen vielmehr das Prinzip der Suche nach Ähnlichkeiten, welche in irgendeinerForm quantifiziert werden müssen (siehe auch Kapitel 3.1 und Kapitel 3.2ff).FASTA 5 und BLAST 6 , die beiden bekanntesten Sequenzfilter, vergleichen bei einer Abfragebeispielsweise sämtliche Einträge der Datenbank mit der Ausgangssequenz (querysequence) und errechnen die Ähnlichkeiten mithilfe von Scoring-Matrizen, auch Substitutionsmatrizen(siehe Kapitel 3.6) genannt, um die Menge der Zielsequenzen (targetsequences) zu ermitteln [21, 31, 33]. Beide Algorithmen haben gemeinsam, dass siein einem Vorauswahlverfahren mittels Approximation aus allen Sequenzen eine stark3 Ein Petabyte sind 1000 Terabyte oder anders ausgedrückt etwa 10 hoch 15 Byte.4 Alljährlich wird im ersten Heft der Zeitschrift Nucleic Acids Research eines jeden Jahrgangs in derDatabase Issue and Database Collection“ ein Überblick über die Entwicklung molekularbiologischer”Datenbanken gegeben [9]. Eine aktuelle Liste der gesammelten Datenbanken findet man unter OnlineDatabase Collection, http://www.oxfordjournals.org/nar/database/a/ (Stand: 7. April 2010).5 FASTA (FAST-ALL) ist eine Suchmethode zur schnellen Filterung von Sequenzen in Datenbanken:http://www.ebi.ac.uk/Tools/fasta/ (Stand: 3. August 2010)6 BLAST (Basic Local Alignment Search Tool): http://www.ebi.ac.uk/Tools/blast/ (Stand: 3.August 2010)
2. Allgemeine Grundlagen 14verkleinerte Menge der potentiell interessanten Sequenzen ermittelt, welche dann einergenaueren Analyse unterzogen werden. Ohne diese Vorauswahl wären On-the-Fly-Abfragen in großen Datenbanken kaum mehr möglich [33].Bei den Datenbanken unterscheidet man den abgelegten Daten zufolge zwischen primärenund sekundären Datenbanken. In den primären Datenbanken werden die experimentellermittelten Rohdaten abgelegt, wohingegen in den sekundären Datenbankendas von den Sequenzen abgeleitete Wissen samt allen Querverweisen gespeichert wird.Eine der erfolgreichsten Protein-Datenbanken dieser Art ist SWISS-PROT 7 , welchein ihren Datensätzen wiederum auf mehr als 100 andere Datensammlungen referenziert[46, 32]. Auf Basis der Spezialisierung auf bestimmte Daten bzw. der Darstellungder Sequenzen werden sie auch in DNA-Sequenz-, RNA-Sequenz-, Proteinsequenz undProteinstrukturdatenbanken unterteilt.Aufgrund der Fülle der Datenbanken kann hier nur noch einmal auf die Database Issueand Database Collection 8 von Nucleic Acids Research verwiesen werden. Exemplarischwerden zwei Datenbanken herausgegriffen und kurz eingeführt, die im Rahmen dieserArbeit zur Anwendung kommen, SCOP und Pfam.2.5.1 SCOP (Structural Classification Of Proteins)Die Proteindatenbank SCOP 9 (Structural Classification Of Proteins) organisiert ihreDaten anhand einer hierarchischen Klassifikation der Proteine basierend auf Sequenzähnlichkeitenund der 3D-Struktur eines Proteins. Ziel von SCOP ist die Abbildungstruktureller und evolutionärer Verwandtschaftsbeziehungen von Proteinen [2].Im Laufe der evolutionären Entwicklungen mutieren Proteine, wobei sich deren Sequenzenund Funktionen deutlich verändern können. Die Struktur der Proteine istoft stärker konserviert als die Sequenzen und Funktionen es sind, und erlaubt einenRückschluss auf gemeinsame evolutionäre Entwicklungen, selbst wenn der Sequenzvergleichkeine Verwandtschaftsbeziehungen mehr erkennen lässt. Murzin et al. [2] nutzten7 SWISS-PROT Protein Knowledgebase: http://expasy.org/sprot/ (Stand: 14. August 2010)8 Database Issue and Database Collection: http://www.oxfordjournals.org/nar/database/a/(Stand: 7. April 2010)9 SCOP (Structural Classification of Proteins) Database (1.75 release, June 2009): http://scop.mrc-lmb.cam.ac.uk/scop/ (Stand: 1. Juli 2010)
Seite 1 und 2: MASTERARBEITMultiples Sequenzalignm
Seite 3 und 4: InformationenVor- und Zuname: DI(FH
Seite 5 und 6: 3.2.1 Hamming-Abstand und -Ähnlich
Seite 7 und 8: B Umgebung und Applikationen 115B.1
Seite 9 und 10: Tabellenverzeichnis2.1 Standardisie
Seite 11 und 12: 1. Einführung 2Kombination die Eig
Seite 13 und 14: 1. Einführung 4Im Kapitel 5 werden
Seite 15 und 16: 2. Allgemeine Grundlagen 62.1 Prote
Seite 17 und 18: 2. Allgemeine Grundlagen 8Heute wer
Seite 19 und 20: 2. Allgemeine Grundlagen 10Buchstab
Seite 21: 2. Allgemeine Grundlagen 12müssen
Seite 25 und 26: 2. Allgemeine Grundlagen 16proteins
Seite 27 und 28: 3. Grundlagen des Sequenzalignments
Seite 53 und 54: 4. Multiples Sequenzalignment 444.1
Seite 55 und 56: 4. Multiples Sequenzalignment 46doc
Seite 57 und 58: 4. Multiples Sequenzalignment 484.4
Seite 59 und 60: 4. Multiples Sequenzalignment 50Ist
Seite 61 und 62: 5. Hidden Markov Modelle 52Haussler
Seite 63 und 64: 5. Hidden Markov Modelle 54Markov-K
Seite 65 und 66: 5. Hidden Markov Modelle 56Konsensp
Seite 67 und 68: 5. Hidden Markov Modelle 585.4 Verw
Seite 69 und 70: 5. Hidden Markov Modelle 605.4.2 De
Seite 71 und 72: 6Implementierung eines MSA miteinem
Seite 73 und 74:
6. Implementierung eines MSA mit ei
Seite 75 und 76:
Seite 77 und 78:
Seite 79 und 80:
Seite 81 und 82:
Seite 83 und 84:
Seite 85 und 86:
Seite 87 und 88:
Seite 89 und 90:
7. Bewertung der Ergebnisse 80• D
Seite 91 und 92:
7. Bewertung der Ergebnisse 827.2 D
Seite 93 und 94:
7. Bewertung der Ergebnisse 84Grö
Seite 95 und 96:
7. Bewertung der Ergebnisse 86und d
Seite 97 und 98:
7. Bewertung der Ergebnisse 88Abbil
Seite 99 und 100:
7. Bewertung der Ergebnisse 90Die S
Seite 101 und 102:
7. Bewertung der Ergebnisse 92[27]
Seite 103 und 104:
7. Bewertung der Ergebnisse 94Das D
Seite 105 und 106:
7. Bewertung der Ergebnisse 96Matri
Seite 107 und 108:
7. Bewertung der Ergebnisse 98Tabel
Seite 109 und 110:
8Zusammenfassung und AusblickEines
Seite 111 und 112:
8. Zusammenfassung und Ausblick 102
Seite 113 und 114:
Literaturverzeichnis 104[9] G.R. Co
Seite 115 und 116:
Literaturverzeichnis 106[28] D.J. L
Seite 117 und 118:
AbkürzungsverzeichnisBLOSUM . . .
Seite 119 und 120:
Anhang110
Seite 121 und 122:
A. Tabellen und Abbildungen 112Tabe
Seite 123 und 124:
A. Tabellen und Abbildungen 114Tabe
Seite 125 und 126:
B. Umgebung und Applikationen 116B.
Seite 127 und 128:
B. Umgebung und Applikationen 118B.
Seite 129 und 130:
CDaten- und ErgebnisdateienC.1 Astr
Seite 131 und 132:
C. Daten- und Ergebnisdateien 122C.
Seite 133 und 134:
DQuelltexteD.1 amodseq: Alignment v
Seite 135:
EDatenträger126
Alle anzeigen

MASTERARBEIT - Fachhochschule Salzburg

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?