MASTERARBEIT - Fachhochschule Salzburg

Weitere Magazine

Empfehlungen

Info

3. Grundlagen des Sequenzalignments 41Wiederholt man die oben beschriebene Randomisierung und Alignierung entsprechendoft mit anderen randomisierten Sequenzen, so erhält man eine Häufigkeitsverteilung derScores auf der Basis der beiden Ausgangssequenzen. Das in Abbildung 3.2 dargestellteHistogramm beschreibt, welche Scores in welchem Umfang aufgrund der Sequenzzusammensetzungenzu erwarten sind. Ohne hierbei auf die zwei konkreten Ausgangssequenzenund deren Scores näher einzugehen, lässt sich aus dem dargestellten Histogrammeine Verteilungsfunktion erkennen.Abbildung 3.2: Histogramm der Score-Verteilung randomisierter Sequenzen. Der roteBalken zeigt den Wert des ausgewählten Originalalignments. Die Kurve zeigt dietheoretische Verteilung nach Karlin-Altschul (basierend auf [21])So zeigt das Histogramm in der Abbildung 3.2, dass der Score von -11 die größteHäufigkeit hat. Der Score des Originalalignments am äußeren rechten Rand der Score-Verteilungskurve (siehe roter Balken) zeigt eine Ähnlichkeit der beiden Sequenzen an,die über die Sequenzzusammensetzung deutlich hinausgeht. Ein Score von 11 weist aufeinen Score hin, dessen zufälliges Auftreten bei der dargestellten Verteilung als unwahrscheinlichgelten kann. Die in der Abbildung dargestellte theoretische Verteilungskurve,lässt das Maximum in Bereich von etwa -8 erwarten.Theoretisch wären auch andere Verteilungsfunktionen möglich, wenn die Berechnungder Scores auf anderen Bewertungsgrundlagen als jene der Symbolhäufigkeiten undderen Paarungen basiert. Die Kenntnis der Verteilungsfunktion der Scores ist abernotwendig, soll die Größe eines Scores einem Bezugssystem zugeordnet werden können.
3. Grundlagen des Sequenzalignments 423.7.3 Standardisierung der ScoresAus dem Histogramm geht augenscheinlich hervor, dass mit einem Score von 11 eineüber dem Zufall liegende Ähnlichkeit der beiden Originalsequenzen wahrscheinlich ist.Diese Erkenntnis soll jedoch auch quantitativ ausgedrückt werden können. Als einfachzu errechnender Wert gilt dafür der Z-Score, den beispielsweise auch der FASTA 4 -Algorithmus verwendet. Der Z-Score wird dabei einer Standardisierung (Z-Transformation)über den Mittelwert und der Standardabweichung unterzogen, um die Scoresmiteinander vergleichbar zu machen und zu standardisieren [37].Der Z-Score gibt die Abweichung eines konkreten Wertes s vom Mittelwert ¯S derScoreverteilung als Vielfache der Standardabweichung σ S an [32].Z-Score := s − ¯Sσ S(3.10)Je größer der Score s ist, desto mehr weicht er an den rechten Rand der Verteilung,also in die positive X-Richtung aus. Umso weiter der Score rechts vom Mittelwert ¯Sliegt, desto größer ist die Wahrscheinlichkeit, dass der Score keinem Zufall entsprichtbzw. das Alignment nicht die Folge einer zufälliger Übereinstimmungen ist.Als zum Z-Score alternative Kenngrößen kommen auch der P-Wert (P-Value) undE-Wert (E-Value) zur Anwendung. Der P-Wert gibt die Wahrscheinlichkeit an, dassein gleich hoher oder höherer Score durch eine zufällige Übereinstimmung zustandegekommen ist. Der E-Wert hängt von der Menge der Eingangssequenzen ab. Er gibtdie erwartete Zahl jener Sequenzen der gesamten Menge an, die beim Vergleich miteiner randomisierten Sequenz zum errechneten oder einen höheren Score führen würde[21].Die bisherigen Betrachtungen haben sich ausschließlich paarweisen Sequenzvergleichenund -alignments gewidmet. Die multiple Alignierung von Sequenzen als Erweiterungobiger Verfahren gilt algorithmisch als wesentlich komplexer. Eine genauere Betrachtungdieser Problemstellung ist Thema des folgenden Kapitels.4 Der FASTA-Algorithmus wurde 1985 von David J. Lipman und William R. Pearson als FASTPfür Proteine entwickelt [28]; die aktuellen FASTA-Tools sowohl für Proteine als auch Nukleotide sindunter http://www.ebi.ac.uk/Tools/fasta/index.html zu finden.
Seite 1 und 2: MASTERARBEITMultiples Sequenzalignm
Seite 3 und 4: InformationenVor- und Zuname: DI(FH
Seite 5 und 6: 3.2.1 Hamming-Abstand und -Ähnlich
Seite 7 und 8: B Umgebung und Applikationen 115B.1
Seite 9 und 10: Tabellenverzeichnis2.1 Standardisie
Seite 11 und 12: 1. Einführung 2Kombination die Eig
Seite 13 und 14: 1. Einführung 4Im Kapitel 5 werden
Seite 15 und 16: 2. Allgemeine Grundlagen 62.1 Prote
Seite 17 und 18: 2. Allgemeine Grundlagen 8Heute wer
Seite 19 und 20: 2. Allgemeine Grundlagen 10Buchstab
Seite 21 und 22: 2. Allgemeine Grundlagen 12müssen
Seite 23 und 24: 2. Allgemeine Grundlagen 14verklein
Seite 25 und 26: 2. Allgemeine Grundlagen 16proteins
Seite 27 und 28: 3. Grundlagen des Sequenzalignments
Seite 49: 3. Grundlagen des Sequenzalignments
Seite 53 und 54: 4. Multiples Sequenzalignment 444.1
Seite 55 und 56: 4. Multiples Sequenzalignment 46doc
Seite 57 und 58: 4. Multiples Sequenzalignment 484.4
Seite 59 und 60: 4. Multiples Sequenzalignment 50Ist
Seite 61 und 62: 5. Hidden Markov Modelle 52Haussler
Seite 63 und 64: 5. Hidden Markov Modelle 54Markov-K
Seite 65 und 66: 5. Hidden Markov Modelle 56Konsensp
Seite 67 und 68: 5. Hidden Markov Modelle 585.4 Verw
Seite 69 und 70: 5. Hidden Markov Modelle 605.4.2 De
Seite 71 und 72: 6Implementierung eines MSA miteinem
Seite 73 und 74: 6. Implementierung eines MSA mit ei
Seite 89 und 90: 7. Bewertung der Ergebnisse 80• D
Seite 91 und 92: 7. Bewertung der Ergebnisse 827.2 D
Seite 93 und 94: 7. Bewertung der Ergebnisse 84Grö
Seite 95 und 96: 7. Bewertung der Ergebnisse 86und d
Seite 97 und 98: 7. Bewertung der Ergebnisse 88Abbil
Seite 99 und 100: 7. Bewertung der Ergebnisse 90Die S
Seite 101 und 102:
7. Bewertung der Ergebnisse 92[27]
Seite 103 und 104:
7. Bewertung der Ergebnisse 94Das D
Seite 105 und 106:
7. Bewertung der Ergebnisse 96Matri
Seite 107 und 108:
7. Bewertung der Ergebnisse 98Tabel
Seite 109 und 110:
8Zusammenfassung und AusblickEines
Seite 111 und 112:
8. Zusammenfassung und Ausblick 102
Seite 113 und 114:
Literaturverzeichnis 104[9] G.R. Co
Seite 115 und 116:
Literaturverzeichnis 106[28] D.J. L
Seite 117 und 118:
AbkürzungsverzeichnisBLOSUM . . .
Seite 119 und 120:
Anhang110
Seite 121 und 122:
A. Tabellen und Abbildungen 112Tabe
Seite 123 und 124:
A. Tabellen und Abbildungen 114Tabe
Seite 125 und 126:
B. Umgebung und Applikationen 116B.
Seite 127 und 128:
B. Umgebung und Applikationen 118B.
Seite 129 und 130:
CDaten- und ErgebnisdateienC.1 Astr
Seite 131 und 132:
C. Daten- und Ergebnisdateien 122C.
Seite 133 und 134:
DQuelltexteD.1 amodseq: Alignment v
Seite 135:
EDatenträger126
Alle anzeigen

MASTERARBEIT - Fachhochschule Salzburg

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?