Friedrich-Schiller - Chair for Bioinformatics Freiburg

Weitere Magazine

Empfehlungen

Info

40 KAPITEL 3. DER MULORA ANSATZ schon einmal alignierter Bereiche verboten wird. Zu diesem Zweck speichere ich alle schon alignierten Positionen in einer Liste und überprüfe in jedem Alignmentschritt ob die gerade betrachteten Positionen darin enthalten sind. Der zweite Ansatz verzichtet auf die Einschränkung auf nicht-überlappene Alignments und berechnet damit einfach nur die k besten Alignments. Um diese zu bestimmen ändere ich die Rekusionsfälle dahingehend ab, dass für jedes gematchte Positionspaar (i 1 ,i 2 ) zusätzlich eine Betrag ψ · υ(i 1 ,i 2 ) addiert wird. Dabei entspricht υ einer Funktion, welche für zwei Positionen die Anzahl angibt, wie oft diese beiden Positionen schon gematcht waren und ψ ein Strafscore für das wiederholte Verwenden gleicher Alignmentkanten zwischen zwei Basen. Da die Strafscores nur zu alternativen Motiven und nicht zu einem schlechteren Alignmentscore führen sollen, addiere ich alle angewanten Strafscores auf und korregiere nach der Berechnung des Alignments dessen Score mit Hilfe dieser Summe. Auch bei diesem Ansatz muss der paarweise lokale Alignment-Algorithmus k-mal ausgeführt werden. Die so berechneten Alignment liefern dann entweder alternative konservierte Bereiche oder geben einen Hinweis auf besonders stabile Motive. Als nächstes leitet MuLoRA mittels T-Coffee aus den paarweisen Alignments ein mutiples Alignment ab. 3.2.3 Multiples Alignment Für die Berechnung des multiplen Alignments benötigt T-Coffee erst einmal die Bibliothek aller Alignmentkanten der paarweisen Alignments über den Sequenzen. Kantengewichte Wie im ersten Abschnitt dieses Kapitels schon erwähnt, sollen die Kantengewichte ihrer Zuverlässigkeit entsprechen, weshalb ich den Score der entsprechenden Alignments für die Gewichtung der Kanten verwende. Dieser wird dabei auf alle Alignmentkanten zwischen zwei Basen aufgeteilt. Kanten, die ein Gap enthalten bekommen hingegen ein Gewicht von 0, da sie keine In<strong>for</strong>mationen für die Berechnung des multiplen Alignments liefern. Falls dabei eine Kante durch die Berechnung überlappender Alignments mehrfach vorkommen sollte, werden die einzelnen Gewichte addiert. Damit hängt das Gewicht ζ einer Alignmentkante (i 1 ,i 2 ) in den k besten lokalen Alignments zweier Sequenzen S Rg1 und S Rg2 von dem Score s(A g1,g 2,k) des k-ten Alignments, und der Menge B(A g1,g 2,k) aller Kanten in A g1,g 2,k zwischen zwei Basen ab. Insgesamt ergibt sich so folgende Funktion zur Berechnung der Gewichte: ⎧ ∑( ) s(A g1 ,g ⎪⎨ 2 ,k) k |B(A g1 falls (i ,g 2 ,k)| 1 ,i 2 ) ∈ B(A g1,g 2,k) ζ g1,g 2 (i 1 ,i 2 ) = (3.9) ⎪⎩ 0 sonst. T-Coffee Progressive Alignmentansätze leiten unter dem Problem, dass Fehler in den ersten Alignmentsschritten beim Einfügen der restlichen Sequenzen nicht mehr verbessert werden können. Um dieses Problem zu minimieren, beginnt T-Coffee mit denjenigen Alignmentsschritten, welche von den meisten anderen paarweisen Alignments bestätigt werden. Dazu erweitert das Programm in einem Vorverarbeitungsschritt die primäre Bibliothek. Das Ziel dabei ist, die einzelnen Kantengewichte so zu kombinieren, dass die neuen Gewichte die In<strong>for</strong>mationen aus der gesamten Bibliothek reflektieren. Um dies zu erreichen, verwenden Notredame et al. einen Triplet-Ansatz.
3.2. BESTANDTEILE 41 Abbildung 3.6: Beispiel für die Erweiterung der Eingabe-Bibliothek (aus [NHH00]). Bei diesen wird für jedes mögliche Paar S Rg1 und S Rg2 mit g 1 ≠ g 2 über den Eingabesequenzen S R1 bis S Rm das Alignment A g1,g 2 zwischen S Rg1 und S Rg2 mit allen Alignments zwischen S Rg1 und S Rg2 über eine dritte Sequenz S Rh , verglichen (siehe Abbildung 3.6). Bei jedem Vergleich werden dabei die Kanten in A g1,g 2 mit allen Kanten in A g1,h und allen Kanten in A h,g2 verglichen. Sollten dabei für eine Kante (i 1 ,i 2 ) in A g1,g 2 zwei Kanten (i 1 ,j) und (j,i 2 ) in A g1,h bzw. A h,g2 existieren, wird (i 1 ,i 2 ) von den beiden anderen Kanten unterstützt und erhält deshalb zusätzlich den niedrigeren der beiden Scores von (i 1 ,j) bzw. (j,i 2 ). Im Endeffekt erhält so jede Kante (i 1 ,i 2 ) in A g1,g 2 ein Gewicht ξ g1,g 2 (i 1 ,i 2 ), welches wie folgt berechnet wird: ξ g1,g 2 (i 1 ,i 2 ) = ζ g1,g 2 (i 1 ,i 2 )+ ∑ min 1≤h≤m j h≠g 1,h≠g 2 { ζg1,h(i 1 ,j), ζ h,g2 (j,i 2 ) } (3.10) Auf Grundlage der so erweiterten Bibliothek berechnet T-Coffee eine Distanzmatrix und erstellt daraus mittels Neighbor-Joining [SN87] ein phylogenetischer Baum. Dieser bestimmt dann die Reihenfolge der einzelnen Alignmentschritte. Die beiden Sequenzen mit dem geringsten Abstand werden zuerst aligniert. Das entstandene Alignment ist dann wie bei herkömmlichen progressiven Ansätzen fixiert und kann nicht mehr verändert werden. Danach werden in Abhängigkeit des phylogenetischen Baums entweder die beiden Sequenzen mit dem nächst niedrigsten Abstand aligniert oder eine Sequenz wird zum ersten Alignment hinzugefügt. Dies geht so weiter, bis alle Sequenzen in einem Alignment vereint sind, wobei ab den dritten Schritt auch zwei Alignments aligniert werden können. Für die Berechnung der einzelnen Alignmentschritte nutzt T-Coffee eine effiziente Version des Needleman-Wunsch Algorithmus [NW70] von Gotoh [Got82]. Dieser verwendet dabei nur die Kantengewichte aus der erweiterten Bibliothek, wobei für die Berechnung eines Alignments, an dem ein bereits zuvor berechnetes Alignment beteilgt ist, die Durchschnittswerte der Spalten verwendet werden. Da in den Kantengewichten bereits die Substitutionsscores, Insertions- und Deletionskosten sowie die Strukturbeiträge enthalten sind, werden keine Parameter dieser Art benötigt. Auf diese Weise berechnet T-Coffee schließlich ein globales Alignment A m aller Eingabesequenzen S R1 bis S Rm . Um nun die Lokalität von A m zu beschreiben, folgt als nächstes die Berechnung eines Konserviertheitsfaktors für jede Spalte von A m . Konserviertheitsfaktor Die Konserviertheit einer Spalte hängt von der Ähnlichkeit der Motive ab, in welchen die in der Spalte alignierten Positionen enthalten sind. Je höher diese Ähnlich-
Seite 1: Friedrich-Schiller- Universität Je
Seite 5 und 6: Inhaltsverzeichnis 1 Einleitung 1 1
Seite 7 und 8: Kapitel 1 Einleitung Für lange Zei
Seite 9 und 10: 1.1. MULTIPLE ALIGNMENTS 3 Sequenze
Seite 11 und 12: 1.1. MULTIPLE ALIGNMENTS 5 informat
Seite 13 und 14: 1.1. MULTIPLE ALIGNMENTS 7 1.1.2 Be
Seite 15 und 16: 1.2. VERWANDTE ARBEITEN 9 Eine ande
Seite 17 und 18: 1.2. VERWANDTE ARBEITEN 11 base−m
Seite 19 und 20: 1.3. ÜBERSICHT 13 a a e d b f b c
Seite 21 und 22: Kapitel 2 Vorbetrachtungen Bevor ic
Seite 23 und 24: 2.1. FORMALE DEFINITIONEN 17 Primä
Seite 25 und 26: 2.1. FORMALE DEFINITIONEN 19 Sequen
Seite 27 und 28: 2.1. FORMALE DEFINITIONEN 21 erlaub
Seite 29 und 30: 2.2. PROBLEMSTELLUNGEN 23 lokales A
Seite 31 und 32: 2.2. PROBLEMSTELLUNGEN 25 wobei p r
Seite 33 und 34: Kapitel 3 Der MuLoRA Ansatz In dies
Seite 35 und 36: 3.1. ÜBERBLICK 29 Sequenzen: A: GG
Seite 37 und 38: 3.2. BESTANDTEILE 31 3.2.1 Basenpaa
Seite 39 und 40: 3.2. BESTANDTEILE 33 Der Hofacker-A
Seite 41 und 42: 3.2. BESTANDTEILE 35 Die Rekursion
Seite 43 und 44: 3.2. BESTANDTEILE 37 T( , ) j 1 j 2
Seite 45: 3.2. BESTANDTEILE 39 Paarweiser lok
Seite 49 und 50: 3.2. BESTANDTEILE 43 Positionen: mu
Seite 51 und 52: 3.3. KOMPLEXITÄTSBETRACHTUNGEN 45
Seite 53 und 54: 3.3. KOMPLEXITÄTSBETRACHTUNGEN 47
Seite 55: 3.3. KOMPLEXITÄTSBETRACHTUNGEN 49
Seite 58 und 59: 52 KAPITEL 4. ERGEBNISSE dabei aus
Seite 60 und 61: 54 KAPITEL 4. ERGEBNISSE Nummer nic
Seite 62 und 63: 56 KAPITEL 4. ERGEBNISSE Sequenzlä
Seite 64 und 65: 58 KAPITEL 4. ERGEBNISSE RF00433: n
Seite 66 und 67: 60 KAPITEL 4. ERGEBNISSE Bei den Be
Seite 68 und 69: 62 KAPITEL 4. ERGEBNISSE 4.2.4 Moti
Seite 70 und 71: 64 KAPITEL 5. ZUSAMMENFASSUNG UND A
Seite 72 und 73: 66 ANHANG A. ERGEBNISTABELLEN 0,01
Seite 74 und 75: 68 ANHANG A. ERGEBNISTABELLEN MuLoR
Seite 76 und 77: 70 ANHANG A. ERGEBNISTABELLEN A.2 U
Seite 78 und 79: 72 ANHANG A. ERGEBNISTABELLEN
Seite 80 und 81: 74 LITERATURVERZEICHNIS [Hof03] [HB
Seite 83: Selbständigkeitserklärung Hiermit

Friedrich-Schiller - Chair for Bioinformatics Freiburg

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?