Friedrich-Schiller - Chair for Bioinformatics Freiburg
Friedrich-Schiller - Chair for Bioinformatics Freiburg
Friedrich-Schiller - Chair for Bioinformatics Freiburg
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
28 KAPITEL 3. DER MULORA ANSATZ<br />
die konservierten Regionen repräsentieren und neben den sequenziellen auch die<br />
strukturellen In<strong>for</strong>mationen der Regionen beinhalten. Ein multiples Alignment auf<br />
Grundlage dieser Alignmentkanten würde dann alle An<strong>for</strong>derungen erfüllen, die für<br />
eine erfolgreiche Suche nach konservierten Motiven notwendig sind.<br />
Paarweise Alignments<br />
Einen der erfolgsversprechensten Ansätze zur Berechnung der paarweisen Alignments<br />
fand ich in pmcomp von Hofacker et al. [HBS04]. Der Vorteil dieses Programms<br />
liegt darin, dass es zwei Sequenzen aligniert und dabei gleichzeitig mit<br />
Hilfe der Basenpaarwahrscheinlichkeiten die wahrscheinlichste gemeinsamme Sekundärstruktur<br />
über den beiden Sequenzen bestimmt. Damit betrachtet der Algorithmus<br />
nicht nur eine oder mehrere fest vorgegebene Strukturen, sondern greift<br />
bei der Suche nach einer gemeinsammen Struktur auf alle theoretisch möglichen<br />
genesteten Strukturen der beiden Sequenzen zurück.<br />
Allerdings berechnet pmcomp ein globales Alignment und ist damit in seiner<br />
eigentlichen Form ungeeignet. Aus diesem Grund habe ich das Programm dahingehend<br />
erweitern, dass es ein lokales Alignment berechnet. Als Vorlage diente mir<br />
dabei eine Arbeit von Backofen und Will [BW04], in welcher sie eine strukturelle<br />
Lokalität vorstellten und einen Algorithmus zur Berechnung eines paarweisen<br />
lokalen Alignments zweier Sequenzen mit gegebener Struktur präsentierten. Das<br />
Ergebniss dieser Erweiterung des Hofacker-Ansatzes ist ein Algorithmus, welcher<br />
das in Definition 14 vorgestellte paarweise lokale Alignment-Problem löst.<br />
Jedoch können zwei Sequenzen durchaus mehr als nur eine gemeinsamme Teilstruktur<br />
aufweisen. In diesem Fall kann man nicht davon ausgehen, dass immer nur<br />
diejenige Teilstruktur mit dem höchsten Score in den anderen Sequenzen konserviert<br />
ist. Deshalb berechne ich neben dem besten lokalen Alignmnet zweier Sequenzen,<br />
also demjenige mit den höchsten Score, auch noch die nächst besten lokalen Alignments.<br />
Dabei habe ich zwei verschiedene Methoden realisiert. Die erste berechnet in<br />
Analogie zu Programmen wie BLAST [AGM90] die k-besten, nicht überlappenden<br />
lokalen Alignments. Damit ist es möglich, alle gemeinsammen Teilstrukturen zweier<br />
Sequenzen gleichzeitig zu finden.<br />
Die zweite Methode verzichtet hingegen auf die Einschränkung, nur nicht-überlappende<br />
Alignments zu betrachten. Der Vorteil dieses Ansatzes besteht darin, dass<br />
so alternative bzw. besonders stabile Strukturbereiche gefunden werden können.<br />
Abbildung 3.1 zeigt ein Beispiel für die beide Ansätze.<br />
Mit diesem Algorithmus ist es nun möglich, Alignments zu berechnen, die sequenzielle<br />
und strukturelle In<strong>for</strong>mationen über konservierte Teilstrukturen liefern.<br />
Damit bleibt nun noch das Problem, die Alignmentkanten zu gewichten.<br />
Kantengewichte und Konserviertheit<br />
Das Gewicht einer Kante sollte ihrer Zuverlässigkeit entsprechen. Je höher dieses ist,<br />
um so eher wird die Kante auch von T-Coffee im multiplen Alignment eingebaut.<br />
Die Zuverlässigkeit einer Kante hängt dabei direkt von der Zuverlässigkeit des<br />
Alignments ab, in der sie sich befindet. Die Zuverlässigkeit des Alignments wiederrum<br />
hängt von der Ähnlichkeit der beiden alignierten Teilstrukturen ab. Je ähnlicher<br />
sich die beiden sind, um so unwahrscheinlicher ist es, dass sich die Bereiche zufällig<br />
gleichen. Da die Alignments auf der Grundlage von Ähnlichkeiten berechnet werden,<br />
ist der Score eines Alignments auch gleichzeitig ein Mass für die Ähnlichkeit der<br />
beiden Sequenzen und damit auch ein Mass für die Zuverlässigkeit des Alignments<br />
selbst.