29.12.2013 Aufrufe

Friedrich-Schiller - Chair for Bioinformatics Freiburg

Friedrich-Schiller - Chair for Bioinformatics Freiburg

Friedrich-Schiller - Chair for Bioinformatics Freiburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

28 KAPITEL 3. DER MULORA ANSATZ<br />

die konservierten Regionen repräsentieren und neben den sequenziellen auch die<br />

strukturellen In<strong>for</strong>mationen der Regionen beinhalten. Ein multiples Alignment auf<br />

Grundlage dieser Alignmentkanten würde dann alle An<strong>for</strong>derungen erfüllen, die für<br />

eine erfolgreiche Suche nach konservierten Motiven notwendig sind.<br />

Paarweise Alignments<br />

Einen der erfolgsversprechensten Ansätze zur Berechnung der paarweisen Alignments<br />

fand ich in pmcomp von Hofacker et al. [HBS04]. Der Vorteil dieses Programms<br />

liegt darin, dass es zwei Sequenzen aligniert und dabei gleichzeitig mit<br />

Hilfe der Basenpaarwahrscheinlichkeiten die wahrscheinlichste gemeinsamme Sekundärstruktur<br />

über den beiden Sequenzen bestimmt. Damit betrachtet der Algorithmus<br />

nicht nur eine oder mehrere fest vorgegebene Strukturen, sondern greift<br />

bei der Suche nach einer gemeinsammen Struktur auf alle theoretisch möglichen<br />

genesteten Strukturen der beiden Sequenzen zurück.<br />

Allerdings berechnet pmcomp ein globales Alignment und ist damit in seiner<br />

eigentlichen Form ungeeignet. Aus diesem Grund habe ich das Programm dahingehend<br />

erweitern, dass es ein lokales Alignment berechnet. Als Vorlage diente mir<br />

dabei eine Arbeit von Backofen und Will [BW04], in welcher sie eine strukturelle<br />

Lokalität vorstellten und einen Algorithmus zur Berechnung eines paarweisen<br />

lokalen Alignments zweier Sequenzen mit gegebener Struktur präsentierten. Das<br />

Ergebniss dieser Erweiterung des Hofacker-Ansatzes ist ein Algorithmus, welcher<br />

das in Definition 14 vorgestellte paarweise lokale Alignment-Problem löst.<br />

Jedoch können zwei Sequenzen durchaus mehr als nur eine gemeinsamme Teilstruktur<br />

aufweisen. In diesem Fall kann man nicht davon ausgehen, dass immer nur<br />

diejenige Teilstruktur mit dem höchsten Score in den anderen Sequenzen konserviert<br />

ist. Deshalb berechne ich neben dem besten lokalen Alignmnet zweier Sequenzen,<br />

also demjenige mit den höchsten Score, auch noch die nächst besten lokalen Alignments.<br />

Dabei habe ich zwei verschiedene Methoden realisiert. Die erste berechnet in<br />

Analogie zu Programmen wie BLAST [AGM90] die k-besten, nicht überlappenden<br />

lokalen Alignments. Damit ist es möglich, alle gemeinsammen Teilstrukturen zweier<br />

Sequenzen gleichzeitig zu finden.<br />

Die zweite Methode verzichtet hingegen auf die Einschränkung, nur nicht-überlappende<br />

Alignments zu betrachten. Der Vorteil dieses Ansatzes besteht darin, dass<br />

so alternative bzw. besonders stabile Strukturbereiche gefunden werden können.<br />

Abbildung 3.1 zeigt ein Beispiel für die beide Ansätze.<br />

Mit diesem Algorithmus ist es nun möglich, Alignments zu berechnen, die sequenzielle<br />

und strukturelle In<strong>for</strong>mationen über konservierte Teilstrukturen liefern.<br />

Damit bleibt nun noch das Problem, die Alignmentkanten zu gewichten.<br />

Kantengewichte und Konserviertheit<br />

Das Gewicht einer Kante sollte ihrer Zuverlässigkeit entsprechen. Je höher dieses ist,<br />

um so eher wird die Kante auch von T-Coffee im multiplen Alignment eingebaut.<br />

Die Zuverlässigkeit einer Kante hängt dabei direkt von der Zuverlässigkeit des<br />

Alignments ab, in der sie sich befindet. Die Zuverlässigkeit des Alignments wiederrum<br />

hängt von der Ähnlichkeit der beiden alignierten Teilstrukturen ab. Je ähnlicher<br />

sich die beiden sind, um so unwahrscheinlicher ist es, dass sich die Bereiche zufällig<br />

gleichen. Da die Alignments auf der Grundlage von Ähnlichkeiten berechnet werden,<br />

ist der Score eines Alignments auch gleichzeitig ein Mass für die Ähnlichkeit der<br />

beiden Sequenzen und damit auch ein Mass für die Zuverlässigkeit des Alignments<br />

selbst.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!