Friedrich-Schiller - Chair for Bioinformatics Freiburg
Friedrich-Schiller - Chair for Bioinformatics Freiburg
Friedrich-Schiller - Chair for Bioinformatics Freiburg
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
32 KAPITEL 3. DER MULORA ANSATZ<br />
Damit ist es nun einfach, die Wahrscheinlichkeit einer Struktur P zu bestimmen,<br />
welche sich wie folgt berechnen lässt:<br />
p[P] =<br />
E[P]<br />
e− kT<br />
Jedoch ist die Wahrscheinlichkeit einer einzelnen Sequenz biologisch nicht besonders<br />
interessant. Deshalb berechnet man die Wahrscheinlichkeiten von bestimmten<br />
Teilstrukturen. Dazu summiert man einfach alle Wahrscheinlichkeiten derjenigen<br />
Strukturen, welche diese Teilstruktur enthalten. Beschränkt man Teilstrukturen auf<br />
einzelne Basenpaare a, erhält man eine der wichtigsten Kenngrößen für die Beschreibung<br />
von Strukturen über einer Sequenz: die Basenpaarwahrscheinlichkeiten.<br />
p[a] = ∑ P ∋ap[P] =<br />
Q<br />
E[P] ∑P ∋a<br />
e− kT<br />
Q<br />
Da die Basenpaarwahrscheinlichkeiten alle Strukturen reflektieren, sind sie vollkommen<br />
unabhängig voneinander. Deshalb geben sie auch die In<strong>for</strong>mationen über alle<br />
möglichen globale Strukturen wieder. Bei der Berechnung des Zählers kann man auf<br />
die Zwischenergebnisse der Partitionsfunktion Q zurückgreifen. Dabei muss man<br />
jedoch beachten, dass ein Basenpaar sowohl in externen bzw. nicht schließenden<br />
Positionen vorkommen kann, aber auch von anderen Basenpaaren umschlossen werden<br />
kann. Letzteres hat wiederum eine Zerlegung in disjunkte Mengen zur Folge.<br />
Insgesamt kann man so in O(n 3 ) Zeit und mit O(n 2 ) Speicher alle Basenpaarwahrscheinlichkeiten<br />
einer Sequenz der Länge n bestimmen.<br />
Mit Hilfe dieser strukturellen In<strong>for</strong>mationen ist es nun möglich, die paarweisen<br />
lokalen Alignments zu berechnen.<br />
3.2.2 Paarweise lokale Seqenz-Struktur-Alignments<br />
Bei den von mir entwickelten Algoritmus zur Lösung des in Definition 14 vorgestellten<br />
paarweisen lokalen Alignment-Problems handelt es sich um ein dynamisches<br />
Programmierverfahren. Dieses ermittelt unter Verwendung von Rekursionsgleichungen,<br />
deren Zwischenergebnisse für eine effiziente Berechnung in Tabellen<br />
gespeichert werden, den maximalen Score eines lokalen Alignments zweier Sequenzen.<br />
Die Lösung des paarweisen lokalen Alignment-Problems – also das optimale<br />
lokale Alignment – ergibt sich dann mittels Backtracking aus den Tabellen der Zwischenergebnisse.<br />
Die Rekursionsgleichungen<br />
Das Rekursionsschema des Algorithmus wird von zwei Arbeiten geprägt. Die Berechnung<br />
des Alignments bei gleichzeitiger Vorhersage einer gemeinsammen Struktur<br />
lehnt sich an einen Algorithmus von Hofacker et al. [HBS04] an. Die von mir<br />
verwendete Form der strukturellen Lokalität stammt hingegen aus einer Arbeit von<br />
Backofen und Will [BW04].<br />
Der Hofacker-Algorithmus berechnet ein globales Alignment und findet dabei<br />
gleichzeitig die wahrscheinlichste gemeinsamme Sekundärstruktur zweier Sequenzen.<br />
Das paarweise lokale Alignment-Problems besteht hingegen daraus, das optimale<br />
lokales Sequenz-Struktur-Alignment über zwei Sequenzen zu finden. Da sowohl<br />
der Hofacker-Ansatz als auch das Alignment-Problem auf der selben Bewertungsfunktion<br />
(siehe Gleichung 2.1) beruhen, müssen die Hofacker-Rekursionsgleichungen<br />
für eine Lösung des Alignment-Problems nur dahingehend erweitert werden, dass<br />
sie ein nach Definition 12 lokales Alignment berechnen.