29.12.2013 Aufrufe

Friedrich-Schiller - Chair for Bioinformatics Freiburg

Friedrich-Schiller - Chair for Bioinformatics Freiburg

Friedrich-Schiller - Chair for Bioinformatics Freiburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

32 KAPITEL 3. DER MULORA ANSATZ<br />

Damit ist es nun einfach, die Wahrscheinlichkeit einer Struktur P zu bestimmen,<br />

welche sich wie folgt berechnen lässt:<br />

p[P] =<br />

E[P]<br />

e− kT<br />

Jedoch ist die Wahrscheinlichkeit einer einzelnen Sequenz biologisch nicht besonders<br />

interessant. Deshalb berechnet man die Wahrscheinlichkeiten von bestimmten<br />

Teilstrukturen. Dazu summiert man einfach alle Wahrscheinlichkeiten derjenigen<br />

Strukturen, welche diese Teilstruktur enthalten. Beschränkt man Teilstrukturen auf<br />

einzelne Basenpaare a, erhält man eine der wichtigsten Kenngrößen für die Beschreibung<br />

von Strukturen über einer Sequenz: die Basenpaarwahrscheinlichkeiten.<br />

p[a] = ∑ P ∋ap[P] =<br />

Q<br />

E[P] ∑P ∋a<br />

e− kT<br />

Q<br />

Da die Basenpaarwahrscheinlichkeiten alle Strukturen reflektieren, sind sie vollkommen<br />

unabhängig voneinander. Deshalb geben sie auch die In<strong>for</strong>mationen über alle<br />

möglichen globale Strukturen wieder. Bei der Berechnung des Zählers kann man auf<br />

die Zwischenergebnisse der Partitionsfunktion Q zurückgreifen. Dabei muss man<br />

jedoch beachten, dass ein Basenpaar sowohl in externen bzw. nicht schließenden<br />

Positionen vorkommen kann, aber auch von anderen Basenpaaren umschlossen werden<br />

kann. Letzteres hat wiederum eine Zerlegung in disjunkte Mengen zur Folge.<br />

Insgesamt kann man so in O(n 3 ) Zeit und mit O(n 2 ) Speicher alle Basenpaarwahrscheinlichkeiten<br />

einer Sequenz der Länge n bestimmen.<br />

Mit Hilfe dieser strukturellen In<strong>for</strong>mationen ist es nun möglich, die paarweisen<br />

lokalen Alignments zu berechnen.<br />

3.2.2 Paarweise lokale Seqenz-Struktur-Alignments<br />

Bei den von mir entwickelten Algoritmus zur Lösung des in Definition 14 vorgestellten<br />

paarweisen lokalen Alignment-Problems handelt es sich um ein dynamisches<br />

Programmierverfahren. Dieses ermittelt unter Verwendung von Rekursionsgleichungen,<br />

deren Zwischenergebnisse für eine effiziente Berechnung in Tabellen<br />

gespeichert werden, den maximalen Score eines lokalen Alignments zweier Sequenzen.<br />

Die Lösung des paarweisen lokalen Alignment-Problems – also das optimale<br />

lokale Alignment – ergibt sich dann mittels Backtracking aus den Tabellen der Zwischenergebnisse.<br />

Die Rekursionsgleichungen<br />

Das Rekursionsschema des Algorithmus wird von zwei Arbeiten geprägt. Die Berechnung<br />

des Alignments bei gleichzeitiger Vorhersage einer gemeinsammen Struktur<br />

lehnt sich an einen Algorithmus von Hofacker et al. [HBS04] an. Die von mir<br />

verwendete Form der strukturellen Lokalität stammt hingegen aus einer Arbeit von<br />

Backofen und Will [BW04].<br />

Der Hofacker-Algorithmus berechnet ein globales Alignment und findet dabei<br />

gleichzeitig die wahrscheinlichste gemeinsamme Sekundärstruktur zweier Sequenzen.<br />

Das paarweise lokale Alignment-Problems besteht hingegen daraus, das optimale<br />

lokales Sequenz-Struktur-Alignment über zwei Sequenzen zu finden. Da sowohl<br />

der Hofacker-Ansatz als auch das Alignment-Problem auf der selben Bewertungsfunktion<br />

(siehe Gleichung 2.1) beruhen, müssen die Hofacker-Rekursionsgleichungen<br />

für eine Lösung des Alignment-Problems nur dahingehend erweitert werden, dass<br />

sie ein nach Definition 12 lokales Alignment berechnen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!