Friedrich-Schiller - Chair for Bioinformatics Freiburg
Friedrich-Schiller - Chair for Bioinformatics Freiburg
Friedrich-Schiller - Chair for Bioinformatics Freiburg
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
30 KAPITEL 3. DER MULORA ANSATZ<br />
Sequenzen:<br />
A: GCAUAGCAUAAAA<br />
B: GCAUUGGUACAAG<br />
C: GCAUAGCAACAAU<br />
paarweise Alignments:<br />
A mit B:<br />
1<br />
5<br />
10<br />
( ( . . . ) ) . . . . . .<br />
G C A U A G C A U A A A A<br />
G C A U U G C U A C A A G<br />
( ( . . . ) ) . . . . . .<br />
1 5 10<br />
lokales multiples Alignment:<br />
1<br />
5<br />
10<br />
G C A U A G C A U A A A A<br />
G C A U U G C U A C A A G<br />
G C A U A G C A A C A A U<br />
1 1 1 1 1 1 1<br />
0 0 0 0 0 0 0 6 3 3 3 3<br />
7<br />
0<br />
A mit C:<br />
1<br />
5<br />
10<br />
( ( . . . ) ) . . . . . .<br />
G C A U A G C A U A A A A<br />
G C A U A G C A A C A A U<br />
( ( . . . ) ) . . . . . .<br />
1 5 10<br />
B mit C:<br />
1<br />
5<br />
10<br />
( ( . . . ) ) . . . . . .<br />
G C A U U G C U A C A A G<br />
G C A U A G C A A C A A U<br />
( ( . . . ) ) . . . . . .<br />
1 5 10<br />
Abbildung 3.2: Ein lokales multiples Alignment dreier Sequenzen. Die Werte unter<br />
den einzelnen Spalten geben dabei den Anteil der paarweisen Alignmentkanten in<br />
Prozenten an, welche diese Spalte unterstützen.<br />
Konserviert Spalten hingegen erhalten als Konsensusbuchstaben entweder den<br />
häufigsten Buchstaben, sofern dessen Anteil in der Spalte über einem Grenzwert<br />
dafür liegt oder ein ‘N’ im anderen Fall. Diese Unterscheidung stellt sicher, dass der<br />
Anteil des Konsenusbuchstabens gegenüber den Anteilen der restlichen Buchstaben<br />
groß genug ist.<br />
Für die Ableitung der Konsensusstruktur berechnet MuLoRA zuerst eine Konsensuspaarwahrscheinlichkeitmatrix,<br />
welche für alle Paare von Spalten die Wahrscheinlichkeit<br />
enthält, dass in der Konsensusstruktur zwischen den beiden Spalten<br />
ein Basenpaar existiert. Diese Wahrscheinlichkeiten ergeben sich dabei aus dem aritmetischen<br />
Mittel über die Basenpaarwahrscheinlichkeiten der einzelnen Sequenzen.<br />
Anschließend werden die Wahrscheinlichkeiten in Basenpaargewichte trans<strong>for</strong>miert,<br />
wobei Basenpaare über einer unkonservierten Spalte ein Gewicht von Null<br />
erhalten. Damit wird in Analogie zu der Konsensussequenz verhindert, dass Basenpaare<br />
in unkonservierten Spalten beginnen oder enden. Die Konsensusstruktur<br />
ergibt sich dann einfach aus derjenigen Struktur, welche die maximale Summe aller<br />
Basenpaargewichte der in ihr enthaltenen Basenpaare hat.<br />
Zusammenfassend besteht der Algorithmus also aus folgenden Punkten:<br />
1. Bestimmen der Basenpaarwahrscheinlichkeiten der Eingabesequenzen<br />
2. Berechnen der paarweisen lokalen Sequenz-Struktur-Alignments für alle Paare<br />
der Eingabesequenzen<br />
3. Bestimmen der Kantengewichte und Berechnung des multiplen Alignments<br />
anhand der gewichteten Alignmentkanten<br />
4. Ableiten der Konsensussequenz und Konsensusstruktur des multiplen Alignments<br />
Damit ist der allgemeine Überblick über die Funktionsweise von MuLoRA abgeschlossen.<br />
3.2 Bestandteile<br />
In diesem Abschnitt wende ich mich den einzelnen Bestanteilen des MuLoRA-<br />
Ansatzes in der Reihenfolge ihrer Verwendung zu. Somit erläutere ich zuerst die<br />
Berechnung der Basenpaarwahrscheinlichkeiten.