29.12.2013 Aufrufe

Friedrich-Schiller - Chair for Bioinformatics Freiburg

Friedrich-Schiller - Chair for Bioinformatics Freiburg

Friedrich-Schiller - Chair for Bioinformatics Freiburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

30 KAPITEL 3. DER MULORA ANSATZ<br />

Sequenzen:<br />

A: GCAUAGCAUAAAA<br />

B: GCAUUGGUACAAG<br />

C: GCAUAGCAACAAU<br />

paarweise Alignments:<br />

A mit B:<br />

1<br />

5<br />

10<br />

( ( . . . ) ) . . . . . .<br />

G C A U A G C A U A A A A<br />

G C A U U G C U A C A A G<br />

( ( . . . ) ) . . . . . .<br />

1 5 10<br />

lokales multiples Alignment:<br />

1<br />

5<br />

10<br />

G C A U A G C A U A A A A<br />

G C A U U G C U A C A A G<br />

G C A U A G C A A C A A U<br />

1 1 1 1 1 1 1<br />

0 0 0 0 0 0 0 6 3 3 3 3<br />

7<br />

0<br />

A mit C:<br />

1<br />

5<br />

10<br />

( ( . . . ) ) . . . . . .<br />

G C A U A G C A U A A A A<br />

G C A U A G C A A C A A U<br />

( ( . . . ) ) . . . . . .<br />

1 5 10<br />

B mit C:<br />

1<br />

5<br />

10<br />

( ( . . . ) ) . . . . . .<br />

G C A U U G C U A C A A G<br />

G C A U A G C A A C A A U<br />

( ( . . . ) ) . . . . . .<br />

1 5 10<br />

Abbildung 3.2: Ein lokales multiples Alignment dreier Sequenzen. Die Werte unter<br />

den einzelnen Spalten geben dabei den Anteil der paarweisen Alignmentkanten in<br />

Prozenten an, welche diese Spalte unterstützen.<br />

Konserviert Spalten hingegen erhalten als Konsensusbuchstaben entweder den<br />

häufigsten Buchstaben, sofern dessen Anteil in der Spalte über einem Grenzwert<br />

dafür liegt oder ein ‘N’ im anderen Fall. Diese Unterscheidung stellt sicher, dass der<br />

Anteil des Konsenusbuchstabens gegenüber den Anteilen der restlichen Buchstaben<br />

groß genug ist.<br />

Für die Ableitung der Konsensusstruktur berechnet MuLoRA zuerst eine Konsensuspaarwahrscheinlichkeitmatrix,<br />

welche für alle Paare von Spalten die Wahrscheinlichkeit<br />

enthält, dass in der Konsensusstruktur zwischen den beiden Spalten<br />

ein Basenpaar existiert. Diese Wahrscheinlichkeiten ergeben sich dabei aus dem aritmetischen<br />

Mittel über die Basenpaarwahrscheinlichkeiten der einzelnen Sequenzen.<br />

Anschließend werden die Wahrscheinlichkeiten in Basenpaargewichte trans<strong>for</strong>miert,<br />

wobei Basenpaare über einer unkonservierten Spalte ein Gewicht von Null<br />

erhalten. Damit wird in Analogie zu der Konsensussequenz verhindert, dass Basenpaare<br />

in unkonservierten Spalten beginnen oder enden. Die Konsensusstruktur<br />

ergibt sich dann einfach aus derjenigen Struktur, welche die maximale Summe aller<br />

Basenpaargewichte der in ihr enthaltenen Basenpaare hat.<br />

Zusammenfassend besteht der Algorithmus also aus folgenden Punkten:<br />

1. Bestimmen der Basenpaarwahrscheinlichkeiten der Eingabesequenzen<br />

2. Berechnen der paarweisen lokalen Sequenz-Struktur-Alignments für alle Paare<br />

der Eingabesequenzen<br />

3. Bestimmen der Kantengewichte und Berechnung des multiplen Alignments<br />

anhand der gewichteten Alignmentkanten<br />

4. Ableiten der Konsensussequenz und Konsensusstruktur des multiplen Alignments<br />

Damit ist der allgemeine Überblick über die Funktionsweise von MuLoRA abgeschlossen.<br />

3.2 Bestandteile<br />

In diesem Abschnitt wende ich mich den einzelnen Bestanteilen des MuLoRA-<br />

Ansatzes in der Reihenfolge ihrer Verwendung zu. Somit erläutere ich zuerst die<br />

Berechnung der Basenpaarwahrscheinlichkeiten.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!