Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Weitere Magazine

Empfehlungen

Info

78 Kapitel 5. Das ” Hidden ϕ-/ψ-Mixing“ Modell Nicht zuletzt, weil Statistiken auf der Grundlage von auffällig häufigen oder seltenen Vorkommen von Mustern in Sequenzen vielfach verwendet werden, erweitert obiger Satz zum einen die Anwendungsmöglichkeiten, indem er die Anwendung auf weitere Modelle ermöglicht. Zum anderen wird die Möglichkeit gegeben, ähnliche Probleme in diesen allgemeineren Zusammenhang einzubetten. 5.3 Anwendungen Nachdem im obigen Abschnitt ein sehr allgemeines Modell zur Erzeugung der durchsuchten Zeichenkette eingeführt wurde, sollen die Ergebnisse in diesem Abschnitt auf zwei spezielle Modelle angewendet und die Resultate verfeinert werden. 5.3.1 Das ” Hidden Markov“ Modell In diesem Abschnitt wird das sogenannte ” Hidden Markov“ Modell, das nach Wissen des Autors zum ersten Mal 1966 von Baum und Petrie in [14] untersucht wurde, als Spezialfall betrachtet, und mit obigen Methoden explizit Grenzwerte für die Kovarianz angegeben. Auf die Stationarität wird weiterhin verzichtet, um die größtmögliche Allgemeinheit zu erhalten. Das Hidden Markov Modell findet zum Beispiel in der Analyse von Gensequenzen Anwendung. Ist etwa bei einem vorliegenden Teil einer DNS unbekannt, ob es sich dabei um Intergen, Exon oder Intron handelt, so lässt sich dieser verborgene Zustand zunächst ebenso wenig ablesen wie ein Wechsel dieses Zustands. Des Weiteren ist der sogenannte Leserahmen entscheidend, da in einem Gen immer drei aufeinander folgende Nukleinsäurebausteine zu einem Aminosäurebaustein transkribiert werden, so dass es durch Verschieben des Leserahmens drei verschiedene Möglichkeiten zur Transkription gibt. Für eine ausführliche Einleitung in die biologischen Grundlagen sei auf Abschnitt 1.3 bis 1.5 in Waterman [94], verwiesen. Ein für die mathematische Modellierung der Nukleinsäurekette gebräuchlicher Ansatz ist es, die Beobachtungen als Emission einer verborgenen Markov-Kette aufzufassen, die als Zustandsraum das kartesische Produkt aus dem beobachteten Säurebaustein und dem verborgenen Zustand besitzt. Im obigen Beispiel wäre das etwa {T,G,A,C}×{Intergen,Intron1,Intron2,Intron3,Exon1,Exon2,Exon3}, andere Zustandsräume werden jedoch ebenfalls verwendet. Die Emission ist in diesem Fall gerade die Projektion auf die erste Komponente. Durch diesen deterministischen Übergang von der verborgenen zur sichtbaren Zeichenkette vereinfacht sich die Anwendung des Modells erheblich, da keine Emissionswahrscheinlichkeiten zu schätzen sind. In der Literatur werden verschiedene Modelle verwendet, deren Parameter in der
5.3. Anwendungen 79 Regel gerade die Übergangswahrscheinlichkeiten der verborgenen Markov-Kette sind. Die Literatur zu Hidden Markov Modellen und der Schätzung der Parameter ist sehr umfangreich, siehe etwa Genon-Catalot et al. [46], [45] oder [44], Rabiner [70], Dorea und Zhao [38], Maxwell und Woodroofe [60] oder Ryden [79], um nur einige Beispiele zu nennen. Für die Anwendung in der genetischen Sequenzanalyse gibt es zumeist Software, die die Übergangswahrscheinlichkeiten schätzt, wie etwa R’HOM“, siehe Nicolas ” und Muri-Majoube [63] oder EuGène“, siehe Schiex et al. [81], beziehungsweise ” EuGène’Hom“, siehe Foissac et al. [43]. ” Die so gewonnene Information über die verborgene Markov-Kette X lässt sich nun verwenden, um die Wahrscheinlichkeit des Auftretens vorgegebener Muster genauer zu schätzen. Eine Schätzung, die lediglich die beobachtete Zeichenfolge Y berücksichtigt, ist immer dann unzureichend, wenn sich die Übergangswahrscheinlichkeiten in der emittierten Kette durch eine nicht sichtbare Änderung in der verborgenen Kette ändert. Sei also (X i ) i ɛN eine irreduzible aperiodische und homogene Markov-Kette mit endlichem Zustandsraum X = {1, . . . , ρ}, Übergangsmatrix Γ = (γ i,j ) i,j=1,...,ρ und Startverteilung (γ X i ) i ɛ X . Somit existiert die stationäre Verteilung π = (π 1 , . . . , π ρ ) T , derart dass Γ · π = π, vergleiche etwa Behrends [15] oder Bremaud [21]. Wie üblich sei die s-Schritt-Übergangswahrscheinlichkeit γ (s) i,j definiert durch γ (0) i,j := 1 {i}(j) und: ( γ (s+1) i,j ) i,j=1,...,ρ := Γ s+1 := ( ρ∑ q=1 γ (s) i,q γ q,j ) i,j=1,...,ρ für s ɛ N 0 induktiv . Bemerkungen: 1) In der Literatur wird in der Regel vorausgesetzt, dass die Markov-Kette stationär ist. Hier wird statt dessen die exponentiell schnelle Konvergenz der s- Schritt-Übergangswahrscheinlichkeit gegen die stationäre Verteilung verwendet: Es existieren Konstanten C 0 > 0 und δ < 1, so dass für alle i, j ɛ X und s ɛ N gilt: |γ (s) i,j − π j| ≤ C 0 τ s . Diese Eigenschaft findet man in der Standardliteratur zu Markov-Ketten, wie zum Beispiel in Doob [37, Abschnitt V.2], Behrends [15, Kapitel 10] oder Bremaud [21, Kapitel 4]. Meist findet man dort auch explizite Schranken für C 0 und τ, die von den Einträgen oder den Eigenwerten der Übergangsmatrix abhängen.
Seite 1 und 2:
Muster und Alignments in zufällige
Seite 3 und 4:
i Einleitung Die Fortschritte der M
Seite 5 und 6:
iii Mithilfe der Stein-Chen-Methode
Seite 7:
v in ein neues allgemeineres Modell
Seite 10 und 11:
viii Inhaltsverzeichnis 5 Das Hidde
Seite 12 und 13:
2 Kapitel 1. Bezeichnungen und Grun
Seite 14 und 15:
Seite 16 und 17:
Seite 18 und 19:
Seite 20 und 21:
10 Kapitel 2. Vergleich zweier Zeic
Seite 22 und 23:
Seite 24 und 25:
Seite 26 und 27:
Seite 28 und 29:
Seite 30 und 31:
Seite 32 und 33:
Seite 34 und 35:
Seite 36 und 37:
Seite 38 und 39: 28 Kapitel 2. Vergleich zweier Zeic
Seite 44 und 45: 34 Kapitel 3. Scan-Statistiken mit
Seite 62 und 63: 52 Kapitel 4. Der empirische Muster
Seite 80 und 81: 70 Kapitel 5. Das ” Hidden ϕ-/ψ
Seite 96 und 97: 86 Literaturverzeichnis [10] Balakr
Seite 98 und 99: 88 Literaturverzeichnis [35] Dembo,
Seite 100 und 101: 90 Literaturverzeichnis [60] Maxwel
Seite 102: 92 Literaturverzeichnis [85] Siegmu
Alle anzeigen

Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?