Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
78 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
Nicht zuletzt, weil Statistiken auf der Gr<strong>und</strong>lage von auffällig häufigen oder seltenen<br />
Vorkommen von <strong>Muster</strong>n <strong>in</strong> Sequenzen vielfach verwendet werden, erweitert<br />
obiger Satz zum e<strong>in</strong>en die Anwendungsmöglichkeiten, <strong>in</strong>dem er die Anwendung<br />
auf weitere Modelle ermöglicht. Zum anderen wird die Möglichkeit gegeben, ähnliche<br />
Probleme <strong>in</strong> diesen allgeme<strong>in</strong>eren Zusammenhang e<strong>in</strong>zubetten.<br />
5.3 Anwendungen<br />
Nachdem im obigen Abschnitt e<strong>in</strong> sehr allgeme<strong>in</strong>es Modell zur Erzeugung der<br />
durchsuchten Zeichenkette e<strong>in</strong>geführt wurde, sollen die Ergebnisse <strong>in</strong> diesem Abschnitt<br />
auf zwei spezielle Modelle angewendet <strong>und</strong> die Resultate verfe<strong>in</strong>ert werden.<br />
5.3.1 Das ”<br />
Hidden Markov“ Modell<br />
In diesem Abschnitt wird das sogenannte ”<br />
Hidden Markov“ Modell, das nach<br />
Wissen des Autors zum ersten Mal 1966 von Baum <strong>und</strong> Petrie <strong>in</strong> [14] untersucht<br />
wurde, als Spezialfall betrachtet, <strong>und</strong> mit obigen Methoden explizit Grenzwerte<br />
für die Kovarianz angegeben. Auf die Stationarität wird weiterh<strong>in</strong> verzichtet, um<br />
die größtmögliche Allgeme<strong>in</strong>heit zu erhalten.<br />
Das Hidden Markov Modell f<strong>in</strong>det zum Beispiel <strong>in</strong> der Analyse von Gensequenzen<br />
Anwendung. Ist etwa bei e<strong>in</strong>em vorliegenden Teil e<strong>in</strong>er DNS unbekannt, ob es<br />
sich dabei um Intergen, Exon oder Intron handelt, so lässt sich dieser verborgene<br />
Zustand zunächst ebenso wenig ablesen wie e<strong>in</strong> Wechsel dieses Zustands. Des<br />
Weiteren ist der sogenannte Leserahmen entscheidend, da <strong>in</strong> e<strong>in</strong>em Gen immer<br />
drei aufe<strong>in</strong>ander folgende Nukle<strong>in</strong>säurebauste<strong>in</strong>e zu e<strong>in</strong>em Am<strong>in</strong>osäurebauste<strong>in</strong><br />
transkribiert werden, so dass es durch Verschieben des Leserahmens drei verschiedene<br />
Möglichkeiten zur Transkription gibt. Für e<strong>in</strong>e ausführliche E<strong>in</strong>leitung<br />
<strong>in</strong> die biologischen Gr<strong>und</strong>lagen sei auf Abschnitt 1.3 bis 1.5 <strong>in</strong> Waterman [94],<br />
verwiesen.<br />
E<strong>in</strong> für die mathematische Modellierung der Nukle<strong>in</strong>säurekette gebräuchlicher<br />
Ansatz ist es, die Beobachtungen als Emission e<strong>in</strong>er verborgenen Markov-Kette<br />
aufzufassen, die als Zustandsraum das kartesische Produkt aus dem beobachteten<br />
Säurebauste<strong>in</strong> <strong>und</strong> dem verborgenen Zustand besitzt. Im obigen Beispiel wäre das<br />
etwa {T,G,A,C}×{Intergen,Intron1,Intron2,Intron3,Exon1,Exon2,Exon3}, andere<br />
Zustandsräume werden jedoch ebenfalls verwendet. Die Emission ist <strong>in</strong> diesem<br />
Fall gerade die Projektion auf die erste Komponente. Durch diesen determ<strong>in</strong>istischen<br />
Übergang von der verborgenen zur sichtbaren Zeichenkette vere<strong>in</strong>facht sich<br />
die Anwendung des Modells erheblich, da ke<strong>in</strong>e Emissionswahrsche<strong>in</strong>lichkeiten zu<br />
schätzen s<strong>in</strong>d.<br />
In der Literatur werden verschiedene Modelle verwendet, deren Parameter <strong>in</strong> der