12.07.2015 Aufrufe

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEIT - Fachhochschule Salzburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5. Hidden Markov Modelle 55{1, 2, . . . , λ} auf Basis der Übergangswahrscheinlichkeiten von einem Zustand inden anderen. Er entspricht einer Markov-Kette. Dieser Prozess beschreibt die interneZustandsfolge x=x 1 ,x 2 ,. . .,x l des Modells. Sie ist nicht beobachtbar bzw. istversteckt“ (engl. hidden), daher auch die Bezeichnung Hidden Markov Modell.”Eine Folge von Zuständen x∈ Λ l mit der Länge l und dem Startzustand x 0 wirdals Pfad bezeichnet.• Der zweite Prozess generiert entsprechend einer zustandsabhängigen Wahrscheinlichkeitsverteilungzu jedem Zeitpunkt i eine sichtbare Emission y=y 1 ,y 2 ,. . .,y laus dem Emissionsalphabet Σ = {1, 2, . . . , σ}. Die Folge der Emissionen ist beobachtbarund entspricht beispielsweise bezogen auf Sequenzen den einzelnenAminosäuren. Eine Folge von Emissionen y∈ Σ l mit der Länge l wird Beobachtunggenannt 3 .Der Hidden Markov Prozess kann - gleich der Markov-Kette - als zufällige Irrfahrtin einem erweiterten Zustandsgraphen des Modelles aufgefasst werden. Bei einem gedachtenExperiment stehen in jedem Knoten entlang des Zustandsgraphen zwei Auwahlmöglichkeitenzur Verfügung. Die ersten Auswahlmöglichkeit bildet die Emissionenaus dem Emissionsalphabet entsprechend den jeweiligen Emissionswahrscheinlichkeitenab. Die zweite stellt die gerichteten Kanten zu den Nachbarknoten zur Auswahl, wobeihierbei nur die Knoten des Zeitpunkts i + 1 erreicht werden können.5.3 Profil-HMMsIn der Bioinformatik kommen vorwiegend Profil-HMMs zur Anwendung. Der Aufbaudes Profil-HMMs leitet sich von den Sequenzen ab, mit denen das Hidden Markov Modelltrainiert wird. Beim Training des Modells werden die Sequenzen eines MSA spaltenweiseanalysiert und die Verteilung der Symbole innerhalb der Spalten berechnet.Spalten mit großen Symbolähnlichkeiten bilden einen Konsens (engl. Consensus) fürdie im multiplen Alignment enthalten Proteinteile. Da in einigen Sequenzen Teile fehlenkönnen oder zusätzlich zu den Consensus-Spalten Teilfolgen in einzelne Sequenzeneingefügt wurden (siehe Kapitel 3), bestehen multiple Sequenzalignments neben den3 In der konkreten Anwendung mit Aminosäuresequenzen wäre Σ = Σ A

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!