MASTERARBEIT - Fachhochschule Salzburg

MASTERARBEITMultiples Sequenzalignment mit HiddenMarkov Modellendurchgeführt amStudiengang Informationstechnik und System–Managementan derFachhochschule Salzburgvorgelegt von:DI(FH) Roland J. GrafStudiengangsleiter:Betreuer:FH-Prof. DI Dr. Gerhard JöchtlUniv. Doz. Dr. Stefan WegenkittlSalzburg, Oktober 2010

Eidesstattliche ErklärungHiermit versichere ich, Roland J. Graf, geboren am 6. Mai 1964, dass die vorliegendeMasterarbeit von mir selbständig verfasst wurde. Zur Erstellung wurden von mir keineanderen als die angegebenen Hilfsmittel verwendet.Roland Graf0910581005Matrikelnummerii

InformationenVor- und Zuname: DI(FH) Roland J. GrafInstitution:Fachhochschule Salzburg GmbHStudiengang:Informationstechnik & System-ManagementTitel der Masterthesis: Multiples Sequenzalignment mit HiddenMarkov ModellenBetreuer an der FH: Univ. Doz. Dr. Stefan WegenkittlSchlagwörter1. Schlagwort: Multiple Sequence Alignment2. Schlagwort: Hidden Markov Model3. Schlagwort: Alignment ScoringAbstractThis thesis describes the development of a method for performing Multiple SequenceAlignments (MSAs) using Hidden Markov Models (HMMs).The developed solution implements a dynamic, iterative process for generating theMSA. After training the model using pre-aligned sequences (profile-MSA), sequencesare ranked and aligned with the model individually. The highest ranked sequences arethen merged with the profile-MSA, before an alternative algorithm (ClustalW) is usedto make partial improvements to the alignment. In a further step, the generated MSAis prepared such that it allows for an iterated profile-extension scheme much alike PSI-BLAST where new HMMs are generated on the basic of top scoring hits and theiralignments to the original MSA.The quality of alignments and the quality of progressive growing MSA is evaluated bygraphical and numerical comparisons. Both probability density functions of Z-scores aswell as the scattering of Z-scores are used to evaluate the discriminatory power of themodel. Finally shows the change of entropy, whether additional sequences increase theaverage information content of the emission matrix, and whether these changes affectthe results.iii

InhaltsverzeichnisEidesstattliche ErklärungInformationenSchlagwörterAbstractAbbildungsverzeichnisTabellenverzeichnisiiiiiiiiiiivvi1 Einführung 11.1 Problemstellung und Motivation . . . . . . . . . . . . . . . . . . . . . . 21.2 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Allgemeine Grundlagen 52.1 Proteinstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Sequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Darstellung von Proteinsequenzen . . . . . . . . . . . . . . . . . . . . . 92.4 Proteindomänen und -familien . . . . . . . . . . . . . . . . . . . . . . . 112.5 Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.5.1 SCOP (Structural Classification Of Proteins) . . . . . . . . . . . 142.5.2 Pfam (Protein Families) . . . . . . . . . . . . . . . . . . . . . . 163 Grundlagen des Sequenzalignments 173.1 Sequenzvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Ähnlichkeit und Distanz . . . . . . . . . . . . . . . . . . . . . . . . . . 20iv

3.2.1 Hamming-Abstand und -Ähnlichkeit . . . . . . . . . . . . . . . 213.2.2 Levenshtein-Distanz . . . . . . . . . . . . . . . . . . . . . . . . 223.2.3 Komplexität vs. Optimum . . . . . . . . . . . . . . . . . . . . . 243.3 Dynamisches Programmieren . . . . . . . . . . . . . . . . . . . . . . . . 253.4 Paarweises Sequenzalignment . . . . . . . . . . . . . . . . . . . . . . . 283.4.1 Globales Alignment . . . . . . . . . . . . . . . . . . . . . . . . . 293.4.2 Free-Shift Alignment . . . . . . . . . . . . . . . . . . . . . . . . 303.4.3 Lokales Alignment . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Lücken und deren Bewertung . . . . . . . . . . . . . . . . . . . . . . . 323.6 Substitutionsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.6.1 PAM-Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.6.2 BLOSUM-Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . 363.7 Scoring von Alignments . . . . . . . . . . . . . . . . . . . . . . . . . . 383.7.1 Empirische Festlegung eines Bezugssystems für Scores . . . . . . 393.7.2 Verteilung der Scores . . . . . . . . . . . . . . . . . . . . . . . . 403.7.3 Standardisierung der Scores . . . . . . . . . . . . . . . . . . . . 424 Multiples Sequenzalignment 434.1 Anwendung multipler Sequenzalignments . . . . . . . . . . . . . . . . . 444.2 Komplexität multipler Sequenzalignments . . . . . . . . . . . . . . . . 454.3 Iterative Generierung eines multiplen Alignments . . . . . . . . . . . . 474.4 Multiples Sequenzalignment mit ClustalW . . . . . . . . . . . . . . . . 484.5 Bewertung eines multiplen Sequenzalignments . . . . . . . . . . . . . . 505 Hidden Markov Modelle 515.1 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2 Hidden Markov Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 545.3 Profil-HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.4 Verwendung von Profil-HMMs . . . . . . . . . . . . . . . . . . . . . . . 585.4.1 Training eines Profil-HMM . . . . . . . . . . . . . . . . . . . . . 585.4.2 Decodierung eines Profil-HMM . . . . . . . . . . . . . . . . . . 605.4.3 Alignment mit einem Profil-HMM . . . . . . . . . . . . . . . . . 60v

6 Implementierung eines MSA mit einem Profil-HMM 626.1 Kurzbeschreibung der Implementierung . . . . . . . . . . . . . . . . . . 636.2 Generieren eines MSA mit einem Profil-HMM . . . . . . . . . . . . . . 636.2.1 Training des Profil-HMMs . . . . . . . . . . . . . . . . . . . . . 646.2.1.1 Berechnung der Emissionswahrscheinlichkeiten . . . . . 646.2.1.2 Berechnung der Übergangswahrscheinlichkeiten . . . . 656.2.2 Single-Scoring und -Alignment mit dem Profil-HMM . . . . . . 666.2.3 Auswahl der zu alignierenden Sequenzen . . . . . . . . . . . . . 686.2.4 Progressives Alignment mit dem Profil-HMM . . . . . . . . . . 716.2.5 Kombination mehrerer Alignmentmethoden . . . . . . . . . . . 736.2.6 Progressive Expansion eines Profil-HMM . . . . . . . . . . . . . 757 Bewertung der Ergebnisse 797.1 Testdaten und -settings . . . . . . . . . . . . . . . . . . . . . . . . . . . 797.2 Dichtefunktion der Scores . . . . . . . . . . . . . . . . . . . . . . . . . 827.3 Standardisierung der Dichtefunktion . . . . . . . . . . . . . . . . . . . 847.4 Drift der Scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.5 Graphische Bewertung der Scores . . . . . . . . . . . . . . . . . . . . . 867.6 Numerische Bewertung der Scores . . . . . . . . . . . . . . . . . . . . . 907.7 Streuung der Scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917.8 Entropie der Emissionsmatrix . . . . . . . . . . . . . . . . . . . . . . . 947.9 Zusammenfassung der Evaluationsergebnisse . . . . . . . . . . . . . . . 998 Zusammenfassung und Ausblick 1008.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1008.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102Literaturverzeichnis 103Abkürzungsverzeichnis 108Anhang 110A Tabellen und Abbildungen 111A.1 PAM250 Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112A.2 Score-Streudiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . 113vi

B Umgebung und Applikationen 115B.1 Entwicklungs- und Testumgebung . . . . . . . . . . . . . . . . . . . . . 115B.2 grepseq: Optionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . 116B.3 amodseq: Optionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . 118B.4 amodseq.ini: ClustalW Defaulteinstellungen . . . . . . . . . . . . . . . 119C Daten- und Ergebnisdateien 120C.1 Astral DB-Datei im FASTA Format . . . . . . . . . . . . . . . . . . . . 120C.2 HMMOO Alignment Result Datei . . . . . . . . . . . . . . . . . . . . . 121C.3 Z-Score Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122C.3.1 Z-Score Auswertung Zyklus 1 . . . . . . . . . . . . . . . . . . . 122C.3.2 Z-Score Auswertung Zyklus 3 . . . . . . . . . . . . . . . . . . . 123D Quelltexte 124D.1 amodseq: Alignment voralignierter Sequenzen in das Profil-HMM . . . 124E Datenträger 126vii

Abbildungsverzeichnis2.1 Darstellung der 3D-Struktur eines Proteins . . . . . . . . . . . . . . . . 62.2 Proteinsequenz eines Testdatensatzes im FASTA-Format . . . . . . . . 113.1 Einfaches Alignment von zwei Sequenzen . . . . . . . . . . . . . . . . . 173.2 Histogramm der Score-Verteilung randomisierter Sequenzen . . . . . . . 415.1 Erweiterter Zustandsgraph einer Markov-Kette . . . . . . . . . . . . . . 545.2 Schematische Darstellung eines Profil-HMM . . . . . . . . . . . . . . . 575.3 Einfaches MSA mit einem Profil-HMM . . . . . . . . . . . . . . . . . . 616.1 Verteilung der Reverse Corrected Scores . . . . . . . . . . . . . . . . . 696.2 Unvollständiges MSA auf Basis eines Profil-HMM . . . . . . . . . . . . 736.3 MSA auf Basis eines Profil-HMM und ClustalW . . . . . . . . . . . . . 756.4 Symbolische Darstellung eines progressiven HMM-Expansion . . . . . . 767.1 Längenverteilung aller Sequenzen der Testdatenbank . . . . . . . . . . 817.2 Dichtefunktionen des RCS für die Familie b.121.4.1 . . . . . . . . . . . 837.3 Standardisierte Dichtefunktionen des RCS . . . . . . . . . . . . . . . . 857.4 Dichtefunktionen des SCS und RCS für e.3.1.1 nach dem Zyklus 1 . . . 877.5 Dichtefunktionen des SCS und RCS für e.3.1.1 nach dem Zyklus 3 . . . 887.6 Dichtefunktionen des RCS für a.138.1.1 nach Zyklus 1 . . . . . . . . . . 897.7 Dichtefunktionen des RCS für a.138.1.1 nach Zyklus 3 . . . . . . . . . . 897.8 Darstellung der Scores in Streudiagrammen . . . . . . . . . . . . . . . . 927.9 Streuung der transformierten Scores nach einer PCA . . . . . . . . . . 937.10 Änderung der transformierten Scores eines Profil-MSA . . . . . . . . . 97viii

Tabellenverzeichnis2.1 Standardisiertes Alphabet zur Codierung der Proteinsequenzen . . . . . 103.1 Matrix zur Berechnung des Levenshtein-Abstands . . . . . . . . . . . . 263.2 Auszug aus einer PAM250 Matrix . . . . . . . . . . . . . . . . . . . . . 353.3 BLOSUM-62 Substitutionsmatrix . . . . . . . . . . . . . . . . . . . . . 387.1 Multiple Alignments zur Beschreibung von Profil-HMMs . . . . . . . . 807.2 Globale Mittelwerte der RCS und SCS nach 4 Zyklen . . . . . . . . . . 917.3 Vergleich der Dichte- mit der Entropieänderung . . . . . . . . . . . . . 98A.1 Vollständige PAM250 Matrix . . . . . . . . . . . . . . . . . . . . . . . 112A.2 Scores der Familie a.1.1.2 nach dem ersten Zyklus . . . . . . . . . . . . 113A.3 Scores der Familie a.1.1.2 nach dem dritten Zyklus . . . . . . . . . . . 114ix

1EinführungKomplexe Biomoleküle spielen im Bauplan des Lebens eine entscheidende Rolle. SolcheMakromoleküle setzen sich dabei typischerweise aus einer Sequenz von Bausteinenzusammen. Typische Vertreter aus der Biologie sind die in allen lebenden Organismenvorkommenden und deshalb als natürliche Nukleinsäuren bezeichnete DNA 1 undRNA 2 oder die darauf basierenden Eiweißstoffe (Proteine) aus einer Abfolge von Aminosäuren.In der Molekularbiologie werden die Teile dieser Biomakromoleküle als Folgevon Symbolen beschrieben, wobei eine Sequenz dieser Symbole eine lineare Abfolge vonBasen oder Aminosäuren definiert. In der Bioinformatik werden diese Sequenzen zurVerarbeitung in Form einfacher Zeichenketten (Strings) kodiert, welche eine wesentlicheDatengrundlage aller bioinformatischen Sequenzanalysen und -interpretationendarstellen.Der Aufbau eines Makromoleküls und die damit einhergehende Abfolge bestimmterSymbole in den Sequenzen werden von Biologen oft auch für bestimmte Eigenschaftenund Funktionen verantwortlich gemacht. Heute weiß man, dass eine ähnliche Abfolgebestimmter Symbole in einer Sequenz oder in Sequenzteilen auf ähnliche Eigenschaftenund Funktionen des Makromoleküls hinweisen kann [32]. Eines der wesentlichenAnliegen der Bioinformatik ist deshalb die Klärung der Frage, ob eine bestimmte Sequenzeiner oder mehreren anderen Sequenzen ähnlich ist. Findet man durch den Vergleichmehrerer verwandter Proteinsequenzen ähnliche Organisationseinheiten, deren1 Desoxyribonukleinsäure2 Ribonukleinsäure1

1. Einführung 2Kombination die Eigenschaften eines Proteins maßgeblich bestimmt, so können verwandteSequenzen dadurch bestimmten Familien und Funktionen zugeordnet werden.Zu beantworten ist dabei immer die Frage, was Ähnlichkeit in diesem Zusammenhangüberhaupt heißen kann.1.1 Problemstellung und MotivationFunktionelle Ähnlichkeiten verschiedener Sequenzen basieren meist auf evolutionärenVerwandtschaften (Homologien) der Sequenzen. Die evolutionären Entwicklungen habenim Laufe der Zeit eventuell eine Sequenz verändert, dies hat aber nicht zwangsweiseeine wesentliche Änderung der grundlegenden Eigenschaften und Funktionen der mutiertenProteine zur Folge. Für die Suche nach Regelmäßigkeiten und Ähnlichkeitenwerden vorzugsweise statistische Methoden eingesetzt, welche das Auftreten von Symbolenin einer oder mehreren Sequenzen und -positionen bewerten. Zusätzlich wirdfestgestellt, auf welche Sequenzteile andere Teile folgen, oder ob einzelne Sequenzbausteinedurch andere ersetzt, entfernt oder eingefügt wurden. In der Bioinformatikversucht man nun, die Ähnlichkeit oder den Abstand“ von Sequenzen numerisch auszudrücken.Kleinere Abstände weisen dabei auf größere Ähnlichkeiten und eine evolu-”tionäre Nähe und größere Abstände auf größere Unähnlichkeiten hin. Dadurch werdenSequenzen untereinander vergleichbar und Ähnlichkeiten erkennbar, selbst wenn dieeinzelnen Bausteine für sich und vorweg betrachtet nicht ähnlich erscheinen würden.Ein Alignment von Sequenzen zielt nun darauf ab, die in den Sequenzen vorkommendenMuster zu identifizieren und deren Position innerhalb der Sequenzen zu bestimmen.Beim Sequenzalignment wird versucht, zwei oder mehrere Bausteinketten aufgrundihrer Ähnlichkeit zueinander auszurichten. Größere Ähnlichkeiten innerhalb von Sequenzenweisen auf größere Gemeinsamkeiten der DNA-Muster hin, wodurch sich auchgrößere Bereiche zueinander gut alignieren lassen. Durch das Alignment sollen gleicheoder ähnliche Teile der Strings bzw. Regionen gleicher Funktionalität untereinander notiertwerden können. Die Reihenfolge der Symbole muss dabei erhalten bleiben, wobeiden Mutationsformen der Natur folgend - auch Leerstellen (Gaps) in die Sequenzen

1. Einführung 3eingefügt werden können, um Einfügungen in anderen Sequenzen auszugleichen undeine spaltenweise Alignierung zusammenhängender Sequenzabschnitte zu ermöglichen.Das Alignment von Sequenzen gilt im Allgemeinen als nicht-triviale Problemstellung.Der paarweise Sequenzvergleich, also der Vergleich von nur zwei Sequenzen, kann schoneinen beträchtlichen Aufwand generieren, weist aber eine noch vergleichsweise niedrigealgorithmische Komplexität auf. Die Alignierung ganzer Sequenzgruppen führt zu deutlichbesseren Ergebnissen und einer höheren Sensitivität der Algorithmen. Der Aufwanddafür ist jedoch schon bedeutend größer, denn hinter einem effizienten und zielsicherenAlignmentverfahren stecken meist komplexe numerische, algorithmische und mathematischeMethoden und Überlegungen, welche die Forschung in der Bioinformatik prägen.Das Ziel aller Überlegungen ist einerseits eine performante Alignierungsmethode zu entwickeln,andererseits eine maximale Übereinstimmung der alignierten Sequenzen unterder Prämisse eines biologisch bzw. evolutionär sinnvollen Alignments zu erreichen.1.2 ÜberblickDas folgende Kapitel 2 führt in ausgewählte Grundlagen der Bioinformatik einund erklärt die zum Verständnis notwendigen Begriffe sowie den Aufbau von Proteinen.Nachdem Proteinsequenzen in der Bioinformatik üblicherweise in Form von Zeichenkettenverarbeitet werden, nimmt die Codierung und Speicherung von Proteinsequenzeneinen wesentlichen Teil dieses Kapitels ein.In Kapitel 3 werden die Grundlagen des Sequenzalignments vorgestellt und die BegriffeÄhnlichkeit und Distanz diskutiert. Einfache Beispiele führen in die grundlegendenAlgorithmen des paarweisen Sequenzalignments ein und zeigen einfache Scoring-Methoden zur objektiven und quantitativen Bewertung von Ähnlichkeit und Distanz.Das Kapitel 4 widmet sich den multiplen Sequenzaligments (MSA) und der Komplexitätmultipler Alignments. Am Beispiel ClustalW wird eine iterative Methode vorgestellt,in der Sequenzen schrittweise zu einem MSA aligniert werden.

1. Einführung 4Im Kapitel 5 werden die mathematischen Grundlagen eines Hidden Markov Modells(HMM) geklärt. Über Markov-Ketten werden die Begriffe Emissions- und Translationswahrscheinlichkeitnähergebracht, bevor die schrittweise Anwendung eines Profil-HMMvom Training über die Decodierung bis zum Alignment behandelt wird.Das Kapitel 6 stellt die Implementierung eines MSA auf Basis eines Profil-HMMvor. Mit Bezug auf die theoretischen Grundlagen werden die Einzelschritte zur Erstellungeines multiplen Alignments erläutert und die entwickelten Algorithmen undApplikationen beschrieben.Kapitel 7 widmet sich der Bewertung der generierten Alignments. Der Schwerpunktliegt dabei nicht in der Prüfung der biologischen Qualität der Applikationen, sondernin erster Linie in der Interpretation der Scores zur Bestimmung der Qualität der Alignmentsund in der Beeinflussung des Modells durch die Änderung des Profil-HMM ineinem iterativen Prozess.Das letzte Kapitel 8 schließt die Arbeit mit einer Zusammenfassung ab, die einenkurzen Überblick über die entwickelten Methoden und Applikationen, die Bewertungder Ergebnisse und die gewonnenen Erkenntnisse gibt. Im Ausblick werden möglicheErweiterungen und Verbesserungen der im Rahmen dieser Arbeit entwickelten Methodenund Applikationen vorgeschlagen.

2Allgemeine GrundlagenBioinformatik ist die Entwicklung und das Betreiben von Datenbanken,Software und mathematischen Werkzeugen zur Analyse, Organisation undInterpretation biologischer Daten. [21, S. 3]Das Ziel dieser Arbeit ist die Entwicklung eines Verfahrens zur Suche von strukturellenÄhnlichkeiten zweier oder mehrere Proteine. Die Ähnlichkeiten werden auf Basisvon Sequenzen ermittelt und stellen ein Abbild der funktionellen Verwandtschaft undgenetischen Entwicklung dar. Auf Grundlage der Ähnlichkeiten werden die Sequenzenspaltenweise so untereinander ausgerichtet, dass jene Bereiche sichtbar werden, in der- vorerst nur hypothetisch - sowohl strukturelle als auch funktionelle Ähnlichkeiten zuerwarten sind [32]. Bevor auf die Details eines Alignments näher eingegangen werdenkann, müssen einige Grundlagen erläutert und Begriffe definiert werden.Im aktuellen Kapitel werden - Hütt und Dehnert’s Definition von Bioinformatik folgend- allgemeine bioinformatische Grundlagen eingeführt, soweit sie zum Verständnisund der Darlegung der Problemstellung dienlich sind. Auf molekularbiologische undbiochemische Details wird dabei mit dem Fokus auf das Wesentliche bewusst verzichtet.Sie sind bei Bedarf in etwaigen fachspezifischen Quellen nachzulesen. Geklärt wirdim Folgenden vielmehr, wie bioinformatische Sequenzen dargestellt und gespeichertwerden, welche Informationen aus ihnen gewonnen werden können und was man untereinem Sequenzvergleich versteht.5

2. Allgemeine Grundlagen 62.1 ProteinstrukturIm Wesentlichen werden die Eigenschaften eines Makromoleküls durch dessen dreidimensionaleStruktur (Raumstruktur) bestimmt. Die Raumstruktur ist wiederum dieFolge einer Sequenz aus unterschiedlichen Grundbausteinen und deren Anordnung derAtome im Raum.Bei Proteinen beschreibt die Abfolge der unterschiedlichen Aminosäuren die sogenanntePrimärstruktur des Makromoleküls, wobei bestimmte Strukturteile von Biologen fürbestimmte Funktionen verantwortlich gemacht werden. Aus einer bestimmten Anordnungder Aminosäuren innerhalb einer Proteinsequenz entstehen durch den Prozessder Faltung in der Regel eindeutig bestimmte dreidimensionale Substrukturen. DieseRegionen bestimmen die elementaren dreidimensionalen Grundformen eines Proteins.Abbildung 2.1: Darstellung der 3D-Struktur eines Proteins.Typische strukturelle Grundelemente und Grundformen bei Proteinen sind die sogenanntenα-Helices mit ihren spiralförmigen Strukturen und β-Faltblätter, welche dieFaltung der dreidimensionalen Struktur im Raum ermöglichen. Man bezeichnet dieselokalen Strukturelemente als die Sekundärstruktur eines Proteins (siehe Abbildung2.1). Zusammen mit den als Verbindungselemente fungierenden Zwischenregionen bildensie die Tertiärstruktur eines Proteins, welche die räumliche Anordnung der Atomebeschreibt. Die Verschränkung mehrerer Tertiärstrukturen zu einem Proteinkomplexbildet die Quaternärstruktur oder Quartärstruktur [32, 21].

2. Allgemeine Grundlagen 7Versuchen Molekularbiologen nun den Aufbau und die Funktion eines Gens oder Proteinszu entschlüsseln, so weichen sie vorzugsweise auf die Untersuchung der Sequenzenaus. Die Ermittlung einer Sequenz als Ausgangsbasis weiterer Untersuchungen istvergleichsweise kostengünstig, stellt man sie der Vermessung der Raumstruktur mitaufwendigen und deutlich teureren Methoden gegenüber. Zudem weisen homologe Sequenzen,also ähnliche bzw. verwandte Gene mit gleichen Vorfahren, oft auch ähnliche3D-Strukturen und eine ähnliche Anordnung von Symbolen auf. Merkl und Waackbeschreiben dieses Zusammenhang kurz als den Generellen Grundsatz: Sequenz determiniertStruktur. [32, S. 153]2.2 SequenzenIn der Molekularbiologie werden DNA-Sequenzen oder Proteine als Folge von Symbolenbeschrieben. Eine Sequenz solcher Symbole definiert dabei eine lineare Abfolgekleinerer Molekülbausteine, bestehend aus Basen oder Aminosäuren. Im Laufe der Evolutionwerden diese Sequenzen variiert, indem Teile der Molekülstrukturen und damitauch der Sequenzen dupliziert oder modifiziert werden. Oft werden in sogenanntenPunktmutationen einzelne Symbole, oft ganze Sequenzfragmente gegen andere ausgetauschtoder innerhalb der Sequenz verschoben. Gleiche oder ähnliche Strukturen oderevolutionär ”erfolgreiche“ Bausteine werden oft auch wiederverwendet und tauchen inunterschiedlichsten biologischen Sequenzen wiederholt auf [32].Mittlerweile gehören Sequenzen zum wichtigsten Datenmaterial der Bioinformatik. EinGrund dafür sind die in den Siebzigerjahren des letzten Jahrhunderts von Gilbert [16]und Sanger [40] entwickelten Techniken 1 , die ein automatisiertes, schnelles und vor allemaber kostengünstiges Sequenzieren von DNA erst möglich gemacht haben [8]. Seitetwa Mitte der 1980er Jahre werden automatische Sequenzierer kommerziell eingesetzt.1 Der zu dieser Zeit auf der Harvard University arbeitende Biologe Walter Gilbert und der inCambridge forschende Molekularbiologe Frederick Sanger haben ”for their contributions concerningthe determination of base sequences in nucleic acids“ [36] im Jahr 1980 einen Nobelpreis für Chemieerhalten.

2. Allgemeine Grundlagen 8Heute werden mit dem sogenannten Shotgun-Sequencing meistens zufällige Teilsegmenteeiner längeren DNA-Sequenz sequenziert und dann beim sogenannten Sequence Assemblingdie überlappenden Einzelteile mit speziellen Algorithmen zusammengefügt[21, 32]. Um Sequenzen softwaretechnisch verarbeiten und austauschen zu können, bedarfes einer Abstraktion der Sequenzen und speziellen Codierung der Grundbausteine.Eine DNA oder RNA als Sequenz dargestellt besteht aus einer Abfolge von vier Basen.Diese hintereinander gereiht bilden den genetischen Bauplan bzw. im Falle einesGenoms die komplette Erbinformation eines Lebewesens. Den Bioinformatikern dienteine Abfolge von Buchstaben der Abstraktion von Sequenzen. DNA-Sequenzen werdenbeispielsweise aus den vier Zeichen A, C, G und T gebildet, welche für vier Basen 2stehen. Die Menge Σ D der Zeichen zur Beschreibung der DNA und die Menge Σ R derZeichen zur Beschreibung der RNA lautet:Σ D = {A,G,C,T}Σ R = {A,G,C,U}Unter Transkription bezeichnet man allgemein die Übertragung eines Textes von einemSystem in ein anderes System. In Analogie dazu wird der Übersetzungsprozess von einerDNA-Sequenz in eine RNA-Sequenz von Biologen ebenso Transkription genannt [32].Aus der Sicht der Symbole entspricht eine Transkription einer DNA- in eine RNA-Sequenz formal einem Alphabetwechsel von Σ D nach Σ R [21]. Vereinfacht dargestelltentsteht aus einer DNA-Sequenz durch den Austausch der Base T (Thymin) gegen eineBase U (Uracil) eine RNA-Sequenz.Σ D = {A, G, C, T }T −→ UΣ R = {A, G, C, U}TranskriptionA G T C T C G T T A C T T C T T C AA G U C U C G U U A C U U C U U C ADas hierbei entstehende RNA-Molekül wird Transkript genannt [32] und trägt zurÜbersetzung der genetischen Informationen in Proteine bei.Bei Proteinen bilden Aminosäuren die Grundbausteine der Proteinsequenzen. Die Darstellungvon Proteinsequenzen erfolgt mittels eines standardisierten Alphabets mit demsogenannten One-Letter-Code.2 Die Buchstaben zur Darstellung einer DNA- oder RNA-Sequenz stehen dabei jeweils für die Namenvon Basen. Dabei steht für Adenin ein ’A’, für Guanin ein ’G’, für Thymin ein ’T’, für Cytosin ein’C’ und für Uracil ein ’U’.

2. Allgemeine Grundlagen 92.3 Darstellung von ProteinsequenzenAus der Sicht der Bioinformatiker basieren auch Untersuchungen von Proteinen oft aufden Analysen und Interpretationen einfacher Zeichenketten. Sie stellen die abstrahiertenSequenzen realer Aminosäureketten dar.Auch Proteine sind Makromoleküle. Diese werden aus natürlich vorkommenden Aminosäurengebildet, welche über den genetischen Code durch jeweils drei Basen einerDNA bestimmt werden. Eine derartige Dreierkombination wird als Triplett oder Codonbezeichnet. Aus den vier möglichen Zeichen würden sich 4 3 = 64 Dreierkombinationenbilden lassen, aufgrund biologischer Gegebenheiten, auf die hier nicht nähereingegangen wird, definieren die 64 möglichen Tripletts jedoch nur 20 unterschiedlicheAminosäuren [32].Besonders beim Sequenzalignment erweisen sich Tripletts als nicht sonderlich günstig,da die üblicherweise zur Anwendung kommenden Verfahren die Sequenzen zeichenweiseabarbeiten. Alignierte Sequenzen werden an bestimmten Stellen oft mit Lücken(Gaps) aufgefüllt, um eine bessere Alignierung zu erreichen. Damit würden geradebeim Alignment von Proteinsequenzen die Tripletts der einzelnen Aminosäuren aufgebrochen.Weist man jeder dieser Aminosäuren aber nur ein bestimmtes Zeichen derMenge Σ A zu, so bleiben die Dreierkombinationen der jeweiligen Tripletts auch bei einemzeichenweisen Alignment bestehen. Die Menge der Zeichen zur Beschreibung vonAminosäuresequenzen ist standardisiert als [22]:Σ A = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}Dieser Wechsel des Alphabets wird als Translation bezeichnet. Jeder Buchstabencodeder Menge Σ A steht für eine bestimmte Aminosäure.Σ D = {A, G, C, T }Triplett−→AminosäureA} {{ G T} C } {{ T C } G } {{ T T } A } {{ C T } T } {{ C T } T } {{ C A }TranslationΣ A = {A, C . . . , W, Y } S L V T S SEine vollständige Liste mit den Buchstabencodes, den jeweiligen Aminosäuren undderen Codone zeigt die Tabelle 2.1.

2. Allgemeine Grundlagen 10Buchstabencode Aminosäure CodoneA Alanin (Ala) GCA, GCC, GCG, GCTC Cystein (Cys) TGC, TGTD Aspartat (Asp) GAC, GATE Glutamat (Glu) GAA, GAGF Phenylalanin (Phe) TTC, TTTG Glycon (Gly) GGA, GGC, GGG, GGTH Histidin (His) CAC, CATI Isoleucin (Ile) ATA, ATC, ATTK Lysin (Lys) AAA, AAGL Leucin (Leu) CTA, CTC, CTG, CTT, TTA, TTGM Methionin (Met) ATGN Asparagin (Asn) AAC, AATP Prolin (Pro) CCA, CCC, CCG, CCTQ Glutamin (Gln) CAA, CAGR Arginin (Arg) AGA, AGG, CGA, CGC, CGG, CGTS Serin (Ser) AGC, AGT, TCA, TCC, TCG, TCTT Threonin (Thr) ACA, ACC, ACG, ACTV Valin (Val) GTA, GTC, GTG, GTTW Tryptophan (Trp) TGGY Tyrosin (Tyr) TAC, TATTabelle 2.1: Standardisiertes Alphabet zur Codierung der Proteinsequenzen [22].In Tabelle 2.1 werden die Dreierkombinationen (Codone) und die jeweiligen Aminosäuren,die daraus gebildet werden, gelistet. Betrachtet man die Codonspalte derAminosäuren so fällt auf, dass bestimmte Aminosäuren aus unterschiedlichen Codonebestehen können. Ebenso auffallend ist, dass eine Mutation der dritten Base im Codondie Art der Aminosäure nicht zwingend ändert. Die größten Änderungen der Eigenschaftenerfährt eine Aminosäure, wenn die mittlere der drei Basen mutiert. Die inder Tabelle nicht aufgelisteten Tripletts sind keine Aminosäuren, sondern übernehmenandere Funktionen innerhalb einer DNA-Sequenz. Als Beispiele können spezielle Codoneangeführt werden, die den Beginn (Startcodon) oder das Ende (Stoppcodon) einerProteinsequenz markieren [32].

2. Allgemeine Grundlagen 11Mit diesem One-Letter-Code kann ein Protein mit einer auf ein Drittel der ursprünglichenLänge verkürzten Zeichenkette (String) eindeutig beschrieben werden. Die Abbildung2.2 zeigt die Sequenz des Proteins d1ngka in der 1-Zeichen-Codierung:>d1ngka_ a.1.1.1 (A:) Protozoan/bacterial hemoglobinksfydavggaktfdaivsrfyaqvaedevlrrvypeddlagaeerlrmfleqywggprtyseqrghprlrmrhapfrislierdawlrcmhtavasidsetlddehrrelldylemaahsAbbildung 2.2: Proteinsequenz eines Testdatensatzes im FASTA-Format. In der erstenZeile markiert das Zeichen ’>’ den Beginn einer Sequenz mit dem Bezeichner, ab derzweiten Zeile beginnt die Beschreibung der Sequenz im One-Letter-Code.Wenn im Folgenden von Sequenzen geschrieben wird, dann sind, wenn nicht ausdrücklichanders vermerkt, immer Proteinsequenzen gemeint, auf deren Analyse derSchwerpunkt dieser Arbeit liegt.So zufällig und chaotisch Proteine und ihre Sequenzen auf den ersten Blick erscheinenmögen, so folgen sie in ihrer Struktur und ihrer Symbolabfolge doch einem System.Im direkten Vergleich weisen Sequenzen in Abhängigkeit ihrer EntstehungsgeschichteBereiche mit strukturellen Regelmäßigkeiten und Gemeinsamkeiten auf, die eine Einteilungin Proteindomänen und Proteinfamilien nahelegen.2.4 Proteindomänen und -familienVergleicht man die 3D-Struktur zweier Proteine, so zeigt sich, dass bestimmte Bereicheeine größere Ähnlichkeit aufweisen, in anderen Bereichen wiederum nur geringe oderkeinerlei Ähnlichkeiten erkennbar sind. Diese Ähnlichkeitsschwankungen (im Bereichvon signifikant hohen Ähnlichkeitsgraden bis hin zu völliger Verschiedenheit) werdenauch beim Sequenzvergleich sichtbar. Dabei variiert die Ähnlichkeit stark über dieLänge der Sequenzen. Der Grund dieser partiellen Schwankungen liegt im modularenAufbau eines Proteins, welches sich aus größeren Einheiten zusammensetzt. Die kleinsteEinheit einer definierten und geometrisch relativ unabhängigen gefalteten Strukturbestehend aus α-Helices und β-Faltblätter nennt man strukturelle Domäne. Sindbestimmte Sequenzabschnitte für die Eigenschaften eines Proteins verantwortlich, sowird sie als funktionelle Domäne bezeichnet. Strukturelle und funktionelle Domänen

2. Allgemeine Grundlagen 12müssen sich nicht zwangsweise decken, auch wenn die Erfahrung zeigt, dass dies oftder Fall ist. Die meist aus etwa 50 bis 150 Aminosäuren bestehenden Domänen bildendie Grundbausteine größerer Proteine. Im Laufe der evolutionären Entwicklung werdenProteindomänen häufig wiederverwendet und zu neuen Proteinen kombiniert [32].Unter Berücksichtigung der Kombinationsmöglichkeiten der 20 unterschiedlichen Aminosäurenliegt der Gedanke nahe, dass es in der Natur eine nahezu unerschöpflicheProteinvielfalt geben müsste. In der Praxis zeigt sich aber, dass sich bestimmte Kombinationenim Laufe der Evolution mehr, andere nicht durchsetzen konnten. Die Anzahlder Grundbausteine der Natur ist stark eingeschränkt. Ein Großteil der bekanntenProteine besteht aus einer Domäne (Eindomänenproteine) und schätzungsweise 80 %aller Proteine werden einem von 400 Faltungstypen zugeordnet [32]. Klassifiziert manProteine nach deren gemeinsamen Vorfahren, so können sie bestimmten Proteinfamilienzugerechnet werden. Proteine gleicher Familien haben in der Regel ähnliche3D-Strukturen und Funktionen und weisen eine signifikante Sequenzähnlichkeit auf.Trotz aller Einschränkungen der Natur ist die Anzahl verschiedener Sequenzen undDomänenkombinationen beträchtlich und die Organisation der Datenbestände aufwendig.Sequenzen werden deshalb nach verschiedenen Kriterien, wie beispielsweise Proteindomänenund Proteinfamilien katalogisiert, und zum größten Teil, wenn keine patentrechtlichenoder wirtschaftlichen Gründe dagegensprechen, in öffentlich zugänglichenDatenbanken abgelegt.2.5 DatenbankenIm Laufe der Jahrzehnte wurde eine Menge biologischer und biochemischer Daten generiert,die in verschiedensten Datenbanken abgelegt wurden. Diese decken mit ihremAngebot die speziellen Bedürfnisse unterschiedlichster Forschungsbereiche ab, wobeiden Sequenz-Datenbanken eine besondere Bedeutung zukommt. Gespeichert werden indiesen Datenbanken nicht nur die Daten sequenzierter Gene, sondern auch zusätzliche(Meta-)daten, welche je nach Anwendungsfeld für die Auswertung, die Suche in den Datenbankenund den Vergleich der Datensätze untereinander verwendet werden können.

2. Allgemeine Grundlagen 13Mittlerweile nehmen die Datenbestände einen nicht unbeträchtlichen Umfang an, dementsprechendviel Aufwand wird datenbankseitig investiert und dementsprechend vielseitigist das Angebot. Die Größe einiger Datenbanken bewegt sich mittlerweile in RichtungPetabyte 3 [3]. Ob ihrer Anzahl und Vielseitigkeit kann man schnell den Überblickverlieren. So stellen beispielsweise Cochrane und Galperin im Dezember 2009 in [9]fest, dass mit Ende des Jahres insgesamt 1230 Datenbanken in der Database Issue andDatabase Collection registriert 4 sind.Für statistische Auswertungen ist die Menge der zur Verfügung stehenden Datensätzewesentlich. Eine Vernetzung der Datenbestände untereinander sichert die Qualität derDaten und lässt komplexe Analysen zu, jedoch kommt neben der Datenmenge damitder einheitlichen Auszeichnung der Datenbestände wie auch der Qualität der Dateneine besondere Bedeutung zu [32].Aufgrund der rasant zunehmenden Datenbankgrößen ist es nicht verwunderlich, dassimmer wieder neue Methoden zur effizienten Speicherung und Filterung der Daten entwickeltwerden. Herkömmliche Abfragesprachen wie SQL (Structured Query Language)finden selten Anwendung, wenn aus der Menge aller Sequenzen nur bestimmte Sequenzengefunden werden sollen oder Sequenzen untereinander verglichen werden müssen.Die Filter verfolgen vielmehr das Prinzip der Suche nach Ähnlichkeiten, welche in irgendeinerForm quantifiziert werden müssen (siehe auch Kapitel 3.1 und Kapitel 3.2ff).FASTA 5 und BLAST 6 , die beiden bekanntesten Sequenzfilter, vergleichen bei einer Abfragebeispielsweise sämtliche Einträge der Datenbank mit der Ausgangssequenz (querysequence) und errechnen die Ähnlichkeiten mithilfe von Scoring-Matrizen, auch Substitutionsmatrizen(siehe Kapitel 3.6) genannt, um die Menge der Zielsequenzen (targetsequences) zu ermitteln [21, 31, 33]. Beide Algorithmen haben gemeinsam, dass siein einem Vorauswahlverfahren mittels Approximation aus allen Sequenzen eine stark3 Ein Petabyte sind 1000 Terabyte oder anders ausgedrückt etwa 10 hoch 15 Byte.4 Alljährlich wird im ersten Heft der Zeitschrift Nucleic Acids Research eines jeden Jahrgangs in derDatabase Issue and Database Collection“ ein Überblick über die Entwicklung molekularbiologischer”Datenbanken gegeben [9]. Eine aktuelle Liste der gesammelten Datenbanken findet man unter OnlineDatabase Collection, http://www.oxfordjournals.org/nar/database/a/ (Stand: 7. April 2010).5 FASTA (FAST-ALL) ist eine Suchmethode zur schnellen Filterung von Sequenzen in Datenbanken:http://www.ebi.ac.uk/Tools/fasta/ (Stand: 3. August 2010)6 BLAST (Basic Local Alignment Search Tool): http://www.ebi.ac.uk/Tools/blast/ (Stand: 3.August 2010)

2. Allgemeine Grundlagen 14verkleinerte Menge der potentiell interessanten Sequenzen ermittelt, welche dann einergenaueren Analyse unterzogen werden. Ohne diese Vorauswahl wären On-the-Fly-Abfragen in großen Datenbanken kaum mehr möglich [33].Bei den Datenbanken unterscheidet man den abgelegten Daten zufolge zwischen primärenund sekundären Datenbanken. In den primären Datenbanken werden die experimentellermittelten Rohdaten abgelegt, wohingegen in den sekundären Datenbankendas von den Sequenzen abgeleitete Wissen samt allen Querverweisen gespeichert wird.Eine der erfolgreichsten Protein-Datenbanken dieser Art ist SWISS-PROT 7 , welchein ihren Datensätzen wiederum auf mehr als 100 andere Datensammlungen referenziert[46, 32]. Auf Basis der Spezialisierung auf bestimmte Daten bzw. der Darstellungder Sequenzen werden sie auch in DNA-Sequenz-, RNA-Sequenz-, Proteinsequenz undProteinstrukturdatenbanken unterteilt.Aufgrund der Fülle der Datenbanken kann hier nur noch einmal auf die Database Issueand Database Collection 8 von Nucleic Acids Research verwiesen werden. Exemplarischwerden zwei Datenbanken herausgegriffen und kurz eingeführt, die im Rahmen dieserArbeit zur Anwendung kommen, SCOP und Pfam.2.5.1 SCOP (Structural Classification Of Proteins)Die Proteindatenbank SCOP 9 (Structural Classification Of Proteins) organisiert ihreDaten anhand einer hierarchischen Klassifikation der Proteine basierend auf Sequenzähnlichkeitenund der 3D-Struktur eines Proteins. Ziel von SCOP ist die Abbildungstruktureller und evolutionärer Verwandtschaftsbeziehungen von Proteinen [2].Im Laufe der evolutionären Entwicklungen mutieren Proteine, wobei sich deren Sequenzenund Funktionen deutlich verändern können. Die Struktur der Proteine istoft stärker konserviert als die Sequenzen und Funktionen es sind, und erlaubt einenRückschluss auf gemeinsame evolutionäre Entwicklungen, selbst wenn der Sequenzvergleichkeine Verwandtschaftsbeziehungen mehr erkennen lässt. Murzin et al. [2] nutzten7 SWISS-PROT Protein Knowledgebase: http://expasy.org/sprot/ (Stand: 14. August 2010)8 Database Issue and Database Collection: http://www.oxfordjournals.org/nar/database/a/(Stand: 7. April 2010)9 SCOP (Structural Classification of Proteins) Database (1.75 release, June 2009): http://scop.mrc-lmb.cam.ac.uk/scop/ (Stand: 1. Juli 2010)

2. Allgemeine Grundlagen 15diese Kenntnisse und klassifizierten 1995 Proteine auf Basis von Proteindomänen (sieheAbschnitt 2.4). Die Autoren führen in ein hierarchisches Klassifikationsschema ein,welches vier Ebenen beschreibt. Diese Ebenen sind:• Proteinfamilie (Family): In den Proteinfamilien werden jene Proteine zusammengefasst,deren Sequenzen zu mindestens 30% ident sind oder solche, deren Sequenzähnlichkeitengeringer sind, jedoch deren Funktionen und Strukturen großeÄhnlichkeiten aufweisen.• Superfamilie (Superfamily): Proteine, die geringe Sequenzähnlichkeiten aufweisen,deren evolutionäre Verwandtschaft aufgrund ähnlicher Funktionen und Strukturenjedoch wahrscheinlich ist, werden zu Superfamilien zusammengefasst.• Faltungstyp (Common Fold): Familien und Superfamilien werden dann untereinem Faltungstyp zusammengefasst, wenn die Anordnung der wesentlichen Sekundärstrukturelementegroße Ähnlichkeiten und vergleichbare topologische Verbindungselementeaufweisen.• Klassen (Class): Faltungstypen werden in fünf Klassen aufgeteilt, die sich ausder Zusammensetzung der Sekundärstrukturelemente definieren. Hierbei unterscheidetman die Zusammensetzung der Proteinstrukturen nach: (a) einer allalpha(hauptsächlich aus α-Helices bestehend); (b) all-beta (hauptsächlich ausβ-Faltblätter bestehend); (c) alpha and beta (aus α-Helices und β-Faltblätterbestehend); (d) alpha plus beta (aus mehrheitlich isolierten α-Helices und β-Faltblättern bestehend); (e) multi-domain (für Domänen mit unterschiedlichenFaltungen und wenigen bekannten Homologien).Für die Beschreibung der SCOP-Hierarchie wurde eine spezielle Notation definiert.Dabei wird die SCOP Hierarchie in einem Set of Concise Classificaton Strings (SCCS)wie folgt beschrieben [4]:class.fold.superfamily.familyDer SCCS ist eine kompakte Notation der SCOP Domänenklassifikation zur hierarchischenBeschreibung der Klasse, des Faltungstyps, der Superfamilie und der Familie. Diein Abbildung 2.2 dargestellte Sequenz des Proteins Protozoan/bacterial hemoglobinweist einen SCCS von a.1.1.1 aus. Das Zeichen ’a’ beschreibt die Klasse (all alpha

2. Allgemeine Grundlagen 16proteins), ’1’ den Faltungstyp (globin-like), ’1’ die Superfamilie (globin-like) und ’1’die Familie (truncated hemoglobin), denen diese Sequenz zugeordnet wird.Weitere auf SCOP basierte Datenbanken verwenden ebenfalls diese Notation. ASTRAL 10und die im Folgenden beschriebene Pfam sind nur zwei davon.2.5.2 Pfam (Protein Families)Pfam 11 (Protein Families), eine 1997 von Sonnhammer et al. [44] eingeführte Proteindatenbank,enthält in der Version 24.0 eine Sammlung von 11912 Proteinfamilien, die alsmultiple Sequenzalignments oder in Form von Hidden Markov Modellen repräsentiertwerden. Pfam besteht aus zwei Komponenten: Pfam-A liefert die Sequenzen von Familien,die manuell zugewiesen und aligniert wurden und jeweils eine Familie beschreiben.Pfam-B liefert automatisch erstellte Cluster, die auf Basis von ClustalW und HiddenMarkov Modellen generiert wurden und familienübergreifend sind [13]. Ausgewiesenwerden dabei nur jene Sequenzen, die mit einem bestimmten Hidden Markov Modellverglichen eine bestimmte Ähnlichkeit zum Modell aufweisen [13].10 ASTRAL Compendium for Sequence and Structure Analysis - Databases and Tools: http://astral.berkeley.edu/ (Stand: 02. Juli 2010)11 PFAM (Protein Families) Database (Version 24.0, October 2009): http://pfam.sanger.ac.uk/(Stand: 02. Juli 2010)

3Grundlagen des SequenzalignmentsEin Alignment von Sequenzen zielt darauf ab, die in den Sequenzen vorkommendenDNA-Muster zu identifizieren und deren Position innerhalb der Sequenzen zu bestimmen.Bei einer Alignierung wird versucht, zwei oder mehrere Zeilen mit je einer Sequenz- und wenn notwendig durch Einfügen von Leerstellen (Gaps) - so auszurichten, dass esspaltenweise zu einer bestmöglichen Übereinstimmung der Symbole kommt. Die Reihenfolgeder Symbole muss dabei erhalten bleiben.Abbildung 3.1: Auszug aus einem Alignment von zwei Sequenzen.Wie aus der Abbildung 3.1 hervorgeht, führt ein Alignment der Sequenzen nicht zwangsweisezu einer exakten Ausrichtung identer Symbole. Das Beispiel zeigt nur einige exakteÜbereinstimmungen (orange markiert). Die Berechnung eines Sequenzalignmentsentspricht vielmehr einer Suche nach biologisch sinnvollen Kombinationen, die Ähnlichkeitenin den 3D-Strukturen der Moleküle wiedergeben. Erschwerend kommt hinzu,dass nicht immer eindeutig definierbar ist, nach welchen Regeln einzelne Symbole kombiniertwerden können und wie sinnvoll ein Alignment letztendlich ist. Oft ist das Ergebnisnur manuell bewertbar und dient deshalb nur einer Vorverarbeitung für weitereUntersuchungen.17

3. Grundlagen des Sequenzalignments 18Aufgrund der schnell wachsenden Menge in einschlägigen Datenbanken beschriebenerSequenzen kommen - trotz der erwähnten Schwierigkeiten - fast nur noch automatisierteoder computergestützte Alignmentmethoden zum Einsatz. Beim paarweisen Alignmentkommen sogenannte Substitutionsmatrizen zur Anwendung, welche die Ähnlichkeitenbekannter Sequenzen abbilden. Beim multiplen Alignment bedient man sich beschreibendenModellen, deren Grundlage maschinell oder (halb-)manuell voralignierte Sequenzenund/oder eine vorgeschaltete statistische Auswertung einer größeren Sequenzmengeist. Für eine automatische Ausrichtung zweier oder mehrerer Zeichenketten gibtes unterschiedliche Verfahren, die sich sowohl in der Empfindlichkeit, als auch in derKomplexität der Algorithmen und damit in der Performance deutlich unterscheiden.Welche Methoden aber auch immer zur Anwendung kommen, alle haben das eine Ziel:die genetischen Mutationen zu erkennen und die Sequenzen so zu alignieren, dass dieVerwandtschaftsverhältnisse trotz aller Variationen der Sequenzen sicher erkannt unddie evolutionäre Entwicklungen möglichst exakt nachvollzogen werden können.Bevor man sich dem automatischen Alignment widmet, stellen sich einige grundlegendeFragen, die es prinzipiell und auch im Rahmen dieser Arbeit zu beantworten gilt [21, 32]:• Wie können Sequenzen verglichen werden, auch wenn ihre Symbolabfolgen vorerstunterschiedlich erscheinen?• Wie können Sequenzabweichungen oder -distanzen bewertet werden?• Wie kann man Sequenzen so untereinander schreiben, dass die evolutionärenVorgänge möglichst wiedergegeben werden?• Wie müssen die Sequenzteile verschoben werden, so dass die untereinander geschriebenenTeile möglichst gut übereinstimmen?• Welche Methoden kommen dabei zur Anwendung?Dieses Kapitel widmet sich der Beantwortung dieser Fragen und führt dabei in dieallgemeinen Grundlagen des Sequenzvergleichs und -alignments ein. Die zwei nachfolgendenTeile widmen sich zwei speziellen Methoden: dem multiplen Sequenzalignmentund ClustalW und dem Alignment mit Hidden Markov Modellen.

3. Grundlagen des Sequenzalignments 193.1 SequenzvergleichDie Anordnung und Positionierung der Einzelbausteine, also die Primärstruktur bestimmterProteine, können im Laufe der Evolution großen evolutionären Änderungenunterworfen sein. Bestimmte Teile werden dabei mehr, andere wiederum weniger konserviert.Die räumlichen und funktionalen Strukturen sind vergleichsweise stabil inihrer Entwicklung [21], wohingegen die Sequenzen stark variieren können. So könnendie Aminosäuresequenzen innerhalb einer Proteinfamilie aufgrund evolutionärer Entwicklungenbeträchtlich voneinander abweichen, obwohl die wesentlichen Eigenschaftengut erhalten geblieben sind. Die 3D-Strukturen zweier Proteine weisen nämlich selbstdann noch Gemeinsamkeiten auf, wenn die Identität der Sequenzen mitunter nur noch30% beträgt [32].Der Vergleich von Sequenzen nimmt eine besondere Stellung ein, weil aus der Aminosäuresequenzeines Proteins auf die 3D-Struktur und darüber hinaus auf die Eigenschafteneines Proteins geschlossen werden soll. Basis der aus dem Sequenzvergleichabgeleiteten Methoden ist die Erkenntnis, dass bei Proteinen eine hohe Sequenzähnlichkeitauch eine ähnliche Funktion und/oder 3D-Struktur des Proteins impliziert.Wie kann nun eine Sequenz mit einer anderen vergleichen werden?Denkt man an einen Sequenzvergleich, so denkt man schnell an einen einfachen, zeichenweisenVergleich zweier Strings. Dabei werden jeweils an der Position n der StringsA und B die Zeichen a n und b n verglichen. Die Sequenzen gelten dann als gleich, wennalle Zeichen über die gesamte Länge der beiden Strings übereinstimmen. Wie könnennun aber Sequenzen miteinander verglichen werden, die einer genetischen Mutationunterworfen waren, also bei einem zeichenweisen Vergleich deutliche Unähnlichkeitenaufweisen würden?Beim Sequenzvergleich interessiert oft weniger die exakte Folge der Einzelbausteineder betrachteten Gene, als vielmehr die Interpretation bestimmter Abfolgen und dieFunktionen, die durch eine bestimmte Zusammensetzung der Sequenzen bestimmt werden.Weiß man beispielsweise, dass die Funktionen mehrerer Sequenzen gleicher Familienähnlich sind, obwohl die Sequenzen aufgrund ihrer Mutation unterschiedlich

3. Grundlagen des Sequenzalignments 20sind, so versucht man Muster und Gesetzmäßigkeiten zu erkennen und die Unterschiedevon Sequenzen zueinander zu quantifizieren. In der Bioinformatik kommendafür vielfach statistische Techniken zum Einsatz [15]. Eine Möglichkeit ist beispielsweisedie Bestimmung des Vorkommens bzw. der Häufigkeit f S (a i ) der einzelnen Aminosäurena i oder Codone aus den zu untersuchenden Sequenzen S. Erstellt man darausHäufigkeitstabellen, so kann der Unterschied zweier Sequenzen A und B durch die Summeder Häufigkeitsdifferenzen der 20 Aminosäuren oder von 61 Sinn-Codone 1 errechnetwerden (siehe dazu auch Kapitel 3.2):∑20Diff a (A, B) := |f A (a i ) − f B (a i )| (3.1)i=1Bei der ausschließlichen Betrachtung der Häufigkeiten bleibt die Abfolge der Bausteineaber unberücksichtigt. Aus diesem Grund ist man auf Methoden ausgewichen, die sowohldie Komposition der DNA-Stränge als auch die Häufigkeit der Gene berücksichtigenund darüber hinaus die Berechnung eines Ähnlichkeitsmaßes möglich machen. Diein dieser Arbeit verwendeten Hidden Markov Modelle (siehe Kapitel 5) bieten eineMöglichkeit, Sequenzen zu vergleichen und Ähnlichkeiten numerisch in Form von Ähnlichkeitsmaßenauszudrücken [32, 15].3.2 Ähnlichkeit und DistanzVergleicht man zwei Zeichenketten, so kann man mit einem Blick feststellen, ob diesegleich oder ungleich sind. Bei gleichen Zeichenketten stimmen alle Zeichen beiderStrings exakt überein. Weicht nur eines der Zeichen ab oder fehlt ein einzelnes Zeichen,so wird man sofort deren Ungleichheit erkennen können. Vergleicht man nunzwei Aminosäuresequenzen, die in der Bioinformatik letztendlich auch nur als einfacheZeichenketten dargestellt werden, so wird ein Vergleich der zu einem Ja/Nein-Ergebnisführt nicht brauchbar sein. Hier stellt man sich vielmehr die Frage, wie ähnlich zwei1 Bei dieser Methode werden von den 64 möglichen Codone nur 61 sogenannte Sinn-Codone ausgewertet,die anderen 3 Codone bleiben unberücksichtigt. Diese werden deshalb nicht gezählt, da siekeinen ”Sinn“ machen; man nennt sie deshalb auch Nonsens-Codon oder auch ”Unsinn“-Codon [25]

3. Grundlagen des Sequenzalignments 21Sequenzen sind. Die Ähnlichkeit der Zeichen muss also in irgendeiner Form als numerischerWert ausgedrückt werden können.3.2.1 Hamming-Abstand und -ÄhnlichkeitNun läge es nahe, bei zwei gleich langen Zeichenketten einfach die Anzahl der übereinstimmendenZeichen zu zählen. Der aus der Informationstheorie stammende Hamming-Abstand bedient sich dieser Idee [32]. Der Hamming-Abstand der beiden SequenzenPUPPENKISTEN und SUPPENKASPER ergibt 4 und entspricht der Anzahl der vier nichtübereinstimmenden Zeichen:A :B :P U P P E N K I S T E N| | | | | | | |S U P P E N K A S P E RDie acht übereinstimmenden und untereinanderstehenden Zeichen der Sequenzen Aund B sind mit einem ’|’ gekennzeichnet. Um die Hamming-Ähnlichkeit A H zweierZeichenketten A := a 1 a 2 ..a n und B := b 1 b 2 ..b n auszudrücken, wird der Hamming-Abstand D H (A, B) in Relation zur Gesamtlänge n der beiden Zeichenketten gesetztund dieser Wert von 1 subtrahiert [23]:A H (A, B) := 1 − D H(A, B)n(3.2)Würden alle Zeichen übereinstimmen, so entspräche dies dem Wert 1. Käme es zukeiner Übereinstimmung so entspräche dies einer Hamming-Ähnlichkeit von 0. Für dieSequenzen A und B aus dem obigen Beispiel ergäbe die Berechnung der Hamming-Ähnlichkeit 1 − 4/12, also das Ergebnis 0.66.Die gewichtete Hamming-Ähnlichkeit als erweiterte Variante, berücksichtigt zusätzlichdie einzelnen Positionen innerhalb der Sequenzen. Damit können bestimmte Merkmaleeiner Sequenz, wie beispielsweise welche Zeichen an welchen Positionen übereinstimmenoder nicht übereinstimmen, über Merkmalsgewichte in die Berechnung einfließen. Eine

3. Grundlagen des Sequenzalignments 22Funktion W H (a i , b i , i) ermittelt dabei jeweils das Gewicht der jeweiligen Sequenzzeichenin Abhängigkeit ihrer Position und Symbolpaarung innerhalb der Sequenzen [23].A HW (A, B) := 1 −D H (A, B)∑ ni=1 W H(a i , b i , i)(3.3)Trotz dieser Verbesserung in Bezug auf Sequenzen erweist sich die Hamming-Ähnlichkeitbeim Sequenzvergleich als nur beschränkt einsetzbar, denn sie kann nur dann berechnetwerden, wenn die beiden Zeichenketten gleich lang sind. Eine Einschränkung, die siegerade bei Proteinsequenzen und deren Alignment nahezu unbrauchbar macht. EineKennzahl, bei deren Berechnung die Zeichenketten unterschiedlich lang sein können,ist die sogenannte Levenshtein-Distanz.3.2.2 Levenshtein-DistanzDie Levenshtein-Distanz oder der Editierabstand, wie die Levenshtein-Distanz auch genanntwird, gibt die minimale Anzahl der Editierschritte oder der Kosten an, mit dereine Zeichenkette in eine andere Zeichenkette überführt werden kann [30]. Die zu vergleichendenZeichenketten müssen nicht die gleiche Länge aufweisen. Dies bedingt aberauch, dass Editieroperationen erlaubt sind, welche eine der beiden Zeichenketten beiBedarf verlängert, um die Sequenzen auf die passende Länge und auf Übereinstimmungzu bringen.Das folgende aus [17] entlehnte und leicht abgewandelte Beispiel zeigt die beiden ZeichenkettenVINTNER und WRITERS und gibt mögliche Operationen an, welche die ZeichenketteA zur Zeichenkette B wandeln.A : V - I N T N E R -| | | |Op : r i m d m d m m i| | | |B : W R I - T - E R SDie Kleinbuchstaben in der Zeile Op symbolisieren dabei die Editieroperationen, welchedas Zeichen an der jeweiligen Position der Zeichenkette A in ein Zeichen der ZeichenketteB überführen. Das Zeichen r steht dabei für die Ersetze- (replace), i für die Einfüge-

3. Grundlagen des Sequenzalignments 23(insert), m die Übereinstimmungs- (match) und d für die Lösch-Operation (delete).Weist man nun jeder dieser Operationen bestimmte Kosten zu, dann lassen sich darausähnlich wie bei der gewichteten Hamming-Distanz die sogenannte Levenshtein-Distanzermitteln [32].Die Berechnung des Editierabstands der Zeichenketten A := a 1 a 2 . . . a m mit der Längem und B := b 1 b 2 . . . b n mit der Länge n erfolgt in einer Matrix D mit der Dimension(m + 1) × (n + 1). Beginnend von D 0,0 werden die Zellen aufsteigend belegt [30]:m = |A| n = |B|∀ 1 ≤ i ≤ m, 1 ≤ j ≤ nD 0,0 = 0; D i,0 = i; D 0,j = j⎧D ⎪⎨ i−1,j−1 +1 ai ≠b jD i,j = min D i−1,j +1⎪⎩ D i,j−1 +1(3.4)Nach der Berechnung steht die minimale Anzahl der Editieroperationen in der MatrixzelleD m,n . Die Tabelle 3.1 im Folgeabschnitt auf Seite 26 zeigt eine vollständig besetzteLevenshtein-Matrix für die beiden Zeichenketten VINTNER und WRITERS.Bei genauer Betrachtung der Levenshtein-Beispiele stellt man fest, dass eine Berechnungauch immer eine Alignierung der Sequenzen zur Folge hat. In den beiden BeispielsequenzenA und B wurden hierfür Längenkorrekturen der Zeichenketten vorgenommen.Das Zeichen ’-’ symbolisiert dabei eine eingefügte Leerstelle. Symbolpaarungenkönnen so verbessert werden, da die nachfolgenden Symbole eines Strings damit jeweilsum eine Position gegenüber den Symbolen des zweiten Strings verschoben werden. BeiVersuchen mit einfachen Zeichenketten wird auch schnell deutlich, dass damit durchausunterschiedliche Alignierungen und Levenshtein-Distanzen möglich sind. WeitereAlignierungen für A und B wären beispielsweise:A : V I N T N E R - A : - V I N T N E R -| | | | | | |Op : r r r m d m m i Op : i r m d m d m m i| | | | | | |B : W R I T - E R S B : W R I - T - E R S

3. Grundlagen des Sequenzalignments 24Die beiden Alternativlösungen sind unterschiedlich verlängert und damit auch aligniertworden. Eine Lösung zeigt weniger Lücken auf Kosten mehrerer Fehlpaarungen (Mismatches),eine andere wiederum mehr Übereinstimmungen (Matches), jedoch auf Kostenmehrerer Lücken. Wie ebenso deutlich wird, beeinflussen die Einfügungen (Insertions)an unterschiedlichen Stellen die weiteren Editierschritte der Restsequenzen.Bewertet man nun beispielsweise einen Match mit 0, einen Mismatch mit 1 und eineLeerstelle mit 2, so kann die Art der Alignierung damit deutlich beeinflusst werden.Einige Alignierverfahren parametrisieren so ihre Algorithmen.Aus obiger Erklärung und den Beispielen wird klar, wie eine gewichtete Distanz zweierSequenzen berechnet werden kann. Ungeklärt bleibt zuweilen noch, wo und wie vieleLücken im optimalen Fall eingefügt werden sollen. Sucht man ein Verfahren zur Berechnungeines optimalen Alignments, so sucht man einen Algorithmus zur Bestimmungdes minimalen Editieraufwands bzw. der minimalen Kosten. Dass ein Probierverfahrenhierbei nicht vielversprechend ist, zeigt die Untersuchung der Komplexität dieserAufgabe.3.2.3 Komplexität vs. OptimumAusgangspunkt der Komplexitätsuntersuchung ist die Festlegung, dass die Ausrichtungder Symbole und die Positionierung der Lücken dann optimal sind, wenn die Distanz desdadurch erzeugten Alignments ein Minimum ist. Die einfachste Methode, welche mitSicherheit auch zur Optimallösung führen würde wäre jene, bei der alle Möglichkeitender Alignierung verglichen würden, um daraus D min zu ermitteln.Schon die genauere Betrachtung eines paarweisen Alignments zeigt die stark sequenzlängenabhängigeKomplexität eines Brute-Force-Verfahrens (Probierverfahren). Die inden vorangegangenen Abschnitten vorgestellten Algorithmen versuchen durch geschicktesEinfügen von Lücken möglichst viele Paarungen übereinstimmender oder ähnlicherSymbole zu erreichen. Im schlechtesten Fall, wenn zwei gleich lange Sequenzen keineÜbereinstimmungen ermöglichen, muss in den Sequenzen an jeder zweiten Stelle einGap eingefügt werden. Die alignierten Sequenzen würden sich dadurch in ihrer Längeaddieren [21]. Warum spielt die Sequenzlänge dabei eine derart große Rolle?

3. Grundlagen des Sequenzalignments 25Ein Probierverfahren, bei dem alle möglichen Alignierungen geprüft werden um darausdie beste Lösung zu ermitteln erscheint aussichtslos, wenn man zur Kenntnis nimmt,wie die Anzahl m GA der möglichen Gap-Anordnungen bei einem paarweisen Vergleichmit Sequenzen der Länge n kalkuliert wird [21]:( ) 2nm GA =n= (2n)!(n!) 2 (3.5)Wie Hütt und Dehnert in [21] auf Basis dieser Formel berechnen, ergeben sich beimVergleich zweier Sequenzen und einer Sequenzlänge von n=10 schon 250 Möglichkeiten,bei n=100 aber schon 10 29 mögliche Gap-Anordnungen und zu prüfende Fälle. DieBerechnung der minimalen Distanz aus allen möglichen Gap-Anordnungen führt alsoschnell an die Grenzen des Möglichen.Es scheint, als herrsche ein Widerspruch zwischen geringem Aufwand und optimalerLösung. Dabei handelt es sich bei der am Beginn dieses Abschnitts festgelegten Forderungum ein klassisches Optimierungsproblem. Vielfach kommt dafür die Technikdes dynamischen Programmierens zum Einsatz. Diese Technik macht zumindest einvollständiges Probierverfahren nicht notwendig, wie das folgende Kapitel zeigt.3.3 Dynamisches ProgrammierenDie dynamische Programmierung kommt vorzugsweise dann zum Einsatz, wenn dieLösung eines algorithmischen Problems über die Lösung von Teilproblemen beschriebenwerden kann. Dieses Prinzip von Teile und Herrsche dient als Grundlage für eineReihe von Algorithmen, die sich der Lösung eines umfangreichen Problems widmen,indem sie es in kleinere Teilprobleme zerlegen, die unabhängig voneinander gelöst werdenkönnen. Typische Anwendungen wären jene Spezialfälle, die rekursiv beschriebenwerden können. Oft werden aber die Teilergebnisse in Tabellen, Bäumen und Listenzwischengespeichert und später für die Lösung größerer Probleme wiederverwendet.Dies erfordert mehr Speicherplatz, ist im Allgemeinen aber effizienter als rekursiveLösungen [41].

3. Grundlagen des Sequenzalignments 26Dynamisches Programmieren ist auch bei Optimierungsproblemen und im Sequenzalignmentweit verbreitet. Es kann zur Lösung von Optimierungsproblemen dann erfolgreicheingesetzt werden, wenn eine optimale Lösung des Problems sich aus optimalenLösungen der Teilprobleme zusammensetzt. Methoden zur Lösung von möglichst gutenRoutenplanungen in Navigationssystemen oder in Routern gelten als typische Beispiele[41]. Sucht man nun für zwei Zeichenketten nicht nur irgendeine Alignierung zueiner Levenshtein-Distanz, sondern jene, bei denen die Operationen in Bezug auf dieKosten ein Optimum darstellen, so kann ebenso auf die dynamische Programmierungzurückgegriffen werden, wie das folgende Beispiel zeigt.Wendet man die Rechenvorschrift 3.4 für die beiden Sequenzen VINTNER (A) undWRITERS (B) an, so kann damit die Matrix D wie in Tabelle 3.1 dargestellt mit denSymboldistanzen besetzt werden.D i,j W R I T E R S0 1 1 2 2 3 3 4 4 5 5 6 6 7 7V111 22 12 32 23 43 34 54 45 65 56 76 67 87 7I222 23 22 33 22 43 24 53 35 64 46 75 57 86 6N333 34 33 34 33 34 33 44 34 54 45 65 56 76 6T444 45 44 45 44 45 43 45 34 54 45 65 56 76 6N555 56 55 56 55 56 55 46 44 55 45 66 56 76 6E666 67 66 67 66 67 66 57 54 56 45 65 56 76 6R777 78 76 78 67 77 77 68 66 57 54 66 46 75 5Tabelle 3.1: Matrix zur Berechnung des Levenshtein-Abstands für die beiden ZeichenkettenWRITERS und VINTNER. In den Zellen werden die Zwischenergebnisse in kleinerSchrift dargestellt. Das Minimum der drei Zwischenergebnisse an einer bestimmtenPosition wird jeweils in Normalschrift dargestellt. Der Levenshtein-Abstand kann ausder Zelle D m,n der letzten beiden Zeichen der Sequenzen abgelesen werden.

3. Grundlagen des Sequenzalignments 27Wie aus den Levenshtein-Formeln hervorgeht, wird jedes Zeichen einer Sequenz mitjedem Zeichen der anderen Sequenz verglichen. In den Matrixzellen der Tabelle 3.1werden jeweils 2 × 2 Ergebnisse der jeweiligen Symbolvergleiche dargestellt. Das Zwischenergebnisoben links in der Zelle errechnet sich aus der Formel für D i−1,j−1 , jenesrechts oben aus D i−1,j und jenes im linken unteren Bereich der Zelle aus D i,j−1 . Zuletztwird das Vergleichsergebnis einer Einzelposition rechts unten aus dem Minimum derdrei Zwischenergebnisse ermittelt. Der Levenshtein-Abstand der beiden Zeichenkettenist das Minimum der summierten Symboldistanzen der letzten beiden Zeichen a m undb n . VINTNER und WRITERS haben demnach, wie aus der Zelle D m,n abzulesen ist, denLevenshtein-Abstand 5.Die Komplexität zum Befüllen der Matrix verglichen mit der Komplexität eines primitivenBrute-Force-Verfahrens (siehe Gleichung 3.5) zeigt eine deutliche Verbesserung.Lässt man die Randelemente der Matrix außer acht, so müssen insgesamt m × n Zellenberechnet werden, wobei pro Zelle drei Zwischenergebnisse (siehe Gleichungen 3.4)gerechnet werden, von denen jeweils das Minimum den Zellenwert bestimmt. Demnachkann die Komplexität mit O(3mn) beschrieben werden.Nun dient die gezeigte Matrix nicht nur zur Berechnung der Distanz, sondern auch derErmittlung des optimalen Editieraufwands, also jenen mit den minimalen Kosten unddamit üblicherweise der Bestimmung eines optimalen Alignments [32]. Dazu bedientman sich des sogenannten Rückwärtspfads (traceback path). Verfolgt man beginnendab Zelle D m,n jeweils jenen Weg, durch den das Minimum der einzelnen Zellen bestimmtwurde, so lässt sich durch Zurückverfolgen (backtracking) der Zellen der Pfadzur Startzelle D 0,0 ermitteln. Bestimmen in einer Zelle mehrere Zwischenergebnisse dasMinimum, so entspricht dies einer Verzweigung an dieser Position.Wendet man dieses Verfahren in der Matrix der Tabelle 3.1 an, so ergeben sich darauszwei mögliche Pfade bzw. Alignments:A : V - I N T N E R - A : V I N T N E R -| | | | | | |Op : r i m d m d m m i Op : r r r m d m m i| | | | | | |B : W R I - T - E R S B : W R I T - E R S

3. Grundlagen des Sequenzalignments 28Legt man nun die Kosten der Operationen mit Matches = 0, Mismatches = 1 undInserts = 1 zugrunde und addiert für die beiden Lösungen wieder die Operationskosten,so ergeben sich für beide Alignments wie erwartet Gesamtkosten in Höhe von5. Das im Beispiel gezeigte Alignment links benötigt vier Gaps bei vier Matches, dasAlignment rechts nur zwei Gaps bei jedoch nur drei Matches. Die Distanzen beiderPaarungen sind gleich hoch. Beide Alignments sind auf Basis der Kostenfunktionengleichwertig und stellen eine optimale Lösung für dieses Alignmentproblem dar.Die bisher gezeigten Alignments auf Basis der gewichteten Distanzen basieren auf einerstark vereinfachten Kostenannahme. Matches, Mismatches und das Einfügen vonLücken werden bei der Bewertung der Distanzen und Alignments mit konstanten Kostenbelegt. Die Kosten sind ausschließlich von den lokalen Operationen an deren Symbolpositionenabhängig und völlig unabhängig davon, welche Symbole wie bzw. in welchemTeilabschnitt der Sequenz aligniert werden. Dabei zeigen die Beobachtungen derEvolutionsprozesse, dass die Vorgänge in der Natur weitaus komplexer sind, als in denobigen Alignmentbeispielen abgebildet. Mit welchen Methoden und Bewertungsverfahrenman sich den evolutionären Vorgaben nähern kann, wird anhand des paarweisenSequenzalignments im folgenden Abschnitt eingeführt.3.4 Paarweises SequenzalignmentEin paarweises Alignment dient dem Vergleich zweier Sequenzen, um funktionelle undstrukturelle Ähnlichkeiten oder evolutionäre Eigenschaften zu erkennen. Aufgrund dernotwendigen Nachbildung evolutionärer Entwicklungen können in den zu vergleichendenSequenzen Einfügungen (Insertions), Löschungen (Deletions) oder ein Wechsel(Mutation) von Symbolen notwendig werden. Für alle Algorithmen des biologischenSequenzvergleichs gilt, dass sie in der Lage sein müssen, diese evolutionären Vorgängevollständig abzubilden und die Alignierungen bewerten zu können.Die in den folgenden Abschnitten vorgestellten Verfahren zur Berechnung globaler undlokaler Alignments über die Distanz zweier Zeichenketten zeigen je eine ausgewählteMethode, Sequenzen paarweise zu alignieren. Dabei kommt nicht nur der Bewertung

3. Grundlagen des Sequenzalignments 29der Lücken, sondern auch der Bewertung der Übereinstimmungen eine besondere Aufmerksamkeitzu.3.4.1 Globales AlignmentEin globales Alignment zweier Sequenzen berücksichtigt alle Symbole der Sequenzen.Sie kommen vorzugsweise dann zur Anwendung, wenn die zu alignierenden Sequenzeneine ähnliche Länge aufweisen und große Sequenzübereinstimmungen zu erwarten sind.Mit einem globalen Alignment versucht man beispielsweise evolutionäre Entwicklungenvon Proteinfamilien nachzuvollziehen. Diese eignen sich aufgrund ihrer Homologien gutfür globale Alignmentmethoden.Die Berechnung des optimalen globalen Alignments entspricht einem Optimierungsproblem,welches wie im Abschnitt 3.3 gezeigt über die dynamische Programmierunggelöst wird. Der dafür verwendete Needleman-Wunsch-Algorithmus [35] ist jenem derLevenshtein-Distanz (siehe Gleichung 3.4) sehr ähnlich. Anstatt der Konstanten +1werden den Zellen entsprechend der jeweiligen Operationen symbol- und positionsabhängigeWerte aufaddiert. Die Funktion w(a i , b i ) gibt dabei einen von den beidenSymbolen a i und b i abhängigen Wert (Similarity Score) zurück, der umso höher ist, jeähnlicher die beiden Symbole sind. Die Funktion g ermittelt sogenannte Gap-Strafpunkte(Gap-Penalty), also negative Werte, für das Einfügen einer Lücke an der jeweiligenPosition. Die Art der Berechnung weicht von jener der Levenshtein-Distanz nur insofernab, dass pro Zelle anstelle des Minimums jeweils das Maximum der Zwischenergebnisseweiterverwendet wird. Die in [35] ausschließlich textuelle Beschreibung des Algorithmusvon Needleman-Wunsch lässt sich in wenige Gleichungen zusammenfassen. Die MatrixM kann wieder von links oben nach rechts unten wie folgt belegt werden [17, 31]:m = |A| n = |B|∀ 1 ≤ i ≤ m, 1 ≤ j ≤ nM 0,0 = 0 M i,0 = i · g( ′ − ′ ) M 0,j = j · g( ′ − ′ )⎧M ⎪⎨ i−1,j−1 +w(a i , b j ) : Match (Similarity Score)M i,j = max M i−1,j +g(a i , ′ − ′ ) : Deletion⎪⎩ M i,j−1 +g( ′ − ′ , b j ) : Insertion(3.6)

3. Grundlagen des Sequenzalignments 30Problematisch ist ein globales Alignment dann, wenn zwei Sequenzen A und B mitdeutlich unterschiedlicher Länge aligniert werden sollen. Geht man davon aus, dassdas jeweils gesuchte Symbol der kurzen Sequenz A aufgrund der Beschränktheit desAlphabets sehr wahrscheinlich an einer der nächstgelegenen Positionen in der langenSequenz B gefunden wird und die Positionen in A bis zum Match mit Lücken aufgefülltwerden, dann wird die kurze Sequenz A sich über den Bereich der langen Sequenz Bverschmieren“, ohne ein sinnvolles Alignment zu ergeben. Eine negative Bewertung”der Lücken kann dem entgegenwirken, macht aber eine sinnvolle Alignierung trotzdemkaum möglich [32].3.4.2 Free-Shift AlignmentEine erweiterte Form des globalen Alignments ist das Free-Shift Alignment. Dabei wirdeine Folge von Deletions und Insertions am Beginn und am Ende eines Alignments beider Bewertung des Alignments nicht berücksichtigt. Diese Lücken am Beginn oder Endeeines Alignments können vermehrt dann auftreten, wenn sich die beiden Sequenzen inderen Länge deutlich unterscheiden. Verwendet wird diese Alignmentform dann, wennüberstehende Präfixes und Suffixes im Ergebnis keine praktische Relevanz haben unddamit unberücksichtigt bleiben können.3.4.3 Lokales AlignmentEin lokales Sequenzalignment versucht funktions- und strukturrelevante Sequenzteilezu identifizieren und jene Teile mit einer hohen lokalen Ähnlichkeit zu alignieren. DieErweiterung des Needleman-Wunsch- zum Smith-Waterman-Algorithmus ist denkbareinfach, um diesen für lokale Alignments anwenden zu können [32]. Die erste Zeileund erste Spalte ist mit 0 zu initialisieren. Zusätzlich ist für eine Maximierung derBewertungen zu sorgen, indem die Gleichung so abgeändert wird, dass die Bewertungeiner Zelle niemals unter Null fallen kann.

3. Grundlagen des Sequenzalignments 31Nach Anpassung der Gleichungen an obige Forderungen lauten diese [43]:m = |A| n = |B|∀ 1 ≤ i ≤ m, 1 ≤ j ≤ nM 0,0 = 0 M i,0 = 0 M 0,j = 0⎧0 : Limitierung auf größer gleich 0⎪⎨ M i−1,j−1 +w(a i , b j ) : Match (Similarity Score)M i,j = maxM i−1,j +g(a i , ′ − ′ ) : Deletion⎪⎩ M i,j−1 +g( ′ − ′ , b j ) : Insertion(3.7)Hauptsächlich kommen lokale Proteinalignments bei strukturell und funktionell ähnlichenEinheiten zum Einsatz, um gemeinsame Domänen von Proteinsequenzen zu identifizieren[17, 43].Obwohl sich die Algorithmen zum Generieren eines lokalen und globalen Alignmentsunterscheiden, kann keine grundsätzliche und scharfe Grenze in der Anwendung der Methodenund den zu erwarteten Alignments gezogen werden. So ist es durchaus möglich,dass der für lokale Alignments verwendete Smith-Waterman Algorithmus aufgrund derBewertung der Matches, Mismatches und Lücken ein globales Alignment hervorbringt,obwohl er besonders bei lokalen Alignments seine Anwendung findet. Ebenso kann einProgramm, welches den Needleman-Wunsch Algorithmus implementiert, aufgrund derBewertung der Lücken oder Parametrisierung auch lokale Alignments generieren. Letztendlichentscheidet nicht nur der Algorithmus, sondern vor allem auch die Bewertungder Lücken, der Matches und der Mismatches über das Ergebnis der Alignierung [33].Schon die Beispiele aus dem Abschnitt 3.3 haben gezeigt, dass durch das Hinzufügenvon Lücken unterschiedliche Alignments möglich sind. Gerade bei Proteinsequenzenkommt der Bewertung der Leerstellen eine besondere Bedeutung zu [21] und erfordertdeshalb eine genauere Betrachtung.

3. Grundlagen des Sequenzalignments 323.5 Lücken und deren BewertungPunktmutationen, die zu falschen Paarungen führen, dürfen je nach Mutation aligniertwerden oder werden durch die Variation der Stringlänge durch Lücken (Gaps) ausgeglichen.Gaps gelten dabei im Allgemeinen als Folge von Einfügungen (Insertions)oder Löschungen (Deletions) im Laufe der Evolution. Grundsätzlich gilt, je unähnlicherdie relevanten Residuen sind oder je mehr diese über die Sequenzen verteilt sind, destomehr Gaps müssen eingefügt werden, um eine Übereinstimmung der Sequenzen zuerreichen [38].Wie aus den Gleichungen 3.6 und 3.7 hervorgeht, fließt die Bewertung einer Leerstellejeweils punktuell in die Berechnung ein. Dabei kann eine Leerstelle eine hohe oder eineniedrige Bewertung haben und die Distanz, vor allem aber das Alignment damit deutlichbeeinflussen. Wird eine Lücke schlechter bewertet als ungleiche Symbolpaarungen,so wird der Paarung der Vorzug gegeben. Kommt den Lücken eine bessere Bewertungzu als etwaigen Falschpaarungen, so werden an diesen Positionen vermehrt Lückeneingefügt werden, um Mismatches zu vermeiden. Das Einführen oder Fortsetzen einerLücke wird mit Strafpunkten (Gap-Penalties) bzw. negativen Werten verrechnet. Eineeinfache Bewertungsregel könnte beispielsweise lauten:Match = 3 Mismatch = 0 Gap-Penalty = -1Nun zeigt sich aber gerade bei Proteinen, dass diese in mehreren kürzeren Teilsequenzenhohe Ähnlichkeiten aufweisen, da sie häufig aus identischen Domänen zusammengesetztsind. Damit kann es erforderlich werden, an jenen Stellen in der Sequenz, an denendurch evolutionäre Mutationen zusätzliche Domänen eingefügt wurden, bei einemAlignment entsprechend längere Lücken einzufügen [32]. Eine konstante Bewertungder Gap-Penalties kann diese Vorlage der Natur nicht abbilden. Um dieser Forderunggerecht zu werden, ist eine diesen Entwicklungen angepasste Bewertung der Lücken einzuführen.Möglich ist dies durch affine Kostenfunktionen, welche die Bindungsstärkeder Proteinsequenzen abbilden.Bei der sogenannten linearen Bewertung eines Gaps der Länge n, fließt über die Gleichungf(n) = −n·P Gap die Stärke der Gap-Penalty P Gap in die Kostenfunktion f(n) ein

3. Grundlagen des Sequenzalignments 33[21]. Bei dieser Bewertung wird aber nicht zwischen dem Einführen und dem Fortsetzeneiner Lücke unterschieden. Anders ist dies bei der Bewertung der Lücken mithilfeaffiner Gap-Penalties. Hierbei wird das Einführen einer Lücke mit dem Gap-openingPenalty und das Verlängern einer Lücke um eine Leerstelle mit dem Gap-extensionPenalty bewertet [42]. Die Gesamtkosten einer Lücke errechnen sich dann aus denbeiden gesondert betrachteten Gap-Penalties und der Länge der Lücke wie folgt [32]:f(n) := P GapOpening + n · G GapExtension (3.8)In der Regel unterscheiden sich diese Penalties deutlich und das Gap-opening Penaltywird schlechter, also mit einem höheren jedoch negativen Penalty bewertet, als dasGap-extension Penalty. Üblicherweise werden beim Alignment von ProteinsequenzenWerte von -5 bis -19 für das Einführen einer Lücke veranschlagt und -1 bis -3 für dasVerlängern einer Lücke um eine Position [32]. Ist die Differenz der beiden Penalties groß,das Öffnen einer Lücke also ”teuer“ und die Verlängerung einer Lücke vergleichsweisegünstig“, so werden wenige, stattdessen aber längere Lücken eingefügt, als würden die”Penalties etwa gleich bewertet werden.3.6 SubstitutionsmatrizenDie in den vorangegangen Abschnitten vorgestellten Algorithmen zur Berechnung derDistanz zweier Sequenzen und eines globalen oder lokalen Alignments arbeiten auf Basisvon Scores, welche sowohl einen Match als auch einen Mismatch und das Einfügeneiner Lücke bewerten. Die Bewertung von Matches oder Mismatches wird auf Basisstatistischer Auswertungen getroffen, bei der aus einer geeigneten Menge von Proteinendie relativen Häufigkeiten von Aminosäuren und deren Substitutionshäufigkeitenbestimmt werden. Diese Häufigkeiten werden in Scores transformiert und damit Substituationsmatrizen2 gefüllt [21].2 Substitutionsmatrizen werden manchmal auch (similarity matrix) oder Austauschmatrix (mutationdata matrix) genannt, das sie die Ähnlichkeit von Aminosäuren innerhalb einer Sequenz und dasMutationsverhalten bewerten.

3. Grundlagen des Sequenzalignments 34Eine Substitutionsmatrix beschreibt mit einer Menge von Scores s a,b die Wahrscheinlichkeitender Ersetzung der Aminosäure a durch eine andere Aminosäure b (und umgekehrt)in einer bestimmten Sequenz. Dabei wird die Übereinstimmung mit einerselten vorkommenden Aminosäure höher bewertet als die Übereinstimmung mit einerhäufig vorkommenden Aminosäure. Zudem versucht man aufgrund der Eigenschaftender Aminosäuren, den Mismatch zweier funktionell ähnlicher Aminosäuren höher zubewerten als den Mismatch zweier funktionell verschiedener Aminosäuren. [32]Substitutionsmatrizen speichern für jedes Paar bzw. alle möglichen Aminosäurekombinationennicht deren Wahrscheinlichkeiten, sondern deren davon abgeleitete Scores. Umdies zu verdeutlichen wird manchmal auch die Bezeichnung Scoring-Matrizen vorgezogen.Die Zellen der Hauptdiagonale beschreiben jeweils das Zusammentreffen zweiergleicher Aminosäuren (Match), alle anderen Felder eine Fehlpaarung (Mismatch)und die Substitution von einer Aminosäure zu einer anderen. Die einfachsten Scoring-Matrizen sind Identitätsmatrizen, in denen alle Diagonalelemente, jene die einen Matchanzeigen, den gleichen Score enthalten und alle anderen Elemente den gleichen undniedrigeren Score enthalten. Damit wird zum Ausdruck gebracht, dass die Wahrscheinlichkeiteiner Mutation zu einer beliebigen anderen Aminosäure konstant ist [32, 21].Eine Vereinfachung, die in der Praxis kaum noch zur Anwendung kommt.Eine Betrachtung der Gleichungen 3.6 und 3.7 im Zusammenhang mit der Bewertungvon Matches und Mismatches über Substitutionsmatrizen macht deutlich, dass diesezusammen mit der Bewertung von Gaps einen wesentlichen Einfluss auf die Art desAlignments haben. Liegen die Scores der Matches und Mismatches dicht beisammen, sowird ein kompakteres Alignment gebildet. Ist ein Match mit einem deutlich positiverenScore bewertet als ein Mismatch, das heißt ein Match kompensiert mehrere Mismatches,so werden die Alignments in Länge gezogen und schwächer ausgeprägt sein, sofern dasEinfügen von Lücken nicht ausdrücklich negativ bewertet wird (siehe Abschnitt 3.5).Ziel aller Scoring-Matrizen ist eine möglichst reale Abbildung der Evolution. Dies istauch der Grund, dass für die jeweilige Anwendung eine passende Matrix ausgewähltwerden muss. Zwei beim Alignment von Aminosäuren häufig verwendete Matrizen sinddie sog. PAM-Matrizen und die BLOSUM-Matrizen.

3. Grundlagen des Sequenzalignments 353.6.1 PAM-MatrizenDie 1978 von Dayhoff et al. in [10] eingeführten PAM-Matrizen (PAM steht für PointAccepted Mutations) basieren auf sogenannten PAM-Einheiten, mit denen die evolutionäreDistanz zweier Aminosäuresequenzen gemessen wird. Zwei Sequenzen S 1 undS 2 unterscheiden sich per Definition um eine PAM-Einheit, wenn S 2 während seinerevolutionären Entwicklung durch eine Reihe akzeptierter Punktmutationen aus S 1 entstandenist und dabei pro 100 Residuen durchschnittlich eine Punktmutation auftrat.Unter einer akzeptierten Punktmutation versteht man in diesem Zusammenhang denAustausch einer Aminosäure durch eine andere und die Weitervererbung dieser Mutation.Berücksichtigt werden nur jene Mutationen, welche die Funktion des Proteins nichtoder zu seinem Vorteil verändern. Jene Mutationen, die durch Insertion oder Deletionentstanden sind, bleiben unberücksichtigt. Aufgrund der Definition würde man vermuten,dass Sequenzen, die durch 100 PAM-Einheiten divergieren, zu 100 % voneinanderabweichen. Aufgrund wechselnder Mutationsereignisse werden im Laufe der Evolutionjedoch immer wieder Veränderungen vorgenommen, so dass zuvor eingeführte Mutationenzu einem späteren Zeitpunkt durchaus wieder rückgängig gemacht werden können.Aus diesem Grund sind PAM-Werte auch über 100 möglich. Sequenzen mit 250 PAM-Einheiten können durchaus noch Übereinstimmungen von 20 % und mehr aufweisen[11, 32].PAM-Matrizen quantifizieren für alle Aminosäuren die Wahrscheinlichkeiten einer evolutionärenEntwicklung, die zu bleibenden Mutationen führen. Die in Abbildung 3.2auszugsweise und im Anhang A.1 vollständig dargestellte PAM250-Matrix zeigt dieWahrscheinlichkeiten einer evolutionären Distanz von 250 PAM-Einheiten.Tabelle 3.2: Auszug aus einer PAM250 MatrixUm die Werte verständlicher zu machen, wurden die Elemente mit 100 multipliziert,damit handelt es sich bei den Werten in der Tabelle um Prozentangaben. Die Tabelle

3. Grundlagen des Sequenzalignments 36zeigt beispielsweise, dass bei einer Aminosäuresequenz S 1 , an deren erster Position einA (Ala) stand, mit einer Wahrscheinlichkeit von 13 % auch in der mutierten SequenzS 2 ein A (Ala) stehen wird. Ebenso besteht eine 3%ige Chance, dass in der mutiertenSequenz S 2 ein A (Ala) zu einem R (Arg) mutiert.Bis heute werden PAM-Matrizen zum Alignieren von Sequenzen verwendet, obwohl dieFrage nach der evolutionären Distanz von Proteinen bis heute nicht klar beantwortetwerden kann. Welche PAM-Matrix am ehesten anzuwenden ist, hängt auch von derjeweiligen Fragestellung und von den Ausgangssequenzen ab. Eine pragmatische Vorgehensweiseist dabei die Verwendung mehrerer unterschiedlicher Matrizen. Matrizen,die sich vor allem bei der Identifikation von Proteindomänen bewährt haben, gehörenzur Familie der BLOSUM-Matrizen [32].3.6.2 BLOSUM-MatrizenDie später als die PAM-Matrizen entwickelten BLOSUM-Matrizen (BLOSUM steht dabeifür BLOck SUbstitution Matrix), gehen auf die Untersuchungen von Henikoff undHenikoff [19] zurück. Die Autoren verwendeten für ihre Untersuchungen Daten auseiner BLOCKS Datenbank. Dabei werden stark konservierte Regionen aus multiplenSequenzalignments extrahiert und in die Datenbank aufgenommen, wobei Lücken dabeinicht zugelassen sind. Die Funktion der Motive muss nicht bekannt sein. Die Auswertungder BLOSUM-Blöcke erfolgt spaltenweise, indem für jede Aminosäure a ∈ A undb ∈ B erst deren Häufigkeit f(a) und f(b) und anschließend die Häufigkeit f(a, b) derAminosäurenpaarungen a und b in sämtlichen Spalten berechnet wird. Die Berechnungder Scores erfolgt als Log-odds-Verhältnis in der Form [32]:s a,b := log sf(a, b)f(a)f(b)(3.9)Die Einträge in der Odd-Score-Matrix repräsentieren damit Wahrscheinlichkeiten. Somitkann der Score eines Gesamtalignments über die Einzelwahrscheinlichkeiten berechnetwerden. Die Verwendung des Logarithmus bietet den Vorteil, dass die Wertemiteinander addiert werden können und nicht multipliziert werden müssen, wie bei

3. Grundlagen des Sequenzalignments 37Wahrscheinlichkeiten üblich. Auf das Endergebnis hat diese Transformation keinenEinfluss. Die Basis s des Logarithmus ist in der Regel so gewählt, dass der Score nurkleine Werte einnimmt, sich meist im Bereich von -10 bis +10 bewegt und eine Rundungder Werte auf Integer keinen großen Einfluss auf das Endergebnis hat. Oft wirddie Basis 2 benutzt.Führt man dieses Verfahren wie in Gleichung 3.9 beschrieben durch, so kann mannachvollziehen, dass die Auswahl der Sequenzblöcke einen wesentlichen Einfluss auf dieGröße des Scores hat. Werden überproportional viele einander sehr ähnliche Blöcke verwendet,so werden diese das Ergebnis weitgehend dominieren und seltene Mutation nureinen geringen Einfluss auf die Scores haben. Eine Verbesserung des Verfahrens bestehtnun darin, einander sehr ähnliche Sequenzblöcke beim Scoring bewusst auszuschließen.Dadurch bekommen die Mutationen der unähnlicheren Sequenzen ein größeres Gewicht,was sich in einem höheren Score für seltenere Paarungen niederschlägt. Diese Verbesserungdes Modells wird in der Bezeichung der BLOSUM-Matrizen dokumentiert. EineBLOSUM62-Matrix wie in Tabelle 3.3 dargestellt, wird nur aus Sequenzblöcken berechnet,deren Sequenzen beim paarweisen Vergleich maximal 62 % identische Residuenaufweisen. Üblich sind darüber hinaus noch BLOSUM50- oder BLOSUM80-Matrizen.Die Verwendung der BLOSUM-Matrix zeigt das folgende einfache Beispiel. Gegebensind die beiden Sequenzblöcke A mit der Sequenz LVLHVWAK und B mit der SequenzLCMKSLEH, die den zwei alignierten Sequenzen d1a6ma_a.1.1.2 und d1asha_a.1.1.2entnommen wurden:A: Leu Val Leu His Val Trp Ala LysL V L H V W A K| | | | | | | |L C M K S L E HB: Leu Cys Met Lys Ser Leu Glu HisDer Score S des Alignments der Sequenzen A und B errechnet sich aus der Summeder Einzelwerte für jede Symbolpaarung, die der BLOSUM-62-Tabelle 3.3 entnommenwerden können:S: 4 - 1 + 2 - 1 - 2 - 2 - 1 - 1 = -2

3. Grundlagen des Sequenzalignments 38Tabelle 3.3: BLOSUM-62 Scoringmatrix für 20 Aminosäuren für das Alignment vonProteinsequenzen.Wie in den Abschnitten 3.2 zum Thema Ähnlichkeit und Distanz gezeigt wird, kannüber die Summe der Bewertung einzelner Symbolpaarungen oder der Lücken eine Bewertungder Ähnlichkeiten ganzer Sequenzen erfolgen. Diese Ähnlichkeitswerte symbolisierennicht nur die Distanz zweier Sequenzen, sondern können auch zur Konstruktioneines Alignments herangezogen werden. Bisher wurden diese Werte wie dimensionsloseGrößen betrachtet, ohne sie auf ein Bezugssystem zu beziehen. Wie diese Größen inBezug auf ein Normal verwendet werden können und wie sie zu interpretieren sind,erklärt der folgende Abschnitt.3.7 Scoring von AlignmentsScoring steht im Zusammenhang zum Sequenzalignment für ein Bewertungsverfahren,mit dem Ähnlichkeiten quantifiziert werden. Die Ähnlichkeit oder der als Distanzbezeichnete Abstand einer Sequenz zu einem Bezugssystem wird durch numerische

3. Grundlagen des Sequenzalignments 39Werte bzw. Scores ausgedrückt. Je höher der Score einer Sequenz ist, desto größerist die Ähnlichkeit der Sequenz zum Bezugssystem. Die Suche nach einem optimalenAlignment ist de facto immer der Suche nach einem hohen oder maximalen Score gleichzusetzen,der eine gute oder im besten Fall optimale Übereinstimmung von Sequenzenbeschreibt.Die in den vorangegangenen Kapiteln eingeführten Methoden alignieren Sequenzen undplatzieren Lücken so, dass eine möglichst hohe Übereinstimmung bei Symbolpaarungenerreicht wird. Die Distanz der Paarungen ist dabei möglichst gering, da die Menge derübereinstimmenden oder ähnlichen Paarungen optimiert wird. Bei einem paarweisenSequenzvergleich wird zwar letztlich die Distanz zweier Sequenzen ausgedrückt und dieBasiseinheit der Scores wird über die Scoring-Matrizen bestimmt, das Bezugssystemwird dabei jedoch nicht festgelegt 3 . Erst eine Schätzung eines Bezugssystems überempirische Methoden kann einen Anhaltspunkt dafür liefern, was einen guten Scoreausmacht.3.7.1 Empirische Festlegung eines Bezugssystems für ScoresEin Score für sich alleine betrachtet ist wertlos, solange keine Vergleichsmöglichkeitenund kein Bezugssysytem zur Verfügung stehen. Mit den bisher diskutierten Abstandswertenist ein Vergleich von Sequenzabständen nur untereinander möglich, eine Frageist bisher aber unbeantwortet geblieben: Wie hoch muss ein Score sein, um eine signifikanteÄhnlichkeit zweier Sequenzen auszudrücken? Um diese Frage beantworten zukönnen, wird auf zufällige (randomisierte) Sequenzen zurückgreifen [21].Ausgangspunkt der Betrachtungen ist die Einsicht, dass bei einem Vergleich zweierbeliebiger Sequenzen auch zufällige Übereinstimmungen auftreten können. Verfahren,die das Einfügen von Gaps erlauben, vergrößern die Menge der übereinstimmenden oderähnlichen Symbolpaarungen zusätzlich, da die Gaps mit dem Ziel platziert werden, einemöglichst hohe Übereinstimmung zu erreichen. Hält man die Symbole einer Sequenznun bei und erlaubt gleichzeitig eine zufällige Positionierung der Symbole (Shuffling),3 Über die wahrscheinlichkeitstheoretische Betrachtung der Log-odds im Bayes Framework lässtsich so ein Bezugssystem prinzipiell beschreiben. Derartige Berechnungen sind im Allgemeinen jedochnumerisch schwer handhabbar.

3. Grundlagen des Sequenzalignments 40so erhält man eine randomisierte Sequenz. Wiederholt man diesen Vorgang, so könnendie generierten Zufallssequenzen einer weiteren Analyse zugeführt werden.Mit der sogenannten Signifikanzanalyse wird das Alignment zweier Sequenzen mit demAlignment randomisierter Sequenzen verglichen. In der Datenanalyse und Modellierungbezeichnet man damit einen Vergleich mit künstlich generierten Ersatzdaten (Surrogatdaten),die als Stellvertreter für die Originaldaten dienen und diese repräsentativersetzen. Die Frage die damit beantwortet werden soll ist, ob Sequenzen signifikante,also wesentliche Ähnlichkeiten aufweisen, oder ob die Unterschiede in den Sequenzenzufälliger Natur sind. Zu diesem Zweck werden aus den Originaldaten künstliche Datensätze,meist randomisierte Datensätze erzeugt, diese Daten einer Analyse zugeführtund die Ergebnisse dieser Daten mit den Originaldaten verglichen. Entscheidend istdabei, inwieweit die Originaldaten von dem durch die Surrogatdaten beschriebenenErgebnisbereich entfernt liegen. Angewendet auf den Vergleich randomisierter Sequenzenbedeutet dies, dass die erste Sequenz beibehalten wird, die zweite Sequenz jeweilsrandomisiert wird, um daraus ein optimales Alignment zu erhalten. Jene randomisierteSequenz mit dem maximalen Score entspricht dem optimalen Alignment und beantwortetgleichzeitig die Frage, wie groß der optimale (maximale) Score ist [21].Eine vollständige Sequenzrandomisierung wie oben beschrieben, ist in der Praxis zuaufwendig. Die Kenntnis über die Score-Verteilung lässt hierbei aber einige Vereinfachungenzu.3.7.2 Verteilung der ScoresIst die Verteilungsfunktion der Scores bekannt, so können mit weit weniger Aufwandals die Randomisierung der Sequenzen die Parameter der Verteilungsfunktion geschätztwerden und damit die Signifikanz des ermittelten Scores belegt werden. Karlin undAltschul haben 1990 in [24] die theoretische Verteilung der Scores zufälliger Sequenzenhergeleitet und empirisch gezeigt, dass die Verteilungsfunktion der Scores sowohl imFalle der Alignments mit als auch ohne Gaps annähernd einer Extremwertverteilungfolgt [21].

3. Grundlagen des Sequenzalignments 41Wiederholt man die oben beschriebene Randomisierung und Alignierung entsprechendoft mit anderen randomisierten Sequenzen, so erhält man eine Häufigkeitsverteilung derScores auf der Basis der beiden Ausgangssequenzen. Das in Abbildung 3.2 dargestellteHistogramm beschreibt, welche Scores in welchem Umfang aufgrund der Sequenzzusammensetzungenzu erwarten sind. Ohne hierbei auf die zwei konkreten Ausgangssequenzenund deren Scores näher einzugehen, lässt sich aus dem dargestellten Histogrammeine Verteilungsfunktion erkennen.Abbildung 3.2: Histogramm der Score-Verteilung randomisierter Sequenzen. Der roteBalken zeigt den Wert des ausgewählten Originalalignments. Die Kurve zeigt dietheoretische Verteilung nach Karlin-Altschul (basierend auf [21])So zeigt das Histogramm in der Abbildung 3.2, dass der Score von -11 die größteHäufigkeit hat. Der Score des Originalalignments am äußeren rechten Rand der Score-Verteilungskurve (siehe roter Balken) zeigt eine Ähnlichkeit der beiden Sequenzen an,die über die Sequenzzusammensetzung deutlich hinausgeht. Ein Score von 11 weist aufeinen Score hin, dessen zufälliges Auftreten bei der dargestellten Verteilung als unwahrscheinlichgelten kann. Die in der Abbildung dargestellte theoretische Verteilungskurve,lässt das Maximum in Bereich von etwa -8 erwarten.Theoretisch wären auch andere Verteilungsfunktionen möglich, wenn die Berechnungder Scores auf anderen Bewertungsgrundlagen als jene der Symbolhäufigkeiten undderen Paarungen basiert. Die Kenntnis der Verteilungsfunktion der Scores ist abernotwendig, soll die Größe eines Scores einem Bezugssystem zugeordnet werden können.

3. Grundlagen des Sequenzalignments 423.7.3 Standardisierung der ScoresAus dem Histogramm geht augenscheinlich hervor, dass mit einem Score von 11 eineüber dem Zufall liegende Ähnlichkeit der beiden Originalsequenzen wahrscheinlich ist.Diese Erkenntnis soll jedoch auch quantitativ ausgedrückt werden können. Als einfachzu errechnender Wert gilt dafür der Z-Score, den beispielsweise auch der FASTA 4 -Algorithmus verwendet. Der Z-Score wird dabei einer Standardisierung (Z-Transformation)über den Mittelwert und der Standardabweichung unterzogen, um die Scoresmiteinander vergleichbar zu machen und zu standardisieren [37].Der Z-Score gibt die Abweichung eines konkreten Wertes s vom Mittelwert ¯S derScoreverteilung als Vielfache der Standardabweichung σ S an [32].Z-Score := s − ¯Sσ S(3.10)Je größer der Score s ist, desto mehr weicht er an den rechten Rand der Verteilung,also in die positive X-Richtung aus. Umso weiter der Score rechts vom Mittelwert ¯Sliegt, desto größer ist die Wahrscheinlichkeit, dass der Score keinem Zufall entsprichtbzw. das Alignment nicht die Folge einer zufälliger Übereinstimmungen ist.Als zum Z-Score alternative Kenngrößen kommen auch der P-Wert (P-Value) undE-Wert (E-Value) zur Anwendung. Der P-Wert gibt die Wahrscheinlichkeit an, dassein gleich hoher oder höherer Score durch eine zufällige Übereinstimmung zustandegekommen ist. Der E-Wert hängt von der Menge der Eingangssequenzen ab. Er gibtdie erwartete Zahl jener Sequenzen der gesamten Menge an, die beim Vergleich miteiner randomisierten Sequenz zum errechneten oder einen höheren Score führen würde[21].Die bisherigen Betrachtungen haben sich ausschließlich paarweisen Sequenzvergleichenund -alignments gewidmet. Die multiple Alignierung von Sequenzen als Erweiterungobiger Verfahren gilt algorithmisch als wesentlich komplexer. Eine genauere Betrachtungdieser Problemstellung ist Thema des folgenden Kapitels.4 Der FASTA-Algorithmus wurde 1985 von David J. Lipman und William R. Pearson als FASTPfür Proteine entwickelt [28]; die aktuellen FASTA-Tools sowohl für Proteine als auch Nukleotide sindunter http://www.ebi.ac.uk/Tools/fasta/index.html zu finden.

4Multiples SequenzalignmentUnter einem Multiplen Sequenzalignment (MSA) versteht man die Erweiterung einespaarweisen Alignments auf drei oder mehrere Sequenzen. Dabei werden die Sequenzen- äquivalent einem paarweisen Alignment - so zueinander ausgerichtet, dass die Distanzder einzelnen Sequenzen möglichst gering ist und am Ende alle Sequenzen die gleicheLänge haben. Nötigenfalls müssen dafür Gaps in einzelne Sequenzen eingefügt werden,die ein lokales Alignment der Sequenzen überhaupt erst möglich machen [38].Ein multiples Sequenzalignment A besteht wie ein paarweises Alignment auch aus demAlphabet Σ A und um das für eine Lücke symbolisierende Zeichen -“. Es gilt wie schon”beim paarweisen Alignment, dass keine Spalte nur aus Lücken bzw. den Zeichen -“ ”bestehen darf.Aus der Forderung des gleichzeitigen Alignierens mehrere Sequenzen und dem dadurchdeutlich steigenden Aufwand gegenüber dem paarweisen Sequenzalignment, entstehenzusätzliche algorithmische Herausforderungen, die in diesem Kapitel eine kurzeEinführung finden. Nachdem erläutert wird, wo ein multiples Sequenzalignment seineAnwendung findet und den Aufwand rechtfertigt, muss - wie beim paarweisen Alignierenschon - eine Methode zur effizienten Suche nach dem optimalen Alignment gefundenwerden.43

4. Multiples Sequenzalignment 444.1 Anwendung multipler SequenzalignmentsProteine können in sogenannte Proteinfamilien zusammengefasst werden. Ausschlaggebenddafür ist die Ähnlichkeit der Proteine bezüglich ihrer Proteinstruktur oderihrer Funktionalität. Proteine die aus der gleichen Proteinfamilie stammen, enthaltendieselben charakteristischen Domänen, was wiederum auf enge evolutionäre Zusammenhängeder Proteine hinweist [32]. Beobachtet man über viele Sequenzen hinweglokale Ähnlichkeiten zwischen den jeweiligen Sequenzen, so handelt es sich dabei oftum strukturelle Ähnlichkeiten der jeweiligen aus einer Familie stammenden Proteine[21]. Damit man nun strukturell ähnliche Sequenzen und globale Ähnlichkeitenerkennen kann, muss die Suche und der Vergleich der Sequenzen auf eine größere Sequenzmengeausgedehnt werden [32]. Ein paarweiser Vergleich zweier Sequenzen istdafür ungeeignet, da das Gesamtsystem und die Gesamtcharakteristik einer Familiedabei unberücksichtigt bleiben. Ein multiples Sequenzalignment deckt in vielen Fällendie wesentlichen Informationen der evolutionären Entwicklung und der funktionalenZusammenhänge auf, bei denen ein paarweiser Vergleich versagen würde [21].Bei Sequenzen mit geringen Ähnlichkeiten ist die Erkennung der über die gesamteSequenz verteilten relevanten Residuen mit statistischen Methoden schwierig, da dieSignale durch die Sequenzvarianten in einem Rauschen zu verschwinden drohen. Oftmalsführt nur die Alignierung ganzer Sequenzfamilien zu besseren Ergebnissen, dennerst der Vergleich mehrerer Sequenzen verstärkt die Signale der konservierten Residuenso, dass sie vom einfachen Signalrauschen unterschieden werden können [32].Multiple Sequenzalignments bieten wesentliche Vorteile bei der Erkennung und Bewertungkonservierter und variabler Positionen innerhalb von Proteinfamilien, doch geradedas Alignieren mehrerer Sequenzen zu einem MSA gilt als algorithmisch herausforderndund aufwendig [32]. Einerseits sucht man nach einer optimalen Alignierung auseiner Unzahl möglicher Sequenzanordnungen, andererseits steigt der Aufwand mit derzunehmenden Anzahl an Sequenzen überproportional an. Eine bioinformatische Kernfrageder letzten Jahre war und ist, wie mehrere Sequenzen mit einem überschaubarenAufwand zu einem multiplen Sequenzalignment (MSA) aligniert werden können [21]

4. Multiples Sequenzalignment 45und wie dabei mit dem Widerspruch optimale Lösung zu algorithmischen Aufwandumgegangen wird.4.2 Komplexität multipler SequenzalignmentsDass ein Probierverfahren nur beschränkt zweckmäßig ist, um eine optimale Alignierungzweier Sequenzen zu erreichen, wurde schon im Kapitel 3.2.3 deutlich. Die Berechnungdes maximalen Score aus allen möglichen Gap-Anordnungen führt schnellan die Grenzen des Möglichen, da die algorithmische Komplexität und der darausgenerierte Rechenaufwand eines exakten Vergleichs so hoch sind, dass ein derartigesVorgehen trotz immer schnellerer Hardware in der Praxis kaum durchführbar ist. Infolgeder Definition der dynamischen Programmierung (siehe Kapitel 3.3) skaliert derRechenaufwand mit dem Produkt der beiden Sequenzlängen. Vergleicht man die Ausgangssequenzenmit den Sequenzen einer Datenbank, so skaliert der Aufwand linearmit der Anzahl der zu vergleichenden Sequenzen [21]. Bei einem multiplen Sequenzalignmentnimmt der Aufwand noch einmal deutlich zu, indem jede Sequenz mit jederanderen Sequenz verglichen werden muss.Betrachtet man den Aufwand exakter iterativer Methoden bis hin zu den schon deutlichschnelleren Methoden auf Basis der dynamischen Programmierung, so ist zu erwarten,dass bei einem multiplen Sequenzalignment mit einem direkten Vergleich ähnlichedynamische Methoden wie bei einem paarweisen Vergleich kaum zur Lösung des Problemsherangezogen werden können. Hütt und Dehnert [21] quantifizieren die Grenzendes Machbaren, indem sie die iterativen Methoden des paarweisen Sequenzvergleichsauf das multiple Sequenzalignment umlegen und den Aufwand diskutieren. Bei N Sequenzenmit annähernd gleicher Länge L benötigt man L NScore-Einträge in einerN-dimensionalen Matrix um daraus einen optimalen Score zu berechnen. Der über dynamischeProgrammierung ermittelte Pfad der optimalen Alignmentkonstruktion führtdurch einen N-dimensionalen Raum beschrieben in einer N-dimensionalen Struktur.Ohne die schrittweise Herleitung der Autoren wiederzugeben 1 wird am Endergebnis1 Die Quantifizierung des Aufwands und die Verallgemeinerung des mathematischen Problems samteiner ausführlichen Herleitung findet sich in [21, S. 179-183]

4. Multiples Sequenzalignment 46doch klar, dass eine unmittelbare Verallgemeinerung der Algorithmen des paarweisen”Alignments kein gangbarer Weg zur Konstruktion eines multiplen Alignments ist“ [21,S. 183].Die Größe heutiger Datenbanken und der Aufwand eines paarweisen Vergleichs zweierSequenzen legen nahe, die Anzahl der Sequenzen und damit die Sequenzvergleichemöglichst frühzeitig zu minimieren.Grundsätzlich gibt es drei wesentliche Einflussgrößen, die den Rechenaufwand einesmultiplen Sequenzvergleichs bestimmen:• die Länge der jeweiligen Sequenzen bzw. Regionen• die Größe des Alphabets• die Anzahl der zu untersuchenden SequenzenDiese drei Faktoren können vorweg nur schwer oder nicht reduziert werden. Die Längeder Sequenzen kann nicht beliebig reduziert werden, da diese größtenteils naturgegeben“sind. Gene haben in der Regel eine Länge von mehr als 80 Codone [32], die es”bei einem globalen Alignment zu alignieren gilt. Gleiches gilt für die Größe des Alphabets,welches ebenso nicht reduzierbar ist, da bestimmte Sequenzen naturgemäßhöhere Variationen im Code aufweisen und somit mit vielen unterschiedlichen Codonebeschrieben werden.Gerade beim multiplen Sequenzalignment spielt die Menge der Ausgangssequenzen einewesentliche Rolle. Schon in der Einführung zu Kapitel 4 wird festgestellt, dass beimmultiplen Sequenzalignment die Anzahl der Eingangssequenzen bewusst hoch gehaltenwird, um zu qualitativ besseren Ergebnissen zu gelangen. Eine Methode, die bei einemmultiplen Sequenzalignment deshalb nahezu unumgänglich ist, betrifft die Vorauswahlvon Sequenzen aus einer ursprünglich größeren Sequenzmenge. Wenn es gelingt, auseiner zunächst großen Menge von Sequenzen mit einem effizienten Verfahren eine relevanteTeilmenge zu extrahieren, deren Sequenzen wahrscheinlich gut zu alignieren sindoder umgekehrt, deren Sequenzen man bei den Betrachtungen mit hoher Wahrscheinlichkeitausschließen kann, so kann der Aufwand damit deutlich reduziert werden. Dieswirft jedoch die Fragen auf, wie und welche Sequenzen aus einer Menge vorselektiert

4. Multiples Sequenzalignment 47werden können und wie und in welcher Reihenfolge diese dann zu einem MSA aligniertwerden können. Iterative bzw. progressive Methoden versuchen dieses Problemin effizienter Weise zu lösen.4.3 Iterative Generierung eines MSADie Komplexitätsbetrachtungen im Abschnitt 4.2 haben gezeigt, dass ein ’Probierverfahren’,das aus allen möglichen Lösungen die beste Alignierung sucht, zur Bestimmungmultipler Alignments kaum zielführend sein kann. Eine effizientere Methode istdie iterative Erstellung eines MSA auf Basis eines paarweisen Vergleichs. Dabei werdenaus einer Menge von Sequenzen die Scores aller Paarungen mittels dynamischerProgrammierung berechnet. Am Beginn wird aus der Menge alle Paarungen jene Paarungmit dem höchsten Score aligniert. Dieses Sequenzpaar bildet ein erstes MSA. Injedem folgenden Iterationsschritt wird eine weitere Sequenz dem bestehenden MSAhinzugefügt. Ausgewählt wird dabei immer jene der verbleibenden Sequenzen, die dembisher generierten MSA am nächsten ist. Wie diese Distanzabschätzung genau erfolgt,ist applikationsabhängig. Das im folgenden Abschnitt als Beispiel angeführte ClustalWleitet vom paarweisen Abstand der Sequenzen binäre Bäume ab, die in einem weiterenAlignierungsschritt die Reihenfolge festlegen. Im Laufe der Alignierung wird der Baumdann Schritt für Schritt abgearbeitet [33, 32].An das MSA hinzugefügt wird jede neue Sequenz, indem sie zu den ursprünglichenSequenzen im MSA, jedoch ohne Berücksichtigung der Lücken, aligniert wird. Mussaufgrund der Alignierung der neuen Sequenz eine Lücke in eine Sequenz der MSAeingefügt werden, so muss diese Lücke in alle Sequenzen des MSA eingefügt werden.Die Iterationsschleife wird solange fortgeführt, bis entweder alle Sequenzen zum MSAhinzugefügt wurden, oder bis die Scores der verbleibenden Sequenzen nicht mehr denAnforderungen genügen.ClustalW, einer der meistbenutzten Algorithmen zur Konstruktion eines multiplen Sequenzalignments[46] basiert auf einem iterativen Verfahren. Clustal generiert paarweiseAlignments und fügt diese in einem weiteren Arbeitsgang zu einem MSA zusammen[33]. Wie Clustal im Detail abläuft, beschreibt der folgende Abschnitt.

4. Multiples Sequenzalignment 484.4 Multiples Sequenzalignment mit ClustalWClustal ist ein progressiver Algorithmus und ein gleichnamiges darauf basierendes Softwarepaketzur Berechnung eines multiplen Sequenzalignments. Die Applikation stehtsowohl als Shell-Applikation als ClustalW als auch mit einer grafischen Benutzeroberflächeals ClustalX für Linux, Mac und Windows zur Verfügung 2 .Der grundlegende Clustal Algorithmus gilt, obwohl er in der ersten Fassung schon zuBeginn der 1990er Jahre beschrieben wurde und 1994 Thompson et al. in [45] dieerweiterte Version unter ClustalW veröffentlicht haben, bis heute als eine der Standardmethodenzur Erstellung multipler Sequenzalignments [33]. ClustalW ist die Weiterentwicklungvon Clustal, einem Algorithmus zur paarweisen Alignierung von Sequenzen,der hier nicht näher beschrieben wird 3 . Das W im Namen steht für gewichtet(Weighted) und weist darauf hin, dass Sequenzen entsprechend deren Ähnlichkeiten zuanderen Sequenzen mehr oder weniger gewichtet werden können, um die Alignierungder Sequenzen zu MSAs positiv zu beeinflussen [33, 45].ClustalW nutzt ein progressives Alignment, um ein MSA schrittweise zu berechnen.Der grundlegende Multiple Alignment Algorithmus läuft dabei in drei Schritten ab, diein [45] und [32] wie folgt beschrieben sind:1. Im ersten Schritt werden für alle Paarungen separat globale Alignments bestimmt.Zudem werden mittels dynamischer Programmierung über einfache Scoresjeweils die Distanzen jeder Paarung berechnet und diese in einer Distanzmatrixabgelegt. Der Begriff einfach bezieht sich dabei auf den Berechnungsaufwand.So werden optional Gaps beim Scoring nur mit konstanten Werten berücksichtigt,um den Aufwand der Alignierung zu reduzieren. Eine Vereinfachung, die vor allembei großen Datenmengen genutzt wird.2 ClustalW und ClustalX Multiple Sequence Alignment - Multiple alignment of nucleic acid andprotein sequences. Siehe unter: http://www.clustal.org/3 Auf der Webpräsenz http://www.clustal.org/ der Clustal-Entwickler finden sich unter denReferenzen eine ausführliche Zusammenfassung der wesentlichen Veröffentlichen, die auch eine stetigeWeiterentwicklung der Software bis heute dokumentieren.

4. Multiples Sequenzalignment 492. Auf Basis der generierten Distanzmatrix erfolgt im nächsten Schritt die Berechnungeines phylogenetischen Baumes. Mit Hilfe des Neighbour-Joining-Algorithmuswird ein binärer Baum generiert, der einerseits die Reihenfolge der iterativenAlignierung der einzelnen Sequenzen zu einem MSA festlegt, und andererseitsauch die Gewichtung der einzelnen Sequenzen bzw. deren Score bestimmt. DasGewicht der Sequenzen wird dabei über die Distanz des Endknotens zur Wurzel(root) des Baums ermittelt.3. Im letzten Schritt wird die Alignierung auf Basis des erstellten Clusterbaumesvorgenommen. Die Alignierung wird mit jener Paarung begonnen, welche denhöchsten paarweisen Score aufweist. Diese Paarung ist auch jene, die als erster inden Baum eingefügt wurde. In weiterer Folge werden die verbleibenden Sequenzensukzessiv und in der Reihenfolge des Hinzufügens der Knoten in den Baum demAlignment hinzugefügt. Weist ein Knoten zwei Kindsequenzen auf, so werden diesevorher aligniert und dann erst dem MSA hinzugefügt. Hat ein Knoten nur eineKindsequenz oder ein oder mehrere Alignments, so werden diese wenn notwendigzuvor zusammengefasst und dem MSA hinzugefügt. Ausdrücklich hervorzuhebenist, dass die Alignierung an den Endknoten immer mit der Originalsequenzenerfolgt, und nicht mit den etwaig eingefügten Gaps der vorangegangenen Alignierungzur Bestimmung des binären Baums.Der ClustalW Algorithmus ist verglichen mit anderen Methoden effizient, da eine paarweiseAlignierung nur einmal berechnet werden muss. Dennoch hat ClustalW auch einigeNachteile. Lokale Sequenzähnlichkeiten bleiben beispielsweise oft unterbewertet,da der Algorithmus auf eine Berechnung der Distanzen auf Basis eines globalen Alignmentsbasiert. Sequenzmengen, die nur eine oder wenige lokale Gemeinsamkeitenbesitzen, sich ansonsten aber weitgehend unterscheiden, sind für ClustalW wenig geeignet.Die Reihenfolge bei der Alignierung spielt ebenso wie die Distanz der alignierten Sequenzenvor allem am Beginn der Iteration eine wesentliche Rolle. Zu stark divergenteSequenzen gerade zum Beginn der Iteration, als auch die Bewertung der Einführungvon Lücken und der Verlängerung der Lücken beeinflussen das Ergebnis empfindlich.

4. Multiples Sequenzalignment 50Ist die Ähnlichkeit der ersten alignierten Sequenzen gering, so ist die Wahrscheinlichkeithoch, dass es zu falschen Paarungen kommt oder Lücken an falschen Positioneneingefügt werden. Nachteilig ist dabei besonders, das einmal durchgeführte Alignmentsnachträglich nicht mehr korrigiert werden. Feng und Doolittle beschreiben diese Eigenartmit Once a gap, always a gap“ [14].”Gerade bei stark divergenten Sequenzen ist die Wahl der Parameter wesentlich undbeeinflusst die Ergebnisse in hohem Maße [32]. Auf die jeweiligen Ausgangssequenzenangepasste Substitutionsmatrizen und eine sinnvolle Bewertung der Gaps könnendem Abdriften des Algorithmus entgegenwirken. ClustalW unterstützt eine Reihe unterschiedlicherProtein Weight Matrizen (BLOSUM 30, PAM 350 und einige mehr),um den Alignierungsprozess an die Sequenzen anzupassen. Fehlalignments und falscheErgebnisse durch lokale Minima sind trotzdem nicht auszuschließen und bleiben imungünstigen Fall unentdeckt. Der Algorithmus liefert, wie die meisten anderen Algorithmenauch, keinen Gesamtscore, der eine objektive Bewertung der Qualität des MSAmöglich machen würde.4.5 Bewertung eines multiplen SequenzalignmentsFast alle Verfahren bleiben die Bewertung des multiplen Sequenzalignments durch dieBerechnung eines Gesamtscores schuldig. Damit kann die Qualität eines MSA wederverglichen, noch zum Ausdruck gebracht werden. Methoden der Alignmentbewertung,wie sie bei paarweisen Alignierungen verwendet werden, können nicht ohne weiteresauf ein MSA umgelegt werden. Bei einer geringen Sequenzanzahl k mit einer geringenSequenzlänge n ist die Berechnung auf Basis der Scores paarweise alignierter Sequenzentheoretisch möglich. Dabei werden die Scores aller möglichen Sequenzpaarungen einesMSA aufsummiert. Merkl und Waack weisen in [32] aber ausdrücklich darauf hin, dassin der Praxis die Berechnung über die Sum of Pairs wenig zielführend ist, da der Aufwandmit O(n k ) exponentiell zur Anzahl der Sequenzen über alle verträglichen Maßesteigt. Die Abschätzung des Aufwands mit üblichen Größen zeigt schnell die Grenzendieser Bewertungsmethode auf. Dies ist auch ein Grund dafür, dass im Abschnitt 7alternative Bewertungsmethoden zur Anwendung kommen.

5Hidden Markov ModelleUntersucht man eine Menge genetisch verwandter Sequenzen, um sowohl die Häufigkeitihres Auftretens als auch das Mutationsverhalten der Symbole mit probabilistischenModellen zu beschreiben, so stellt man fest, dass die Anordnung der Symbole wie zuerwarten nicht zufällig ist. Die Ordnung gehorcht bestimmten Regeln, welche letztendlichdas Muster der evolutionären Entwicklungen beschreiben. Eine der wesentlichenAufgaben der Mustererkennung in der Bioinformatik besteht darin, biologisch zusammenhängendeFragmente in einer längeren Sequenz zu erkennen oder Ähnlichkeitenzwischen verschiedenen Sequenzfragmenten festzustellen. Diese Fragmente können alsSignale verstanden werden, deren statistische Eigenschaften es in Modellen zu beschreibengilt.An der Vielfalt der genetischen Mutationen ist schon zu erkennen, dass die Regelnder Evolution keinesfalls trivial und statisch sind. Sie lassen sich nicht mit einfachenWenn-dann-Regeln nachbilden, sondern bedürfen komplexen Modellbeschreibungen.Bei der Beschreibung der Modelle stützt man sich deshalb auf Wahrscheinlichkeiten, dieeine wahrscheinlich richtige Vorhersage zulassen und so in der Auswahl der Sequenzenbessere Ergebnisse als reine Zufallstreffer möglich machen.Eines in der Muster- und vor allem Spracherkennung weitverbreiteten, beschreibendenModelle auf Basis von Wahrscheinlichkeiten ist das Hidden Markov Modell (HMM).Das nach A. Markov 1 benannte statistische Modell wurde am Beginn der 1990er von1 Andrei Andrejewitsch Markow, 1856 - 1922, russischer Mathematiker; wesentliche Beiträge zurWahrscheinlichkeitstheorie und Analysis; verfasste die Theorie der stochastischen Prozesse (Markow-Prozesse), die in den Hidden Markov Ketten zur Anwendung kommen [1].51

5. Hidden Markov Modelle 52Haussler et al. [18] zur Untersuchung von Proteinsequenzen in die Bioinformatik eingebracht.Das Modell wird durch zwei stochastische Prozesse beschrieben: durch Zustandsübergängeund Emissionen, die gemeinsam die Markovsche Kette beschreiben.5.1 Markov-KettenAminosäuresequenzen werden in der Bioinformatik üblicherweise als Zeichenketten dargestellt.Vergleicht man die Sequenzen untereinander, so stellt man fest, dass sowohldie Anordnung der Symbole als auch die Länge der Sequenzen variieren und zufälligerscheinen. Markovsche Ketten beschreiben die Wahrscheinlichkeiten P(Y = y), mitdenen eine Zufallssequenz y über dem Alphabet Σ A = {A, C, D, . . . , V, W, Y } einebeliebige, feste Anordnung der Symbole y=y 1 y 2 y 3 . . . y n ∈ Σ n A annimmt.Mit der Festlegung, dass die Länge L ∈ N der Zufallssequenz diskret und ebenso zufälligist, ergibt sich eine Wahrscheinlichkeit P(L = n), dass die Sequenz Y eine bestimmteLänge n hat. Das Produkt der Wahrscheinlichkeit P(L = n) und der Wahrscheinlichkeitfür das Auftreten einer bestimmten Sequenz y mit der Länge n ergibt die totaleWahrscheinlichkeit [32]:P(Y = y, L = n) = P(L = n) · P(Y = y|L = n) (5.1)Die Berechnung der Wahrscheinlichkeit P(L = n) bedarf in diesem Zusammenhangkeiner weiteren Erläuterungen. Die Ermittlung der Wahrscheinlichkeiten, dass die ZufallssequenzY mit einer zuvor festgelegten Länge n eine bestimmte Symbolabfolge yergibt, entpuppt sich bei genauerer Betrachtung jedoch als in der Praxis zu aufwendig.Die Wahrscheinlichkeit P(Y = y|L = n) errechnet sich, indem der Prozess zurErzeugung der Zufallssequenz als eine Folge von stochastischen Einzelprozessen angesehenwird, die Zufallselemente Y 1 ,Y 2 ,. . . generieren. Zu jedem Zeitpunkt n nimmt dasZufallselement Y n einen Wert y n aus Σ A an. Betrachtet man den Prozess zu einemspäteren Zeitpunkt n, so haben zu diesem Zeitpunkt die Zufallselemente Y 1 ,Y 2 ,. . .,Y n−1bereits die Werte y 1 ,y 2 ,. . .,y n−1 angenommen. Die Folge dieser Überlegung ist eineiterative Anwendung der Einzelwahrscheinlichkeiten, aus denen sich die gemeinsame

5. Hidden Markov Modelle 53Wahrscheinlichkeit der Zufallselemente Y 1 ,Y 2 ,. . .,Y n ermitteln lässt[32]:P(Y = y|L = n) := P(Y 1 = y 1 , Y 2 = y 2 , . . . Y n = y n ) (5.2)Unter der Verwendung bedingter Wahrscheinlichkeiten wird der iterative Charakterder Gleichung noch deutlicher.P(Y 1 = y 1 ,Y 2 = y 2 , . . . Y n = y n ) =P(Y 1 = y 1 )·P(Y 2 = y 2 |Y 1 = y 1 ) · · ·(5.3)· · ·P(Y n = y n |Y 1 = y 1 , Y 2 = y 2 , . . . , Y n−1 = y n−1 )Dieser iterative Ansatz in Form der Zerlegung auf Einzelereignisse gilt für jedes Wahrscheinlichkeitsmodelleiner Sequenz [21]. Die Gleichung zeigt, dass mit zunehmenderAnzahl n die Berechnung der Wahrscheinlichkeiten immer aufwendiger wird und dieAnzahl der Möglichkeiten exponentiell wächst. In der Praxis ist diese Berechnungsmethodedemnach kaum anwendbar.Markovsche Ketten begrenzen per Definition die Anzahl der Auswahlmöglichkeiten.Voraussetzung dieser Begrenzung ist die Annahme, dass eine eingeschränkte Kenntnisder vorangegangenen Symbolanordnung ebenso gute Prognosen über die nachfolgendenSymbole zulässt wie bei Kenntnis aller der aktuellen Position vorangegangenen Symbolanordnungendes aktuellen Prozesses. Eine Einschränkung des Modells auf n · |Σ A |Auswahlmöglichkeiten bedeutet, dass die Auswahl der Symbole für das ZufallselementY n zum Zeitpunkt n nur vom Zeitpunkt selbst und vom Wert y n−1 ∈ Σ A abhängt, dendas vorgehende Zufallselement Y n−1 angenommen hat [21, 32]:P(Y n = y n |Y 1 = y 1 , Y 2 = y 2 , . . . , Y n−1 = y n−1 ) = P(Y n = y n |Y n−1 = y n−1 ) (5.4)Man bezeichnet dieses Modell der Gleichung 5.4 als Markovsche Kette erster Ordnung 2 .Die bedingte Wahrscheinlichkeit erstreckt sich dann nur noch über ein Symbol undnicht über die gesamte vorangegangene Sequenz.2 Markov-Ketten höherer Ordnung haben eine größere Reichweite. Deren bedingte Wahrscheinlichkeitenerstrecken sich dann über mehrere Symbole.

5. Hidden Markov Modelle 54Markov-Ketten können als endliche Automaten interpretiert werden, deren Zuständemit gerichteten Kanten verbunden werden, die mit Übergangswahrscheinlichkeiten versehensind [21].Abbildung 5.1: Erweiterter Zustandsgraph einer Markov-Kette der Menge Σ = {(a, l) :a ∈ A, l = 1, 2, . . . , n} mit der Länge n = 4 und dem Startknoten (aus [32])Verfolgt man im obigen Beispiel der Abbildung 5.1 die gerichteten Kanten der MarkovschenKette vom Startknoten bis zum Zeitpunkt n, so wird deutlich, dass der erweiterteZustandsgraph der von einem Zustand zum nächsten führt, einer zufälligen Irrfahrtgleichkommt. Wesentlich ist die Festlegung, dass die Knoten nur in der vorgegebenenRichtung der Kanten erreicht werden können. Die Knotenmenge besteht aus der Menge{Start} ∪ {Σ A × . . . × Σ A }. Am Beginn der Irrfahrt befindet man sich im Startknotenund fährt nun zufällig, jedoch der Wahrscheinlichkeitsverteilungen entsprechend dengerichteten Kanten entlang von einem Knoten y i zum nächsten y i+1 . Die Schätzungder Wahrscheinlichkeit, die Knoten in einer bestimmten Reihenfolge anzufahren, ergibtsich aus dem Produkt des sich durch die Irrfahrt ergebenden Zustandsgraphs.Die erweiterte Form einer Markov-Kette findet in der Bioinformatik in Hidden MarkovModellen ihre Anwendung.5.2 Hidden Markov ModelleEin Hidden Markov Modell (HMM) beschreibt einen stochastischen Prozess, der überzwei Zufallsprozesse definiert wird [21, 32]:• Der erste stochastische Prozess beschreibt die internen Zustandsübergänge zwischenbeliebigen und diskreten Zuständen aus dem internen Zustandsraum Λ =

5. Hidden Markov Modelle 55{1, 2, . . . , λ} auf Basis der Übergangswahrscheinlichkeiten von einem Zustand inden anderen. Er entspricht einer Markov-Kette. Dieser Prozess beschreibt die interneZustandsfolge x=x 1 ,x 2 ,. . .,x l des Modells. Sie ist nicht beobachtbar bzw. istversteckt“ (engl. hidden), daher auch die Bezeichnung Hidden Markov Modell.”Eine Folge von Zuständen x∈ Λ l mit der Länge l und dem Startzustand x 0 wirdals Pfad bezeichnet.• Der zweite Prozess generiert entsprechend einer zustandsabhängigen Wahrscheinlichkeitsverteilungzu jedem Zeitpunkt i eine sichtbare Emission y=y 1 ,y 2 ,. . .,y laus dem Emissionsalphabet Σ = {1, 2, . . . , σ}. Die Folge der Emissionen ist beobachtbarund entspricht beispielsweise bezogen auf Sequenzen den einzelnenAminosäuren. Eine Folge von Emissionen y∈ Σ l mit der Länge l wird Beobachtunggenannt 3 .Der Hidden Markov Prozess kann - gleich der Markov-Kette - als zufällige Irrfahrtin einem erweiterten Zustandsgraphen des Modelles aufgefasst werden. Bei einem gedachtenExperiment stehen in jedem Knoten entlang des Zustandsgraphen zwei Auwahlmöglichkeitenzur Verfügung. Die ersten Auswahlmöglichkeit bildet die Emissionenaus dem Emissionsalphabet entsprechend den jeweiligen Emissionswahrscheinlichkeitenab. Die zweite stellt die gerichteten Kanten zu den Nachbarknoten zur Auswahl, wobeihierbei nur die Knoten des Zeitpunkts i + 1 erreicht werden können.5.3 Profil-HMMsIn der Bioinformatik kommen vorwiegend Profil-HMMs zur Anwendung. Der Aufbaudes Profil-HMMs leitet sich von den Sequenzen ab, mit denen das Hidden Markov Modelltrainiert wird. Beim Training des Modells werden die Sequenzen eines MSA spaltenweiseanalysiert und die Verteilung der Symbole innerhalb der Spalten berechnet.Spalten mit großen Symbolähnlichkeiten bilden einen Konsens (engl. Consensus) fürdie im multiplen Alignment enthalten Proteinteile. Da in einigen Sequenzen Teile fehlenkönnen oder zusätzlich zu den Consensus-Spalten Teilfolgen in einzelne Sequenzeneingefügt wurden (siehe Kapitel 3), bestehen multiple Sequenzalignments neben den3 In der konkreten Anwendung mit Aminosäuresequenzen wäre Σ = Σ A

5. Hidden Markov Modelle 56Konsenspositionen auch aus Einfügungen (Insertions) und Löschungen (Deletions), dieim HMM berücksichtigt werden müssen.Profil-HMMs werden mit drei grundsätzlichen Zustandstypen beschrieben [32]:• Match-Zustände m i (in der Abbildung 5.2 mit Quadraten symbolisiert) beschreibeneine Position i in der Sequenz, die innerhalb des Modells zum Konsens gehört.Dies muss nicht zwingend bedeuten, dass zwei exakt gleiche Symbole der MengeΣ übereinstimmen. Es können durchaus mehrere und unterschiedliche Symbolezum Konsens gehören, wenn die aus einem MSA einer Proteinfamilie bestehendenTrainingsdaten (Profil-MSA) die Häufung mehrerer unterschiedlicher Symbole ander betreffenden Position bestätigen. Befindet sich der Prozess im Zustand m i ,so emittiert er mit einer der Spalte i zugrundeliegenden Wahrscheinlichkeit einSymbol aus dem Alphabet Σ A .• Insert-Zustände i i (in der Abbildung 5.2 als Rhomben dargestellt) erzeugen einzusätzliches Symbol in der Sequenz, obwohl mit den Modellspalten kein Konsenserreicht wurde. Der Prozess emittiert ein Symbol aus dem Alphabet Σ A .Nachdem die Trainingsdaten selbst keine Emissionswahrscheinlichkeiten für diebetreffende Position beschreiben, kann beispielsweise auf Hintergrundwahrscheinlichkeitenzurückgegriffen werden. Voraussetzung dafür ist, dass für jedes Symbolder Menge Σ A eine Wahrscheinlichkeit größer Null definiert ist.• Bei Delete-Zuständen d i (in die Abbildung 5.2 als Kreise eingebunden) wird immereine Lücke, also der Buchstabe -“ emittiert. In diesem Fall gilt die Spalte”als verarbeitet.Um das Modell zu vervollständigen, wird es um den initialen Zustand und den terminalenZustand erweitert. Der initiale Zustand 0 entspricht dem Startzustand, derzu einem späteren Zeitpunkt niemals mehr angenommen werden kann. Der terminaleZustand ∞ emittiert nichts und ist immer der letzte Zustand der erreicht werdenkann. Der Prozess beginnt immer im initialen Zustand und endet immer im terminalenZustand.

5. Hidden Markov Modelle 57Abbildung 5.2: Schematische Darstellung eines Profil-HMM mit der Länge n (aus [32])Die gerichteten Kanten in der Abbildung 5.2 symbolisieren die jeweiligen Zustandsübergänge(Transitionen) von einem Zustand in einen anderen. Sie zeigen auch an, dass sichder Zustand entlang einer Kante nur in eine Richtung verändern kann. Jede dieser Transitionenist mit positionsabhängigen Übergangswahrscheinlichkeiten verknüpft. Diesegeben an, mit welchen Wahrscheinlichkeiten der Pfad den Weg über eine bestimmteKante nimmt. Zusätzlich wird in den Insert- und Delete-Zuständen gemäß der Emissionsverteilungein Symbol aus der Menge Σ A emittiert.In diesem Zusammenhang sollten auch mögliche Probleme bei der Parametrisierungeines Profil-HMMs mit einem Profil-MSA nicht unerwähnt bleiben [32]:• Es ist durchaus problematisch, wenn aus einer dünnbesetzten Spalte der TrainingsdatenWahrscheinlichkeiten geschätzt werden sollen. Diese Spalten sind mitunterwenig repräsentativ.• Die Schätzung der Übergangswahrscheinlichkeiten zu und aus Insertionszuständenkann sich dann als problematisch erweisen, wenn die Trainingsdaten kaum Insertionszuständeaufweisen.Für beide Probleme besteht die Lösung darin, Hintergrundwahrscheinlichkeiten in dieSchätzung einfließen zu lassen, darauf basierende Pseudocounts einzuführen die verhindern,dass eine Wahrscheinlichkeit Null wird, oder die Spalte selbst als Ergebnis einerEinfügeoperation zu interpretieren und nicht in das HMM aufzunehmen [12].

5. Hidden Markov Modelle 585.4 Verwendung von Profil-HMMsIn obigen Abschnitten wurden mehrmals die Parallelen eines Hidden Markov Modellsmit einem Automaten, der nach bestimmten Regeln das Modell in Einzelschrittendurchläuft, deutlich gemacht. In jedem dieser Schritte, die sich aus der Konfigurationdes Modells ergeben, wird ein Symbol emittiert. Welcher Pfad durch das Modell genommenwird und welche Symbole emittiert werden, bestimmen sowohl die Übergangsalsauch die Emissionswahrscheinlichkeiten des Modells.Bisher ist unerwähnt geblieben, welche Fragestellungen mit einem HMM beantwortetwerden können und wie ein Profil-HMM für ein Sequenzalignment konkret genutztwerden kann. Der Umgang mit dem Profil-HMM lässt sich in drei Aufgabenbereicheuntergliedern [21]:• Training: Das Training des Modells erfolgt über die Schätzung der Modellparametermit einer Menge alignierter Sequenzen. Aus der Zusammensetzung derSequenzen und deren Alignierungen ergibt sich letztlich die Modellbeschreibung.• Evaluation: Sie entspricht der Gewinnung einer Sequenz aus dem internen Pfad.• Decodierung: Mit der Decodierung wird der interne Pfad einer gegebenen (beobachteten)Sequenz ermittelt.Im Rahmen dieser Arbeit gilt den Aufgaben Training, vor allem aber der Decodierungdas besondere Interesse. Anhand eines konkreten Beispiels werden beide Aufgaben imFolgenden näher beschrieben, um am Ende des Kapitels zu zeigen, wie der Zustandspfadzur Alignierung einer Sequenz mit einem MSA führt.5.4.1 Training eines Profil-HMMDas Training eines Profil-HMM entspricht der Schätzung der HMM-Parameter aufBasis von Sequenzen mit einer bekannten internen Struktur. Die Sequenzen werdenaufgrund deren Strukturähnlichkeiten zu einem MSA aligniert und bilden so die Datengrundlagedes Trainingsprozesses. Während des Trainingsvorgangs werden in einemiterativen Prozess die Emissions- und Transitionswahrscheinlichkeiten unter dem

5. Hidden Markov Modelle 59geschätzten Modell maximiert [21] (siehe auch Maximum Likelihood Schätzer in [12]und [32]).Wie werden Sequenzen eines Eingangs-MSA interpretiert, um überhaupt die Eingangsdatenfür eine Schätzung zu erhalten? Krogh et al. [26] entwickelten dafür ein Lösungsverfahren,das wie folgt zusammengefasst werden kann [12, 32]:Gegeben ist ein multiples Sequenzalignment A m×l = (a ij ) mit m Sequenzen und lSpalten. Sie enthalten Buchstaben aus Σ A und Gaps -“ aus vorangegangenen Alignierungen.Um das Profil-HMM mit dem gegebenen MSA A zu trainieren, wird aus den”einzelnen Sequenzen des MSAs jeweils ein Pfad konstruiert.Dazu wird jenen Spalten ein Match-Zustand M zugeordnet, bei der die Anzahl derBuchstaben aus Σ A größer einem bestimmten Schwellenwert ρ ist. Die Anzahl derMatch-Zustände über alle Spalten des MSAs bestimmt die Länge n des Modells M A ,bestehend jeweils aus einem Match- m i , Insertion- i i und Deletion-Zustand d i . Spaltenmit entsprechender Besetzung werden in das Modell aufgenommen und zu Modellspalten(in dieser Arbeit mit der Markierung M versehen). Dünnbesetzte Spalten werdenals Insertions interpretiert und nicht in das Modell aufgenommen (diese Spalten werdenhier mit einem N markiert). Das Beispiel in Abbildung 5.3 zeigt die Zuordnung derSpalten als eine MN-Reihe über den Modellsequenzen.Mit dem HMM kann für jede Sequenz a i,· im MSA der Pfad mit der Länge L ermitteltwerden. Ist eine Spalte einem Match-Zustand M zugeordnet, so gilt das Zeichen a ik derSequenz in der jeweilige Spalte k als vom Match-Zustand m i emittiert, vorausgesetztes handelt sich nicht um das Zeichen -“ für ein Gap; andernfalls wird das Zeichen”dem Deletion-Zustand d i zugeschrieben. Ist das Zeichen a ik keinem Match-Zustand Mzugeordnet, so gilt das Zeichen vom Insertion-Zustand i i emittiert, wenn es zuvor schoneine Spalte gab, die einem Match-Zustand m zugeordnet wurde; andernfalls gilt dasZeichen als von i 0 emittiert.

5. Hidden Markov Modelle 605.4.2 Decodierung eines Profil-HMMZu jeder beobachteten Sequenz kann aus dem Profil-HMM durch Decodierung die gemeinsameWahrscheinlichkeit eines Pfades aus Σ HMM und der Emission aus Σ A berechnetwerden. Je höher diese Wahrscheinlichkeit ist, als desto geringer gilt die Distanzder Beobachtung zum Modell. Gleiches gilt für Scores, denn HMM-Scores werden inden meisten Fällen von den Modell-Wahrscheinlichkeiten abgeleitet [32].Aus der schematischen Darstellung des Profil-HMMs in Abbildung 5.2 wird deutlich,dass es aufgrund der nicht beschränkten Länge der durch das HMM modellierten Sequenzenunendlich viele und demnach unendlich lange Pfade im Modell gibt, die zueiner Emission gleich einer beobachteten Sequenz führen. Die Bildung eines optimalenAlignments führt über die Suche nach dem wahrscheinlichsten aller Pfade. DieMethode, bei der alle Pfade berechnet werden, um jenen Pfad mit der höchsten gemeinsamenWahrscheinlichkeit zu erhalten, erscheint impraktikabel, da die Zahl dermöglichen Pfade exponentiell mit der Länge n des HMMs wächst. Zur Lösung des Optimierungsproblemskommt beispielsweise der sogenannte Viterbi-Algorithmus infrage,dessen Ziel die Bestimmung des optimalen Pfades (Viterbi-Pfad) bei einer gegebenenSequenz der Länge L über das Alphabet Σ A ist. Viterbi löst das Decodierungsproblemdurch dynamische Programmierung (siehe Kapitel 3.3) mit deutlich weniger Aufwand.Aufgrund der Einschränkung auf 9 Transitionen pro Modellspalte reduziert sich dieKomplexität auf O(L · 9n). Für nähere Details sei auf weiterführende Quellen wie [32],[21] oder [12] verwiesen.5.4.3 Alignment mit einem Profil-HMMIst das Profil-HMM trainiert und damit die Topologie des HMM festgelegt, so kanneine Sequenz mit dem HMM aligniert werden. Im Rahmen der Decodierung wird jenerPfad ermittelt, der die größte Wahrscheinlichkeit oder den höchsten Score aufweist. Inder Abbildung 5.3 wird eine Alignierung der Sequenz d2ez9a2 mit einem aus siebenSequenzen bestehenden MSA dargestellt. Modellspalten sind mit dem Buchstaben M(Match) markiert, Spalten die nicht in das HMM aufgenommen wurden, mit demBuchstaben N.

5. Hidden Markov Modelle 61Abbildung 5.3: Auszug aus einem einfachen Erweiterungs-MSA, bei der den Sequenzendes Profil-HMMs eine einzelne Sequenz hinzugefügt wurde.Mit den Markierungen m für Match, d für Deletion und i für Insertion werden diedurchlaufenen Zustände des ermittelten Pfads beschrieben. Die Abbildung 5.3 zeigtden Pfad der mit dem HMM alignierten Sequenz d2ez9a2 als Zeichenkette der Menge{0, m, i, d, ∞}. Wird das Symbole einer Sequenz mit einem m (Match) markiert, so wirdes der nächsten freien Modellspalte M zugeordnet. Wird das Symbol einer Sequenz miteinem i (Insertion) markiert, so muss das Modell an dieser Position eine zusätzlicheSpalte aufnehmen. Wird das Symbol einer Sequenz mit einem d (Deletion) markiert,so muss die Sequenz an dieser Position um eine Leerstelle erweitert werden.Wie Abbildung 5.3 zeigt, kann mit dem aus der Decodierung gewonnenen Pfad eineSequenz mit einem MSA aligniert werden. Sollen mehrere Sequenzen aligniert werden,so ist der beschriebenen Prozess mehrmals hintereinander auszuführen. Wie dieseAufgabe konkret umgesetzt werden kann, zeigt das folgende Kapitel.

6Implementierung eines MSA miteinem Profil-HMMDas vorliegende Kapitel zeigt die teilweise Umsetzung der in den vorangegangenenKapiteln besprochenen Grundlagen und Algorithmen. Die Aufgabe besteht in der Entwicklung,Anwendung und Evaluation eines Verfahrens zur Berechnung von multiplenSequenzalignments auf Basis von Profil Hidden Markov Modellen. Als Ausgangsbasisder Implementierung wurde das in Zusammenarbeit mit der Universität Salzburg(Fachbereich Molekulare Biologie 1 ) und an der Fachhochschule Salzburg (StudiengangInformationstechnik und System-Management 2 ) entwickelte Softwarepaket HMModeler[39, 6], eine Werkzeugsammlung zur Erstellung passgenauer Hidden Markov Modellefür Proteinfamilien [7, 27, 47], und die damit erstellten Modelle und Daten verwendet.In einigen Applikationen und Datenstrukturen wurden Anpassungen vorgenommen,um den geänderten Anforderungen zu genügen. Einige zusätzliche Applikation wurdengänzlich neu entwickelt. Die Implementierung und das Debugging der Applikationenund Scripte, sowie die Evaluation der Ergebnisse erfolgte in der im Anhang B.1 dokumentiertenUmgebung.Die folgende Kurzbeschreibung der in den nachfolgenden Abschnitten dokumentiertenImplementierungsschritte soll den Ablauf der Entwicklung verdeutlichen.1 Universität Salzburg, Fachbereich Molekulare Biologie: http://www.uni-salzburg.at/portal/page?_pageid=146,65187&_dad=portal&_schema=PORTAL (Stand: 31. Juli 2010)2 Fachhochschule Salzburg, Studiengang Informationstechnik und System-Management: http://www.fh-salzburg.ac.at/master/informationstechnologien/(Stand:31.Juli2010)62

6. Implementierung eines MSA mit einem Profil-HMM 636.1 Kurzbeschreibung der ImplementierungBei der Umsetzung der Problemstellung wird eine mehrstufige und iterative Strategieverfolgt. Die eigentliche, singuläre Alignierung wird mit Hilfe eines Profil-HMM vorgenommen,welches auf einem MSA basiert. Mit jeder Alignierung wird eine Reihe vonScores berechnet. Aus der Menge der Sequenzen werden jene Sequenzen ausgewählt, diedas höchste Scoring aufweisen und diese dann mit dem Profil-MSA zu einem Ergebnis-MSA vereint. In einem zweiten Schritt werden aus dem Ergebnis-MSA jene Sequenzbereicheextrahiert, die mit dem Profil-HMM nicht aligniert werden können und versucht,diese Alignierungslücken mit einem alternativen Verfahren zu schließen.Die folgenden Abschnitte erläutern die schrittweise Umsetzung der Implementierungund erklären das Zusammenwirken der zum Einsatz kommenden Methoden und Werkzeuge.6.2 Generieren eines MSA mit einem Profil-HMMDie Erstellung eines multiplen Sequenzalignments auf Basis eines Profil-HMM wird inmehrere Teilaufgaben zerlegt. Diese Teilaufgaben werden von einer Reihe von Konsolenapplikationenerledigt, welche im Batchbetrieb aufgerufen werden und über Scriptsmiteinander verbunden sind. Der Datenaustausch zwischen den Applikationen erfolgtin Textdateien, wodurch die Prüfung der Teilergebnisse und die Nachvollziehbarkeitdeutlich erleichtert werden.Folgende Teilaufgaben sind mit den in den Klammern angegebenen Applikationen zuerledigen:1. Berechnung der Emissionsfrequenzen auf Basis eines multiplen Sequenzalignments(recalcParamFile.py)2. Berechnung der Transitionswahrscheinlichkeiten auf Basis eines multiplen Sequenzalignments(transProb.jar)3. Alignierung aller Sequenzen einer Sequenzdatenbank zum Profil-HMM mit gleichzeitigemScoring der Algnierung (hmmoo.jar)

6. Implementierung eines MSA mit einem Profil-HMM 644. Auswahl einer Gruppe von Sequenzen auf Basis der besten Alignment-Scores(grepseq.jar)5. Alignierung der ausgewählten Sequenzen mit dem Profil-MSA zum einem Vereinigungs-MSA(amodseq.jar)Die obige Auflistung der Teilaufgaben entspricht der Reihenfolge der Abarbeitung undder Reihenfolge der folgenden Beschreibungen.6.2.1 Training des Profil-HMMsDie Parametrisierung bzw. das Training des Profil-HMMs erfolgt in zwei Schritten mitder Berechnung der Emissionsfrequenzen und der Transitionswahrscheinlichkeiten. Datengrundlagedes Trainings ist eine Auswahl von Sequenzen mit einer bekannten 3D-Struktur, die einerseits eine Proteinfamilie umfassend beschreiben, andererseits aberuntereinander keine zu großen Sequenzähnlichkeiten aufweisen sollten. Aus den Sequenzenwird automatisch oder manuell ein MSA erstellt. Die Anzahl der Sequenzensollte mindestens so groß sein, dass eine repräsentative Schätzung möglich ist (sieheAbschnitt 5.4.1). Dieses multiple Sequenzalignment bildet die Eingangsdaten zur Berechnungder beiden Wahrscheinlichkeitstypen des Profil-HMM.6.2.1.1 Berechnung der EmissionswahrscheinlichkeitenDie Berechnung der Emissionswahrscheinlichkeiten übernimmt das Python-Script recalcParamFile3 . Es nimmt ein Parameterfile entgegen und erzeugt unter Angabe zusätzlicherParameter, wie beispielsweise der Behandlung der Hintergrundwahrscheinlichkeitenund eines Gewichtungsfaktors, eine Ausgabedatei. Die Parameterdatei, welchehier nicht näher beschrieben werden soll, enthält nebst einigen Verwaltungsdaten imWesentlichen eine Beschreibung der alignierten Sequenzen des Profil-MSA und derModellspalten. Der Applikationsaufruf erfolgt beispielsweise in der Form:3 Die Applikation recalcParamFile ist Teil des Programmpakets HMModeler und stand für dieseAufgabenstellung schon zur Verfügung.

6. Implementierung eines MSA mit einem Profil-HMM 65python recalcParamFile.py -in input.param -out emiss.param-dirichlet uprior.9compcorr-alignmentweight 2↩→↩→Zur Beschreibung der Optionen von recalcParamFile und der eingesetzten Algorithmensei auf [6, 39], die Quelltexte und die Applikationhilfe verwiesen. Die Ausgabedatei entsprichtin ihrem Grundaufbau weitgehend der Parameterdatei, führt zusätzlich jedocheine Matrix mit den Emissionswahrscheinlichkeiten des gegebenen MSA ein. Diese Dateibeinhaltet die Eingangsdaten für den nächsten Berechnungsschritt.6.2.1.2 Berechnung der ÜbergangswahrscheinlichkeitenDie Berechnung der Übergangswahrscheinlichkeiten übernimmt die Java-ApplikationtransProbs 4 . Die Applikation nimmt die vom Script recalcParamFile generierte Ergebnisdateientgegen und erzeugt in Abhängigkeit der Parametrisierung eine HMM-Datei mit der Beschreibung des Profil-HMM. Nähere Details bzgl. der Berechnungsmethodenund die Beschreibung der Optionen von transProbs sind in [6] beschrieben.Der Start der Applikation mit der Einstellung der Pseudocounts zur Transitionsberechnung(2 2 2) oder der Gewichtung des Expertenwissens (0.1) erfordert folgendeAufrufsyntax:java -jar transProbs.jar -p emiss.param -q qas.param↩→-out current.hmm↩→-params 2 2 2 0.95 0.7 350 0.1Die von transProbs erzeugte HMM-Datei enthält die Beschreibung des Profil-HMMs.So finden sich darin die Emissions- und Transitionswahrscheinlichkeiten ebenso, wiedie Initial- und Terminalwahrscheinlichkeiten als auch die komplette Beschreibung desProfil-HMM mit den Signaturen der Modellspalten. Diese Datei dient der Konfigurationdes Modells zur Berechnung erster Alignierungen und Scores.4 Die Applikation transProbs ist Teil des Programmpakets HMModeler und stand für diese Aufgabenstellungschon zur Verfügung.

6. Implementierung eines MSA mit einem Profil-HMM 666.2.2 Single-Scoring und -Alignment mit dem Profil-HMMMit der Berechnung der Emissions- und Übergangswahrscheinlichkeiten ist das Trainingdes Profil-HMM abgeschlossen und die Topologie des HMM festgelegt. Die Modellbeschreibungbildet die statistischen Eigenschaften des Eingangs-MSA soweit ab,dass damit einzelne Sequenzen zum MSA aligniert und in einem Scoring-Verfahren dasAlignment bewertet werden kann.Die Alignierung und das Scoring der Sequenzen auf Basis des Profil-HMMs erfolgtmit der Java-Applikation hmmoo 5 [6, 27, 47]. Diese Applikation zeichnet sich dadurchaus, dass sie einerseits einzelne Sequenzen nach und nach zum Profil-HMM aligniert,anderseits aber auch eine Reihe von Scores ausgibt, die das Alignment bewerten. Inden nachfolgenden Verfahren werden diese Scores verwendet, um eine Reihung derAlignierungen durchzuführen.Das folgenden Beispiel zeigt den Aufruf der Applikation hmmoo. Die Parameter legendie HMM-Definitionsdatei und die DB-Datei mit jenen Sequenzen fest, die einzelnzum Profile-MSA aligniert und mit Scores belegt werden sollen. Der Parameter ’1’spezifiziert den Datenbanktyp (DBtype Astral 6 ) bzw. das Dateiformat (FASTA [34];siehe Anhang C.1) und der Parameter ’9’ gibt an, dass alle Scoretypen berechnet werdensollen (Option Full Scoring). Der Aufruf erfolgt in der Form:java -jar hmmoo.jar current.hmm 1 astral_scop.fa 9 > hmmoo.resultsDer Aufruf der Applikation hmmoo erzeugt eine result-Datei (siehe Anhang C.2), inder für jede alignierte Sequenz die Sequenzdaten, die Alignmentinformationen als auchdie berechneten Scores gespeichert sind. Die Alignmentinformationen, wie im folgendenBeispiel dargestellt, bestehen aus der Sequenz selbst und aus einer mit der Sequenzausgerichteten Pfadbeschreibung. Diese besteht aus den Zeichen ’M’, ’I’ oder’D’ und stellt die Zustände dar, die zum Alignment der Sequenz mit dem Profil-MSAgeführt haben. Diese beiden Zeichenketten (siehe folgendes Beispiel) werden in einem5 Die Applikation hmmoo ist Teil des Programmpakets HMModeler und stand für diese Aufgabenstellungschon zur Verfügung.6 ASTRAL Compendium for Sequence and Structure Analysis - Databases and Tools: http://astral.berkeley.edu/ (Stand: 2. Juli 2010)

6. Implementierung eines MSA mit einem Profil-HMM 67späteren Arbeitsschritt (Abschnitt 6.2.4 diese Kapitels) zur Berechnung eines multiplenAlignments ausgewertet. Eine Beispielsequenz mit Pfadbeschreibung in Form einerMID-Zustandsmaske lautet:MSA:SLFEQLGGQAAVQAVTAQFYANIQADATVATFFNGIDMPNQTNKTAAFLCAALGGPNAWTSLFEQLG ↩→GQAAVQAVTAQFYANIQADATVATFFNGIDMPNQTNKTAAFLCAALGGPNAWTGRNLKEVHANMGVS ↩→NAQFTTVIGHLRSALTGAGVAAALVEQTVAVAETVRGDVVTVIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIMM ↩→MMMMMMMMMMMMMMMMMMMMMMMMMMMIIMMMMMMMMMMMMMMMMMMMIMMIMMMMMMMMMIMMMMM ↩→MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMIIIIIIIIIIWird die Option ’Full Scoring’ gewählt, so werden zwölf unterschiedliche Scores berechnet,welche die Qualität des Alignments zwischen dem Profil-MSA und der jeweiligenalignierten Sequenz bewerten. Ein Scoring-Block, wie im folgenden Auszug eines result-Datensatzes für die Sequenz d1dlwa aus der Familie a.1.1.1 dargestellt, besteht nebstoben beschriebenen Informationen aus der jeweiligen Score-Bezeichnung und mit einem’:’ davon getrennt (Delimiter) aus dem Score selbst, der als Fließkommazahl imDouble-Format ausgewiesen wird.Plain Score: -576.7240977002209Plain Score (Forward): -569.0899435594409Simple Score: -647.0919876918512Simple Score (Forward): -647.0919876918512Reversed Score: -581.9745888906357Reversed Score (Forward): -572.879493576253Simple Corrected Score: 70.36788999163025Simple Corrected Score (Forward): 78.00204413241022Reverse Corrected Score: 5.2504911904147775Reverse Corrected Score (Forward): 3.789550016812086HMMer Corrected Score: 65.11109477813987HMMer Corrected Score (Forward): 71.77954943225613Welche Scores von hmmoo berechnet werden, wie diese zu interpretieren sind und aufBasis welcher mathematischen Grundlagen sie wie berechnet werden, ist Teil der Dokumentationin [6]. Festzuhalten ist, dass die Größen der Scores einzeln betrachtet kaumaussagekräftig sind. Erst der Vergleich der Scores untereinander und eine Reihungder Scores lässt eine Aussage darüber zu, ob das Scoring einer Sequenz ein gutes“, ”

6. Implementierung eines MSA mit einem Profil-HMM 68” mäßiges“ oder gar schlechtes“ Alignment anzeigt. Eine Auswahl der Sequenzen aufgrundder Reihung der Scores übernimmt die im Folgenden beschriebene”Applikationgrepseq.6.2.3 Auswahl der zu alignierenden SequenzenDie für diese Arbeit entwickelte Java-Applikation grepseq liest die von hmmoo generierteresult-Datei und ordnet die Reihen nach vorgegebenen Kriterien. Die Applikationgrepseq bietet die Option 7 , bestimmte Datensätze über reguläre Ausdrücke (regularexpressions) explizit einer Verarbeitung zuzuführen oder sie auch ausdrücklich auszuschließen.Ebenso können die Datensätze auf ihre Scores hin untersucht und nach denScores gereiht werden, bevor aus den verbliebenen Datensätzen jene selektiert werden,welche die höchsten Scores erhalten haben.Die einfachste Möglichkeit der Sequenzauswahl ist eine absteigende Sortierung der Scores,um aus allen Datensätzen jene n Datensätze auszuwählen, welche bei einem Scoretypdie höchste Bewertung erhalten haben. Diese Methode wäre legitim, zeigt aberin der Praxis einige wesentliche Nachteile. Kommt es beispielsweise zu Ausreißern inder Bewertung der Alignierung, das heißt zu falschen und besonders niedrigen oderhohen Scores, so würden genau diese Scores in einem späteren Schritt das Bewertungsergebnisverfälschen. Wird das MSA zu einem späteren Zeitpunkt zum Training einesProfil-HMM weiterverwendet, so sollen nur jene Sequenzen in das MSA aufgenommenwerden, die den Sequenzen im Profil-MSA nicht zu ähnlich sind. Gleichzeitig darf alslimitierende Schranke aber die Spezifität des HMMs nicht zu gering werden. Es dürfendemnach nur Sequenzen mit hinreichender Ähnlichkeit in das HMM aufgenommenwerden. Grundlage dieser Überlegung ist die Feststellung, dass aus informationstheoretischerSicht der Informationsgehalt eines MSA sinkt, wenn viele nahezu gleiche Sequenzendas MSA beschreiben. Dagegen steigt der Informationsgehalt des MSA, wenndas MSA aus möglichst verschiedenen Sequenzen gebildet wird, obwohl diese eine hohestrukturelle Ähnlichkeit aufweisen. Gemessen wird der Informationsgehalt mit der7 Eine Kurzbeschreibung der Optionen wird ausgegeben, wenn die Applikation mit der Option -hoder –help aufgerufen wird. Siehe Anhang B.2.

6. Implementierung eines MSA mit einem Profil-HMM 69Entropie, die zu einem späteren Zeitpunkt in dieser Arbeit noch einmal diskutiert undberechnet wird.Die Lösung beider Probleme besteht darin, Ausreißer und Sequenzen mit auffälligenScores auszuschließen und nur jene weiterzuverarbeiten, die obige Kriterien erfüllen.Diese Lösung bedarf der genauen Festlegung des Begriffs Ausreißer und der Klärungder Frage, wie eine Variable als Ausreißer erkannt werden kann, wenn der Wertebereichnicht bekannt ist. Dafür wurden in grepseq eine Lösung implementiert, der statistischeÜberlegungen zugrunde liegen:Untersucht man die Scores nach deren Verteilung, so stellt man fest, dass diese inden meisten Fällen einer Verteilungsfunktion entsprechen. So zeigt beispielsweise dieUntersuchung des Reverse Corrected Score“ von etwa 9500 Datensätzen, dass dieser”annähernd einer Normalverteilung entspricht (siehe Abbildung 6.1). Dieser Erkenntnisentsprechend kann aus dem Mittelwert µ und der Standardabweichung σ der Scoreseine Normalverteilung angenähert werden.Abbildung 6.1: Reale Verteilung und Annäherung der Normalverteilung für ReverseCorrected Scores auf Basis des Mittelwerts für Sequenzen der Familie d.38.1.5.Mit der Annahme, ein Score würde zufällig sein und die Verteilung eines Scores inallen Datensätzen würde einer Normalverteilung entsprechen, kann über die kumulativeVerteilungsfunktion (cumulative distribution function; CDF ) die Wahrscheinlichkeitberechnet werden, mit der ein Score einen Wert in einem bestimmten Bereich einnimmt.Realisiert wurde dies über die Möglichkeit der Angabe eines Grenzwertes (Threshold)

6. Implementierung eines MSA mit einem Profil-HMM 700

6. Implementierung eines MSA mit einem Profil-HMM 71Nachdem die Sequenzen der Eingangsmenge E := {SEQ 1 , SEQ 2 , · · · SEQ u } einzelnmit dem Profil-MSA MSA P := {SEQ 1 , SEQ 2 , · · · SEQ m } aligniert und mit grepseqgefiltert wurden, sind nur noch jene Sequenzen übriggeblieben, die den Erfolg versprechendstenScore aufweisen. Sie bilden eine stark verkleinerte Menge V aus den mit demProfil-MSA voralignierten Sequenzen.6.2.4 Progressives Alignment mit dem Profil-HMMDie Aufgabe des folgenden Prozessschritts ist die Vereinigung der voralignierten SequenzenV mit dem Profil-MSA MSA P zu einem neuen multiplen Sequenzalignmentmit den Sequenzen MSA V = MSA P ∪ V .Die implementierte Methode ist mit jener der im Kapitel 4.3 eingeführten iterativenund progressiven Vorgangsweise vergleichbar, unterscheidet sich jedoch darin, dass dieReihenfolge der Alignierung nicht über einen binären Baum bestimmt wird. Stattdessenwerden in jedem Iterationsschritt j = {1, 2, · · · |V |} die Sequenzen SEQ i in der vongrepseq festgelegten Reihenfolge schrittweise zum MSA aligniert. Grepseq ordnet dieSequenzen dazu in der Reihenfolge ihrer Scores s für das globale Alignment von SEQ imit MSA P , folglich werden die Sequenzen mit den höchsten Scores am Beginn, und jenemit niedrigsten Scores am Ende des Vereinigungsprozesse dem Profil-MSA hinzugefügt.Die Aufgabe der multiplen Alignierung übernimmt die im Rahmen dieser Arbeit entwickelteJava-Applikation amodseq. Amodseq liest die Profil-HMM-Parameterdatei mitdem Profil-MSA MSA P und die von grepseq erzeugte Datei mit den vorausgewähltenSequenzen V . Im ersten Schritt j = 1 wird jene Sequenz aus V mit dem höchsten Scoredem bestehenden Profil-MSA MSA P hinzugefügt und ein neues Vereinigungs-MSA(VMSA) MSA j gebildet. Im ersten Schritt entsteht das MSA 1 .x 1 = argmaxis iMSA 1 := MSA P ∪ {SEQ x1 }(6.1)

6. Implementierung eines MSA mit einem Profil-HMM 72In jedem folgenden Iterationsschritt j → j + 1 wird eine weitere Sequenz SEQ j ∈ V inabsteigender Reihenfolge der Scores dem bestehenden MSA j−1 hinzugefügt und darauswiederum ein neues MSA j berechnet.x j = argmaxi≠x 1 ,...,x j−1s jMSA j := MSA j−1 ∪ {SEQ xj }(6.2)Dieser Vorgang muss derart implementiert werden, dass sowohl die Alignierungen desaktuellen MSA j−1 , als auch die der aktuell hinzuzufügenden Sequenz SEQ xj mit demursprünglichen Profil-MSA MSA P gültig bleiben. Folgende Situationen müssen dafürbeim Alignment einer Sequenz SEQ xjberücksichtigt werden:mit den multiplen Sequenzalignment MSA j−1• Falls die mit dem MSA j−1 alignierte Sequenz SEQ xj an der Position k keineweitere Lücke in MSA j−1 einfügt (das heißt den Zustand ’D’ oder ’M’ signalisiert),so kann das Symbol an der Position k in das MSA j übernommen werden.• Falls die mit dem MSA j−1 alignierte Sequenz SEQ xj an der Position k einezusätzliche Lücke einfügt, so muss diese Lücke in sämtliche Sequenzen der MSA jeingefügt werden, um die Sequenz dem MSA j−1 hinzufügen zu können.Die korrekte Behandlung dieser Situationen stellt eine der Kernfunktionen der Applikationamodseq dar. Jene Codeteile, welche die Alignierung vornehmen und dabei dieoben beschriebenen Anforderungen berücksichtigen, werden im Anhang D, Listing D.1auszugsweise gezeigt.Am Ende dieses Prozessschritts erzeugt amodseq eine Datei mit der Vereinigungs-MSA.Eine Prüfung der Ergebnisse ergibt, dass die Alignierung der Sequenzen mit dem Profil-MSA funktioniert (eine detaillierte Prüfung der Vereinigungs-MSA erfolgt in Kapitel 7),jedoch augenscheinlich einige Schwächen zeigt, die im folgenden Abschnitt Beachtungfinden.

6. Implementierung eines MSA mit einem Profil-HMM 736.2.5 Kombination mehrerer AlignmentmethodenDie Sichtkontrolle des von amodgrep generierten Vereinigungs-MSA ergibt, dass dieAlignierung mit dem Profil-HMM plausible Ergebnisse ausweist. Eine genauere Prüfungder Resultate zeigt jedoch auch, dass unter bestimmten Voraussetzungen bestimmteSequenzregionen gänzlich unaligniert bleiben. Die Abbildung 6.2 zeigt ein Profil-MSAbestehend aus vier Sequenzen, zu dem drei weitere Sequenzen aligniert wurden. Die vieralignierten Profil-Sequenzen (in der Abbildung werden nur Ausschnitte von Position20 bis 60 dargestellt), spezifizieren das Profil-HMM und legen in der Trainingsphasedie Topologie des HMMs fest.Abbildung 6.2: Auszug aus einem unvollständigen MSA auf Basis eines Profil-HMM.Jene Spalten des Profil-MSA, die mit dem Zustand M (Match) markiert sind, sindTeil des Profil-HMM, da sie im Training des HMM einen Konsens aufweisen. DieseRegionen wurden vom Profil-HMM zur Alignierung herangezogen (grüne Bereiche).Jene Sequenzbereiche, die im Profil-MSA keinen Konsens aufweisen (weiße Spaltenmit dem Zustand N), wurden nicht in das Profil-HMM aufgenommen und bleibenbei der Alignierung weitgehend unberücksichtigt. Die Folge davon ist, dass bestimmteRegionen (fett umrandete orange Bereiche) der hinzugefügten Sequenzen unaligniertbleiben.Die unalignierten Teile der Sequenzen werden bei jedem Interationsschritt in das aktuelleMSA MSA i eingefügt, was zur Folge hat, dass sich alle Sequenzen des aktuellenMSAs entsprechend verlängern. Sichtbar wird dieser Effekt im Beispiel der Abbildung6.2 in den Spalten 49 bis 55, in denen eine Lücke im MSA entstanden ist, die innerhalb

6. Implementierung eines MSA mit einem Profil-HMM 74von drei Interationsschritten angewachsen ist. Dabei wird deutlich, welche Auswirkungendie Alignierung mehrerer Sequenzen mit deutlich längeren Lücken zwischenden Match-Bereichen auf das Vereinigungs-MSA hat. Das VMSA wächst in der Breiteüberproportional an.Eine mögliche Gegenmaßnahme besteht darin, diese entstandenen Lücken über alternativeVerfahren zu alignieren. Unter Anwendung von PAM- oder BLOSUM-Matrizenist eine nachträgliche Alignierung dieser Bereiche durchaus denkbar. Die Applikationamodseq bedient sich jedoch des ClustalW-Algorithmus um diese Lücken zu schließen.Zu diesem Zweck werden nach der Erstellung des Vereinigungs-MSA jene Bereicheaus dem MSA extrahiert (in der Abbildung 6.2 sind dies die umrandeten weißen undorangefarbigen Bereiche der Spalten N und i), die vom HMM nicht aligniert werden.Es entstehen sogenannte MSA-Snippets oder Profile 8 . Dabei wird zwischen den Profil-(Profil1 ; weiße Bereiche) und den hinzugefügten Bereichen (Profil2 ; orange Bereiche)unterschieden. Zu diesem Zeitpunkt kommt die Applikation ClustalW2 9 zum Einsatz,um die beiden Profile zu alignieren, wobei die Alignierung des Profil1 unverändertbleibt und das Profil2 passend dazu aligniert wird. Dieser Arbeitsschritt wird für alleLücken bzw. Snippets wiederholt. Am Ende werden die von ClustalW alignierten MSA-Snippets wieder in das Vereinigungs-MSA zurückgeschrieben. Die folgende Abbildung6.3 zeigt das Ergebnis dieses Ablaufs.Deutlich sichtbar wird der Erfolg dieser Methode, vergleicht man die Breite der Lückennach der ClustalW-Alignierung mit den Lücken zuvor. Der Bereich der Spalten 43-45(vormals die Spalten 49 bis 55) kann mit ClustalW beispielsweise erfolgreich aligniertund die Lücke damit deutlich verkleinert werden. Das Vereinigungs-MSA wird dadurchkompakter bzw. dessen Sequenzen entsprechend verkürzt.Der Aufruf der Java-Applikation amodseq für das oben beschriebene Szenario lautet:java -jar amodseq.jar -p current.hmm -a topseqs.results↩→-o current.msa -d ↩→-x 3 -TYPE=PROTEIN -GAPOPEN=10 -GAPEXT=0.18 Der Begriff Profile wird alternativ verwendet, um damit der Terminologie von ClustalW zu folgen.ClustalW werden diese Snippets als Profile1 und Profile2 zugeführt, um diese zu alignieren.9 CLUSTAL 2.0.12 Multiple Sequence Alignments; http://www.clustal.org/ (Stand: 13. April2010)

6. Implementierung eines MSA mit einem Profil-HMM 75Abbildung 6.3: Auszug aus einem MSA auf Basis eines Profil-HMM und ClustalWDie Parameter -x 3 legen fest, dass die darauf folgenden drei Parameter unverändertan ClustalW2 durchgeschliffen werden. Im obigen Beispiel werden die Gap-openingundGap-extension Penalties mit den Werten 10 und 0.1 belegt. Eine Reihe weitereOptionen 10 bieten zusätzliche Optimierungsmöglichkeiten im Zusammenwirken vonamodseq mit der Applikation ClustalW 11 . Einige Parameter, die im Zusammenhangmit ClustalW immer zur Anwendung kommen, sind in der Konfigurationsdatei amodseq.iniabgelegt (siehe Anhang B.4).6.2.6 Progressive Expansion eines Profil-HMMWie aus der Einführung im Kapitel 4 hervorgeht, dient die Erstellung eines multiplenSequenzalignments in erster Linie der Abbildung evolutionärer Zusammenhänge in derEntwicklung von Sequenzen. Gleichzeitig hat der Abschnitt 5.4.1 gezeigt, wie sich ausmultiplen Sequenzalignments Profile erstellen lassen, deren Aufgabe es ist, ein MSA sozu beschreiben, dass damit strukturell verwandte Sequenzen gefunden bzw. aligniertwerden können.Ausgangspunkt des bisher beschriebenen profilbasierten Verfahrens ist ein manuell oderein mit Computerapplikationen automatisch erstelltes multiples Alignment aus oft nur10 Eine Kurzbeschreibung der Optionen von amodseq wird ausgegeben, wenn die Applikation mitder Option -h oder –help aufgerufen wird. Siehe Anhang B.3.11”Using ClustalX for multiple sequence alignment“ ist unter http://www.clustal.org/download/clustalw_help.txt verfügbar. Ein Aufruf der Applikation Clustal2 mit dem Parameter -HELP zeigtebenfalls die von ClustalW zur Verfügung stehenden Optionen.

6. Implementierung eines MSA mit einem Profil-HMM 76einigen wenigen Sequenzen. Dieses Profil-MSA bestimmt im Training die Topologiedes HMMs. In der Regel wird ein MSA vorbereitet, welches eine bestimmte Familiemöglichst umfassend und exakt beschreibt. Die Grundlage dieser Beschreibungenbilden im Allgemeinen jene Sequenzen, deren strukturelle Ähnlichkeiten und derenevolutionäre Verwandtschaft hinlänglich bekannt und überprüft sind.Erstellt man aus einem Profil-MSA und einigen Sequenzen ein neues MSA, so liegtdie Idee nahe, die expandierten MSAs als Profil-MSAs wiederzuverwenden und übermehrere Zyklen hinweg damit wiederholt einen neuen Alignierungsprozess zu starten.Dieser progressive Ansatz führt dazu, dass sich die HMM-Topologie bei jedem Zyklusdynamisch verändert und an das neue Profil anpasst.Die symbolische Darstellung in Abbildung 6.4 beschreibt das Prinzip dieser Methode.R x und R y symbolisieren die Achsen eines gedachten Raums zur Darstellung der Scores,wobei damit alle möglichen durch das HMM aus einer Sequenz ableitbaren Informationenverstanden werden. Die Sequenzen werden in diesem Informationsraum als Punkteeingezeichnet. Der Informationsgehalt des Profil-HMM wird in der Abbildung 6.4 alsdie vom Score-Threshold eingegrenzte Fläche symbolisiert. Die Modellmittelpunktesind als Schwerpunkt der Score-Threshold-Fläche oder Sequenzpunkte vorstellbar undmit einem Kreuz eingezeichnet.Abbildung 6.4: Symbolische Darstellung der progressiven HMM-Expansion.

6. Implementierung eines MSA mit einem Profil-HMM 77Die in der Abbildung 6.4 beschriebene Ausgangssituation entspricht dem (hellblauen)Startmodell, das mit neun (roten) Sequenzen beschrieben wird. Im ersten Alignierungszykluswerden dem Profil-MSA fünf (grüne) neue Sequenzen hinzugefügt und darausfür einen weiteren Zyklus ein neues (hellrotes) Profil-MSA mit 14 Sequenzen erzeugt.Im zweiten Zyklus werden mit dem Profil-MSA vier weitere (blaue) Sequenzen gefunden,die aufgrund der Expansion des HMMs nun in die Nähe des Profil-MSA gerücktsind. Der eingezeichnete Pfad der Modellmittelpunkte verdeutlicht den Drift des Modellsim Laufe des Prozesses. Das expandierte Profil-HMM ändert durch die Aufnahmeneuer Sequenzen nicht nur seinen Informationsgehalt, sondern auch seinen Modellmittelpunkt.Expandiert in jedem Zyklus das Modell, so können im Idealfall damit in denFolgezyklen Sequenzen gefunden werden, die mit dem Ausgangsmodell (noch) nichtgefunden wurden.Die praktische Umsetzung dieses Verfahrens erfordert Werkzeuge, um aus der entstandenenAlignierung neue Parameterdateien zu erstellen. Die dafür entwickelte Java-Applikation modmsapm.jar erfüllt den geforderten Zweck und liest die aktuelle param-Datei, mit dem die letzte Alignierung durchgeführt wurde, und die von amodseq generierteMSA-Beschreibung, um daraus eine neue Parameterdatei für den nächstenZyklus zu erstellen:java -jar modmsapm.jar -p input.param -m current.msa↩→-o nextinput.paramWesentlich bei der aktuellen Implementierung ist die Einschränkung, dass keine neuenModellspalten hinzugenommen werden, sondern das Profil-MSA ausschließlich umzusätzliche Sequenzen erweitert wird. Das Einfügen zusätzlicher Modellspalten ist mitwenig technischen Aufwand verbunden, hätte aufgrund der komplexen Auswirkungenden Vergleich der Ergebnisse aber deutlich erschwert und den Aufwand der Evaluation(siehe nächster Abschnitt) deutlich erhöht.Getaktet werden die Zyklen über ein Bash-Script, welches eine feste Anzahl von Zyklenimplementiert. In jedem dieser Zyklen werden die oben genannten Dateien erzeugt undalle Dateien zum Zweck einer späteren Evaluation gesichert. Zusätzlich werden einige

6. Implementierung eines MSA mit einem Profil-HMM 78Dateien mit Zwischenergebnissen generiert, die eine spätere Auswertung unter Zuhilfenahmezusätzlicher Scripts und externen Werkzeugen (zum Beispiel mit MATLAB 12 )deutlich erleichtern.Alle Scriptdateien, Auszüge aus den Quelltexten der Applikationen, die in dieser Arbeitverwendeten Testdaten und daraus generierte Ergebnisdateien sind auf dem beigefügtenDatenträger gesichert (siehe Anhang E).12 MATLAB ist eine Produktfamilie der Firma The MathWorks, http://www.mathworks.com/products/matlab/ (Stand: 24. August 2010)

7Bewertung der ErgebnisseDie bisherigen Ausführungen haben die Implementierung beschrieben, die objektivePrüfung der Ergebnisse ist bislang ausgeblieben. Dieser Abschnitt beschreibt ausgewählteMethoden zur Evaluation der Ergebnisse und prüft, inwieweit die Methodeder progressiven Expansion des Profil-HMM zur schrittweisen Alignierung genutztwerden kann.7.1 Testdaten und -settingsDie Bewertung der Ergebnisse der Verfahren und Applikationen erfolgt nach Testläufenunter folgenden Rahmenbedingungen:• Die Sequenzdatenbank astral_scop_40.1.73 enthält 9536 Sequenzen aus unterschiedlichstenFamilien und mit unterschiedlichen Sequenzlängen.• Das Profil-HMM wurde mit 20 MSAs ausgewählter Familien trainiert. DieParameterdateien enthalten neben den Profil-MSAs auch zusätzliche Angabendarüber, welche Spalten als Modellspalten ausgewählt werden; dafür ist auchExpertenwissen eingeflossen, um möglichst aussagekräftige und korrekte Profil-MSA zu erhalten.• Ein kompletter Testlauf bestand aus 4 bis 6 Zyklen.• Die Aufnahme einer neuen Sequenz wurde über den CDF-Threshold von 0.999begrenzt; nach oben hin fand keine Begrenzung statt.79

7. Bewertung der Ergebnisse 80• Das Profil-MSA wurde in jedem Zyklus um maximal 3 Sequenzen erweitert.Jedes der in der Tabelle 7.1 angeführten multipler Sequenzalignments zum Trainingeines Profil-HMMs wurde aus den alignierten Sequenzen einer bestimmten Familie gebildet.In der Tabelle sind sowohl die Familiennamen der Profil-MSA-Sequenzen alsauch die Anzahl der Spalten der Profil-MSA und die Anzahl der im Profil-HMM enthaltenenEmissionsspalten angegeben.Tabelle 7.1: Multiple Sequenzalignments zur Beschreibung von Profil-HMMs. Die in derSpalte ’MSACols’ angegebenen Werte beschreiben die Länge der Sequenzen im Profil-MSA, die Spalte ’Col.Emiss’ beschreibt die Anzahl der Emissionsspalten im HMM.Die Werte der Spalten ’Modell-Sequenzen’ von ’Z1’ bis ’Z6’ nennen die Anzahl derSequenzen, aus denen im jeweiligen Zyklus das Profil-MSA gebildet wurde. Der Test indiesem Beispiel führte über sechs Zyklen, in dem in jedem Zyklus drei neue Sequenzenzum Profil-MSA hinzugefügt wurden.

7. Bewertung der Ergebnisse 81Im rechten Teil der Tabelle ist angeführt, um wie viele Sequenzen das Modell proZyklus erweitert wurde. Wie die Tabelle zeigt, wurde bei allen Familien bei jedemDurchlauf drei Sequenzen gefunden, die über dem vorgegebenen CDF-Threshold lagen.Damit wurde bei jedem Zyklus die Profil-MSAs um die maximale Anzahl der erlaubtenSequenzen erweitert.Jede der 9536 Sequenzen aus der im FASTA-Format vorliegenden Testdatenbank isteiner Familie zugeordnet. Die Sequenzen haben unterschiedliche Längen im Bereichvon 21 bis 1504 Zeichen. Die Verteilung der Sequenzlängen ist unregelmäßig und unabhängigvon deren Familienzugehörigkeit. Wie die Sequenzlängenverteilung in Abbildung7.1 zeigt, hat der Hauptanteil der Sequenzen eine Länge im Bereich von 50 bis180 Zeichen.Abbildung 7.1: Längenverteilung aller Sequenzen aus der Testdatenbank’astral scop 40.1.73’Wie im Kapitel 6.2.3 beschrieben, aligniert die Applikation hmmoo nicht nur einzelneSequenzen zum Profil-MSA, sondern bewertet gleichzeitig die Alignierung miteiner Reihe von Scores. Wie in der Methode der Vorauswahl der Sequenzen schonberücksichtigt wurde, folgen die Scores bestimmten Verteilungen, die für die Zweckedieser Arbeit mit einer Normalverteilung angenähert werden. Aus diesem Grund bildensowohl die Längenabhängigkeiten der Scores als auch die Dichtefunktionen (Wahrscheinlichkeitsverteilung)der Scores die Grundlage der Evaluation der multiplen Sequenzalignments,wie im folgen Abschnitt dargelegt wird.

7. Bewertung der Ergebnisse 827.2 Dichtefunktion der ScoresAuer et al. [6, 27] haben die Applikation hmmoo und die Verteilung und Eigenschaftender Scores hinreichend dokumentiert. Sie haben in ihrer Arbeit aber ebenso festgehalten,dass nicht alle Scores gleichermaßen geeignet sind, die Alignierung einer Sequenzmit einem Profil-MSA über Scores zu beurteilen. So unterstützt die Applikation hmmoowohl 12 verschiedene Scoretypen, einige davon sind aber stark abhängig von der Anzahlder Emissionsspalten und/oder von der Länge der Sequenzen. Damit ist ein Vergleichgleicher Scoretypen über Sequenzen - und weniger noch über Profil-MSAs hinweg -nur schwer oder nicht möglich. Durch die Einführung von Corrected Scores konnte dieLängenabhängigkeit zwar deutlich reduziert, jedoch nicht gänzlich korrigiert werden.Aligniert man alle Sequenzen der Sequenzdatenbank astral_scop_40.1.73 mit einemProfil-HMM, so erhält man 9536 Scores pro Scoretyp. Wird aus den Scores einesTyps die Wahrscheinlichkeitsdichtefunktion (propability density function) errechnet, soerhält man ein Bild der wahrscheinlichen Verteilung der Scores über den Wertebereichdes jeweiligen Scoretyps. Diese Darstellungsform lässt sich auch dafür nutzen, dieTrennschärfe eines Modells für die jeweiligen Scores sichtbar zu machen. Dazu werdendie Scores nach Family, Superfamily, Fold und Other (Other = Class + Rest derSequenzen; siehe Abschnitt 2.5.1) getrennt ausgewertet und daraus die Wahrscheinlichkeitsdichtefunktionerrechnet [47].Abbildung 7.2 zeigt die Dichtefunktionen für den Reverse Corrected Score 1 (RCS) derProfil-MSA Familie b.121.4.1. Wie aus dem Diagramm deutlich wird, setzen sich dieScores jener Sequenzen, die aus der gleichen Familie wie jene des Profil-MSA stammen,deutlich vom Rest der Scores ab. Sequenzen der Familie b.121.4.1 werden im Mitteletwa mit dem Score 68 bewertet. Erhält man einen Score von 60, so handelt es sichmit hoher Wahrscheinlichkeit um eine Sequenz der gleichen Familie, zumal der Restder Sequenzen deutlich unter 60 bewertet wurde. Selbst der Score von 40 ist noch sehreindeutig.Die restlichen Sequenzen unterscheiden sich bezüglich deren RCS kaum voneinander.Sowohl die Sequenzen der Fold b.121 als auch die Sequenzen ganz anderer Klassen1 Zur detaillierten Erklärung der Scoretypen sei auf die Arbeit von Auer [6] verwiesen.

7. Bewertung der Ergebnisse 83Abbildung 7.2: Dichtefunktionen des Reverse Corrected Scores für das Profil-MSA derFamilie b.121.4.1werden im Mittel mit dem Score um Null bewertet. Einzig die Sequenzen der gleichenSuperfamily wie das Profil-HMM, werden mit einem höheren Scoring bewertet undheben sich, wenn auch nur minimal, ab. Die Dichtekurve zeigt aber auch, dass derAbstand der Scores der Superfamily-Sequenzen zu den restlichen Sequenzen zu geringist, um Superfamilies von den Folds und Others sicher zu unterscheiden.Wie sollte eine Dichtefunktion optimalerweise aussehen? Hierbei entscheidet wenigerdie Form der Funktion, also vielmehr die Lage der Dichtefunktionen zueinander.Gewünscht ist eine Verteilung der Scores, so dass aufgrund des Scores schon eine mithoher Wahrscheinlichkeit korrekte Klassifizierung erfolgen kann. Die Scorebereiche, imDiagramm als die Breite der Dichtefunktionen sichtbar, sollten sich demnach möglichstwenig überlappen.Berechnet man die Scores einzelner Sequenzen verglichen über die verschiedenen Modelle,so fällt auf, dass einige der Scores zwar deutlich weniger abhängig von der Längeder Sequenzen sind als andere 2 [6], trotzdem aber noch Abhängigkeiten zwischen demModell und den Sequenzen bestehen, die den Score entsprechend anheben oder senkenkönnen. Berechnungen zeigen, dass unter bestimmten Voraussetzungen die Varianz derScores groß wird, in anderen Situation aber wiederum vergleichsweise klein. Versuchtman nun, die Bewertung der Klassifizierungsfähigkeit eines Modells vom Abstand desMittelwerts der Dichtefunktionen abhängig zu machen, so kann keinesfalls auf absolute2 Diese längenunabhängigen Scores werden von der Applikation hmmo immer mit dem Zusatz Correctedversehen.

7. Bewertung der Ergebnisse 84Größen zugegriffen werden. Dichtefunktionen die eine große Standardabweichung anzeigen,müssen einen deutlich größeren Abstand untereinander einnehmen, um sich nichtzu überlappen, als Dichtefunktionen mit kleineren Standardabweichungen. Die Größedie es zu bewerten gilt ist vielmehr der relative Abstand der Dichtefunktionen untereinander.Diese Überlegung macht eine vorherige Standardisierung der Scores sinnvoll.7.3 Standardisierung der DichtefunktionUm die Wahrscheinlichkeitsverteilungen untereinander vergleichbar zu machen, musseine allgemeine Verteilung in eine standardisierte Verteilung transformiert werden. Eineallgemeine Gaußsche Normalverteilung S ∼ N(µ, σ 2 ) mit den Parametern µ und σ lässtsich in eine Standardnormalverteilung überführen, in der der Mittelwert µ = 0 und dieStandardabweichung σ = 1 wird. Hierfür werden normalverteilte Scores S durch einelineare Transformation zu sog. standardisierten Scores Ŝ ∼ N(0, 1). Die Umrechnungerfolgt gleich der Formel der Z-Scores (siehe Gleichung 3.10) in der Form [37]:Ŝ = S − µσ(7.1)Wird diese Standardisierung auf die Scores aller Sequenzen angewendet, indem dieScores mit dem Mittelwert µ O und der Standardabweichung σ O der Other-Scores S Ostandardisiert werden, so verschiebt sich der Mittelwert der Other-Scores gegen 0, dieStandardabweichung der Other-Scores wird zu 1 und alle anderen Dichtefunktionenskalieren entsprechend mit. Das Ergebnis sind auf Basis der Other-Scores standardisierteDichtefunktionen.Die Abbildung 7.3 zeigt die Dichtefunktionen der Familie b.121.4.1 nach der Transformation.Verglichen mit den vorherigen unstandardisierten Dichtefunktionen der Abbildung7.2 derselben Familie werden die Funktionen entsprechend skaliert. Der Mittelwertder Dichtefunktion f Other ist 0 und die Standardabweichung ist 1. Der Abstand derFamily-Dichtefunktion ist in Relation gleich geblieben, obwohl er nunmehr nur nochein Viertel des vorherigen Wertes hat. Gleiches gilt für die Superfamily.

7. Bewertung der Ergebnisse 85Abbildung 7.3: Standardisierte Dichtefunktionen des Reverse Corrected Scores für dasProfil-MSA der Familie b.121.4.1Mit dieser Standardisierung ist die Basis geschaffen, Scores über Familien hinweg vergleichenzu können. Vor allem aber besteht damit auch die Möglichkeit, die Veränderungder Scoreverteilung zu beobachten, wenn Änderungen am Profil-MSA vorgenommenwerden. Die Frage die damit beantwortet werden soll lautet: Ist eine progressive Expansiondes Profil-MSA sinnvoll?7.4 Drift der ScoresEine Änderung der HMM-Topologie durch Änderungen am Profil-MSA hat immerauch eine Änderung der Bewertungsgrundlagen zur Folge, da sich innerhalb des Modellsdie Transitions- und Emissionswahrscheinlichkeiten verschieben. Durch die im Abschnitt6.2.4 eingeführte progressive Expansion des Profil-MSA kommt es zu derartigenÄnderungen des Profil-MSA in jedem Zyklus. Damit ändern sich auch die Scoregrößenund deren Verteilungen und es kommt zu einem Score-Drift 3 .Beobachtet man die Dichtefunktionen nach jedem Zyklus, so stellt man je nach Ausgangsmodell,Anzahl und der Art der hinzugefügten Sequenzen fest, dass es teils leichte,teils massive Verschiebungen in der Scoreverteilung gibt. Offensichtlich ist nicht jedesModell im gleichen Maße geeignet, Modellerweiterungen gewinnbringend aufzunehmen3 Der Begriff Drift wird der Nachrichten- oder Messtechnik entliehen. Dabei wird eineverhältnismäßig langsame Änderung eines Wertes oder einer Eigenschaft eines Systems oder einerEinrichtung als Drift bezeichnet.

7. Bewertung der Ergebnisse 86und damit die Erkennungsrate zu verbessern. Die Interpretation der Veränderungen anden Dichtefunktionen soll der Beantwortung folgender Fragen dienen:• Wie ändert sich das Profil-HMM in Bezug auf die Scores?• Sind mit den erweiterten Profil-HMMs bessere oder schlechtere Erkennungsratenzu erwarten?• Kommt es zu einer Überanpassung des Modells oder zu einer Diversifikation desModells?Die Änderung des Bewertungssystems zeigt sich am besten im direkten Vergleich derDichtefunktionen von einem Zyklus zum anderen. Wie im vorangegangenen Abschnittbegründet wurde, ist der Abstand der Dichtefunktionen der Family-, Superfamily- undOther-Sequenzen ein wesentliches Merkmal in Bezug auf die erwarteten Erkennungsraten.Liegen die Dichtefunktionen in Relation dicht beisammen, ist eine klare Zuordnungschwierig; liegen sie weit auseinander, so ist eine klare Zuordnung einer Sequenz zu einerFamily oder Superfamily einfacher. Ziel jedes Modells ist deshalb die Verwendungeines Scores, der eine klare Zuordnung möglich macht und eine scharfe Trennung dereinzelnen Familien und Superfamilien vom Rest der Sequenzen ermöglicht. Ziel jederVeränderung am Modell ist aber auch, dass das Modell zum Guten“ verändert wird,”so dass sich die Mittelwerte der Dichtefunktionen voneinander entfernen.7.5 Graphische Bewertung der ScoresDie Abbildung 7.4 zeigt die Dichtefunktionen des Simple Corrected Score (SCS) und desReverse Corrected Score (RCS) nachdem die Sequenzen mit dem Profil-HMM der Familiee.3.1.1 einmal aligniert wurden. Die Abbildung zeigt, dass die Family-Sequenzender Familie e.3.1.1 über die Scores eindeutig klassifiziert werden können und deshalbhoch bewertet sind. Der standardisierte RCS liegt im Beispiel im Bereich von etwa 5 bis30. Diese eindeutige Trennung der Family-Sequenzen vom Rest kann auch bei den anderenScores beobachtet werden. Die Sequenzen der Superfamily heben sich zwar sowohlvon den Family- also auch von den Other-Sequenzen ab, Überlappungen auf beidenSeiten machen eine eindeutige Klassifizierung der Sequenzen im Überlappungsbereich

7. Bewertung der Ergebnisse 87aber schwierig. Der RCS eignet sich in diesem Fall besser, als der SCS, da er - zumindestim gegenständlichen Testset - ein klareres Scoring in Abhängigkeit der Family undSuperfamily liefert.Abbildung 7.4: Standardisierte Dichtefunktionen des Simple Corrected Scores und ReverseCorrected Scores für das Profil-MSA der Familie e.3.1.1 nach dem ersten Zyklus.In zwei weiteren Zyklen wurde das Profil-MSA um je drei Sequenzen erweitert, wodurchsich auch die Wahrscheinlichkeiten im HMM und damit die Bewertung der einzelnenSequenzen ändern. Mit dem Profil-MSA wurden keine Sequenzen der gleichen Familie,sondern Sequenzen anderer Familien aligniert, die trotzdem signifikante Ähnlichkeitenmit dem Profil-HMM aufweisen. Der Grund dafür liegt in der verwendeten Testdatenbank,die keine weiteren Sequenzen der Familie e.3.1.1 mehr enthalten hat. Hinzugefügtwurden stattdessen zwei Sequenzen der Familie e.3.1.2, zwei Sequenzen derFamilie e.3.1.3 und im dritten Zyklus je eine Sequenz der Familie d.165.1.1 undc.100.1.1.

7. Bewertung der Ergebnisse 88Abbildung 7.5: Standardisierte Dichtefunktionen des Simple und Reverse CorrectedScores für das Profil-MSA der Familie e.3.1.1 nach dem dritten Zyklus.Die Dichtefunktionen des SCS und RCS für die Familie e.3.1.1 nach dem drittenZyklus zeigt die Abbildung 7.5. Deutlich wahrnehmbar ist die Verschiebung der Dichtefunktionenfür beide Scores aufgrund der Modelländerung. Die Dichtefunktionen derSuperfamily Sequenzen verschieben sich deutlich in Richtung Family, wodurch einedeutlichere Trennung zu den Other-Sequenzen stattfindet, dem entgegen aber eine Unterscheidungzwischen Family und Superfamily nicht mehr möglich ist. Der Grund dafürdürfte sein, dass vier der hinzugefügten Sequenzen aus der gleichen Superfamily e.3.1stammen wie das ursprüngliche Profil-MSA und sich dadurch die Modellbeschreibungmehr an der Superfamily orientiert. Nach drei Zyklen hat sich das Modell gegenüberdem ursprünglichen Profil-HMM hinsichtlich der Erkennung von Superfamily Scoresdeutlich verbessert. Sequenzen der gleichen Superfamily werden klar höher bewertetals Sequenzen abseits davon. Der Preis dafür ist eine geringere Trennschärfe zwischenFamily und Superfamily.

7. Bewertung der Ergebnisse 89Weniger erfolgreich ist das Modell der Proteinfamilie a.138.1.1. Nach einem Zykluszeigt sich ein ähnliches Bild (Abbildung 7.6) wie im Beispiel zuvor. Die Sequenzen derFamily werden signifikant höher bewertet als der Rest der Sequenzen. Die Sequenzenmit der gleichen Superfamily heben sich von den Other-Sequenzen deutlich ab.Abbildung 7.6: Standardisierte Dichtefunktionen des Reverse Corrected Scores für dasProfil-MSA der Familie a.138.1.1 nach dem ersten Zyklus.Wieder wurden in zwei Zyklen sechs weitere Sequenzen dem Profil-MSA angehängtund wieder waren es drei Sequenzen der gleichen Superfamily und drei Sequenzen derFamilien g.49.1.1, g.44.1.1 und g.77.1.1. Das Modell entwickelte sich dadurchaber nicht zu seinem Vorteil. Vergleicht man die Dichtefunktionen nach dem erstenZyklus mit denen nach dem dritten Zyklus (siehe Abbildung 7.7), so fällt auf, dass sichdie Dichtefunktion der Superfamily in Richtung Other bewegt und sich in der Formebenfalls der Verteilung der restlichen Sequenzen annähert.Abbildung 7.7: Standardisierte Dichtefunktionen des Reverse Corrected Scores für dasProfil-MSA der Familie a.138.1.1 nach dem dritten Zyklus.

7. Bewertung der Ergebnisse 90Die Scores der Sequenzen der gleichen Familie werden kleiner, lassen aber im Vergleichzu den Other-Sequenzen noch eine Klassifizierung zu. Die Standardabweichung derSuperfamily hat sich deutlich vergrößert, sodass sich die standardisierten Scores derSuperfamily nun über den Bereich von -5 bis 8 erstrecken und eine Abgrenzung sowohlzu den Other- als auch zu den Family Sequenzen nicht über alle Bereiche hinwegmöglich ist. Der Grund für dieses Verhalten kann teilweise damit begründet werden,dass das ursprüngliche Profil-MSA weniger Sequenzen hat und das Profil-HMM wenigerEmissionsspalten aufweist. In Relation dazu ist die Aufnahme von sechs entfernt verwandtenzusätzlichen Sequenzen in seinen Auswirkungen gewichtiger, als bei Modellenmit vielen und längeren Sequenzen, zu denen einige kurze Sequenzen aligniert werden.Ebenso ist eine teilweise Unschärfe“ in der SCOP Klassifikation der Sequenzen der”Testdatenbank möglich. Es ist nicht klar, ob mit Hilfe von sequenzbasierten Methodendie auf Struktur- und Funktionsinformation beruhende Klassifikation von SCOP (sieheKapitel 2.5.1) in allen Familien gleich gut abbildbar ist.7.6 Numerische Bewertung der ScoresDie Beurteilung der multiplen Sequenzalignments über alle Familien und alle Modelleauf Basis von Dichtediagrammen ist aufwendig und nicht objektivierbar. Nach einigenTestläufen stellt sich heraus, dass bestimmte Modelle gut, andere wiederum schlechterauf die progressive Expansion der Modelle reagieren. So spricht das Modell der Familieb.6.1.1 und e.3.1.1 positiv auf das Hinzufügen neuer Sequenzen in den ersten zweiZyklen an, jenes von a.138.1.1 und a.3.1.4 jedoch nicht. Wie kann dieser Effekt inZahlen dargestellt werden?Um diese Effekte numerisch auszudrücken, wird nach jedem Zyklus für jede Family derMittelwert der standardisierten Family-, Superfamily- und Fold-Dichtefunktionen berechnetund der Abstand in Relation zur Standardabweichung der Other-Dichtefunktiongesetzt. Am Ende jedes Zyklus kann damit der Mittelwert über alle Familien ermitteltwerden, um einen Gesamttrend abzulesen. Diese globalen Trendzahlen streichen zwarkeine einzelnen Modelle und Familien als besonders geeignet und ungeeignet heraus,machen aber eine globale Tendenz über alle Familien und Zyklen hinweg sichtbar.

7. Bewertung der Ergebnisse 91Tabelle 7.2: Entwicklung der globalen Mittelwerte der Reverse CorrectedZ-Scores und Simple Corrected Z-Scores der Families, Superfamiliesund Folds in einem Testlauf über vier Zyklen.In der Tabelle 7.2 sind die Mittelwerte der Z-Scores aller Familien nach jedem von vierZyklen aufgelistet. Aus der Tabelle geht hervor, dass sich die Reverse Correded Z-Scores(RCS Z ) tendenziell verbessern. Die Families rücken bei jedem Zyklus zwar etwa näherin Richtung Null, sind mit dem Abstand 18.09·σ Other jedoch noch klar abgesetzt von denOther-Sequenzen. Die Superfamilies rücken hingegen von der Other-Standardverteilung(µ = 0, σ = 1) ab und vergrößern die Distanz im Laufe der Berechnungen auf 2.729.Dass dies aber auch vom Scoretyp abhängig ist, zeigt der Vergleich mit dem SimpleCorrected Z-Scores (SCS Z ). Im Laufe der vier Zyklen verändern sich die Family-Scoresähnlich der des RCS Z , die Scores der Superfamily entwickeln sich aber schlechter. DieVerteilungskurve der Superfamily driftet in die falsche“ Richtung ab und der Abstand”der Mittelwerte verringert sich von 1.403 auf 1.318.Die im Anhang C.3 gelisteten Auswertungen zeigen die Z-Scores auf Basis der Familieam Ende des ersten und dritten Zyklus. Damit wird auch deutlich, wie unterschiedlichund empfindlich die Modelle der Familien auf das Hinzufügen neuer Sequenzenreagieren.7.7 Streuung der ScoresIn der im vorangegangen Abschnitt 7.4 dargestellten Untersuchung auf Basis der Score-Dichtefunktionen wird ausschließlich auf einen einzigen Scoretyp Bezug genommen.Dabei werden Scoretypen verwendet, deren Längenabhängigkeit gering ist und derenTrennfähigkeit oder -schärfe sich als günstig erwiesen haben. Nicht ohne Grund kommtvermehrt der Reverse Corrected Score zur Anwendung, wie Lackner et al. schon in

7. Bewertung der Ergebnisse 92[27] belegen. Wie die Auswertungen der Scores und deren Entwicklung über mehrereZyklen aber auch zeigen, ist die Trennschärfe der verwendeten Scores sowohl durchden Scoretyp als auch durch das Profil-MSA begrenzt. Die Sequenzen gleicher Familiessetzen sich meist deutlich vom Rest der Sequenzen ab, aber schon die eindeutigeKlassifikation der Superfamily ist nicht immer gewährleistet.Eine Gegenüberstellung der Corrected Scores zeigen Streudiagramme in der Abbildung7.8, in denen auf den X- und Y-Achsen jeweils die Werte eines Scoretyps aufgetragenwerden. Dargestellt werden unterschiedliche Scorepaarungen eines Modells der Familiea.1.1.2. Die cyanfarbigen und roten Punkte zeigen die Scores der Superfamilies undFamilies und die blauen Punkte die Other-Scores. Mit einem farbigen Kreuz sind jeneScores markiert, die das Profil-MSA beim Start der Zyklen definiert haben, und diegrünen Punkte deuten jene Scores an, die im Laufe der sechs Zyklen dem Profil-MSAhinzugefügt wurden.Abbildung 7.8: Ausgewählte Scores der Familie a.1.1.2 in Streudiagrammen.Im Vergleich der Diagramme zeigt sich, dass einige Scores nahezu identische Bewertungenliefern, wie beispielsweise die Kombinationen aus Simple Corrected Score undHMM Corrected Score. Die Scores fädeln sich mit geringer Streuung entlang eines engenKanals auf. Andere Diagramme zeigen zwar deutlichere Streuungen, trotzdem aber imVerlauf noch deutliche Abhängigkeiten. In allen Scorekombinationen heben sich die Familiesgut und die Superfamilies teilweise vom Rest der Sequenzen ab, was aufgrund derErfahrungen aus den Dichtediagrammen keine Überraschung darstellt. Eine komplette

7. Bewertung der Ergebnisse 93Zusammenstellung aller Scorepaarungen der Zyklen 1 und 3 für die Familie a.1.1.2zeigen die Abbildungen A.2 und A.3 im Anhang A 4 .Aus den Diagrammen wird deutlich, dass keine Kombination aus zwei Scores dieTrennschärfe wesentlich verbessern würde. Dies bestätigt auch das folgende Diagramm.Abbildung 7.9: Transformierte Scores der Familie a.1.1.2 nach einer Hauptkomponentenanalysenach dem dritten aus insgesamt sechs Zyklen.Die Abbildung 7.9 zeigt ein Streudiagramm mit dem Ergebnis einer Hauptkomponentenanalyse(Principle Components Analysis; PCA), ein Verfahren der multivariatenStatistik. Ziel der PCA ist - stark vereinfacht und auf diesen Anwendungsfall bezogenerklärt - mehrdimensionale, teils stark korrelierende Datensätze so zu komprimieren,dass die Datensätze in möglichst wenigen Dimensionen und unkorreliert dargestelltwerden können und möglichst viel der ursprünglichen Information erhalten bleibt. Imkonkreten Fall wurden die 6-dimensionalen Scoredaten auf 2-Dimensionen reduziert,um sie im Streudiagramm visualisieren zu können.4 Eine Zusammenstellung von Streudiagrammen aller Familien über 6 Zyklen befindet sich auf dembeigelegten Datenträger (siehe Anhang E)

7. Bewertung der Ergebnisse 94Das Diagramm in der Abbildung 7.9 belegt die Abhängigkeiten der Scores auch, vergleichtman es beispielsweise mit den Reverse Corrected Score Diagrammen aus Abbildung7.8. Wie aus dem Diagramm deutlich wird, unterscheidet sich das PCA Diagrammkaum vom Ergebnis anderer Scorepaarungen. Paarungen mit dem Reverse CorrectedScore und dem Reverse Correted Score (Foreward) zeigen durchaus vergleichbare Ergebnisse.Dies ist insofern bemerkenswert, als die PCA eine Linearkombination allersechs Dimensionen bildet. Dies bestätigt aber auch die Annahme, dass die Abhängigkeitder Scores untereinander groß ist und schon ein bis zwei Scores die Informationen nahezuvollständig enthalten 5 .Die Voraussetzungen für mindestens zwei elementare unabhängige Merkmale ist damitkaum gegeben. Keine der dargestellten Scorepaarungen würde demnach in der untersuchtenFamilie wesentlich zur Bildung eines trennfähigen nichtelementaren Merkmalsgeeignet sein.7.8 Entropie der EmissionsmatrixZur Überprüfung von Scoring-Matrizen wird vielfach der Informationsgehalt oder dieInformationsdichte der Matrizen festgestellt. Diese gibt - vereinfacht ausgedrückt -darüber Auskunft, inwieweit eine Scoring-Matrix Informationen über die Verteilungvon Aminosäuren in Sequenzen widerspiegelt oder ob eine Matrix eine reine Zufallsverteilungbeschreibt, also keinerlei verwertbare Information innehat. Grundlage derBemessung des Informationsgehalts ist die Annahme, dass die Information, die eineNachricht enthält, umgekehrt proportional zu ihrer Eintrittswahrscheinlichkeit ist.Tritt innerhalb einer Sequenz ein Zeichen mit der Wahrscheinlichkeit p = 1.0 auf, soenthält dieses Ereignis keinerlei Information. Ist ein Ereignis unwahrscheinlich und trittes doch ein, so vermittelt dies eine Information größer Null. Die gleiche Annahme giltbei Scoring-Matrizen für die einzelnen Zeichenpaarungen, die darin abgebildet werden.5 Genauere Vergleiche der PCA Ergebnisse zeigen, dass mit den meisten getesteten HMMs in einemScore schon 90% und mit zwei Scores 98% der Varianz beschrieben werden. Werden im Laufe derIterationen Sequenzen dem Profil-MSA hinzugefügt, so sinkt dieser Wert nach 6 Zyklen auf etwa 80%mit einem Score und 95% mit zwei Scores.

7. Bewertung der Ergebnisse 95Gemessen wird die Informationsdichte mit der von C.E. Shannon 6 eingeführten Entropie,einem quantitativen Maß zur Bemessung des mittleren Informationsgehalts einesZeichensystems. Ist die Entropie groß, so ist der Informationsgehalt des Systems groß,geht die Entropie gegen Null, so geht auch der Informationsgehalt gegen Null.Wird für die Berechnung der mittleren Entropie H der Logarithmus mit der Basis 2verwendet, dann ist die Einheit der mittleren Entropie H mit bit/Symbol definiert. Diemittlere Entropie H als das Maß einer Wahrscheinlichkeitsverteilung P = (p 1 , . . . , p n )selbst ist definiert als [29]:n∑H(P ) := − p i · log 2 (p i ) in bit/Symbol (7.2)i=1Der Informationsgehalt I eines einzelnen Symbols mit dem Logarithmus der Basis 2gerechnet ergibt die Dimension bit und ist definiert als:I i := −log 2 (p i ) in bit (7.3)Da alle p i immer kleiner 1 sind, ergibt sich aus obiger Formel, dass die negative Summeder negativen Logarithmuswerte immer einen positiven Wert für H bilden.Hermando et al. beschreiben in [20], wie die Entropie eines Hidden Markov Modellsexakt und mit erheblichen Aufwand berechnet werden kann. Eine in dieser Arbeit starkvereinfachte Methode berücksichtigt ausschließlich die Entropie der Emissionsmatrix,um die Änderungen der Entropie im Laufe mehrerer Zyklen zu dokumentieren. Zielist die Feststellung, ob die Entropie durch die Aufnahme neuer Sequenzen ab- oderzunimmt und ob ein Zusammenhang der Änderungen der Wahrscheinlichkeitsdichtenmit den Entropieänderungen hergestellt werden kann.Nimmt man die Emissionsmatrix eines Profil-HMM, so gibt jede Emissionsspalte der6 Claude Elwood Shannon, 1916 - 2001, US-amerikanischer Elektroingenieur und Mathematiker; Begründerder Informationstheorie und wesentliche Beiträge zur Kryptographie und Nachrichtentechnik;er verfasste 1948 die Mathematical Theory of Communication und 1949 die Communication Theoryof Secrecy Systems [1].

7. Bewertung der Ergebnisse 96Matrix die Wahrscheinlichkeitsverteilungen der 20 Zeichen des Alphabets für AminosäurenΣ A wieder. Die Summe der Eintrittswahrscheinlichkeiten aller einzelnen Zeicheneiner Emission ergibt demnach immer 1. HMModeler lässt auch Summen größer1 zu [39], diese Besonderheiten kommen hier aber nicht zur Anwendung. Folgt manobiger Definition der Entropie, so lässt sich für jede Spalte der Informationsgehalt berechnenund für die gesamte Matrix der Mittelwert der Spaltenentropien ermitteln.Diese Größe kann als die Entropie der Emissionsmatrix angesehen werden.Wird im Laufe der Berechnungen in jedem Zyklus das Profil-HMM um einige Sequenzenerweitert, so ändern sich dadurch die Emissions- und Transitionswahrscheinlichkeitendes Modells ebenso, wie die Alignierungseigenschaften, die Dichtefunktionen und dieEntropie der Emissionsmatrix. Die Tabelle 7.3 am Ende dieses Abschnitts stellt dieÄnderung der Z-Scores und die Änderung der Entropie zwischen den Zyklen 1 und 3gegenüber. Die grün markierten Z-Scores der Superfamily weisen auf eine Vergrößerung(=Verbesserung) der Mittelwertabstände hin, rot markierte Z-Scores der Superfamilyweisen auf eine Verringerung (=Verschlechterung) der Mittelwertabstände hin. Stelltman diese Bewegungen den Trends der Entropie gegenüber, so zeigt sich, dass dieEntropie in vielen Fällen zwar steigt, sich die Steigerung des Informationsgehalts abernicht immer positiv auf den Superfamily Z-Score auswirkt. Der Grund dafür dürftesein, dass die Aufnahme neuer Sequenzen das HMM zwar mit Information anreichert,diese Informationen jedoch nicht ausschließlich auf die Family oder Superfamily bezogensind. Werden dem Modell neue, im Verwandtschaftsverhältnis entfernter liegendeSequenzen hinzugefügt, so diversifiziert das Modell, wie auch in der Abbildung 7.10deutlich wird, indem die Streuung der Scores steigt. Werden Sequenzen der gleichenFamilie hinzugefügt, so spezialisiert sich das Modell auf diese eine Familie.Auffallend ist die Steigerung der Entropie der Familien a.1.1.2 und a.138.1.1 (sieheTabelle 7.3, Spalte deltaE). Im Fall der Familie a.1.1.2 wurden die Thresholds zurSequenzvorauswahl wirksam, so dass in den drei Zyklen nur zwei neue Sequenzen demModell hinzugefügt wurden, wovon eine Sequenz aus der gleichen Superfamilie stammt.Im Fall der Familie a.138.1.1 wurden vier neue Sequenzen hinzugefügt, drei davonstammen aber aus der gleichen Familie. Die Entropie steigt damit deutlich, das heißt,das HMM hat seitens der Emissionsmatrix an Information gewonnen. Trotzdem führt

7. Bewertung der Ergebnisse 97(a) Zyklus 1 (b) Zyklus 6Abbildung 7.10: Änderung der PCA-transformierten Scores der Familie d.32.1.2 infolgeder Expansion des Profil-MSA zwischen dem ersten und dem sechsten Zyklus.diese Steigerung zu keinem merkbaren Trend in den Z-Scores. Im ersten Fall verbessertsich das Ergebnis minimal, im zweiten verschlechtert sich das Ergebnis sogar. DerGrund dafür dürfte sein, dass im Zyklus 3 in der Testdatenbank keine neuen Sequenzenzur Verfügung standen, auf die das Modell abgestimmt war. Alle zum Modell passendenSequenzen waren zu diesem Zeitpunkt schon Teil des Modells (siehe Tabelle 7.1).

7. Bewertung der Ergebnisse 98Tabelle 7.3: Vergleich der relativen Änderungen der Dichtefunktionen mit den Entropien zwischen den Zyklen 1 und 3.

7. Bewertung der Ergebnisse 997.9 Zusammenfassung der EvaluationsergebnisseDie Parametrisierung der HMMs als Basis einer objektiven und vergleichbaren Bewertungder Alignments kann als kritisch und schwierig erachtet werden. Die bis datoüblichen Scores, die nur Singlealignments mit dem Profil-MSA bewerten, sind dafür nurbegrenzt verwertbar“. Einige davon sind sowohl modell- als auch sequenzlängenabhängig,womit eine modellübergreifende Bewertung und ein objektiver Vergleich”derAlignierungsergebnisse kaum möglich ist. Die besten Ergebnisse können mit dem ReverseCorrected Scores erreicht werden, die sich als die stabilsten Scores herausstellten.Keine Kombination aus zwei Scores stellt jedoch eine wesentliche Verbesserung derTrennschärfe in Aussicht.Über die Verwendung von längen(teil-)korrigierten Z-Scores und die Standardisierungder Dichtefunktionen, können einige Nachteile der Scores abgeschwächt werden. Vergleichtman die Ergebnisse der Alignierungen über mehrere Zyklen hinweg so fällt aberauf, dass der Erfolg oder Misserfolg auch wesentlich vom Profil-MSA abhängt. EinHMM, das mit einem Profil-MSA mit wenigen Sequenzen beschrieben wird, reagiertsensibler auf das Hinzufügen familienfremder Sequenzen als ein Modell, das mit einemumfangreichen MSA trainiert wird. Damit steht auch fest, dass die Expansion einesModells nur dann sinnvoll ist, wenn das Modell stabil genug ist, um Sequenzen entfernterVerwandter aufzunehmen. Ist dies nicht der Fall, so driftet das Modell mitunterso weit ab, dass es eine Familie oder einen ”Clan“ 7 nur noch unzureichend beschreibt.Ein direkter Zusammenhang der Entropie der Emissionsmatrizen mit den Scoringergebnissenkann nicht festgestellt werden. Die Änderung der Entropie kann mitunterals Zeichen der Diversifikation oder Spezialisierung eines HMM interpretiert werden,direkte Auswirkungen auf die Alignierungsergebnisse können mit den aktuellen Testdatenaber nicht nachgewiesen werden. Ein Grund für teilweise stark unterschiedlicheTestergebnisse ist mitunter in den Testdaten selbst zu suchen, die bestimmte Modelleaufgrund der Zusammensetzung der Daten begünstigen oder andere benachteiligen.7 Der Begriff des Clans wird hierbei in Bezug auf die Datenbank Pfam verwendet. ”A recent developmentin Pfam has enabled the grouping of related families into clans.“[5]

8Zusammenfassung und AusblickEines der wesentlichen Anliegen der Bioinformatik ist die effiziente Berechnung derÄhnlichkeit von Sequenzen. Die Lösung dieser Aufgabe ist insofern von hoher Relevanz,als aus der Ähnlichkeit von Aminosäuresequenzen auf die evolutionäre Verwandtschaftvon Proteinen und darüber hinaus auf deren strukturelle und funktionelle Ähnlichkeitgeschlossen werden kann. Multiple Sequenzalignments eignen sich besonders, die in denSequenzen vorkommenden Muster und Ähnlichkeiten zu identifizieren. Deren Erstellunggilt aber als nicht trivial und algorithmisch komplex.Im Rahmen dieser Arbeit wurde eine Methode entwickelt, mit der auf Basis von HiddenMarkov Modellen multiple Sequenzalignments erzeugt werden. Die folgende Zusammenfassungbeschreibt die Implementierung, mit der diese Aufgabe gelöst wird unddie Rückschlüsse, die aus den Testergebnissen gezogen werden. Den Abschluss bildetder Ausblick mit Vorschlägen, wie die Ergebnisse in Zukunft weiter verbessert werdenkönnten.8.1 ZusammenfassungDie vorliegende Thesis zeigt die Anwendung und Evaluation eines Profil Hidden MarkovModells (Profil-HMM) zur Berechnung eines multiplen Sequenzalignments. Dabeiwird eine mehrstufige Strategie implementiert, mit der die Sequenzen nach der Einzelalignierungmit dem Profil-MSA in einem iterativen Prozess zu einem Vereinigungs-MSA100

8. Zusammenfassung und Ausblick 101(VMSA) aligniert werden. In einem zusätzlichen Arbeitsgang wird mit einer alternativenAlignierungsmethode das VMSA nachaligniert, um das Ergebnis weiter zu verbessern.Dazu werden die vom HMM unaligniert gebliebenen Bereiche in Snippets extrahiertund diese mit ClustalW aligniert. Danach werden die alignierten MSA-Snippetswieder in das VMSA zurückgeführt.Eine Erweiterung erfährt die Methode, indem das Profil-MSA in einem iterativen Prozessschrittweise mit Sequenzen aligniert und erweitert wird, um es in jedem Durchlaufneuerlich für Alignierungen wiederzuverwenden.Die Trennfähigkeit, Sensibilität und Stabilität eines Hidden Markov Modells und dieAlignierungsergebnisse hängen von einer Reihe von Parametern ab. Die Sequenzanzahlund die Sequenzlänge der Profil-MSA spielt dabei eine ebenso wesentliche Rolle, wiedie Anzahl der Emissionsspalten und die Sequenzlänge der zu alignierenden Sequenzen.Diese Multivariabilität der Parameter erschwert einerseits die Vorhersagbarkeitder Modelleigenschaften, anderseits auch die Vergleichbarkeit der Testergebnisse übermehrere Modelle und Zyklen hinweg.Da die quantitative Beurteilung eines MSA aufgrund fehlender Gesamtscores schwermöglich ist, stützt sich die Bewertung der Ergebnisse auf die Beobachtung der Scoresund deren dynamische Entwicklung im iterativen Prozess. Dabei wird - vorerstgraphisch - die dynamische Entwicklung der Scoredichtefunktionen während mehrererIterationen bewertet. Eine nachfolgende numerische Bewertung erfolgt über denVergleich der Entropieänderung der Emissionsmatrizen und der Mittelwertänderungstandardisierter Z-Scores.Die Implementation und Evaluation der Ergebnisse zeigt, dass die Erstellung einesmultiplen Sequenzalignments über ein Hidden Markov Modell grundsätzlich und problemlosmöglich ist. Kritisch ist vielmehr die Parametrisierung eines HMM in Formdes Trainings und die objektive Bewertung der Ergebnisse. Die zur Verfügung stehendenScores, die derzeit nur Singlealignments mit dem HMM bewerten, sind dafür nurbegrenzt verwertbar. Diese sind teilweise stark modell- und sequenzlängenabhängig,womit eine modellübergreifende Bewertung und ein objektiver Vergleich der Alignierungsergebnisseschwer möglich ist.

8. Zusammenfassung und Ausblick 1028.2 AusblickDiese Arbeit belegt einerseits die Möglichkeiten der Anwendung eines HMMs im Sequenzalignment,andererseits aber auch die Grenzen der derzeitigen Implementierung.Es empfiehlt sich, in der Fortsetzung dieser Arbeit eine Reihe von Verbesserungen imBereich der Algorithmik, dem Scoring, der Erstellung der Profil-MSA, sowie in diePerformance einfließen zu lassen.Wie die Streudiagramme und die PCA mit den Beispieldaten belegen, stellt keineKombinationen der Scores der geprüften Familien eine wesentliche Verbesserung derTrennschärfe in Aussicht. Die Analyse der PCA belegt aber auch, dass je spezialisierterein Modell ist, desto eher ein einziger Scores die Gesamtvarianz des Systems erklärt,und je diversifizierter ein Modell ist, desto eher sich die Varianz auf mehrere Scoresverteilt. Demnach ist durchaus denkbar, dass bei bestimmten Modellen und bestimmtenFamilien die Kombination von zwei Scores Vorteile bringen könnte.Eine Untersuchung der Testdaten und Profil-MSA zeigt, dass die Profil-MSA ausschließlichaus allen Sequenzen einer einzigen Familie beschrieben werden, die sich auchin den Testdaten wiederfinden. Das Problem liegt darin, dass dieselben Sequenzen beider Klassifikation und beim Test des Verfahrens zur Anwendung kommen, die schonbei der Profil-MSA-Bildung beteiligt waren. Um dieses Defizit zu beheben, könnte diesogenannte Leave-one-out Methode angewendet werden, bei dem jeweils jene Sequenzaus dem Profil-MSA isoliert wird, die mit dem verbleibenden MSA aligniert wird.Nachdem die Erfolgsaussichten einer guten Alignierung wesentlich von der Anpassungder Parameter abhängt und dafür oft mehrere Testläufe notwendig sind, ist für einenpraktischen Einsatz eine Verbesserung der Performance wünschenswert. Derzeit sindRechenzeiten von einigen Stunden bis Tagen durchaus üblich. Eine Parallelisierung derSoftware oder die Umstellung auf ein verteiltes Softwaresystem könnte die Performancedeutlich erhöhen. Eine Verteilung der Prozesse in einem Cluster wäre mit einemvergleichsweise geringen Aufwand implementierbar, ohne große Änderungen an denApplikationen selbst vornehmen zu müssen.

Literaturverzeichnis[1] Encyclopedia Britannica - Online Ausgabe, 2010. URL: http://www.britannica.com/EBchecked/topic/365793/Andrey-Andreyevich-Markov (Stand: 28. Juli2010)).[2] A.G. Murzin et al.: SCOP: A Structural Classification of Proteins Database for theInvestigation of Sequences and Structures. Journal of Molecular Biology, 247:536-540, 1995.[3] G.R. Cochrane et al.: Petabyte-scale innovations at the European NucleotideArchive. In Nucleic Acids Research. Oxford University Press, Oxford, October2008.[4] L. Lo Conte et al.: SCOP database in 2002: refinements accommodate structuralgenomics. Nucleic Acids Research, 230:264–267, 2002.[5] R.D. Finn et al.: Pfam: clans, web tools and services. Nucleic Acids Res, 34:247–251, 2006.[6] F. Auer: Scoring Schemes and Parameter Prediction for Profile HMMs. Diplomarbeit,Fachhochschule Salzburg; Fachbereich Informationstechnik und System-Management, Puch/Salzburg, 2009.[7] D. Bindreither, S. Wegenkittl, F. Auer, and P. Lackner: Expert knowledge enhancedstructure based profile HMMs for protein sequence families. In Posterpresentationat the German Conference on Bioinformatics 2009, 2009.[8] L. Bonetta: Genome sequencing in the fast lane. In Nature Methods, volume 3,pages 141–147. New York, February 2006.103

Literaturverzeichnis 104[9] G.R. Cochrane and M.Y. Galperin: The 2010 Nucleic Acids Research DatabaseIssue and online Database Collection: a community of data resources, volume 38.Oxford University Press, January 2010.[10] M.O. Dayhoff and R.M. Schwartz: Matrices for detecting distant relationships. InAtlas of protein sequence and structure, volume 5, pages 353–358, WashingtonD.C., 1978. National Biomedical Research Foundation.[11] M.O. Dayhoff, R.M. Schwartz, and B.C. Orcutt: A model of evolutionary changein proteins. In Atlas of Protein Sequence and Structure, volume 5, pages 345–352,Washington D.C., 1978. National Biomedical Research Foundation.[12] R. Durbin, S. Eddy, A. Krogh, and G. Mitchison: Biological sequence analysis:probabilistic models of proteins and nucleic acids. Cambridge University Press,Cambridge, 11th edition, 2006.[13] S. Eddy: Hidden Markov Models And Large-Scale Genome Analysis. 1997.[14] D.F. Feng and R.F. Doolittle: Progressive Sequence Alignment as a Prerequisiteto Correct Phylogenetic Trees. Journal of Molecular Evolution, 25:351-360, 1987.[15] G.A. Fink: Mustererkennung mit Markov-Modellen. Teubner B.G. GmbH, Stuttgart,2003.[16] W. Gilbert and A.M. Maxam: A new method for sequencing DNA. In Proceedingsof the National Academy of Sciences U.S.A., volume 74, pages 560–564, Washington,DC, February 1977.[17] D. Gusfield: Algorithms on Strings, Trees, and Sequences. Cambridge UniversityPress, Cambridge, 1997.[18] D. Haussler, A. Krogh, I.S. Mian, and K. Sjölander: Protein Modeling using HiddenMarkov Models: Analysis of Globins. Technical report, University of California atSanta Cruz, Santa Cruz, USA, 1993.[19] S. Henikoff and J.G. Henikoff: Amino acid substitution matrices from proteinblocks. In Proceedings of the National Academy of Sciences of the United States

Literaturverzeichnis 105of America, volume 89, pages 10915–10919, Washington, DC, 1992. Proceedingsof the National Academy of Sciences, USA.[20] D. Hernando, V. Crespi, and G. Cybenko: Efficient Computation of the HiddenMarkov Model Entropy for a Given Observation Sequence. In IEEE Transactionon Information Theory, volume 51, pages 2681–2685. IEEE, July 2005.[21] M. T. Hütt und M. Dehnert: Methoden der Bioinformatik: Eine Einführung. SpringerVerlag, Berlin, 2006.[22] IUPAC-IUBMB: Joint Commission on Biochemical Nomenclature and NomenclatureCommission of IUBMB: Nomenclature and Symbolism for Amino Acidsans Peptides Biochemical Nomenclature and Related Documents. InternationalUnion of Pure and Applied Chemistry and International Union of Biochemistryand Molecular Biology / Joint Commission on Biochemical Nomenclature, UK,1984. URL: http://www.iupac.org/publications/pac/1984/pdf/5605x0595.pdf (Stand: 23.März 2010).[23] M.Y. Kao: Encyclopedia of Algorithms. Springer Verlag, New York, 1st edition,2008.[24] S. Karlin and S.F. Altschul: Methods for assessing the statistical significance ofmolecular sequence features by using general scoring schemes. Proceedings of theNational Academy of Sciences, USA, 87:2264-2268, 1990.[25] G. Kramer: Kleines Lexikon der Epileptologie (Taschenbuch). Thieme Verlag,Stuttgart, 1. Auflage, 2005.[26] A. Krogh, M. Brown, M. Mian, M. Sjölander, and D. Haussler: Hidden Markovmodels of computational biology: Applications to protein modelling. Journal ofMolecular Biology, 235:1501-1531, 1994.[27] P. Lackner, F. Auer, M. Radlingmaier, and S. Wegenkittl: Optimierte Modellezur Beschreibung von Proteinfamilien. In Proceedings der FFH2009, DrittesForschungsforum der Österreichischen Fachhochschulen, April 15–16, 2009. FachhochschuleKärnten, 2009.

Literaturverzeichnis 106[28] D.J. Lipman and W.R. Pearson: Rapid and sensitive protein similarity searches.Science, 227:1435-1441, 1985.[29] D. Lochmann: Digitale Nachrichtentechnik: Signale, Codierung,Übertragungssysteme, Netze). Verlag Technik, Berlin, 2. Auflage, 1997.[30] C.D. Manning, P. Raghavan, and H. Schütze: An Introduction to InformationRetrieval. Cambridge University Press, Cambridge, 2009. Online AusgabeURL: http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf (Stand: 03.März 2010.[31] K.J. Menlove, M. Clement, and K.A. Crandall: Similarity Searching Using BLAST.Methods in Molecular Biology. Humana Press / Springer, Provo, 2009.[32] R. Merkl und S. Waack: Bioinformatik Interaktiv: Algorithmen und Praxis. Wiley-VCH Verlag GmbH, Weinheim, 2. Auflage, 2009.[33] D.W. Mount: Bioinformatics: Sequence and Genome Analysis. Cold Spring HarborLaboratority Press, New York, 2001.[34] NCBI - National Center for Biotechnology Information: FormatDB and FastaCmd,2007. URL: http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/formatdb_fastacmd.html#t1.1 (Stand: 25. Juli 2010).[35] S.B. Needleman and C.D. Wunsch: A general method applicable to the search forsimilarities in the amino acid sequence of two proteins. Journal of MolecularBiology, 48:443-453, 1970.[36] Nobelprize.org - The Official Web Site of the Nobel Prize: The Nobel Prize inChemistry 1980 - Paul Berg, Walter Gilbert, Frederick Sanger, 1980. URL:http://nobelprize.org/nobel_prizes/chemistry/laureates/1980/ (Stand:25. Juli 2010).[37] L. Papula: Mathematik für Ingenieure und Naturwissenschaftler, Band 3. ViewwegVerlag, Braunschweig, 4. Auflage, 2001.[38] W. Pirovano and J. Heringa: Multiple Sequence Alignment, volume 452 of Methodsin Molecular Biology. Humana Press / Springer, Totowa, NJ, May 2008.

Literaturverzeichnis 107[39] M. Radlingmaier: Optimierte Hidden Markov Modelle für das Sequenz-Scoring aufBasis von Multiplen Alignments. Diplomarbeit, Fachhochschule Salzburg; FachbereichInformationstechnik und System-Management, Puch/Salzburg, 2007.[40] F. Sanger, S. Nicklen, and A.R. Coulsen: DNA sequencing with chain-terminatinginhibitors. In Proceedings of the National Academy of Sciences U.S.A., volume74, pages 5463–5467, Washington, DC, October 1977.[41] R. Sedgewick: Algorithmen. Pearson Education Inc., München, 2. Auflage, 2002.[42] K. Sharma: Bioinformatics: Sequence Alignment and Markov Models. McGraw-Hill Professional, New York, 1st edition, 2008.[43] T.F. Smith and M.S. Waterman: Identification of Common Molecular Subsequences.Journal of Molecular Biology, 147:195-197, 1981.[44] E.L. Sonnhammer, S.R. Eddy, and R. Durbin: Pfam: A Comprehensive Databaseof Protein Domain Families Based on Seed Alignments. PROTEINS: Structure,Function, and Genetics, 28:405-420, 1997.[45] J.D. Thompson, D.G Higgins, and T.J. Gibson: CLUSTAL W: improving thesensitivity of progressive multiple sequence alignment through sequence weighting,positionspecific gap penalties and weight matrix choice. Nucleic Acids Research,22:4673-4680, 1994.[46] C.S. Tsai: An Introduction to Computational Biochemistry. Wiley-Liss, Inc, NewYork, 2002.[47] S. Wegenkittl, F. Auer, D. Bindreither, and P. Lackner: Expert knowledge enhancedstructure based profile HMMs for protein sequence families. In Posterpresentationat the 3DSig 2009, 2009.

AbkürzungsverzeichnisBLOSUM . . . . . . . . . . . . . .CCS . . . . . . . . . . . . . . . . . . .CDF . . . . . . . . . . . . . . . . . . .DNA . . . . . . . . . . . . . . . . . .FASTA . . . . . . . . . . . . . . . .HCS . . . . . . . . . . . . . . . . . . .HCSF . . . . . . . . . . . . . . . . .HMM . . . . . . . . . . . . . . . . . .MSA . . . . . . . . . . . . . . . . . .NCDF . . . . . . . . . . . . . . . . .NCDFM . . . . . . . . . . . . . . .PAM . . . . . . . . . . . . . . . . . .PCA . . . . . . . . . . . . . . . . . . .PDB . . . . . . . . . . . . . . . . . . .PFAM . . . . . . . . . . . . . . . . .PHMM . . . . . . . . . . . . . . . .PIG . . . . . . . . . . . . . . . . . . .PSC . . . . . . . . . . . . . . . . . . .PSA . . . . . . . . . . . . . . . . . . .PSF . . . . . . . . . . . . . . . . . . .REGEX . . . . . . . . . . . . . . .RCS . . . . . . . . . . . . . . . . . . .RCSF . . . . . . . . . . . . . . . . . .RNA . . . . . . . . . . . . . . . . . .Block Substitution MatrixConcise Classification StringCumulated Distribution FunctionDesoxyribonukleinsäureFasta DateiformatHMMer Corrected ScoreHMMer Corrected Score (Forward)Hidden Markov ModellMultiple Sequence AlignmentNormCDF based on MeanNormCDF based on MedianPoint Accepted MutationsPrinciple Components AnalysisProtein Data BankProtein FamiliesProfile Hidden Markov ModellProtein Identification GroupPlain ScorePairwise Sequence AlignmentPlain Score (Forward)Regular ExpressionReverse Corrected ScoreReverse Corrected ScoreRibonukleinsäure108

Abkürzungsverzeichnis 109RSC . . . . . . . . . . . . . . . . . . .RSF . . . . . . . . . . . . . . . . . . .SCCS . . . . . . . . . . . . . . . . . .SCOP . . . . . . . . . . . . . . . . .SCS . . . . . . . . . . . . . . . . . . .SCSF . . . . . . . . . . . . . . . . . .SQS . . . . . . . . . . . . . . . . . . .SQN . . . . . . . . . . . . . . . . . . .SQL . . . . . . . . . . . . . . . . . . .SSC . . . . . . . . . . . . . . . . . . .SSA . . . . . . . . . . . . . . . . . . .SSF . . . . . . . . . . . . . . . . . . .VMSA . . . . . . . . . . . . . . . . .Reverse ScoreReverse Score (Forward)Set of Concise Classificaton StringsStructural Classification Of ProteinsSimple Corrected ScoreSimple Corrected Score (Forward)SequenzstringSequenznameStructured Query LanguageSimple ScoreSingle Sequence AlignmentSimple Score (Forward)Vereinigungs-MSA

Anhang110

A111

A. Tabellen und Abbildungen 112Tabellen und AbbildungenA.1 PAM250 MatrixTabelle A.1: Die PAM250 Matrix zeigt die Wahrscheinlichkeiten einer durch eine Mutation entstandenen Distanzvon 250 PAM-Einheiten in Prozent (basierend auf [11]). Die Tabelle zeigt beispielsweise, dass beim Vergleichzweier Aminosäuresequenzen, an deren erster Position zuvor ein A (Ala) stand, mit einer Wahrscheinlichkeitvon 13% nach einer akzeptierten Mutation ebenso noch ein A (Ala) stehen wird. Ebenso besteht eine 3%igeChance, dass bei einer Mutation das A zu einem R (Arg) mutiert.

A. Tabellen und Abbildungen 113A.2 Score-StreudiagrammeTabelle A.2: Streudiagramme der Scores der Familie a.1.1.2 nach dem ersten Zyklus.

A. Tabellen und Abbildungen 114Tabelle A.3: Streudiagramme der Scores der Familie a.1.1.2 nach dem dritten Zyklus.

BUmgebung und ApplikationenB.1 Entwicklungs- und TestumgebungDie Implementierung und das Debugging der Applikationen und Scripte, sowie dieEvaluation der Ergebnisse erfolgte in folgender Umgebung:• Ubuntu 10.04: Linux ubuntu 2.6.32-23-generic; 37-Ubuntu SMP Fri Jun 11 07:54:58UTC 2010 i686 GNU/Linux• Java: Version 1.6.0 18; OpenJDK Runtime Environment (IcedTea6 1.8) (6b18-1.8-0ubuntu1); OpenJDK Client VM (build 14.0-b16, mixed mode, sharing)• Python: Python 2.6.5 (r265:79063, Apr 16 2010, 13:09:56)• Bash: 4.1.5(1)-release• VMware Workstation: Version 7.1.0 build-261024• Eclipse: Version 3.5.2, Build Id: M20100211-1343 (Galileo)• HMModeler: Version 1.0.2115

B. Umgebung und Applikationen 116B.2 grepseq: Optionsbeschreibungseqgrep Usage:java -jar seqgrep.jar [OPTIONS] fileOptions:Mandatory arguments to long OPTIONS are mandatory for shortOPTIONS too.-b REGEX Record start PATTERN-c FIELD [REGEX] SCORETYPE [SCBOUND]Assign the FIELD to select the score tocalculate the SCORETYPE-e REGEX Record end PATTERN-f FILETYPE Assign the TYPE of input file to parse-h, --helpDisplay this help and exit-l Print order number with output lines-m FIELD REGEX Assign the filter FIELD to match with REGEX-n NUM Output the first/last NUM records-o OUTFILE Place the output into OUTFILE-q, --quiet, --silent Suppress all normal output-r Reverse the result of sort comparisons-s FIELD [REGEX] Assign the FIELD to sort-t OP VALUE Assign the score threshold conditionalOPerator and VALUE-x EXFILE Exclude records has lines start with stringsin EXFILE-y, --contrary Invert the sense of matching--versionOutput version information and exitFile type:Specify the type of file to parse.TYPE File Type Description-------------------------------F[ASTA] FASTA File TypeH[MMOO] HMMOO File Type (default)↩→

B. Umgebung und Applikationen 117Field control:Specify field names to sort records and search for the patternin each record.FIELD Line starts with... DataType-------------------------------------------------------_USR USER_PATTERN String_CLC * DoubleSQN "Sequenzbeschreibung: >" StringSQS "Sequenz:" StringPSC "Plain Score:" DoublePSF "Plain Score (Forward):" DoubleSSC "Simple Score:" DoubleSSF "Simple Score (Forward):" DoubleRSC "Reverse Score:" DoubleRSF "Reverse Score (Forward):" DoubleSCS "Simple Corrected Score:" DoubleSCSF "Simple Corrected Score (Forward):" DoubleRCS "Reverse Corrected Score:" DoubleRCSF "Reverse Corrected Score: (Forward):" DoubleHCS "HMMer Corrected Score:" DoubleHCSF "HMMer Corrected Score (Forward):" DoubleSCORETYPE type:Specify the type of score to calculate.TYPE Score Type Description------------------------------------------------------------------NCDF NormCDF based on Mean (arithm. Average)NCDFM NormCDF based on MedianNCDFT NormCDF based on Mean without the scores which areout of bounds. CBOUND specifies the thresholds forLeast/Top scores.REGular EXpression:Specify regular expression to select the sort and search field.For further help about JAVA compatible regular expressions visit:http://java.sun.com/docs/books/tutorial/essential/regex/literals.htmlAuthorRoland J. Graf, University of Applied Sciences, SalzburgReport bugs to: roland.graf@fh-salzburg.ac.atSalzburg/Austria, August 2010

B. Umgebung und Applikationen 118B.3 amodseq: OptionsbeschreibungAmodSeq Usage:java -jar AmodSeq.jar [OPTIONS] -p hmmfile -a alignedfile -o outfileOptions:Mandatory arguments to long OPTIONS are mandatory for short OPTIONS too.-a FILE Use the HMM model aligned sequences FILE-f FILE Place the FASTA output into FILE-d FILE Place further informations about the sequencealignment process into FILE-h, --helpDisplay this help and exit-l DIR Assign the location to search the externalsequence alignment application-n NUM FILE Export first NUM chars of MSA sequence namesinto FILE-o FILE Place the output into FILE-p FILE Use the HMM model parameter FILE createdwith HMModeler-t DIR Assign the location to create temporary files-q, --quiet, --silent Suppress all normal output-x NUM PARAMS Pass through NUM PARAMeters to the externalsequence alignment application--versionOutput version information and exitAUTHORRoland J. Graf, University of Applied Sciences, SalzburgReport bugs to roland.graf@fh-salzburg.ac.atSalzburg/Austria, July 2010

B. Umgebung und Applikationen 119B.4 amodseq.ini: ClustalW Defaulteinstellungen[XAPPARGS]# specify path and application to improve MSA/home/student/MT/Evaluation04-Roland/jarfiles/clustalw2# specify the fixed parameters# $$PROFILE1$$ = placeholder for fixed profile FASTA file# $$PROFILE2$$ = placeholder for variable profile FASTA file-ALIGN-QUIET-SEQUENCES-OUTPUT=FASTA-PROFILE1=$$PROFILE1$$-PROFILE2=$$PROFILE2$$-OUTFILE=$$OUTFILE$$

CDaten- und ErgebnisdateienC.1 Astral DB-Datei im FASTA FormatDas textbasierte FASTA-Format in ein in der Bioinformatik gängiges Dateiformatzur Beschreibung der Primärstruktur von Proteinen. Eine Sequenzbeschreibung wirdmit einer Kopfzeile eingeleitet, die immer mit dem Zeichen ’>’ beginnt. Der Inhaltder Kopfzeile startet mit einem eindeutigen Namen oder einer ID. Die Aminosäuresequenzenselbst werden durch einen One-Letter-Code dargestellt. Kommentarzeilenwerden mit dem Zeichen ’;’ eingeleitet.Das nachfolgende Listing zeigt einen Auszug aus einer Astral-Datenbankdatei im FASTAFormat:>d1dlwa_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Ciliate (Paramecium caudatum) [TaxId: 5885]}slfeqlggqaavqavtaqfyaniqadatvatffngidmpnqtnktaaflcaalggpnawtgrnlkevhanmgvsnaqfttvighlrsaltgagvaaalveqtvavaetvrgdvvtv>d1s69a_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Cyanobacteria(Synechocystis sp.), pcc 6803 [TaxId: 1143]}stlyeklggttavdlavdkfyervlqddrikhffadvdmakqrahqkafltyafggtdkydgrymreahkelvenhglngehfdavaedllatlkemgvpedliaevaavagapahkrdvlnq>d1idra_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Mycobacteriumtuberculosis, HbN [TaxId: 1773]}gllsrlrkrepisiydkiggheaievvvedfyvrvladdqlsaffsgtnmsrlkgkqveffaaalggpepytgapmkqvhqgrgitmhhfslvaghladaltaagvpsetiteilgviaplavdvts↩→↩→↩→120

C. Daten- und Ergebnisdateien 121C.2 HMMOO Alignment Result DateiDas folgende Listing zeigt in gekürzter Form 1 den grundsätzlichen Aufbau eines result-Datensatz an, wie von der Applikation hmmoo generiert wird:Sequenzbeschreibung: >d1dlwa_ a.1.1.1 (A:) Protozoan/bacterial hemo ↩→globin {Ciliate (Paramecium caudatum) [TaxId: 5885]}Sequenz: slfeqlggqaavqavtaqfyaniqadatvatffngidmpnqtnktaaflcaalggpna ↩→wtslfeqlggqaavqavtaqfyaniqadatvatffngidmpnqtnktaaflcaalggpnawtgrnlk ↩→evhanmgvsnaqfttvighlrsaltgagvaaalveqtvavaetvrgdvvtvPlain Score: -576.7240977002209Plain Score (Forward): -569.0899435594409Simple Score: -647.0919876918512Simple Score (Forward): -647.0919876918512Reversed Score: -581.9745888906357Reversed Score (Forward): -572.879493576253Simple Corrected Score: 70.36788999163025Simple Corrected Score (Forward): 78.00204413241022Reverse Corrected Score: 5.2504911904147775Reverse Corrected Score (Forward): 3.789550016812086HMMer Corrected Score: 65.11109477813987HMMer Corrected Score (Forward): 71.77954943225613BackTrack: [B, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, ↩→...IB, IB, IB, IB, IB, IB, IB, IB, IB, FB, M0, M1, M2, M3, M4, M5, M6, ↩→...M84, M85, M86, M87, M88, M89, M90, M91, M92, M93, M94, M95, FE, IE, ↩→IE, IE, IE, IE, IE, IE, IE, IE, IE, E]MSA:SLFEQLGGQAAVQAVTAQFYANIQADATVATFFNGIDMPNQTNKTAAFLCAALGGPNAWTSLFEQLGGQAAVQAVTAQFYANIQADATVATFFNGIDMPNQTNKTAAFLCAALGGPNAWTGRNLKEVHANMGVSNAQFTTVIGHLRSALTGAGVAAALVEQTVAVAETVRGDVVTVIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIMMMMMMMMMMMMMMMMMMMMMMMMMMMMMIIMMMMMMMMMMMMMMMMMMMIMMIMMMMMMMMMIMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMIIIIIIIIII↩→↩→↩→↩→1 Aus Platzgründen wurde Teile des Datensatzes entfernt. Die fehlenden Zeilen wurden durch ein’...’ ersetzt.

C. Daten- und Ergebnisdateien 122C.3 Z-Score AuswertungDie folgenden Listings zeigen die vom Python-Tool evaluateResults.py generierte Auswertungder Reverse Corrected Z-Scores für die Zyklen 1 und 3. Bei den Z-Scoreshandelt es sich um auf Other-Scores standardisierten Scores. Die Werte geben an, wiegroß die Distanz der Mittelwerte vom Other-Score zu den Mittelwerten der Family-(Fam), Superfamily (SFam) und Fold-Scores (Fold) ist. Die Distanz wird in Vielfacheder Standardabweichung der Other-Scores angegeben. Die Medium Rank Werte gebenan, wie die Sequenzen im Durchschnitt gereiht wurden, wenn die Daten nach Scoressortiert vorliegen. DBMember Werte zeigen die Vorkommen in der Testdatenbank.C.3.1 Z-Score Auswertung Zyklus 1------- Z-Score ------ --- Medium Rank ---- DBMembersFamily Fam SFam Fold Fam SFam Fold Fa -Sf -Foa.1.1.2 15.097 3.051 0.685 12.5 252.0 2580.5 26 11 4a.138.1.1 16.786 2.913 nan 4.5 82.0 nan 10 12 0a.25.1.2 17.574 0.531 -0.129 5.0 2828.0 5522.0 11 25 7a.3.1.4 20.458 4.439 nan 2.5 23.0 nan 6 29 0b.121.4.1 16.038 0.984 0.178 6.5 1232.0 3509.0 14 22 24b.122.1.1 10.158 0.755 nan 3.5 2488.5 nan 8 20 0b.45.1.1 8.812 -0.001 0.872 8.5 5335.5 660.0 18 6 3b.47.1.2 39.318 4.695 nan 11.5 34.5 nan 24 20 0b.6.1.1 15.484 1.959 -0.227 4.5 656.0 5485.0 10 35 2c.31.1.3 20.659 1.929 nan 4.5 467.0 nan 10 10 0c.36.1.9 31.904 2.457 nan 4.5 159.0 nan 10 20 0c.45.1.2 47.279 5.085 nan 3.5 15.5 nan 8 12 0c.46.1.2 11.496 5.516 nan 6.5 17.0 nan 14 7 0c.72.1.1 30.190 2.473 1.119 6.0 171.5 943.0 13 8 9d.131.1.2 9.155 0.915 nan 7.5 847.0 nan 16 6 0d.14.1.5 19.021 -0.312 nan 3.5 6190.0 nan 8 26 0d.153.1.4 24.103 -0.217 2.203 9.0 5431.0 195.0 19 17 1d.32.1.2 19.039 3.099 nan 3.0 112.5 nan 7 24 0d.38.1.5 12.584 3.298 nan 5.5 63.0 nan 12 33 0e.3.1.1 17.904 5.282 nan 11.0 25.5 nan 23 4 0Summary -------------------------------------------------------------20.153 2.443 0.671

C. Daten- und Ergebnisdateien 123C.3.2 Z-Score Auswertung Zyklus 3------- Z-Score ------ --- Medium Rank ---- DBMembersFamily Fam SFam Fold Fam SFam Fold Fa -Sf -Foa.1.1.2 14.589 3.132 0.450 12.5 533.0 2727.5 26 11 4a.138.1.1 10.422 0.983 nan 4.5 2290.0 nan 10 12 0a.25.1.2 17.574 0.531 -0.129 5.0 2828.0 5522.0 11 25 7a.3.1.4 18.059 3.814 nan 2.5 44.0 nan 6 29 0b.121.4.1 16.633 1.097 0.178 6.5 1311.0 3787.0 14 22 24b.122.1.1 8.941 0.757 nan 4.5 2629.0 nan 8 20 0b.45.1.1 8.812 -0.001 0.872 8.5 5335.5 660.0 18 6 3b.47.1.2 35.039 5.397 nan 11.5 36.5 nan 24 20 0b.6.1.1 13.716 4.109 -0.009 5.5 133.0 4788.0 10 35 2c.31.1.3 20.659 1.929 nan 4.5 467.0 nan 10 10 0c.36.1.9 30.275 2.654 nan 4.5 112.5 nan 10 20 0c.45.1.2 37.875 3.536 nan 3.5 53.5 nan 8 12 0c.46.1.2 10.794 5.200 nan 6.5 18.0 nan 14 7 0c.72.1.1 24.932 3.423 0.432 6.0 370.0 4388.0 13 8 9d.131.1.2 9.155 0.915 nan 7.5 847.0 nan 16 6 0d.14.1.5 19.021 -0.312 nan 3.5 6190.0 nan 8 26 0d.153.1.4 23.352 -0.255 2.195 9.0 5161.0 210.0 19 17 1d.32.1.2 17.504 2.964 nan 3.0 128.0 nan 7 24 0d.38.1.5 12.202 4.187 nan 8.0 32.0 nan 12 33 0e.3.1.1 17.016 10.016 nan 11.0 21.0 nan 23 4 0Summary -------------------------------------------------------------18.328 2.704 0.570

DQuelltexteD.1 amodseq: Alignment voralignierter Sequenzenin das Profil-HMMpublic int AlignSequenceToModel( ModelSequences modelSeq,AlignedSequence algSeq )throws AlignmentException{String seqID = algSeq.getName();int seqOffset = 0;int modelOffset = 0;int matchOffset = 0;int insertlen, endins;↩→↩→StringBuilder seq = new StringBuilder(50000);StringBuilder mask = new StringBuilder(50000);seq.append(algSeq.getSequenceString());mask.append(algSeq.getMaskString());for(int i=0; i < mask.length(); i++){switch( mask.charAt(i) ){case ’D’:case ’M’:matchOffset = modelSeq.getNextMatch(modelOffset);if( matchOffset == modelOffset ){modelOffset++;seqOffset++;} else {insertlen = matchOffset - modelOffset;mask.insert(i, StringUtils.RepeatChar(gapChar, insertlen));124

D. Quelltexte 125seq.insert(i, StringUtils.RepeatChar(gapChar, insertlen));modelOffset = matchOffset+1;i += insertlen;}break;case ’I’:for( endins=i+1; endins 0 ){mask.insert(i, StringUtils.RepeatChar(gapChar, insertlen));seq.insert(i, StringUtils.RepeatChar(gapChar, insertlen));}modelSeq.insertAtColumn(matchOffset,StringUtils.RepeatChar(gapChar, endins - i).toString());modelOffset = matchOffset + (endins - i);i += insertlen + (endins - i - 1);break;default: // throws an exception because a wrong mask state}}insertlen = modelSeq.getModelWidth() - seq.length();if( insertlen > 0 ){seq.append(StringUtils.RepeatChar(gapChar, insertlen));mask.append(StringUtils.RepeatChar(gapChar, insertlen));}algSeq.replace(seq.toString(), mask.toString());}return seq.length();

EDatenträger126

MASTERARBEIT - Fachhochschule Salzburg

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?