Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...

DIPLOMARBEIT 

UNIVERSITÄTSZENTRUM INFORMATIK 

Martin-Luther-Universität Halle-Wittenberg 

Entwicklung neuer Software zur Erkennung von Transkriptionsfaktorbindungsstellen 

in nicht alignierten Sequenzen 

Michaela Mohr 

(2005) 

© Universitätszentrum Informatik • Universität Halle 

von-Seckendorff-Platz 1 • 06120 Halle (Saale)

Allgemeine Angaben 

Die Diplomarbeit wurde am Lehrstuhl für Mustererkennung und Bioinformatik von 

Prof. Dr. Stefan Posch, Institut für Informatik, Fachbereich Mathematik und Informatik 

der Martin-Luther-Universität angefertigt. 

Zur Kontaktaufnahme benutzen Sie bitte die Email-Adresse 

direktor@uzi.uni-halle.de. 

Zusammenfassung 

Ein Schlüsselproblem der modernen Molekularbiologie ist die Aufklärung der kom- 

plexen Mechanismen, die für die Regulation der Genexpression verantwortlich sind. 

Ein wichtiger Schritt ist in diesem Zusammenhang die Identifizierung sogenannter 

Transkriptionsfaktorbindungsstellen (TFBSs). TFBSs sind genregulatorische Elemen- 

te auf der DNA, die meistens in der Nähe der Transkriptionsstartstelle (TSS) der Ge- 

ne liegen, die sie regulieren, sich in Eukaryoten jedoch auch zehntausende von Ba- 

senpaaren upstream oder downstream der TSS befinden können. TFBSs sind zu- 

sammen mit Transkriptionsfaktoren, den Proteinen die an sie binden, und zusammen 

mit weiteren Proteinen für die Steuerung der Transkription von Genen verantwortlich. 

Im Laufe der Zeit sind mehrere experimentelle Methoden zur Analyse von TFBSs 

entwickelt worden. Experimentelle Analysen sind jedoch teuer und aufwändig. Die 

Verfügbarkeit von vollständigen genomischen Sequenzen hat die Möglichkeit eröff- 

net, an das Problem der TFBS-Erkennung mit computerbasierten Methoden heran- 

zugehen. Diese erreichen zwar nicht die Genauigkeit von experimentellen Methoden, 

sind aber deutlich schneller und kostengünstiger und stellen damit eine wichtige Er- 

gänzung zur experimentellen Analyse dar. 

Die Arbeit beschäftigt sich mit der de-novo Entdeckung von TFBSs, also damit, 

TFBSs zu finden ohne irgendwelche a-priori Annahmen über das Aussehen dieser zu 

machen. Dabei wird in einem Datensatz aus längeren Sequenzen, von denen vermu- 

- 2 -

tet wird, dass sie durch den gleichen Transkriptionsfaktor gebunden werden, nach 

einem gemeinsamen Sequenzmotiv, der möglichen Bindungsstelle des Transkripti- 

onsfaktors, gesucht. 

Zur Zeit verwendete Lösungsstrategien für diese Aufgabe lassen sich in zwei Haupt- 

kategorien unterteilen. Zum einen gibt es global optimale Methoden, die z.B. auf ei- 

ner Aufzählung aller Motive innerhalb eines festgelegten Suchraums beruhen. Diese 

sind, da eine erschöpfende Suche durchgeführt wird, in ihrer Laufzeit exponentiell in 

der Länge des Motivs, und eignen sich daher nur für sehr kurze Motive. Zum anderen 

gibt es iterative Verfahren, die mit einer stochastischen Modellierung des Motivs ar- 

beiten, wie den EM-Algorithmus oder den Gibbs-Sampler. Diese berechnen ausge- 

hend von einem initialen Modell iterativ bessere Modelle und eignen sich auch für 

längere Motive. 

Zur Zeit verfügbare Programme, die auf einem EM-Algorithmus oder Gibbs-Sampler 

beruhen, gehen in der Modellierung des Motivs davon aus, dass die einzelnen Posi- 

tionen innerhalb des Motivs statistisch unabhängig voneinander sind. In biologischer 

Hinsicht entspricht das der Annahme, dass die einzelnen Basen unabhängig vonein- 

ander zur Bindung des Transkriptionsfaktors beitragen und die Gesamtenergie der 

Bindung sich als Summe der Bindungsenergien an den einzelnen Positionen ergibt. 

Diese Annahme trifft jedoch für fast alle bisher untersuchten TFBSs nicht zu. Ver- 

schiedene Modellklassen, wie z.B. Markov-Modelle oder Bayes-Netze, erlauben die 

Modellierung von Abhängigkeiten zwischen den einzelnen Positionen. 

In der Arbeit wurde ein EM-Algorithmus zur Suche von Motiven in nicht alignierten 

Sequenzen sowie eine stochastische Variante dieses Algorithmus’ implementiert, die 

beide die Möglichkeit bieten, modular verschiedene Kombinationen von Modellklas- 

sen für Motiv und Hintergrund einzusetzen. Weiterhin wurden Motiv und Hintergrund 

mit Hilfe von Markov-Modellen unterschiedlicher Ordnung modelliert und dabei die 

Fähigkeit des EM-Algorithmus, die versteckten Motive zu finden, an Fallbeispielen 

getestet. Untersucht wurde zum einen ein Datensatz, der σ 70 -Bindungsstellen aus E. 

coli mit den umgebenden nichtcodierenden genomischen Sequenzen enthielt, zum 

anderen Datensätze, in welchen diese σ 70 -Bindungsstellen durch mit Hilfe eines in- 

- 3 -

homogenen Markov-Modells erster Ordnung zufallsgenerierten Sequenzen gleicher 

Länge ersetzt wurden. 

Die Ausführung des EM-Algorithmus auf den Datensätzen hat gezeigt, dass die Mo- 

dellierung des intergenischen Hintergrunds mit Hilfe von homogenen Markov- 

Modellen höherer Ordnung zu einer deutlich besseren Erkennung des Motivs in den 

Sequenzen führen kann. In den untersuchten Datensätzen wurde bei Modellierung 

des Hintergrunds mit Hilfe eines homogenen Markov-Modells nullter Ordnung das 

Motiv in den Sequenzen gar nicht gefunden. Als beste Hintergrundmodelle für die 

Motiverkennung haben sich homogene Markov-Modelle zweiter, dritter und vierter 

Ordnung erwiesen. Für die Datensätze, die das zufallsgenerierte Motiv enthielten, hat 

sich die Modellierung des Motivs mit Hilfe eines inhomogenen Markov-Modells erster 

Ordnung als deutlich besser erwiesen als die Modellierung mit einem inhomogenen 

Markov-Modell nullter Ordnung. Dies suggeriert, dass diese Modellkombination auch 

in der Praxis eine bessere Erkennung von TFBSs ermöglichen kann, wenn die statis- 

tischen Abhängigkeiten zwischen den Nukleotiden signifikant sind. Für den Daten- 

satz mit σ 70 -Bindungsstellen ergab sich dagegen, dass ein inhomogenes Markov- 

Modell nullter Ordnung besser als ein inhomogenes Markov-Modell erster Ordnung 

ist. Die Modellierung von statistischen Abhängigkeiten hat also in diesem Fall nicht 

zu einer Verbesserung der Motiverkennung geführt. Die Ursache dafür liegt offenbar 

darin, dass die statistischen Abhängigkeiten zwischen benachbarten Sequenzpositi- 

onen des Motivs nur sehr schwach sind. Interessant wäre es in diesem Zusammen- 

hang, Datensätze zu untersuchen, die TFBSs enthalten, für welche solche statisti- 

sche Abhängigkeiten zwischen den Positionen des Motivs stärker sind. 

- 4 -

Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?