Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...
Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...
Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
DIPLOMARBEIT<br />
UNIVERSITÄTSZENTRUM INFORMATIK<br />
Martin-Luther-Universität <strong>Halle</strong>-Wittenberg<br />
Entwicklung neuer Software zur Erkennung von Transkriptionsfaktorbindungsstellen<br />
in nicht alignierten Sequenzen<br />
Michaela Mohr<br />
(2005)<br />
© Universitätszentrum <strong>Informatik</strong> • Universität <strong>Halle</strong><br />
von-Seckendorff-Platz 1 • 06120 <strong>Halle</strong> (Saale)
Allgemeine Angaben<br />
Die Diplomarbeit wurde am <strong>Lehrstuhl</strong> für Mustererkennung und Bioinformatik von<br />
Prof. Dr. Stefan Posch, Institut für <strong>Informatik</strong>, Fachbereich Mathematik und <strong>Informatik</strong><br />
<strong>der</strong> Martin-Luther-Universität angefertigt.<br />
Zur Kontaktaufnahme benutzen Sie bitte die Email-Adresse<br />
direktor@uzi.uni-halle.de.<br />
<strong>Zusammenfassung</strong><br />
Ein Schlüsselproblem <strong>der</strong> mo<strong>der</strong>nen Molekularbiologie ist die Aufklärung <strong>der</strong> kom-<br />
plexen Mechanismen, die für die Regulation <strong>der</strong> Genexpression verantwortlich sind.<br />
Ein wichtiger Schritt ist in diesem Zusammenhang die Identifizierung sogenannter<br />
Transkriptionsfaktorbindungsstellen (TFBSs). TFBSs sind genregulatorische Elemen-<br />
te auf <strong>der</strong> DNA, die meistens in <strong>der</strong> Nähe <strong>der</strong> Transkriptionsstartstelle (TSS) <strong>der</strong> Ge-<br />
ne liegen, die sie regulieren, sich in Eukaryoten jedoch auch zehntausende von Ba-<br />
senpaaren upstream o<strong>der</strong> downstream <strong>der</strong> TSS befinden können. TFBSs sind zu-<br />
sammen mit Transkriptionsfaktoren, den Proteinen die an sie binden, und zusammen<br />
mit weiteren Proteinen für die Steuerung <strong>der</strong> Transkription von Genen verantwortlich.<br />
Im Laufe <strong>der</strong> Zeit sind mehrere experimentelle Methoden zur Analyse von TFBSs<br />
entwickelt worden. Experimentelle Analysen sind jedoch teuer und aufwändig. Die<br />
Verfügbarkeit von vollständigen genomischen Sequenzen hat die Möglichkeit eröff-<br />
net, an das Problem <strong>der</strong> TFBS-Erkennung mit computerbasierten Methoden heran-<br />
zugehen. Diese erreichen zwar nicht die Genauigkeit von experimentellen Methoden,<br />
sind aber deutlich schneller und kostengünstiger und stellen damit eine wichtige Er-<br />
gänzung zur experimentellen Analyse dar.<br />
Die Arbeit beschäftigt sich mit <strong>der</strong> de-novo Entdeckung von TFBSs, also damit,<br />
TFBSs zu finden ohne irgendwelche a-priori Annahmen über das Aussehen dieser zu<br />
machen. Dabei wird in einem Datensatz aus längeren Sequenzen, von denen vermu-<br />
- 2 -
tet wird, dass sie durch den gleichen Transkriptionsfaktor gebunden werden, nach<br />
einem gemeinsamen Sequenzmotiv, <strong>der</strong> möglichen Bindungsstelle des Transkripti-<br />
onsfaktors, gesucht.<br />
Zur Zeit verwendete Lösungsstrategien für diese Aufgabe lassen sich in zwei Haupt-<br />
kategorien unterteilen. Zum einen gibt es global optimale Methoden, die z.B. auf ei-<br />
ner Aufzählung aller Motive innerhalb eines festgelegten Suchraums beruhen. Diese<br />
sind, da eine erschöpfende Suche durchgeführt wird, in ihrer Laufzeit exponentiell in<br />
<strong>der</strong> Länge des Motivs, und eignen sich daher nur für sehr kurze Motive. Zum an<strong>der</strong>en<br />
gibt es iterative Verfahren, die mit einer stochastischen Modellierung des Motivs ar-<br />
beiten, wie den EM-Algorithmus o<strong>der</strong> den Gibbs-Sampler. Diese berechnen ausge-<br />
hend von einem initialen Modell iterativ bessere Modelle und eignen sich auch für<br />
längere Motive.<br />
Zur Zeit verfügbare Programme, die auf einem EM-Algorithmus o<strong>der</strong> Gibbs-Sampler<br />
beruhen, gehen in <strong>der</strong> Modellierung des Motivs davon aus, dass die einzelnen Posi-<br />
tionen innerhalb des Motivs statistisch unabhängig voneinan<strong>der</strong> sind. In biologischer<br />
Hinsicht entspricht das <strong>der</strong> Annahme, dass die einzelnen Basen unabhängig vonein-<br />
an<strong>der</strong> zur Bindung des Transkriptionsfaktors beitragen und die Gesamtenergie <strong>der</strong><br />
Bindung sich als Summe <strong>der</strong> Bindungsenergien an den einzelnen Positionen ergibt.<br />
Diese Annahme trifft jedoch für fast alle bisher untersuchten TFBSs nicht zu. Ver-<br />
schiedene Modellklassen, wie z.B. Markov-Modelle o<strong>der</strong> Bayes-Netze, erlauben die<br />
Modellierung von Abhängigkeiten zwischen den einzelnen Positionen.<br />
In <strong>der</strong> Arbeit wurde ein EM-Algorithmus zur Suche von Motiven in nicht alignierten<br />
Sequenzen sowie eine stochastische Variante dieses Algorithmus’ implementiert, die<br />
beide die Möglichkeit bieten, modular verschiedene Kombinationen von Modellklas-<br />
sen für Motiv und Hintergrund einzusetzen. Weiterhin wurden Motiv und Hintergrund<br />
mit Hilfe von Markov-Modellen unterschiedlicher Ordnung modelliert und dabei die<br />
Fähigkeit des EM-Algorithmus, die versteckten Motive zu finden, an Fallbeispielen<br />
getestet. Untersucht wurde zum einen ein Datensatz, <strong>der</strong> σ 70 -Bindungsstellen aus E.<br />
coli mit den umgebenden nichtcodierenden genomischen Sequenzen enthielt, zum<br />
an<strong>der</strong>en Datensätze, in welchen diese σ 70 -Bindungsstellen durch mit Hilfe eines in-<br />
- 3 -
homogenen Markov-Modells erster Ordnung zufallsgenerierten Sequenzen gleicher<br />
Länge ersetzt wurden.<br />
Die Ausführung des EM-Algorithmus auf den Datensätzen hat gezeigt, dass die Mo-<br />
dellierung des intergenischen Hintergrunds mit Hilfe von homogenen Markov-<br />
Modellen höherer Ordnung zu einer deutlich besseren Erkennung des Motivs in den<br />
Sequenzen führen kann. In den untersuchten Datensätzen wurde bei Modellierung<br />
des Hintergrunds mit Hilfe eines homogenen Markov-Modells nullter Ordnung das<br />
Motiv in den Sequenzen gar nicht gefunden. Als beste Hintergrundmodelle für die<br />
Motiverkennung haben sich homogene Markov-Modelle zweiter, dritter und vierter<br />
Ordnung erwiesen. Für die Datensätze, die das zufallsgenerierte Motiv enthielten, hat<br />
sich die Modellierung des Motivs mit Hilfe eines inhomogenen Markov-Modells erster<br />
Ordnung als deutlich besser erwiesen als die Modellierung mit einem inhomogenen<br />
Markov-Modell nullter Ordnung. Dies suggeriert, dass diese Modellkombination auch<br />
in <strong>der</strong> Praxis eine bessere Erkennung von TFBSs ermöglichen kann, wenn die statis-<br />
tischen Abhängigkeiten zwischen den Nukleotiden signifikant sind. Für den Daten-<br />
satz mit σ 70 -Bindungsstellen ergab sich dagegen, dass ein inhomogenes Markov-<br />
Modell nullter Ordnung besser als ein inhomogenes Markov-Modell erster Ordnung<br />
ist. Die Modellierung von statistischen Abhängigkeiten hat also in diesem Fall nicht<br />
zu einer Verbesserung <strong>der</strong> Motiverkennung geführt. Die Ursache dafür liegt offenbar<br />
darin, dass die statistischen Abhängigkeiten zwischen benachbarten Sequenzpositi-<br />
onen des Motivs nur sehr schwach sind. Interessant wäre es in diesem Zusammen-<br />
hang, Datensätze zu untersuchen, die TFBSs enthalten, für welche solche statisti-<br />
sche Abhängigkeiten zwischen den Positionen des Motivs stärker sind.<br />
- 4 -