23.07.2013 Aufrufe

Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...

Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...

Zusammenfassung - Lehrstuhl Technische Informatik der MLU Halle ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

DIPLOMARBEIT<br />

UNIVERSITÄTSZENTRUM INFORMATIK<br />

Martin-Luther-Universität <strong>Halle</strong>-Wittenberg<br />

Entwicklung neuer Software zur Erkennung von Transkriptionsfaktorbindungsstellen<br />

in nicht alignierten Sequenzen<br />

Michaela Mohr<br />

(2005)<br />

© Universitätszentrum <strong>Informatik</strong> • Universität <strong>Halle</strong><br />

von-Seckendorff-Platz 1 • 06120 <strong>Halle</strong> (Saale)


Allgemeine Angaben<br />

Die Diplomarbeit wurde am <strong>Lehrstuhl</strong> für Mustererkennung und Bioinformatik von<br />

Prof. Dr. Stefan Posch, Institut für <strong>Informatik</strong>, Fachbereich Mathematik und <strong>Informatik</strong><br />

<strong>der</strong> Martin-Luther-Universität angefertigt.<br />

Zur Kontaktaufnahme benutzen Sie bitte die Email-Adresse<br />

direktor@uzi.uni-halle.de.<br />

<strong>Zusammenfassung</strong><br />

Ein Schlüsselproblem <strong>der</strong> mo<strong>der</strong>nen Molekularbiologie ist die Aufklärung <strong>der</strong> kom-<br />

plexen Mechanismen, die für die Regulation <strong>der</strong> Genexpression verantwortlich sind.<br />

Ein wichtiger Schritt ist in diesem Zusammenhang die Identifizierung sogenannter<br />

Transkriptionsfaktorbindungsstellen (TFBSs). TFBSs sind genregulatorische Elemen-<br />

te auf <strong>der</strong> DNA, die meistens in <strong>der</strong> Nähe <strong>der</strong> Transkriptionsstartstelle (TSS) <strong>der</strong> Ge-<br />

ne liegen, die sie regulieren, sich in Eukaryoten jedoch auch zehntausende von Ba-<br />

senpaaren upstream o<strong>der</strong> downstream <strong>der</strong> TSS befinden können. TFBSs sind zu-<br />

sammen mit Transkriptionsfaktoren, den Proteinen die an sie binden, und zusammen<br />

mit weiteren Proteinen für die Steuerung <strong>der</strong> Transkription von Genen verantwortlich.<br />

Im Laufe <strong>der</strong> Zeit sind mehrere experimentelle Methoden zur Analyse von TFBSs<br />

entwickelt worden. Experimentelle Analysen sind jedoch teuer und aufwändig. Die<br />

Verfügbarkeit von vollständigen genomischen Sequenzen hat die Möglichkeit eröff-<br />

net, an das Problem <strong>der</strong> TFBS-Erkennung mit computerbasierten Methoden heran-<br />

zugehen. Diese erreichen zwar nicht die Genauigkeit von experimentellen Methoden,<br />

sind aber deutlich schneller und kostengünstiger und stellen damit eine wichtige Er-<br />

gänzung zur experimentellen Analyse dar.<br />

Die Arbeit beschäftigt sich mit <strong>der</strong> de-novo Entdeckung von TFBSs, also damit,<br />

TFBSs zu finden ohne irgendwelche a-priori Annahmen über das Aussehen dieser zu<br />

machen. Dabei wird in einem Datensatz aus längeren Sequenzen, von denen vermu-<br />

- 2 -


tet wird, dass sie durch den gleichen Transkriptionsfaktor gebunden werden, nach<br />

einem gemeinsamen Sequenzmotiv, <strong>der</strong> möglichen Bindungsstelle des Transkripti-<br />

onsfaktors, gesucht.<br />

Zur Zeit verwendete Lösungsstrategien für diese Aufgabe lassen sich in zwei Haupt-<br />

kategorien unterteilen. Zum einen gibt es global optimale Methoden, die z.B. auf ei-<br />

ner Aufzählung aller Motive innerhalb eines festgelegten Suchraums beruhen. Diese<br />

sind, da eine erschöpfende Suche durchgeführt wird, in ihrer Laufzeit exponentiell in<br />

<strong>der</strong> Länge des Motivs, und eignen sich daher nur für sehr kurze Motive. Zum an<strong>der</strong>en<br />

gibt es iterative Verfahren, die mit einer stochastischen Modellierung des Motivs ar-<br />

beiten, wie den EM-Algorithmus o<strong>der</strong> den Gibbs-Sampler. Diese berechnen ausge-<br />

hend von einem initialen Modell iterativ bessere Modelle und eignen sich auch für<br />

längere Motive.<br />

Zur Zeit verfügbare Programme, die auf einem EM-Algorithmus o<strong>der</strong> Gibbs-Sampler<br />

beruhen, gehen in <strong>der</strong> Modellierung des Motivs davon aus, dass die einzelnen Posi-<br />

tionen innerhalb des Motivs statistisch unabhängig voneinan<strong>der</strong> sind. In biologischer<br />

Hinsicht entspricht das <strong>der</strong> Annahme, dass die einzelnen Basen unabhängig vonein-<br />

an<strong>der</strong> zur Bindung des Transkriptionsfaktors beitragen und die Gesamtenergie <strong>der</strong><br />

Bindung sich als Summe <strong>der</strong> Bindungsenergien an den einzelnen Positionen ergibt.<br />

Diese Annahme trifft jedoch für fast alle bisher untersuchten TFBSs nicht zu. Ver-<br />

schiedene Modellklassen, wie z.B. Markov-Modelle o<strong>der</strong> Bayes-Netze, erlauben die<br />

Modellierung von Abhängigkeiten zwischen den einzelnen Positionen.<br />

In <strong>der</strong> Arbeit wurde ein EM-Algorithmus zur Suche von Motiven in nicht alignierten<br />

Sequenzen sowie eine stochastische Variante dieses Algorithmus’ implementiert, die<br />

beide die Möglichkeit bieten, modular verschiedene Kombinationen von Modellklas-<br />

sen für Motiv und Hintergrund einzusetzen. Weiterhin wurden Motiv und Hintergrund<br />

mit Hilfe von Markov-Modellen unterschiedlicher Ordnung modelliert und dabei die<br />

Fähigkeit des EM-Algorithmus, die versteckten Motive zu finden, an Fallbeispielen<br />

getestet. Untersucht wurde zum einen ein Datensatz, <strong>der</strong> σ 70 -Bindungsstellen aus E.<br />

coli mit den umgebenden nichtcodierenden genomischen Sequenzen enthielt, zum<br />

an<strong>der</strong>en Datensätze, in welchen diese σ 70 -Bindungsstellen durch mit Hilfe eines in-<br />

- 3 -


homogenen Markov-Modells erster Ordnung zufallsgenerierten Sequenzen gleicher<br />

Länge ersetzt wurden.<br />

Die Ausführung des EM-Algorithmus auf den Datensätzen hat gezeigt, dass die Mo-<br />

dellierung des intergenischen Hintergrunds mit Hilfe von homogenen Markov-<br />

Modellen höherer Ordnung zu einer deutlich besseren Erkennung des Motivs in den<br />

Sequenzen führen kann. In den untersuchten Datensätzen wurde bei Modellierung<br />

des Hintergrunds mit Hilfe eines homogenen Markov-Modells nullter Ordnung das<br />

Motiv in den Sequenzen gar nicht gefunden. Als beste Hintergrundmodelle für die<br />

Motiverkennung haben sich homogene Markov-Modelle zweiter, dritter und vierter<br />

Ordnung erwiesen. Für die Datensätze, die das zufallsgenerierte Motiv enthielten, hat<br />

sich die Modellierung des Motivs mit Hilfe eines inhomogenen Markov-Modells erster<br />

Ordnung als deutlich besser erwiesen als die Modellierung mit einem inhomogenen<br />

Markov-Modell nullter Ordnung. Dies suggeriert, dass diese Modellkombination auch<br />

in <strong>der</strong> Praxis eine bessere Erkennung von TFBSs ermöglichen kann, wenn die statis-<br />

tischen Abhängigkeiten zwischen den Nukleotiden signifikant sind. Für den Daten-<br />

satz mit σ 70 -Bindungsstellen ergab sich dagegen, dass ein inhomogenes Markov-<br />

Modell nullter Ordnung besser als ein inhomogenes Markov-Modell erster Ordnung<br />

ist. Die Modellierung von statistischen Abhängigkeiten hat also in diesem Fall nicht<br />

zu einer Verbesserung <strong>der</strong> Motiverkennung geführt. Die Ursache dafür liegt offenbar<br />

darin, dass die statistischen Abhängigkeiten zwischen benachbarten Sequenzpositi-<br />

onen des Motivs nur sehr schwach sind. Interessant wäre es in diesem Zusammen-<br />

hang, Datensätze zu untersuchen, die TFBSs enthalten, für welche solche statisti-<br />

sche Abhängigkeiten zwischen den Positionen des Motivs stärker sind.<br />

- 4 -

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!