14.12.2012 Aufrufe

Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt

Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt

Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Querschnitt</strong> <strong>21</strong><br />

1 • einleitung und biologische grundlagen<br />

Das menschliche Genom ist ein extrem kompliziertes Objekt.<br />

Durch seine medial sehr stark beachtete Sequenzierung, die<br />

vielfältigen Inventarlisten (Annotationen), die Biologen über<br />

die letzten Jahre hinweg angelegt haben, aber auch durch<br />

seine beachtliche Größe, durch die technischen Neuerungen<br />

die erforderlich waren, um seine Sequenzierung zu erreichen<br />

und seine Positionierung am Beginn nahezu jeder molekular<br />

orientierten Argumentationskette der aktuellen biologischen<br />

Forschung ist <strong>da</strong>s Genom zu einem Gegenstand wissenschaftlichen<br />

extremsports geworden, der auch Mathematiker und<br />

theoretische Physiker nicht unbeeindruckt lässt. Allerdings<br />

soll in dieser Schilderung <strong>da</strong>s offenkundig wichtigste Objekt<br />

im Genom, <strong>da</strong>s Gen, <strong>da</strong>s für Proteine codiert, die <strong>da</strong>nn wiederum<br />

biologische Funktion tragen, nicht im Vordergrund stehen,<br />

sondern all die anderen zahlreichen Bestandteile, deren biologische<br />

Bedeutung ungeklärt ist oder vielleicht gar nicht so<br />

klar zu benennen ist.<br />

Der Bauplan eines jeden Lebewesens ist gegeben durch die<br />

im Genom codierte genetische Information. Desoxyribonukleinsäure<br />

(DNS; bei uns hat sich mittlerweile auch die angelsächsische<br />

Abkürzung durchgesetzt: DNA) in Form einer Doppelhelix<br />

und organisiert in Chromosomen stellt <strong>da</strong>bei häufig<br />

die physikalische Speichereinheit der erbinformation <strong>da</strong>r. Die<br />

Bestimmung der linearen Abfolge der Nukleotide (Basen) Adenin,<br />

Thymin, Guanin, Cytosin (aus denen sich DNA chemisch<br />

zusammensetzt) für ganze Genome ist <strong>da</strong>s Ziel der Sequenzierungsprojekte<br />

an den großen Forschungseinrichtungen in den<br />

uSA, europa und Japan. Das Genom des Menschen (Homo sapiens)<br />

zum Beispiel besteht aus 24 Chromosomen mit insgesamt<br />

3,1 Milliarden Basen und wurde bereits vollständig sequenziert<br />

(Venter et al., 2001; Human Genome Sequencing Consortium<br />

2001).<br />

eukaryotische Genome, also die Genome aller Spezies, die<br />

ihren genetischen Code durch einen Zellkern schützen, (und<br />

<strong>da</strong>mit auch aller höheren Organismen), sind eine Vermengung<br />

codierender und nicht-codierender Sequenzsegmente, in der<br />

wiederum die codierenden Bereiche systematisch von nichttranslatierten<br />

regionen durchsetzt sind. Typische Bestandteile<br />

der Gene sind Exons, Introns und regulatorische elemente<br />

wie Promotorregionen und Enhancer oder Silencer. In den intergenischen<br />

Bereichen finden sich Pseudogene, also Genen<br />

ähnliche Strukturen, die von der zellulären Maschinerie nicht<br />

mehr abgelesen werden, und regulatorische Bereiche, die auf<br />

(meist nahegelegene) Gene wirken. Vor allem aber sind diese<br />

intergenischen regionen geprägt von dynamischen Prozessen<br />

auf einer evolutionären Zeitskala. In diesen Prozessen werden<br />

11<br />

einzelne Nukleotide oder Nukleotidgruppen lokal vervielfältigt<br />

oder ganze größere Segmente ausgeschnitten und an anderer<br />

Stelle wieder eingesetzt. In diesen Bereichen wird zwischen<br />

mobilen Elementen und Tandem-Repeats unterschieden. Beide<br />

Gruppen gehören zu den repetitiven Elementen, die in vielen<br />

eukaryotischen Genomen einen erheblichen Anteil am Genom<br />

<strong>da</strong>rstellen (über 45% bei Mensch und Schimpanse) und die<br />

manchmal auch unter „Junk-DNA“ subsumiert werden.<br />

2 • genomsignaturen<br />

Durch die neben der entschlüsselung des menschlichen Genoms<br />

in den letzten Jahren fertig gestellten oder begonnenen<br />

weiteren Genomprojekte bietet sich ein neuer Blick auf diesen<br />

reichhaltigen Datenbestand. Wenn die vielen repetitiven elemente<br />

sich auf einer evolutionären Zeitskala im Genom verteilen,<br />

so müssen diese Verteilungsprozesse systematische Spuren<br />

im Genom hinterlassen. Besonders deutlich müssen diese<br />

Spuren sein, wenn man verschiedene Spezies gegenüberstellt.<br />

Für solche Spuren die geeigneten mathematischen Werkzeuge<br />

zu entwickeln, um <strong>da</strong>nn Genome <strong>da</strong>mit systematisch zu untersuchen,<br />

war <strong>da</strong>s Ziel unseres Forschungsprojektes. Die Vorstellung,<br />

aus diesen Spuren zugleich mehr über die formale<br />

Sprache zu lernen, in der – jenseits des bekannten Weges vom<br />

Gen zum Protein – der Bauplan eines Organismus verfasst ist,<br />

findet sich immer wieder in den aktuellen Forschungsdebatten<br />

(Pearson, 2006a). Von einer etwas pragmatischeren Seite her<br />

haben solche statistischen Betrachtungen von DNA-Sequenzen<br />

seit mehreren Jahrzehnten wissenschaftliche Aufmerksamkeit<br />

auf sich gezogen. Am Anfang steht die Beobachtung,<br />

<strong>da</strong>ss einfache statistische Kenngrößen wie Paarhäufigkeiten<br />

oder auch Häufigkeitsverteilungen längerer „Worte“ (also<br />

Symbolabfolgen) in der DNA-Sequenz in gewissem rahmen<br />

einen rückschluss auf die hinter der Sequenz stehende Spezies<br />

erlauben. Solche Genomsignaturen sind auch heute noch von<br />

großem Interesse, <strong>da</strong> sie – zumindest prinzipiell – eine automatisierte<br />

Vorsortierung der in biologischen Großexperimenten<br />

immer schneller anfallenden Sequenzsegmente erlauben.<br />

Durch Genomsignaturen können also unbekannte DNA-Fragmente<br />

in ein bekanntes Speziesraster einsortiert werden. Der<br />

prinzipielle Befund der Genomsignaturen wirft aber auch eine<br />

reihe von Fragen auf: Welche evolutionären Prozesse führen<br />

auf ein statistisches Signal in einer DNA-Sequenz? Welche Bestandteile<br />

eines Genoms tragen diese Genomsignatur? Sicher<br />

scheint, <strong>da</strong>ss die klassischen Funktionseinheiten des Genoms,<br />

die Gene, nur einen recht geringen Beitrag zu solchen Genomsignaturen<br />

leisten, <strong>da</strong> sie gerade in höheren Organismen oft<br />

nur einen Bruchteil der Sequenzmenge <strong>da</strong>rstellen. erstaun-<br />

Die mathematische suche nach verborgenen signalen im genom<br />

licherweise waren die ersten Genomsignaturen meist relativ<br />

einfache statistische Kenngrößen. einige Beispiele sind in der<br />

folgenden Tabelle angegeben.<br />

Genomsignaturen – eine kurze Forschungsgeschichte<br />

1976 • Russell et al. | Erste Beobachtung von Unterschieden in der<br />

Häufigkeit von Dinukleotiden in vertebrater nuklearer DNA<br />

1994 • Karlin und Ladunga | Systematische Untersuchung von<br />

Dinukleotidhäufigkeiten für DNA-Fragmente für Prokaryo-<br />

ten und Eukaryoten<br />

2001 • Gentles und Karlin | Analyse von Dinukleotidhäufigkeiten<br />

für <strong>da</strong>s menschliche Genom und weitere 7 Eukaryoten<br />

2004 • Qi et al. | Verallgemeinerung auf die Betrachtung von n-Wor-<br />

ten und Anwendung auf prokaryotische DNA<br />

2005 • Dehnert et al. | Kurzreichweitige Korrelationen als Genom-<br />

signatur bei eukaryotischen Spezies<br />

Neuere untersuchungen haben tatsächlich gezeigt, <strong>da</strong>ss relativ<br />

einfache Bildungsgesetze Grundeigenschaften solcher<br />

Genomsignaturen reproduzieren können. So lassen sich die<br />

recht auffälligen und von zufälligen Symbolsequenzen grundverschiedenen<br />

Worthäufigkeitsverteilungen zum Beispiel mit<br />

einem einfachen „copy-and-paste“-Mechanismus reproduzieren,<br />

bei dem Segmente einer bestimmten Länge kopiert und<br />

an zufälliger Stelle in der Symbolsequenz wieder eingefügt<br />

werden. Iteriert man diesen Prozess und ergänzt ihn um eine<br />

gewisse Mutationswahrscheinlichkeit der einzelsymbole (also<br />

<strong>da</strong>s umschreiben eines Symbols in ein anderes Symbol aus<br />

dem Alphabet), so gelangt man an verblüffend realistische<br />

Häufigkeitsverteilungen von bestimmten n-Worten (Hsieh et<br />

al., 2003).<br />

2.1 symbolkorrelationen in dnA-sequenzen<br />

es bleibt <strong>da</strong>her der Ver<strong>da</strong>cht, <strong>da</strong>ss die komplizierten verschachtelten<br />

Prozesse der Genomevolution mit ihrem Muster,<br />

<strong>da</strong>s sie in einem Genom hinterlassen, mit diesen einfachen<br />

Mitteln vielleicht gar nicht aufzuspüren sind. Zugleich hat ein<br />

anderes (aber verwandtes) Forschungsfeld mit einem ganz anderen<br />

Methodenrepertoire und auch anderen Fragestellungen<br />

in den letzten 15 Jahren sehr spannende ergebnisse hervorgebracht:<br />

Das Studium statistischer Korrelationen in DNA-Sequenzen.<br />

Ausgehend von dem ersten Befund langreichweitiger<br />

Korrelationen in DNA-Sequenzen Anfang der 1990er Jahre<br />

und den anschließenden hitzigen wissenschaftlichen Debatten<br />

über den ursprung solcher über viele Größenordungen hinweg<br />

bestehenden, sehr langsam abklingenden Korrelationen<br />

(Stichwort: Power Law) hat sich gerade in den letzten Jahren<br />

FAchbereich mAthemAtik und nAturwissenschAFten<br />

der Blick auf die Sequenz durch <strong>da</strong>s Werkzeug der Korrelationsanalyse<br />

präzisiert, ohne jedoch – und dies ist nach wie<br />

vor eine offene Forschungsfrage – die tatsächlichen Träger<br />

dieser Korrelationen im Genom identifizieren zu können. Das<br />

Ziel unseres Forschungsprojektes war es nun, <strong>da</strong>s allgemeine<br />

Werkzeug der Korrelationsanalyse aus der Perspektive der<br />

Genomsignaturen zu betrachten. Diese Fragestellung haben<br />

wir in den letzten 6 Jahren intensiv verfolgt, unter anderem im<br />

rahmen von 5 Diplomarbeiten, die als Kooperation zwischen<br />

der <strong>Hochschule</strong> <strong>Darmstadt</strong> und dem Fachbereich Biologie der<br />

Tu <strong>Darmstadt</strong> angelegt waren. Dabei wurde schnell deutlich,<br />

<strong>da</strong>ss herkömmliche Korrelationsanalysen zu sensitiv für die in<br />

allen DNA-Sequenzen neben den tatsächlichen funktionellen<br />

Bestandteilen liegenden zufälligen Symbolabfolgen waren:<br />

eine Art „Symbolrauschen“ erschwert die Verwendung dieser<br />

bekannten Werkzeuge für die Betrachtung als Genomsignatur.<br />

Die erste Phase unseres Projektes bestand also <strong>da</strong>rin, ein<br />

neues mathematisches Werkzeug zu entwerfen, <strong>da</strong>s die Korrelationseigenschaften<br />

ähnlich präzise erfasst, zugleich aber<br />

den rein zufälligen Hintergrund aus dem Signal zu eliminieren<br />

vermag. Dies gelang uns durch einen diskreten autoregressiven<br />

(DAr-) Prozess.<br />

2.2 dAr(p)-Prozess<br />

ein diskreter autoregressiver Prozess der Ordnung p, DAr(p),<br />

kann als Modell zur Simulation von Symbolsequenzen mit einer<br />

Markov-eigenschaft pter Ordnung herangezogen werden.<br />

er kann aber auch umgekehrt, wie später <strong>da</strong>rgestellt werden<br />

soll, zur Messung der Korrelationen in einer Sequenz verwendet<br />

werden. Die charakteristische eigenschaft eines jeden<br />

Markov-Prozesses (X 1 , X 2 , … , X N ) der Ordnung p besteht <strong>da</strong>rin,<br />

<strong>da</strong>ss die bedingten Verteilungen von X n stets nur von X n-1 , … ,<br />

X n-p abhängen, <strong>da</strong>ss er also ein Gedächtnis der Länge p hat.<br />

Der Prozess wird bestimmt durch eine stationäre randverteilung<br />

von X n und mehrere andere Parameter, die unabhängig<br />

von der randverteilung die Korrelationsstruktur festlegen. Die<br />

Kernidee einer solchen Sequenzerzeugung ist <strong>da</strong>bei eine rekursion.<br />

Die ersten p Symbole einer zu erzeugenden Sequenz<br />

sind gegeben (gezogen aus dem Alphabet nach einer vorgebenen<br />

Startverteilung), und man bestimmt nun <strong>da</strong>s (p+1)te<br />

Symbol entweder durch rückgriff auf eines der vorangegangenen<br />

Symbole oder durch erneute zufällige Wahl aus dem Alphabet.<br />

Die Parameter des Prozesses legen die Wahrscheinlichkeit<br />

für ein Zurückgreifen und ein zufälliges Auswählen<br />

fest. Nach dem (p+1)ten Symbol bestimmt man nun <strong>da</strong>s (p+2)te<br />

Symbol und so fort.<br />

11

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!