Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt
Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt
Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Querschnitt</strong> <strong>21</strong><br />
1 • einleitung und biologische grundlagen<br />
Das menschliche Genom ist ein extrem kompliziertes Objekt.<br />
Durch seine medial sehr stark beachtete Sequenzierung, die<br />
vielfältigen Inventarlisten (Annotationen), die Biologen über<br />
die letzten Jahre hinweg angelegt haben, aber auch durch<br />
seine beachtliche Größe, durch die technischen Neuerungen<br />
die erforderlich waren, um seine Sequenzierung zu erreichen<br />
und seine Positionierung am Beginn nahezu jeder molekular<br />
orientierten Argumentationskette der aktuellen biologischen<br />
Forschung ist <strong>da</strong>s Genom zu einem Gegenstand wissenschaftlichen<br />
extremsports geworden, der auch Mathematiker und<br />
theoretische Physiker nicht unbeeindruckt lässt. Allerdings<br />
soll in dieser Schilderung <strong>da</strong>s offenkundig wichtigste Objekt<br />
im Genom, <strong>da</strong>s Gen, <strong>da</strong>s für Proteine codiert, die <strong>da</strong>nn wiederum<br />
biologische Funktion tragen, nicht im Vordergrund stehen,<br />
sondern all die anderen zahlreichen Bestandteile, deren biologische<br />
Bedeutung ungeklärt ist oder vielleicht gar nicht so<br />
klar zu benennen ist.<br />
Der Bauplan eines jeden Lebewesens ist gegeben durch die<br />
im Genom codierte genetische Information. Desoxyribonukleinsäure<br />
(DNS; bei uns hat sich mittlerweile auch die angelsächsische<br />
Abkürzung durchgesetzt: DNA) in Form einer Doppelhelix<br />
und organisiert in Chromosomen stellt <strong>da</strong>bei häufig<br />
die physikalische Speichereinheit der erbinformation <strong>da</strong>r. Die<br />
Bestimmung der linearen Abfolge der Nukleotide (Basen) Adenin,<br />
Thymin, Guanin, Cytosin (aus denen sich DNA chemisch<br />
zusammensetzt) für ganze Genome ist <strong>da</strong>s Ziel der Sequenzierungsprojekte<br />
an den großen Forschungseinrichtungen in den<br />
uSA, europa und Japan. Das Genom des Menschen (Homo sapiens)<br />
zum Beispiel besteht aus 24 Chromosomen mit insgesamt<br />
3,1 Milliarden Basen und wurde bereits vollständig sequenziert<br />
(Venter et al., 2001; Human Genome Sequencing Consortium<br />
2001).<br />
eukaryotische Genome, also die Genome aller Spezies, die<br />
ihren genetischen Code durch einen Zellkern schützen, (und<br />
<strong>da</strong>mit auch aller höheren Organismen), sind eine Vermengung<br />
codierender und nicht-codierender Sequenzsegmente, in der<br />
wiederum die codierenden Bereiche systematisch von nichttranslatierten<br />
regionen durchsetzt sind. Typische Bestandteile<br />
der Gene sind Exons, Introns und regulatorische elemente<br />
wie Promotorregionen und Enhancer oder Silencer. In den intergenischen<br />
Bereichen finden sich Pseudogene, also Genen<br />
ähnliche Strukturen, die von der zellulären Maschinerie nicht<br />
mehr abgelesen werden, und regulatorische Bereiche, die auf<br />
(meist nahegelegene) Gene wirken. Vor allem aber sind diese<br />
intergenischen regionen geprägt von dynamischen Prozessen<br />
auf einer evolutionären Zeitskala. In diesen Prozessen werden<br />
11<br />
einzelne Nukleotide oder Nukleotidgruppen lokal vervielfältigt<br />
oder ganze größere Segmente ausgeschnitten und an anderer<br />
Stelle wieder eingesetzt. In diesen Bereichen wird zwischen<br />
mobilen Elementen und Tandem-Repeats unterschieden. Beide<br />
Gruppen gehören zu den repetitiven Elementen, die in vielen<br />
eukaryotischen Genomen einen erheblichen Anteil am Genom<br />
<strong>da</strong>rstellen (über 45% bei Mensch und Schimpanse) und die<br />
manchmal auch unter „Junk-DNA“ subsumiert werden.<br />
2 • genomsignaturen<br />
Durch die neben der entschlüsselung des menschlichen Genoms<br />
in den letzten Jahren fertig gestellten oder begonnenen<br />
weiteren Genomprojekte bietet sich ein neuer Blick auf diesen<br />
reichhaltigen Datenbestand. Wenn die vielen repetitiven elemente<br />
sich auf einer evolutionären Zeitskala im Genom verteilen,<br />
so müssen diese Verteilungsprozesse systematische Spuren<br />
im Genom hinterlassen. Besonders deutlich müssen diese<br />
Spuren sein, wenn man verschiedene Spezies gegenüberstellt.<br />
Für solche Spuren die geeigneten mathematischen Werkzeuge<br />
zu entwickeln, um <strong>da</strong>nn Genome <strong>da</strong>mit systematisch zu untersuchen,<br />
war <strong>da</strong>s Ziel unseres Forschungsprojektes. Die Vorstellung,<br />
aus diesen Spuren zugleich mehr über die formale<br />
Sprache zu lernen, in der – jenseits des bekannten Weges vom<br />
Gen zum Protein – der Bauplan eines Organismus verfasst ist,<br />
findet sich immer wieder in den aktuellen Forschungsdebatten<br />
(Pearson, 2006a). Von einer etwas pragmatischeren Seite her<br />
haben solche statistischen Betrachtungen von DNA-Sequenzen<br />
seit mehreren Jahrzehnten wissenschaftliche Aufmerksamkeit<br />
auf sich gezogen. Am Anfang steht die Beobachtung,<br />
<strong>da</strong>ss einfache statistische Kenngrößen wie Paarhäufigkeiten<br />
oder auch Häufigkeitsverteilungen längerer „Worte“ (also<br />
Symbolabfolgen) in der DNA-Sequenz in gewissem rahmen<br />
einen rückschluss auf die hinter der Sequenz stehende Spezies<br />
erlauben. Solche Genomsignaturen sind auch heute noch von<br />
großem Interesse, <strong>da</strong> sie – zumindest prinzipiell – eine automatisierte<br />
Vorsortierung der in biologischen Großexperimenten<br />
immer schneller anfallenden Sequenzsegmente erlauben.<br />
Durch Genomsignaturen können also unbekannte DNA-Fragmente<br />
in ein bekanntes Speziesraster einsortiert werden. Der<br />
prinzipielle Befund der Genomsignaturen wirft aber auch eine<br />
reihe von Fragen auf: Welche evolutionären Prozesse führen<br />
auf ein statistisches Signal in einer DNA-Sequenz? Welche Bestandteile<br />
eines Genoms tragen diese Genomsignatur? Sicher<br />
scheint, <strong>da</strong>ss die klassischen Funktionseinheiten des Genoms,<br />
die Gene, nur einen recht geringen Beitrag zu solchen Genomsignaturen<br />
leisten, <strong>da</strong> sie gerade in höheren Organismen oft<br />
nur einen Bruchteil der Sequenzmenge <strong>da</strong>rstellen. erstaun-<br />
Die mathematische suche nach verborgenen signalen im genom<br />
licherweise waren die ersten Genomsignaturen meist relativ<br />
einfache statistische Kenngrößen. einige Beispiele sind in der<br />
folgenden Tabelle angegeben.<br />
Genomsignaturen – eine kurze Forschungsgeschichte<br />
1976 • Russell et al. | Erste Beobachtung von Unterschieden in der<br />
Häufigkeit von Dinukleotiden in vertebrater nuklearer DNA<br />
1994 • Karlin und Ladunga | Systematische Untersuchung von<br />
Dinukleotidhäufigkeiten für DNA-Fragmente für Prokaryo-<br />
ten und Eukaryoten<br />
2001 • Gentles und Karlin | Analyse von Dinukleotidhäufigkeiten<br />
für <strong>da</strong>s menschliche Genom und weitere 7 Eukaryoten<br />
2004 • Qi et al. | Verallgemeinerung auf die Betrachtung von n-Wor-<br />
ten und Anwendung auf prokaryotische DNA<br />
2005 • Dehnert et al. | Kurzreichweitige Korrelationen als Genom-<br />
signatur bei eukaryotischen Spezies<br />
Neuere untersuchungen haben tatsächlich gezeigt, <strong>da</strong>ss relativ<br />
einfache Bildungsgesetze Grundeigenschaften solcher<br />
Genomsignaturen reproduzieren können. So lassen sich die<br />
recht auffälligen und von zufälligen Symbolsequenzen grundverschiedenen<br />
Worthäufigkeitsverteilungen zum Beispiel mit<br />
einem einfachen „copy-and-paste“-Mechanismus reproduzieren,<br />
bei dem Segmente einer bestimmten Länge kopiert und<br />
an zufälliger Stelle in der Symbolsequenz wieder eingefügt<br />
werden. Iteriert man diesen Prozess und ergänzt ihn um eine<br />
gewisse Mutationswahrscheinlichkeit der einzelsymbole (also<br />
<strong>da</strong>s umschreiben eines Symbols in ein anderes Symbol aus<br />
dem Alphabet), so gelangt man an verblüffend realistische<br />
Häufigkeitsverteilungen von bestimmten n-Worten (Hsieh et<br />
al., 2003).<br />
2.1 symbolkorrelationen in dnA-sequenzen<br />
es bleibt <strong>da</strong>her der Ver<strong>da</strong>cht, <strong>da</strong>ss die komplizierten verschachtelten<br />
Prozesse der Genomevolution mit ihrem Muster,<br />
<strong>da</strong>s sie in einem Genom hinterlassen, mit diesen einfachen<br />
Mitteln vielleicht gar nicht aufzuspüren sind. Zugleich hat ein<br />
anderes (aber verwandtes) Forschungsfeld mit einem ganz anderen<br />
Methodenrepertoire und auch anderen Fragestellungen<br />
in den letzten 15 Jahren sehr spannende ergebnisse hervorgebracht:<br />
Das Studium statistischer Korrelationen in DNA-Sequenzen.<br />
Ausgehend von dem ersten Befund langreichweitiger<br />
Korrelationen in DNA-Sequenzen Anfang der 1990er Jahre<br />
und den anschließenden hitzigen wissenschaftlichen Debatten<br />
über den ursprung solcher über viele Größenordungen hinweg<br />
bestehenden, sehr langsam abklingenden Korrelationen<br />
(Stichwort: Power Law) hat sich gerade in den letzten Jahren<br />
FAchbereich mAthemAtik und nAturwissenschAFten<br />
der Blick auf die Sequenz durch <strong>da</strong>s Werkzeug der Korrelationsanalyse<br />
präzisiert, ohne jedoch – und dies ist nach wie<br />
vor eine offene Forschungsfrage – die tatsächlichen Träger<br />
dieser Korrelationen im Genom identifizieren zu können. Das<br />
Ziel unseres Forschungsprojektes war es nun, <strong>da</strong>s allgemeine<br />
Werkzeug der Korrelationsanalyse aus der Perspektive der<br />
Genomsignaturen zu betrachten. Diese Fragestellung haben<br />
wir in den letzten 6 Jahren intensiv verfolgt, unter anderem im<br />
rahmen von 5 Diplomarbeiten, die als Kooperation zwischen<br />
der <strong>Hochschule</strong> <strong>Darmstadt</strong> und dem Fachbereich Biologie der<br />
Tu <strong>Darmstadt</strong> angelegt waren. Dabei wurde schnell deutlich,<br />
<strong>da</strong>ss herkömmliche Korrelationsanalysen zu sensitiv für die in<br />
allen DNA-Sequenzen neben den tatsächlichen funktionellen<br />
Bestandteilen liegenden zufälligen Symbolabfolgen waren:<br />
eine Art „Symbolrauschen“ erschwert die Verwendung dieser<br />
bekannten Werkzeuge für die Betrachtung als Genomsignatur.<br />
Die erste Phase unseres Projektes bestand also <strong>da</strong>rin, ein<br />
neues mathematisches Werkzeug zu entwerfen, <strong>da</strong>s die Korrelationseigenschaften<br />
ähnlich präzise erfasst, zugleich aber<br />
den rein zufälligen Hintergrund aus dem Signal zu eliminieren<br />
vermag. Dies gelang uns durch einen diskreten autoregressiven<br />
(DAr-) Prozess.<br />
2.2 dAr(p)-Prozess<br />
ein diskreter autoregressiver Prozess der Ordnung p, DAr(p),<br />
kann als Modell zur Simulation von Symbolsequenzen mit einer<br />
Markov-eigenschaft pter Ordnung herangezogen werden.<br />
er kann aber auch umgekehrt, wie später <strong>da</strong>rgestellt werden<br />
soll, zur Messung der Korrelationen in einer Sequenz verwendet<br />
werden. Die charakteristische eigenschaft eines jeden<br />
Markov-Prozesses (X 1 , X 2 , … , X N ) der Ordnung p besteht <strong>da</strong>rin,<br />
<strong>da</strong>ss die bedingten Verteilungen von X n stets nur von X n-1 , … ,<br />
X n-p abhängen, <strong>da</strong>ss er also ein Gedächtnis der Länge p hat.<br />
Der Prozess wird bestimmt durch eine stationäre randverteilung<br />
von X n und mehrere andere Parameter, die unabhängig<br />
von der randverteilung die Korrelationsstruktur festlegen. Die<br />
Kernidee einer solchen Sequenzerzeugung ist <strong>da</strong>bei eine rekursion.<br />
Die ersten p Symbole einer zu erzeugenden Sequenz<br />
sind gegeben (gezogen aus dem Alphabet nach einer vorgebenen<br />
Startverteilung), und man bestimmt nun <strong>da</strong>s (p+1)te<br />
Symbol entweder durch rückgriff auf eines der vorangegangenen<br />
Symbole oder durch erneute zufällige Wahl aus dem Alphabet.<br />
Die Parameter des Prozesses legen die Wahrscheinlichkeit<br />
für ein Zurückgreifen und ein zufälliges Auswählen<br />
fest. Nach dem (p+1)ten Symbol bestimmt man nun <strong>da</strong>s (p+2)te<br />
Symbol und so fort.<br />
11