Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt

Querschnitt 21 

1 • einleitung und biologische grundlagen 

Das menschliche Genom ist ein extrem kompliziertes Objekt. 

Durch seine medial sehr stark beachtete Sequenzierung, die 

vielfältigen Inventarlisten (Annotationen), die Biologen über 

die letzten Jahre hinweg angelegt haben, aber auch durch 

seine beachtliche Größe, durch die technischen Neuerungen 

die erforderlich waren, um seine Sequenzierung zu erreichen 

und seine Positionierung am Beginn nahezu jeder molekular 

orientierten Argumentationskette der aktuellen biologischen 

Forschung ist das Genom zu einem Gegenstand wissenschaftlichen 

extremsports geworden, der auch Mathematiker und 

theoretische Physiker nicht unbeeindruckt lässt. Allerdings 

soll in dieser Schilderung das offenkundig wichtigste Objekt 

im Genom, das Gen, das für Proteine codiert, die dann wiederum 

biologische Funktion tragen, nicht im Vordergrund stehen, 

sondern all die anderen zahlreichen Bestandteile, deren biologische 

Bedeutung ungeklärt ist oder vielleicht gar nicht so 

klar zu benennen ist. 

Der Bauplan eines jeden Lebewesens ist gegeben durch die 

im Genom codierte genetische Information. Desoxyribonukleinsäure 

(DNS; bei uns hat sich mittlerweile auch die angelsächsische 

Abkürzung durchgesetzt: DNA) in Form einer Doppelhelix 

und organisiert in Chromosomen stellt dabei häufig 

die physikalische Speichereinheit der erbinformation dar. Die 

Bestimmung der linearen Abfolge der Nukleotide (Basen) Adenin, 

Thymin, Guanin, Cytosin (aus denen sich DNA chemisch 

zusammensetzt) für ganze Genome ist das Ziel der Sequenzierungsprojekte 

an den großen Forschungseinrichtungen in den 

uSA, europa und Japan. Das Genom des Menschen (Homo sapiens) 

zum Beispiel besteht aus 24 Chromosomen mit insgesamt 

3,1 Milliarden Basen und wurde bereits vollständig sequenziert 

(Venter et al., 2001; Human Genome Sequencing Consortium 

2001). 

eukaryotische Genome, also die Genome aller Spezies, die 

ihren genetischen Code durch einen Zellkern schützen, (und 

damit auch aller höheren Organismen), sind eine Vermengung 

codierender und nicht-codierender Sequenzsegmente, in der 

wiederum die codierenden Bereiche systematisch von nichttranslatierten 

regionen durchsetzt sind. Typische Bestandteile 

der Gene sind Exons, Introns und regulatorische elemente 

wie Promotorregionen und Enhancer oder Silencer. In den intergenischen 

Bereichen finden sich Pseudogene, also Genen 

ähnliche Strukturen, die von der zellulären Maschinerie nicht 

mehr abgelesen werden, und regulatorische Bereiche, die auf 

(meist nahegelegene) Gene wirken. Vor allem aber sind diese 

intergenischen regionen geprägt von dynamischen Prozessen 

auf einer evolutionären Zeitskala. In diesen Prozessen werden 

11 

einzelne Nukleotide oder Nukleotidgruppen lokal vervielfältigt 

oder ganze größere Segmente ausgeschnitten und an anderer 

Stelle wieder eingesetzt. In diesen Bereichen wird zwischen 

mobilen Elementen und Tandem-Repeats unterschieden. Beide 

Gruppen gehören zu den repetitiven Elementen, die in vielen 

eukaryotischen Genomen einen erheblichen Anteil am Genom 

darstellen (über 45% bei Mensch und Schimpanse) und die 

manchmal auch unter „Junk-DNA“ subsumiert werden. 

2 • genomsignaturen 

Durch die neben der entschlüsselung des menschlichen Genoms 

in den letzten Jahren fertig gestellten oder begonnenen 

weiteren Genomprojekte bietet sich ein neuer Blick auf diesen 

reichhaltigen Datenbestand. Wenn die vielen repetitiven elemente 

sich auf einer evolutionären Zeitskala im Genom verteilen, 

so müssen diese Verteilungsprozesse systematische Spuren 

im Genom hinterlassen. Besonders deutlich müssen diese 

Spuren sein, wenn man verschiedene Spezies gegenüberstellt. 

Für solche Spuren die geeigneten mathematischen Werkzeuge 

zu entwickeln, um dann Genome damit systematisch zu untersuchen, 

war das Ziel unseres Forschungsprojektes. Die Vorstellung, 

aus diesen Spuren zugleich mehr über die formale 

Sprache zu lernen, in der – jenseits des bekannten Weges vom 

Gen zum Protein – der Bauplan eines Organismus verfasst ist, 

findet sich immer wieder in den aktuellen Forschungsdebatten 

(Pearson, 2006a). Von einer etwas pragmatischeren Seite her 

haben solche statistischen Betrachtungen von DNA-Sequenzen 

seit mehreren Jahrzehnten wissenschaftliche Aufmerksamkeit 

auf sich gezogen. Am Anfang steht die Beobachtung, 

dass einfache statistische Kenngrößen wie Paarhäufigkeiten 

oder auch Häufigkeitsverteilungen längerer „Worte“ (also 

Symbolabfolgen) in der DNA-Sequenz in gewissem rahmen 

einen rückschluss auf die hinter der Sequenz stehende Spezies 

erlauben. Solche Genomsignaturen sind auch heute noch von 

großem Interesse, da sie – zumindest prinzipiell – eine automatisierte 

Vorsortierung der in biologischen Großexperimenten 

immer schneller anfallenden Sequenzsegmente erlauben. 

Durch Genomsignaturen können also unbekannte DNA-Fragmente 

in ein bekanntes Speziesraster einsortiert werden. Der 

prinzipielle Befund der Genomsignaturen wirft aber auch eine 

reihe von Fragen auf: Welche evolutionären Prozesse führen 

auf ein statistisches Signal in einer DNA-Sequenz? Welche Bestandteile 

eines Genoms tragen diese Genomsignatur? Sicher 

scheint, dass die klassischen Funktionseinheiten des Genoms, 

die Gene, nur einen recht geringen Beitrag zu solchen Genomsignaturen 

leisten, da sie gerade in höheren Organismen oft 

nur einen Bruchteil der Sequenzmenge darstellen. erstaun- 

Die mathematische suche nach verborgenen signalen im genom 

licherweise waren die ersten Genomsignaturen meist relativ 

einfache statistische Kenngrößen. einige Beispiele sind in der 

folgenden Tabelle angegeben. 

Genomsignaturen – eine kurze Forschungsgeschichte 

1976 • Russell et al. | Erste Beobachtung von Unterschieden in der 

Häufigkeit von Dinukleotiden in vertebrater nuklearer DNA 

1994 • Karlin und Ladunga | Systematische Untersuchung von 

Dinukleotidhäufigkeiten für DNA-Fragmente für Prokaryo- 

ten und Eukaryoten 

2001 • Gentles und Karlin | Analyse von Dinukleotidhäufigkeiten 

für das menschliche Genom und weitere 7 Eukaryoten 

2004 • Qi et al. | Verallgemeinerung auf die Betrachtung von n-Wor- 

ten und Anwendung auf prokaryotische DNA 

2005 • Dehnert et al. | Kurzreichweitige Korrelationen als Genom- 

signatur bei eukaryotischen Spezies 

Neuere untersuchungen haben tatsächlich gezeigt, dass relativ 

einfache Bildungsgesetze Grundeigenschaften solcher 

Genomsignaturen reproduzieren können. So lassen sich die 

recht auffälligen und von zufälligen Symbolsequenzen grundverschiedenen 

Worthäufigkeitsverteilungen zum Beispiel mit 

einem einfachen „copy-and-paste“-Mechanismus reproduzieren, 

bei dem Segmente einer bestimmten Länge kopiert und 

an zufälliger Stelle in der Symbolsequenz wieder eingefügt 

werden. Iteriert man diesen Prozess und ergänzt ihn um eine 

gewisse Mutationswahrscheinlichkeit der einzelsymbole (also 

das umschreiben eines Symbols in ein anderes Symbol aus 

dem Alphabet), so gelangt man an verblüffend realistische 

Häufigkeitsverteilungen von bestimmten n-Worten (Hsieh et 

al., 2003). 

2.1 symbolkorrelationen in dnA-sequenzen 

es bleibt daher der Verdacht, dass die komplizierten verschachtelten 

Prozesse der Genomevolution mit ihrem Muster, 

das sie in einem Genom hinterlassen, mit diesen einfachen 

Mitteln vielleicht gar nicht aufzuspüren sind. Zugleich hat ein 

anderes (aber verwandtes) Forschungsfeld mit einem ganz anderen 

Methodenrepertoire und auch anderen Fragestellungen 

in den letzten 15 Jahren sehr spannende ergebnisse hervorgebracht: 

Das Studium statistischer Korrelationen in DNA-Sequenzen. 

Ausgehend von dem ersten Befund langreichweitiger 

Korrelationen in DNA-Sequenzen Anfang der 1990er Jahre 

und den anschließenden hitzigen wissenschaftlichen Debatten 

über den ursprung solcher über viele Größenordungen hinweg 

bestehenden, sehr langsam abklingenden Korrelationen 

(Stichwort: Power Law) hat sich gerade in den letzten Jahren 

FAchbereich mAthemAtik und nAturwissenschAFten 

der Blick auf die Sequenz durch das Werkzeug der Korrelationsanalyse 

präzisiert, ohne jedoch – und dies ist nach wie 

vor eine offene Forschungsfrage – die tatsächlichen Träger 

dieser Korrelationen im Genom identifizieren zu können. Das 

Ziel unseres Forschungsprojektes war es nun, das allgemeine 

Werkzeug der Korrelationsanalyse aus der Perspektive der 

Genomsignaturen zu betrachten. Diese Fragestellung haben 

wir in den letzten 6 Jahren intensiv verfolgt, unter anderem im 

rahmen von 5 Diplomarbeiten, die als Kooperation zwischen 

der Hochschule Darmstadt und dem Fachbereich Biologie der 

Tu Darmstadt angelegt waren. Dabei wurde schnell deutlich, 

dass herkömmliche Korrelationsanalysen zu sensitiv für die in 

allen DNA-Sequenzen neben den tatsächlichen funktionellen 

Bestandteilen liegenden zufälligen Symbolabfolgen waren: 

eine Art „Symbolrauschen“ erschwert die Verwendung dieser 

bekannten Werkzeuge für die Betrachtung als Genomsignatur. 

Die erste Phase unseres Projektes bestand also darin, ein 

neues mathematisches Werkzeug zu entwerfen, das die Korrelationseigenschaften 

ähnlich präzise erfasst, zugleich aber 

den rein zufälligen Hintergrund aus dem Signal zu eliminieren 

vermag. Dies gelang uns durch einen diskreten autoregressiven 

(DAr-) Prozess. 

2.2 dAr(p)-Prozess 

ein diskreter autoregressiver Prozess der Ordnung p, DAr(p), 

kann als Modell zur Simulation von Symbolsequenzen mit einer 

Markov-eigenschaft pter Ordnung herangezogen werden. 

er kann aber auch umgekehrt, wie später dargestellt werden 

soll, zur Messung der Korrelationen in einer Sequenz verwendet 

werden. Die charakteristische eigenschaft eines jeden 

Markov-Prozesses (X 1 , X 2 , … , X N ) der Ordnung p besteht darin, 

dass die bedingten Verteilungen von X n stets nur von X n-1 , … , 

X n-p abhängen, dass er also ein Gedächtnis der Länge p hat. 

Der Prozess wird bestimmt durch eine stationäre randverteilung 

von X n und mehrere andere Parameter, die unabhängig 

von der randverteilung die Korrelationsstruktur festlegen. Die 

Kernidee einer solchen Sequenzerzeugung ist dabei eine rekursion. 

Die ersten p Symbole einer zu erzeugenden Sequenz 

sind gegeben (gezogen aus dem Alphabet nach einer vorgebenen 

Startverteilung), und man bestimmt nun das (p+1)te 

Symbol entweder durch rückgriff auf eines der vorangegangenen 

Symbole oder durch erneute zufällige Wahl aus dem Alphabet. 

Die Parameter des Prozesses legen die Wahrscheinlichkeit 

für ein Zurückgreifen und ein zufälliges Auswählen 

fest. Nach dem (p+1)ten Symbol bestimmt man nun das (p+2)te 

Symbol und so fort. 

11

Vorherige Seite

Nächste Seite

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

Querschnitt 21 / Februar 2007 - h_da: Hochschule Darmstadt

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?