Visualisierung biochemischer Netzwerke - Arbeitsbereich für ...
Visualisierung biochemischer Netzwerke - Arbeitsbereich für ...
Visualisierung biochemischer Netzwerke - Arbeitsbereich für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong><br />
Seminararbeit im Rahmen des Seminars<br />
<strong>Visualisierung</strong> abstrakter Daten<br />
am Institut <strong>für</strong> Algorithmen und Datenstrukturen<br />
der technischen Universität Wien<br />
erstellt von Felix Schernhammer<br />
unter der Betreuung von Dr. Andreas Kerren<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 1/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Inhaltsverzeichnis<br />
Einleitung und Motivation ......................................................................................................... 3<br />
1. Biochemische Grundlagen: .................................................................................................... 4<br />
1.1. Die Proteinsynthese (Proteinbiosynthese)....................................................................... 4<br />
1.1.1. Die DNA als Bauplan <strong>für</strong> Proteine........................................................................... 4<br />
1.1.2 Produktion der Proteine............................................................................................. 5<br />
1.1.3 Die Regulation der Proteinsynthese .......................................................................... 8<br />
1.2 Andere biochemische Prozesse:....................................................................................... 8<br />
2. <strong>Visualisierung</strong> von Biomolekühlen:....................................................................................... 9<br />
2.1 <strong>Visualisierung</strong> von Sequenzen: ........................................................................................ 9<br />
2.2 2D <strong>Visualisierung</strong> von Molekülstrukturen..................................................................... 12<br />
2.3 3D <strong>Visualisierung</strong> von Biomolekülen............................................................................ 13<br />
3. Molekülinteraktionen ........................................................................................................... 14<br />
4. Metabolische Pfade .............................................................................................................. 18<br />
5. Regulatorische <strong>Netzwerke</strong> ................................................................................................... 21<br />
5.1 Bool’sche <strong>Netzwerke</strong> ..................................................................................................... 21<br />
5.2 GeneVis.......................................................................................................................... 23<br />
6. Zusammenfassung................................................................................................................ 25<br />
Quellen: .................................................................................................................................... 26<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 2/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Einleitung und Motivation<br />
Die Entschlüsselung des menschlichen Genoms darf als Meilenstein der zeitgeschichtlichen<br />
Forschung angesehen werden. Allerdings ergeben sich aus den Ergebnissen dieser<br />
Entschlüsselung keine direkt brauchbaren Ergebnisse. Denn auch wenn wir DNA Abschnitte<br />
sichtbaren Merkmalen zuordnen können, so ist es bereits viel schwieriger zu erklären wie der<br />
biochemische Weg von einer Abfolge von Basen zu einem bestimmten Merkmal ist. Diese<br />
(und andere) Fragen sind derzeit Gegenstand der Forschung. Das Problem reduziert sich im<br />
Wesentlichen darauf, zu erfassen was unsere körpereigenen Proteine tun und wie sie<br />
interagieren. Leider sind solche Interaktionsnetzwerke riesig und somit nicht durchschaubar.<br />
Die Lösung <strong>für</strong> dieses Problem sind geeignete <strong>Visualisierung</strong>sverfahren, die es den<br />
Biochemikern ermöglichen relevante Eigenschaften aus unüberschaubaren <strong>Netzwerke</strong>n<br />
herauszufiltern. Aber auch andere Aufgaben können mit <strong>Visualisierung</strong>stechniken erfüllt<br />
werden. Als Beispiel sei hier die Simulierung von dynamischen <strong>Netzwerke</strong>n <strong>für</strong> längere<br />
Zeiträume erwähnt.<br />
Diese Arbeit setzt es sich zum Ziel einen Überblick über derzeit gängige<br />
<strong>Visualisierung</strong>sstrategien im Bereich der Biochemie zu geben, und gegebenenfalls<br />
konkurrierende Ansätze zu vergleichen. Es werden dabei statische wie z.B.<br />
Molekülvisualisierung, und auch dynamische <strong>Visualisierung</strong>en betrachtet (z.B. regulatorische<br />
<strong>Netzwerke</strong>).<br />
Im ersten Kapitel erfolgt eine Einführung in die notwendigen biologischen Grundlagen. Ich<br />
beschränke mich hierbei auf den Vorgang der Proteinsynthese, weil er im Mittelpunkt des<br />
wissenschaftlichen Interesses steht. Es darf aber nicht vergessen werden, dass es viele andere<br />
biochemische Prozesse gibt.<br />
Die Nachfolgenden Kapitel stellen <strong>Visualisierung</strong>smethoden <strong>für</strong> verschiedne Arten von<br />
biochemischen <strong>Netzwerke</strong>n vor.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 3/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
1. Biochemische Grundlagen:<br />
1.1. Die Proteinsynthese (Proteinbiosynthese)<br />
1.1.1. Die DNA als Bauplan <strong>für</strong> Proteine<br />
Bekanntlich wird die gesamte Erbinformation jedes Lebewesens in Chromosomen<br />
gespeichert. In jeder Zelle (ein Mensch besteht aus ca. 60 Billionen Zellen) befindet sich eine<br />
identische Kopie dieser Chromosomen. Die Anzahl der Chromosomen variiert jedoch<br />
zwischen den Lebewesen (Mensch: 46). Nun sind alle Chromosomen Teile der DNA<br />
(Desoxyribonukleinsäure) und bestehen aus Genen, welche wiederum kleinere Abschnitte der<br />
DNA sind.<br />
Die DNA selbst besteht aus vier verschiedenen Basen (Adenin, Thymin, Cytosin und<br />
Guanin), deren Sequenz ausschlaggebend <strong>für</strong> die Erbinformation ist. Sie hat die Form einer<br />
gegenläufig verdrillten Doppelhelix. Die „Sprossen“ dieser Leiterstruktur sind die genannten<br />
Basen, die Holme bestehen aus Desoxyribose und Phosphatsäure, deren Hauptaufgabe darin<br />
besteht die vertikale Bindung des DNA Stranges aufrechtzuerhalten.<br />
Die Abbildung zeigt die <strong>Visualisierung</strong> eines DNA-<br />
Abschnitts mit dem Tool „MDL sculpt“ der Firma<br />
MDL (Molecular Design Limited). Das 3 dimensionale<br />
Bild kann beim Betrachten auch gedreht bzw.<br />
umformatiert werden. Dazu ist das frei erhältliche tool<br />
„chime“ derselben Firma notwendig.<br />
Die Farben stehen in diesem Bild <strong>für</strong> die Atome, die am<br />
Aufbau der DNA beteiligt sind:<br />
Orange: Phosphat<br />
Rot: Sauerstoff<br />
Grau: Kohlenstoff<br />
Blau: Stickstoff<br />
Wasserstoff würde aus Gründen der Übersichtlichkeit<br />
weggelassen.<br />
Die DNA besteht grob gesagt aus drei Bestandteilen:<br />
− Phosphorsäure (PO 4 ): Sie ist im Bild leicht<br />
erkennbar an den orangen Stellen. Man sieht<br />
auch sehr leicht, dass das Phosphoratom<br />
Bindungen mit 4 Sauerstoffatomen eingeht. Die<br />
Stelligkeiten der Bindungen sind in diesem Bild<br />
nicht erkennbar.<br />
− Zucker (Desoxyribose C 5 OH 7 ): Dieser Zucker ist namensgebend <strong>für</strong> die DNA und ist<br />
die Verbindung von Phosphatsäure und den organischen Basen (s.u.).<br />
− Organische Basen (die oben genannten Adenin, Thymin, Cytosin, Guanin). In die<br />
Sequenz dieser Basen ist der genetische Code des Lebewesens codiert. Es können sich<br />
immer nur zwei Basen verbinden, nämlich Adenin und Thymin, und Cytosin und<br />
Guanin. (diese werden durch Wasserstoffbrücken verbunden).<br />
Doch was genau codiert diese Sequenz von organischen Basen eigentlich? Es sind Strukturen<br />
von Proteinen. Proteine sind aus Aminosäuren aufgebaut, derer es 20 gibt. Die Sequenz dieser<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 4/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Aminosäuren sowie die Sekundärstruktur (räumliche Anordnung der Molekühle aufgrund<br />
physikalischer und chemischer Eigenschaften) und Tertiärstruktur (räumliche Anordnung der<br />
Moleküle um bestimmte Eigenschaften des Proteins zu erzielen) bestimmen welche<br />
Eigenschaften das Protein hat.<br />
Bevor wir nun auf die Synthese, also die Erzeugung von Proteinen eingehen, stelle ich einige<br />
Funktionen vor, die Proteine in unserem Körper erfüllen, damit offensichtlich wird, wie<br />
wichtig Proteine <strong>für</strong> den Menschen sind:<br />
− Enzyme: Sie werden als Katalysator <strong>für</strong> chemische Reaktionen benötigt. Fast alle<br />
biochemischen Vorgänge in unserem Körper benötigen bestimmte Enzyme um in<br />
Gang zu kommen. Es gibt zum Beispiel 20 verschieden Enzyme, die die Bindung von<br />
Aminosäuren an die verschiedenen t-RNAs (transfer RNA) katalysieren.<br />
− Transportproteine: Sie binden bestimmte Stoffe an sich und können sie durch den<br />
Körper transportieren. Ein Beispiel hier<strong>für</strong> wäre das Hämoglobin, das Sauerstoff in der<br />
Lunge an sich bindet und zu den peripheren Körperregionen transportiert.<br />
− Nährstoff- und Speicherproteine: die Samen vieler Pflanzenzellen speichern<br />
Nährstoffproteine, die <strong>für</strong> das spätere Wachstum essentiell sind. Ein weiteres Beispiel<br />
ist das Ferritin, das Eisen speichern kann.<br />
− Strukturproteine: Viele Proteine dienen als stützende Elemente um biologischen<br />
Strukturen Stabilität und Schutz zu verleihen. In Sehnen und Knorpel ist<br />
beispielsweise das Protein Collagen enthalten. Haare und Fingernägel bestehen u. a.<br />
aus Keratin.<br />
− Verteidigungsproteine: Sie schützen den Organismus vor dem Eindringen anderer<br />
Spezies oder bewahren ihn vor Verletzungen. Die Thrombozyten (Blutplättchen)<br />
beispielsweise verhindern Blutverlust bei Gefäßverletzungen. Leukozyten (weiße<br />
Blutkörperchen) verteidigen den Körper gegen Bakterien.<br />
− Regulatorische Proteine: Sie induzieren bzw. hemmen bestimmte Vorgänge im<br />
Körper. Sie spielen eine wichtige Rolle bei der Genregulation, und der <strong>Visualisierung</strong><br />
derselben mit GeneVis. Als Vertreter wäre hier u.a. das Insulin zu nennen, das den<br />
Zuckerstoffwechsel im Körper reguliert.<br />
− Sonstige: Es gibt noch viele Proteine, deren Eigenschaften nicht in die oben genannten<br />
Gruppe passen.<br />
1.1.2 Produktion der Proteine<br />
Um Proteine tatsächlich erzeugen zu können muss eine Kopie des betreffenden Gens erzeugt<br />
werden. Diese Kopie liegt als RNA vor und wird als m-RNA(messenger RNA) bezeichnet.<br />
(Der Vorgang des Kopierens wird als Transkription bezeichnet). Die m-RNA enthält also die<br />
Abfolge der Aminosäuren, die das entsprechende Protein charakterisiert. Da es nur 4 Basen,<br />
aber 20 Aminosäuren gibt, müssen pro Aminosäuren Codewörter verwendet werden, die<br />
mindestens 3 Zeichen (=Base) lang sein müssen. (weil 4 2 < 20
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
invers ist, dass die beiden eine Bindung eingehen können. Das Basentripel in der t-RNA wird<br />
deshalb auch Anticodon genannt. Wenn sich die t-RNA an die m-RNA bindet werden die<br />
Aminosäuren in räumliche Nähe gebracht und gehen Peptidbindungen ein, weshalb Proteine<br />
Polypeptide sind.<br />
Die Abbildung zeigt den gesamten Vorgang der Proteinsynthese. Die Peptidbindungen sind<br />
hier grün dargestellt. Die DNA speichert Informationen redundant, weil aus einem Strang der<br />
Andere eindeutig folgt. Die Bezeichnung codogener Strang bezieht sich nur darauf welcher<br />
Strang <strong>für</strong> die Transkription verwendet wird.<br />
Der eigentliche Vorgang der Proteinsynthese lässt sich nun in 5 Teile zerlegen:<br />
1. Aktivierung der Aminosäuren<br />
2. Initiation der Polypeptidkette<br />
3. Elongation<br />
4. Termination und Freisetzung<br />
5. Faltung<br />
Diese 5 Stufen werden unter<br />
dem Begriff Translation<br />
zusammengefasst.<br />
ad 1: Zuerst müssen die<br />
Aminosäuren an die<br />
entsprechenden t-RNAs<br />
gebunden werden. Das passiert<br />
in dieser Stufe, die im<br />
Gegensatz zu den anderen<br />
Stufen, die in den Ribosomen<br />
(Teil jeder Zelle) stattfinden,<br />
im Cytosol (wässrige Lösung,<br />
die sich im Zwischenraum der<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 6/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Zellorganellen befindet) stattfindet. Wie bereits erwähnt existiert bei diesem Vorgang <strong>für</strong> jede<br />
der 20 Aminosäuren ein eigenes Enzym, das diesen Vorgang katalysiert.<br />
Im Bild oben kann man die Struktur eines t-RNA Moleküls erkennen. Man sieht unten in<br />
gestricheltem Rahmen das Codon mit dazugehörigem Anticodon der m-RNA. Am 3’ Ende<br />
des Moleküls, oben im Bild, verbindet sich die RNA mit der entsprechenden Aminosäure. Die<br />
beiden Arme links und rechts spielen bei der Proteinsynthese keine Rolle. Auffällig im Bild<br />
ist noch, dass das Basentripel des Anticodons eine Säure mit dem Buchstaben I enthält. Diese<br />
Base heißt Inosin. Inosin kann sich mit drei verschiedenen Basen binden, und zwar Adenin,<br />
Cytosin und Uracil. (Uracil kommt ausschließlich in RNA vor, und ersetzt bei der<br />
Transkription die Base Thymin der DNA, die in RNAs nicht mehr vorkommt). Der Vorteil<br />
der sich ergibt wenn Inosin im Anticodon verwendet wird ist nun der Folgende:<br />
Es gibt 20 verschiedene Aminosäuren aber 64 mögliche Basentripel um diese zu codieren.<br />
Deshalb gibt es <strong>für</strong> eine Aminsäure mehrere gültige Basentripel. Und es ist dabei eine<br />
Rangordnung von der „most significant“ zur „least significant“ Base zu erkennen. Einige<br />
Aminosäuren sind nun allein durch die ersten beiden Basen bestimmt. An die dritte Stelle<br />
kommt sozusagen eine Wildcard, das Inosin. Der Vorteil in dieser Vorgangsweise ist der, dass<br />
die Verbindung von Inosin zu einer Base viel schwächer ist als die herkömmlichen<br />
Verbindungen und somit schneller wieder gelöst werden kann. (denn natürlich müssen t-RNA<br />
und m-RNA nach der Translation wieder getrennt werden). „Die biochemische Evolution hat<br />
demnach <strong>für</strong> die meisten Codon-Anticodon-Wechselwirkungen das Optimum an Genauigkeit<br />
und Geschwindigkeit gefunden“ ([Lehn] S. 985).<br />
ad 2: Zunächst wird in dieser Phase die<br />
m-RNA an das Ribosom gebunden.<br />
Dann wird die erste (initiierende)<br />
Aminosäure, die an der t-RNA „hängt“<br />
dazugefügt. Es gibt zu diesem Zweck ein<br />
Basentripel („Startcodon“), das den<br />
Anfang einer Polypeptidkette<br />
signalisiert.<br />
ad3: Nun wird jede weitere Aminosäure<br />
durch ihre t-RNA, die an das jeweilige<br />
Codon der m-RNA andockt, in<br />
räumliche Nähe zur vorangehenden<br />
Aminosäure gebracht, worauf diese beiden dann eine Peptidbindung eingehen. Dieser<br />
Vorgang wiederholt sich beliebig oft.<br />
ad 4: Die Termination der Elongation wird durch so genannte Nonsense Tripletts<br />
herbeigeführt. Der Name stammt aus den Anfängen der Erforschung der Proteinsynthese.<br />
Man erkannte nämlich nicht gleich die Bedeutung als Terminationscodons, sondern wunderte<br />
sich zunächst darüber, dass diese Sequenzen <strong>für</strong> keine Aminosäure kodieren. Es gibt drei<br />
verschiedene Nonsense Tripletts (UAA, UAG, UGA). Wird ein nun ein solches Triplett<br />
erreicht, löst sich die Polypeptidkette von der t-RNA und diese löst ihre Bindungen mit der m-<br />
RNA.<br />
ad 5: Nicht nur die Aminosäurensequenz ist <strong>für</strong> die Eigenschaften eines Proteins<br />
entscheidend, sondern auch die räumliche Struktur (Tertiärstruktur). In der letzten Phase wird<br />
durch Enzyme gewährleistet, dass das Protein die richtige räumliche Struktur erhält.<br />
(Primärstruktur: Aminosäurensequenz, Sekundärstruktur: räumliche Anordnung, die allein<br />
durch physikalische und chemische Eigenschaften der beteiligten Molekühle (z.B. Ladung)<br />
zustande kommt.)<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 7/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
1.1.3 Die Regulation der Proteinsynthese<br />
Bisher haben wir uns nur darüber Gedanken gemacht wie die Proteinsynthese funktioniert<br />
nicht aber, wie der Vorgang induziert bzw. beendet wird. Um den Bedarf an bestimmten<br />
Proteinen zu erfüllen muss die Produktion der Zellen kontrolliert werden. Diese Kontrolle der<br />
Proteinkontrolle wird unter dem Begriff Genregulation zusammengefasst. Im Wesentlichen<br />
ist die Produktion von Proteinen durch das Vorhandensein bzw. Nichtvorhandensein anderer<br />
oder derselben Proteinen abhängig. Zunächst gibt es sog. Induzierbare Enzyme. Die<br />
Konzentration solcher Enzyme in der Zelle kann variieren. Zum Beispiel können solche<br />
Enzyme die Aufgabe haben bestimmte Stoffe in der Zelle abzubauen, oder umzuwandeln. Die<br />
Anzahl der Enzyme hänge dann davon ab, wie viel von dem Ausgangsstoff (=Substrat)<br />
vorhanden ist. Ist eine große Menge des Substrats in der Zelle, so wird die Produktion von<br />
Enzymen, die den Stoff verarbeiten können induziert. Dieser Vorgang wird auch<br />
Substratinduktion genannt.<br />
Es gibt auch sog. Konstitutive Enzyme, deren Vorkommen in der Zelle konstant ist. Nur bei<br />
prokaryotischen Zellen (Zellen mit Zellkern, alle „höheren“ Lebewesen sind Prokaryoten. Das<br />
Gegenstück dazu sind Eukaryoten. Das sind einzellige Bakterien ohne Zellkern) ist auch eine<br />
Repression der Proteinsynthese möglich. Dabei wird analog zur Substratinduktion durch<br />
ausreichendes Vorhandenseins eines Produktes, das ein Enzym synthetisieren würde, die<br />
Produktion des Enzyms gehemmt.<br />
1.2 Andere biochemische Prozesse:<br />
Natürlich gibt es neben der Proteinsynthese noch eine Reihe anderer <strong>biochemischer</strong> Prozesse.<br />
Diese spielen in der Wissenschaft aber nur eine untergeordnete Rolle, weil Sie zumeist bereits<br />
hinreichend erforscht sind (z.B. Muskelaktivität).<br />
Das Hauptaugenmerk der biochemischen Forschung richtete sich in den letzten Jahren auf die<br />
Entschlüsselung des genetischen Codes des Menschen. Das heißt man versuchte<br />
herauszufinden welch Teile der DNA <strong>für</strong> Proteine codieren und welche nicht, (Teile, die <strong>für</strong><br />
Proteine kodieren werden Exons genannt, die anderen Introns.) und welche Exons <strong>für</strong> welche<br />
Merkmale verantwortlich sind. Die Entschlüsselung der DNA Sequenz an sich, die ja <strong>für</strong><br />
jeden Menschen eindeutig ist, ist bereits früher gelungen. Mit dieser Kenntnis des<br />
menschlichen Genoms wäre es nun möglich das menschliche Erbgut gezielt zu verändern<br />
(also Genmanipulation zu betreiben), was aber ethisch (noch) umstritten ist. Ganz im<br />
Gegensatz dazu steht die Genmanipulation von Bakterien. Sie kann dazu verwendet werden<br />
um Bakterien, bestimmte, <strong>für</strong> den Menschen nützliche, Stoffe produzieren zu lassen.<br />
Die derzeit ausgeübte Genmanipulation beschränkt sich darauf Gene, die in der Natur bereits<br />
vorkommen in andere Lebewesen „einzupflanzen“. Ein ganz anderer Ansatz ist hingegen die<br />
Proteine, die durch die DNA kodiert werden, an sich zu erforschen und zu versuchen <strong>für</strong><br />
bestimmte gewünschte Funktionalitäten die entsprechenden DNA Sequenzen zu finden. Auch<br />
in diese Richtung wird zur Zeit mehr oder weniger intensiv geforscht.<br />
Diese Arbeit wird sich in weiterer Folge mit der <strong>Visualisierung</strong> aller zur Erforschung der<br />
Proteinsynthese wichtigen Vorgänge beschäftigen. Zuerst wird die <strong>Visualisierung</strong> von<br />
Biomolekühlen behandelt. Darunter fallen die <strong>Visualisierung</strong> der DNA in den verschiedensten<br />
Ausprägungen, von der Sequenzvisualisierung bis zur zur 3D animierten <strong>Visualisierung</strong>.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 8/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
2. <strong>Visualisierung</strong> von Biomolekühlen:<br />
Im Wesentlichen existieren 3 verschieden Arten der <strong>Visualisierung</strong> von Biomolekülen. Zuerst<br />
die Eindimensionale, die vor allem zur <strong>Visualisierung</strong> von DNA und RNA verwendet wird<br />
und das Molekül als Sequenz von anderen Molekülen im Textformat darstellt. Um zusätzlich<br />
dazu die chemischen Verbindungen zwischen den Molekülen darzustellen, verwendet man 2-<br />
dimensionale Grafiken. Und um die räumliche Struktur der Teilchen zu veranschaulichen,<br />
verwendet man 3D Grafiken bzw. Animationen.<br />
2.1 <strong>Visualisierung</strong> von Sequenzen:<br />
Bei der Sequenzvisualisierung wird versucht die Sequenz eines Moleküls (sofern ein Molekül<br />
gut durch eine Sequenz beschrieben werden kann, was bei der DNA auf jeden Fall der Fall<br />
ist) durch eine Folge von Buchstaben zu visualisieren. Im Falle der DNA sind das nur 4<br />
Buchstaben (nämlich die der vier Basen). Will man jedoch zum Beispiel die<br />
Aminosäurensequenz eines Proteins visualisieren sind bereits mehrere Buchstaben nötig.<br />
Eines der Standardtools zur Sequenzvisualisierung ist SeqLab (Accelry’s). Es bietet neben der<br />
reinen <strong>Visualisierung</strong> der Sequenz die Möglichkeit Teilbereiche farblich hervorzuheben.<br />
In dieser Abbildung sind die Sequenzen einiger Proteine abgebildet. Es ist hier zu beachten,<br />
dass nicht jede der 20 Aminosäuren eine eigene Farbe hat, sondern die Aminosäuren nach<br />
bestimmten Kriterien gruppiert werden.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 9/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Der Grund warum die Sequenzvisualisierung aber von solch großer Bedeutung ist, ist nicht<br />
die Tatsache, dass man aus dieser Buchstabenrepräsentation einen besonders guten Eindruck<br />
über das Aussehen eines Proteins bekommt, sondern, dass aufgrund solcher <strong>Visualisierung</strong><br />
und mithilfe der <strong>Visualisierung</strong>stools Homologievergleiche angestellt werden können.<br />
Es werden also verschieden Strukturen auf Ähnlichkeiten hin untersucht. Auf diese Weise ist<br />
es möglich bestimmte Aminosäurensequenzen bestimmter Proteine mit einer ganz<br />
spezifischen Funktion des Proteins in Verbindung zu bringen und dadurch ein noch<br />
gezielteres Wissen darüber zu erhalten wo<strong>für</strong> DNA Teilabschnitte verantwortlich sind. Mit<br />
diesem Wissen wäre es dann auch möglich eigene Gene zu kreieren, die ganz spezifische<br />
Funktionen erfüllen.<br />
Die Technik des Homolgievergleichs wird auch dazu verwendet die Funktion unbekannter<br />
Sequenzen durch Findung homolger Teilsequenzen zu beschreiben.<br />
SeqLab bietet u.a. die Möglichkeit einer Kodierung von einzelnen Elementen oder<br />
Teilsequenzen durch graphische Objekte vorzunehmen. Dies kann dazu verwendet werden<br />
auftretende Homologien <strong>für</strong> den Menschen leicht ersichtlich zu machen.<br />
In dieser Grafik werden mehrere Proteine gezeigt, deren Merkmale graphisch kodiert wurden.<br />
Auf diese Weise ist ihre Ähnlichkeit offensichtlich.<br />
Ein anderer Zugang zur Sequenzvisualisierung, der von M.L. Lantin und M. S. T. Carpendale<br />
beschrieben wird, ist die Sequenzvisualisierung mittels H-Kurven. Dieser Zugang ist nur zur<br />
<strong>Visualisierung</strong> von DNA und RNA sinnvoll, da bei zu vielen verschiedenen<br />
Sequenzelementen das Ergebnis unlesbar ist.<br />
Die <strong>Visualisierung</strong> spielt sich in einem zur <strong>Visualisierung</strong> geeigneten 3-dimensionalen<br />
Vektorraum ab. In diesem wählt man ein Erzeugendensystem, das so viele Vektoren<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 10/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
beinhaltet, wie es verschiedene Sequenzelemente gibt. Im Falle der DNA wären das die Basen<br />
ACTG, also wird ein 4-elementiges Erzeugendensystem eines 3 dimensionalen Vektorraums<br />
benötigt. Dieses könnte zum Beispiel so aussehen:<br />
Die Sequenzvisualisierung wird nun durch einen Linienzug verwirklicht, der an dem Punkt<br />
(0,n,0) beginnt. „n“ steht hierbei <strong>für</strong> die Anzahl der Basen, die man visualisieren möchte. Die<br />
vertikale Änderung jedes der Basisvektoren beträgt 1. Zur Illustration betrachte man das<br />
Beispiel der Sequenz ACT. Der Ausgangspunkt ist hier (0, 3, 0).<br />
Der Vorteil bei dieser Art der <strong>Visualisierung</strong> besteht vor allem darin, statistische<br />
Informationen visualisieren zu können. Aus diesem Grund besteht auch die Möglichkeit die<br />
Kurve zu glätten, um globale Basenkonzentrationen besser sehen zu können, und Lokale zu<br />
vernachlässigen. Es ist aber auch leicht möglich durch Projektionen auf eine der drei durch<br />
die Koordinatenachsen aufgespannten Ebenen bestimmte Informationen abzulesen. Projiziert<br />
man in unserem Beispiel auf die Ebene, die durch die Koordinatenachsen y und z aufgespannt<br />
wird, so kann man die Konzentration von Purinbasen (Adenin und Guanin) und<br />
Pyrimidinbasen (Cytosin und Thymin (und Uracil)) sehen.<br />
<strong>Visualisierung</strong> der Sequenz ACT<br />
Projektionen auf die Koordinatenebenen<br />
Man kann im zweiten bild der rechten Grafik leicht erkennen, dass in unserem Beispiel die<br />
Purinbasen überwiegen. Natürlich arbeitet man in der Praxis mit viel größeren Sequenzen.<br />
Dabei ist es nützlich Farben zur besseren Übersichtlichkeit zu verwenden. Es gibt hier<br />
unterschiedliche Möglichkeiten die Farbe als zusätzliche Dimension einzubinden. Die<br />
einfachste Möglichkeit ist den Vektor jeder Base, in einer spezifischen Farbe darzustellen.<br />
Eine zweite Möglichkeit ist Exons, das heißt Gene, farblich hervorzuheben. Dazu noch je ein<br />
Beispiel:<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 11/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Im linken Bild kann man die farbliche Hervorhebung der einzelnen Basen erkennen. Im<br />
rechten Bild werden die Gene hervorgehoben. Man erkennt hier auch noch die Möglichkeit<br />
Bereiche herauszuzoomen, um Basensequenzen einzelner Gene genauer zu betrachten.<br />
2.2 2D <strong>Visualisierung</strong> von Molekülstrukturen<br />
In diesem nächsten Schritt der Molekülvisualisierung wird die Betrachtung um eine<br />
Dimension erweitert. Diese Dimension ist die Verbindung zwischen den Atomen bzw.<br />
Molekülen, die in Stufe 1 die Sequenz gebildet haben. Die räumliche Anordnung spielt<br />
hierbei noch eine untergeordnete Rolle, vielmehr ist wichtig zwischen welchen funktionalen<br />
Atomgruppen Bindungen auftreten.<br />
Die Firma CambridgeSoft stellt ein Tool namens ChemDraw zur Verfügung mit dem solche<br />
2-dimensionalen Strukturen visualisiert werden können.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 12/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Das sind einige <strong>Visualisierung</strong>en, die mit<br />
ChemDraw erstellt wurden.<br />
Ein weiteres sehr ähnliches Tool ist ISIS<br />
Draw von MDL (s.o.).<br />
2.3 3D <strong>Visualisierung</strong> von Biomolekülen<br />
Durch 3D <strong>Visualisierung</strong>en kann die tatsächliche räumliche Struktur von Molekülen<br />
visualisiert werden. Zum einen ergibt sich diese Struktur durch Kräfte, die zwischen den<br />
Molekülen bzw. Atomen wirken. Die Struktur, die durch diese Kräfte (z.B. Van der Waals<br />
Kräfte) entsteht ist von minderem Interesse <strong>für</strong> die Wissenschaft, weil durch sie meist keine<br />
neuen Eigenschaften des Moleküls gebildet werden. Zum anderen werden bestimmte<br />
Moleküle so geformt, dass sie durch eben diese Form zusätzliche Eigenschaften erhalten. (vgl.<br />
Tertiärstruktur von Proteinen (s.o.))<br />
3D <strong>Visualisierung</strong>en können natürlich aus den oben genannten 2D <strong>Visualisierung</strong> mittels der<br />
Plugins ADD/3D <strong>für</strong> ISIS Draw und Chem 3D <strong>für</strong> ChemDraw erzeugt werden. Das<br />
Standardverfahren um Moleküle 3-dimensional zu visualisieren ist allerdings das erzeugen<br />
eines .pdb Files. In diesen Files wird jedes Atom mit den dazugehörigen Koordinaten im 3-<br />
dimensionalen Raum (und zusätzlichen Eigenschaften (u.a. Ladung)) gespeichert. Es gibt nun<br />
mehrere Tools, die in der Lage sind aus solchen Dateien 3D <strong>Visualisierung</strong> zu erzeugen. Zwei<br />
der bekanntesten sind Chime von MDL und das Freeware-Tool RasMol von Roger Sayle.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 13/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
<strong>Visualisierung</strong> eines Viagra Moleküls mit dem Tool Chime von MDL mit einem Ausschnitt<br />
aus dem dazugehörigen pdb File.<br />
3. Protein Protein Interaktionen<br />
Natürlich ist die statische <strong>Visualisierung</strong> von Molekülen <strong>für</strong> viele Aufgabenstellung in der<br />
Biochemie unzureichend. Wichtiger als die Struktur der Moleküle ist deren Interaktion. In der<br />
Literatur ist der Begriff der Protein-Proteininteraktion gebräuchlich, da an fast allen<br />
chemischen Prozessen, die innerhalb von Zellen ablaufen, Proteine beteiligt sind. Diese<br />
Protein-Proteininteraktionen sind <strong>für</strong> das Verständnis der biochemischen Vorgänge in allen<br />
Organismen essentiell. Deshalb steht auch ihre <strong>Visualisierung</strong> im Mittelpunkt des<br />
wissenschaftlichen Interesses. Bei der <strong>Visualisierung</strong> solcher <strong>Netzwerke</strong> stehen vor allem die<br />
physikalischen Interaktionen der Proteine im Vordergrund. Im Gegensatz dazu stehen bei der<br />
<strong>Visualisierung</strong> von metoblischen Wegpfaden (seihe Kapitel 4), an denen ebenfalls fast immer<br />
Proteine beteiligt sind, die chemischen Vorgänge und Zwischenprodukte im Vordergrund.<br />
Die erste und intuitivste Art der <strong>Visualisierung</strong> ist die der Protein-Protein interaction<br />
maps. Eine solche map ist ein Graph dessen Knoten die Proteine (bzw. andere Stoffe)<br />
darstellen und dessen Kanten die Interaktionen sind. Für die Interaktionen gibt es<br />
normalerweise Klassifizierungen. Diese werden aber oft aus verschiedenen Gründen<br />
(Unübersichtlichkeit im Graph, Nichtkenntnis…) weggelassen. Für das Zeichnen des Graphen<br />
werden üblicherweise Algorithmen <strong>für</strong> das force directed graph drawing verwendet. Das<br />
heißt es wird angenommen, dass sich alle Knoten abstoßen und die Kanten Federn darstellen<br />
(also je zwei verbundene Knoten aneinander ziehen). (daher ist auch der Name spring<br />
algorithm (spring = engl. Feder) in der Literatur gebräuchlich). Es wird dann versucht einen<br />
Zustand mit einem möglichst niedrigen Energieniveau zu finden. Auf diese Art und Weise<br />
wird gewährleistet, dass Knoten die durch Kanten verbunden sind, auch räumlich nahe<br />
beieinander liegen.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 14/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
In dieser Abbildung sehen wir eine PPI map. Die Nachteile dieser <strong>Visualisierung</strong>smethode<br />
sind auf den ersten Blick offensichtlich. In dieser Ansicht sind weder die Proteinnamen noch<br />
die Interaktionen nahe am Zentrum zu erkennen. Es gibt hier keine<br />
Interaktionsklassifikationen. Würde man diese hinzufügen, so wäre die Grafik noch<br />
unübersichtlicher.<br />
Ein Versuch bestimmte Daten aus einem PPI Netzwerk herauszufiltern stammt von Carsten<br />
Friedrich und Falk Schreiber (University of Sydney und Bioinformatics Centre Gatersleben<br />
Deutschland). Sie versuchen alle Interaktionen eines bestimmten Typs zu visualisieren,<br />
während alle Interaktionen anderer Typen in den Hintergrund treten. Dies geschieht, indem<br />
ein virtueller Ring gezeichnet wird, in dessen Innerem alle Knoten sind, die an Interaktionen<br />
des gewählten Typs beteiligt sind. Alle anderen Knoten liegen außerhalb. Natürlich sind die<br />
Positionen der Knoten, wenn sie außerhalb des Kreises liegen bei einem Wechsel des<br />
relevanten Interaktionstyps fix. Außerdem wird der Wechsel zwischen zwei Graphen, die<br />
unterschiedliche Interaktionstypen fokussieren animiert vollzogen. Die beiden<br />
Wissenschaftler behaupten, dass dadurch der Benutzer einen besseren Überblick über den<br />
gesamten Graph erhält.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 15/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Zwei PPI <strong>Netzwerke</strong> visualisiert mit dem Verfahren von Carsten Friedrich und Falk Schreiber<br />
Einen sehr viel versprechenden Ansatz stellt Adam Wright von der Stanford University vor.<br />
Er entwickelte eine Reihe von Programmen zur Extrahierung der relevanten Daten aus einem<br />
metabolischen Netzwerk. Er geht dabei von der Idee aus, dass vor allem jene Knoten im<br />
Netzwerk von großer Relevanz sind, die viele Verbindungen mit anderen Knoten aufweisen.<br />
Die Extraktion läuft in diesem Modell in drei Phasen ab:<br />
− Beschreibung der Daten im<br />
Gesamtnetzwerk: Hier wird <strong>für</strong> jeden<br />
Knoten im Graph der Hin- und<br />
Weggrad gespeichert. Die Abbildung<br />
zeigt am Beispiel des <strong>Netzwerke</strong>s<br />
von der vorangehenden Seite<br />
(Germbakterium), dass die Anzahl<br />
der Knoten mit sehr großem Grad<br />
verhältnismäßig klein ist. Die Kurve,<br />
die den Interaktionsgrad beschreibt<br />
ähnelt dem Funktionsgraf einer<br />
exponentiellen Funktion. Diese Tatsache ist typisch <strong>für</strong> metabolische <strong>Netzwerke</strong>,<br />
weswegen der hier beschriebene <strong>Visualisierung</strong>sansatz in der Praxis oft eingesetzt<br />
werden kann.<br />
− Im zweiten Schritt werden die Knoten ausgewählt, die visualisiert werden sollen. Das<br />
kann auf zwei Arten passieren.<br />
1. Es wird ein Wahrscheinlichkeitsmodell benutzt, um die höchstgradig verbundenen<br />
Knoten auszuwählen. Dabei wird auch darauf geachtet, dass die Kantengewichte<br />
zwischen den jetzt verbleibenden Knoten gering sind. z.B.: Ein Knoten, der zwar<br />
hochgradig mit anderen Knoten verbunden ist, aber weit weg vom Zentrum liegt,<br />
ist <strong>für</strong> de <strong>Visualisierung</strong> nicht so interessant wie ein Knoten, der zwar nicht so<br />
stark verknüpft ist, dessen Nachbarn aber wieder hohe Grade besitzen.<br />
2. Die zweite Möglichkeit ist, dass der Benutzer einen oder mehrere Knoten von<br />
Interesse auswählt und dann ausgehend von den gewählten Knoten, alle Knoten,<br />
die mit diesen in Verbindung stehen visualisiert werden. Diese Art der<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 16/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Knotenauswahl ist besonders hilfreich wenn Wissenschaftler die Funktion<br />
bestimmter Proteine herausfinden möchten (was einen großen Teil der<br />
biochemischen Forschung ausmacht), weil im entstehenden Graph einfach<br />
abzulesen ist, mit welchen anderen Stoffen das Protein interagiert.<br />
− Der dritte Schritt ist die <strong>Visualisierung</strong> der in Stufe 2 gewonnen Resultate. Hierbei<br />
sind die üblichen Probleme bei der Graphenvisualisierung zu beachten (möglichst<br />
kleine <strong>Visualisierung</strong>sfläche, wenig Kantenkreuzungen, Knoten sollen möglichst weit<br />
entfernt sein, Kanten sollen Länge entsprechend ihrem Gewicht haben). Um diese<br />
Kriterien zu erfüllen wird das schon besprochene force directed graph drawing<br />
verwendet.<br />
Die Abbildung gibt einen Überblick über die 3 Phasen im Modell von Adam Wright.<br />
Fettgedruckt sind jeweils die Namen der Programme, die die entsprechenden Schritte<br />
ausführen können. Der erste <strong>Visualisierung</strong>sschritt (el2dot) ist nur eine Konvertierung interner<br />
Formate, und wurde daher in der Auflistung oben übergangen.<br />
Hier ein Ergebnis der Reduktion durch Auswahl der höchstgradigen Knoten am Beispiel des<br />
Germbakteriums (siehe 2 Seiten davor).<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 17/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
4. Metabolische Pfade<br />
Wie bereits im vorigen Kapitel erwähnt beschreiben metabolische Pfade chemische<br />
Reaktionsfolgen. Die dabei entstehenden Zwischenprodukte werden Metaboliten genannt.<br />
Formal sind metabolische Pfade so definiert: Ein metabolischer Pfad (metabolic Pathway) ist<br />
eine Abfolge chemischer Reaktionen mit folgenden Eigenschaften:<br />
− Jedes Molekül, das auf dem Pfad liegt unterscheidet sich von allen anderen Molekülen<br />
auf demselben Pfad<br />
− Jedes Substrat wird in eine Substanz umgewandelt, die <strong>für</strong> die folgende Reaktion als<br />
Ausgangsstoff dient. Dies gilt natürlich nicht <strong>für</strong> die letzte Reaktion, in der das<br />
Endprodukt der Gesamtreaktion erzeugt wird<br />
− Die Reaktionsfolge ist in eine Richtung gerichtet und in den meisten Fällen<br />
irreversibel.<br />
− Die Gesamtreaktion benötigt mehrere Enzyme, die verschiedene Funktionen erfüllen.<br />
Man unterscheidet zwischen anabolischen und catabolischen Pfaden. Anabolische Pfade sind<br />
Reaktionen, bei denen aus einfachen Molekülen komplex Strukturierte synthetisiert werden.<br />
Dazu muss Energie zugeführt werden (ATP). Catabolische Pfade sind Reaktionen, bei denen<br />
aus komplexen Molekülen Einfachere erzeugt werden. Dabei wird Energie in Form ATP frei.<br />
Auf den ersten Blick könnte man nun sagen, dass man alle catabolischen Reaktionen<br />
beschreiben kann, wenn man die inversen Reaktionen der Anabolischen betrachtet. Das ist<br />
aber im Allgemeinen nicht richtig, weil in jedem metabolischen Pfad eine Reaktion<br />
vorkommen muss, die irreversibel ist.<br />
Die einfachste Weise einen solchen metabolischen Pfad zu visualisieren, ist durch eine<br />
gerichteten Graphen bzw. Hypergraphen. (i.e. Graph bei dem die Bedingung, dass eine Kante<br />
genau zwei Knoten verbinden muss nicht gilt. Eine Kante kann also auch mehrere Knoten<br />
verbinden) Hierbei gibt es zwei Möglichkeiten. Einerseits kann man die Zwischenprodukte<br />
durch die Knoten darstellen, andererseits kann man die Reaktionen an sich durch die Knoten<br />
darstellen. Im ersteren Fall stellen die Kanten die Reaktionen dar im zweiten Fall die<br />
Substanzen, die zum Triggern der Teilreaktionen benötigt bzw. produziert werden. Eine<br />
Verbindung dieser zwei Möglichkeiten stellt eine Repräsentation der Pfade durch Petri-Netze<br />
dar. Hier sind sowohl Reaktionen, als auch Substrate Knoten und die Kanten setzt diese in<br />
Beziehung. Es ist hier erwähnenswert, dass in einem solchen Petri-Netz nur Substratknoten<br />
mit Reaktionsknoten verbunden werden dürfen. Es darf also keine direkte Beziehung<br />
zwischen zwei gleichartigen Knoten geben, was der Definition von metabolischen<br />
<strong>Netzwerke</strong>n sehr gut entspricht.<br />
Ein <strong>Visualisierung</strong>sansatz, der in diese Richtung geht kommt von einem Forschungsteam der<br />
Yamaguchi Universität Japan und der University of Tokio. Sie stellen hybrid funktionale Petri<br />
Netze vor.<br />
Hybride Petri Netze wurden schon von Hassane Alla und René David vom Laboratoire<br />
d'Automatique de Grenoble vorgestellt. Dabei wird das herkömmliche Petri Netz um folgende<br />
Aspekte erweitert:<br />
− Den Substratknoten wird ein nichtnegativer reeller Zahlenwert zugewiesen. Auf diese<br />
Weise ist es möglich nicht nur das bloße Vorhandensein oder Nicht-Vorhandensein<br />
eines Stoffes darzustellen, sondern auch dessen Konzentration. Das ermöglicht auch<br />
die Erweiterung der Darstellung um stochastische Elemente.<br />
− Auch den Reaktionsknoten werden reelle Werte zugewiesen. Diese Werte geben die<br />
Zeitintervalle an, nach denen die Reaktion feuert (d.h. den Abschluss ihrer<br />
Ausführung an alle Nachfolger weiterleitet). Das Feuern ist hierbei unabhängig von<br />
der Konzentration des Substrats <strong>für</strong> diese Reaktion.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 18/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
− Weiters führt man 3 Arten von Pfeilen ein, die alle mit einem Gewicht w versehen<br />
sind: Erstens gibt es ganz normale Pfeile, sie bewirken, dass w Einheiten eines<br />
Substrats einem Vorgang zugeführt werden bzw. dass w Einheiten von einem Vorgang<br />
zu einem Substratknoten hinzugefügt werden. Zweitens gibt es so genannte<br />
Repressorpfeile (inhibitory arcs), die es Reaktionen ermöglichen nur dann zu feuern,<br />
wenn im Substratknoten weniger als w oder w Einheiten des Substrats vorhanden sind.<br />
Drittens gibt es Testpfeile. Sie überprüfen beispielsweise, ob Substrat in einem Knoten<br />
vorhanden ist und veranlassen den nachfolgenden Reaktionsknoten zu feuern, ohne<br />
Substrat des Ausgangsknoten zu konsumieren.<br />
Das sind die graphischen Symbole <strong>für</strong> die oben<br />
beschriebenen Bestandteile eines hybriden Petri-<br />
Netzes. Diskrete Substrate (in diesem Bild allg.<br />
places) und Reaktionen (transitions) sind<br />
kontinuierlich mit Wert 1.<br />
Die oben genannten japanischen Wissenschaftler erweitern diese hybriden Petri Netze noch<br />
um die Möglichkeit die Feuergeschwindigkeit der Reaktionen als Funktion der<br />
Substratkonzentration in den Quellsubstratknoten festzusetzen. Knoten mit dieser Eigenschaft<br />
werden als “functional continious transitions“ bezeichnet.<br />
Die Informationen, die nötig sind um einen solchen Graphen zu zeichnen, werden tabellarisch<br />
angegeben. Genauer gesagt sind alle Informationen mit einer Liste der Substratknoten und<br />
einer Liste der Reaktionsknoten hinreichend bestimmt. Dazu sind folgende Angaben <strong>für</strong> jede<br />
Reaktion nötig:<br />
− Name des Knotens<br />
− Typ des Knotens (diskret oder kontinuierlich)<br />
− Falls kontinuierlich. Zeitintervalle zwischen dem feuern.<br />
− Quelle(n) der eintreffenden Pfeile<br />
− Gewichte dieser Pfeile<br />
− Typ der eintreffenden Pfeile (normal, Repressorpfeil, Testpfeil)<br />
− Ziel der ausgehenden Pfeile<br />
− Gewicht dieser ausgehenden Pfeile<br />
Die obige Abbildung zeigt einen Ausschnitt aus einer Tabelle mit Beschreibungen der<br />
Reaktionen<br />
Für die Substratnoten sind folgende Angaben nötig:<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 19/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
− Name<br />
− Variable (über diese können Substratknoten in der Reaktionstabelle referenziert<br />
werden)<br />
− Initialwert<br />
Aus diesen Informationen kann ein entsprechendes Petri Netz gezeichnet werden. Zur<br />
<strong>Visualisierung</strong> dieser Information kann ein Tool verwendet werden, dass ebenfalls von diesen<br />
japanischen Wissenschaftlern entwickelt wurde. Sein Name ist GON (Genomic Object Net).<br />
GON arbeitet mit den eben vorgestellten erweiterten Petri Netzen. Zusätzlich bietet es noch<br />
die Möglichkeit jeden Knoten im Petri Netz durch entsprechende biologische Symbole zu<br />
ersetzten, um die Lesbarkeit noch weiter zu erhöhen.<br />
Screenshot von GON<br />
Ausschnitt aus der <strong>Visualisierung</strong> eines metabolischen Pfades mit einem erweiterten Petri<br />
Netz<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 20/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
5. Regulatorische <strong>Netzwerke</strong><br />
Ein Sonderfall der metabolischen <strong>Netzwerke</strong> sind die regulatorischen <strong>Netzwerke</strong>. Von diesen<br />
sind vor allem die <strong>Netzwerke</strong> interessant, welche die Regulierung der Genaktivität<br />
beschreiben. Bei der Genregulation (siehe Kap 1) wird die Eiweißproduktion dadurch<br />
reguliert, dass das Vorhandensein bestimmter Proteine (sog. Regulatorproteine) darüber<br />
entscheidet, ob ein Gen Proteine produziert oder nicht. (natürlich produziert ein Gene keine<br />
Proteine. Die Proteinsynthese wird hier abstrahiert (siehe Kap 1)) Diese Proteine können dann<br />
entweder wieder Regulatorproteine sein, oder entsprechende funktionale Proteine.<br />
Der erste <strong>Visualisierung</strong>sansatz kann von der Pfadvisualisierung übernommen werden. Es<br />
handelt sich um eine <strong>Visualisierung</strong> mittels Petri Netzen. Man benutzt Gene und Proteine <strong>für</strong><br />
die zwei Knotentypen und die Kanten stellen deren Beziehung dar. Auch die oben<br />
beschriebenen Erweiterungen machen auch bei regulatorischen <strong>Netzwerke</strong>n (oder teilweise<br />
auch nur bei solchen) Sinn.<br />
5.1 Bool’sche <strong>Netzwerke</strong><br />
Dieser <strong>Visualisierung</strong>sansatz bietet gute Erkenntnisse über das dynamische Verhalten eines<br />
regulatorischen <strong>Netzwerke</strong>s. Zur Vereinfachung wird die Zeit nicht kontinuierlich behandelt,<br />
sondern es werden immer synchrone Zustandsänderungen vollzogen. Das heißt zu bestimmten<br />
Zeitpunkten ändern alle Gene ihr Expressionsverhalten gemäß der jeweiligen Konzentration<br />
von Regulatorproteinen in ihrer Nähe.<br />
Die Gene selbst sind Knoten, die nur die Werte 1 (Gen „produziert“ Protein) und 0 (Gen<br />
„produziert“ kein Protein) annehmen können. Für jedes Gen ist weiters eine bestimmte<br />
Funktion gegeben, die angibt wie sich das Expressionsverhalten im nächsten Timeslot ändert.<br />
Diese Funktion hängt vom Expressionsverhalten bestimmter anderer Gene im aktuellen<br />
Timeslot ab. Dadurch entstehen Zustände, die durch ein n-Tupel von 0en und 1en beschrieben<br />
werden können, wenn die Anzahl der Gene n ist. Es gibt maximal 2 n Zustände, die man leicht<br />
in einen gerichteten Graphen zeichnen kann. Da aber der Prozess der Regulation theoretisch<br />
endlos läuft muss es Kreise in diesem Graph geben. Knoten, die sich innerhalb solcher Kreise<br />
befinden heißen Attraktoren.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 21/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Die Abbildung zeigt ein solchen Zustandsgraphen. Attraktoren sind in dieser Abbildung die<br />
Knoten „00000“, „00100“, „11110“, „11010“, „10011“ und „11111“. Es gibt in diesem<br />
Beispiel also 5 Gene. Die entsprechenden Funktionen sind der Tabelle zu entnehmen.<br />
f i ist hier die Funktion <strong>für</strong> den Knoten i. Im Allgemeinen sind<br />
nicht alle Gene <strong>für</strong> das Expressionsverhalten eines Genes im<br />
nächsten Timeslot relevant. Welch Gene hier Relevanz <strong>für</strong> den<br />
jeweiligen Knoten besitzen zeigen die Werte bei j i an. Also die<br />
Werte 5,2,4 bei der Funktion f 1 geben an, dass Gen 1 von<br />
diesen anderen Genen abhängig ist.<br />
Da jedes Gen nur von 3 Variablen abhängig ist, reichen 8<br />
Werte, die angeben wie sich das Gen bei allen Konstellationen<br />
dieser Variablen verhalten. Der oberste Wert gehört also zur<br />
Variablenbelegung 000 der nächste zu 001, 010, 011 usw. Die<br />
erste Variable ist in diesem fall Gen 5, die Zweite Gen 2 und<br />
die Dritte Gen 4. Auf diese Art und Weise ist das Netzwerk<br />
hinreichend bestimmt.<br />
Der einzige variable Faktor in dieser Simulation ist hier noch der Startzustand.<br />
Der Nachteil dieser Art der <strong>Visualisierung</strong> ist, dass Zustandsänderungen deterministisch sind.<br />
In der Realität reicht die Produktion eines Regulatorproteins noch nicht aus, um zu<br />
gewährleisten, dass es die Regulatorfunktion auch sofort erfüllt. Dazu bedarf es noch anderer<br />
Faktoren, wie örtlicher Affinität zu den Genen und Konzentration des Proteins.<br />
Um auch diese Sachverhalte in bool’schen <strong>Netzwerke</strong>n simulieren zu können, erweitert man<br />
diese um die Möglichkeit pro Gen mehrere Funktionen anzugeben, die mit bestimmter<br />
Wahrscheinlichkeit angewandt werden.<br />
Die Abbildung zeigt ein stochastisches Bool’sches Netzwerk mit 3 Genen.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 22/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
5.2 GeneVis<br />
Ein anderer Ansatz zur Simulierung und <strong>Visualisierung</strong> von genetischen regulatorischen<br />
<strong>Netzwerke</strong>n kommt von einem Forscherteam der University of Calgary. Sie haben ein Tool<br />
namens GeneVis entwickelt, mit dem regulatorische <strong>Netzwerke</strong> im genetischen Bereich<br />
sowohl simuliert als auch visualisiert werden. Im Gegensatz zu den bool’schen <strong>Netzwerke</strong>n<br />
ermöglicht GeneVis, dass auch die örtliche Lage der Proteine und vor allem deren<br />
Konzentration Einfluss auf das dynamische Verhalten des Netzwerks nimmt.<br />
Dies wird erreicht, indem die Orte, an denen sich die Gene befinden fix sind und die Proteine<br />
sich frei in einem abgegrenzten Raum bewegen. Diese Bewegung ist zufällig.<br />
In diesem Screenshot von GeneVis<br />
sehen wir einen großen Kreis, der ein<br />
Chromosom darstellt und auf dem<br />
Gene liegen. Die kleinen bunten<br />
Punkte stellen die verschiedenartigen<br />
Proteine dar. Bei der Simulation wird,<br />
so wie bei den bool’schen <strong>Netzwerke</strong>n<br />
von diskreten Zeitpunkten<br />
ausgegangen. In jedem Schritt<br />
verändern sich die Positionen der<br />
Proteine und Gene werden aktiviert<br />
bzw. deaktiviert, je nach der<br />
Konzentration der Regulatorproteine in<br />
ihrer Umgebung. Diese Ansicht wird<br />
in GeneVis die Protein-<br />
Interaktionsansicht genannt. Meistens<br />
ist aber nicht die genaue Lage der<br />
Proteine relevant sondern nur ihre<br />
Konzentration in bestimmten<br />
Regionen. Deshalb bietet GeneVis<br />
auch eine Protein-Konzentrationsansicht, mit der nicht einzelne Protein, sondern nur<br />
Konzentrationen angezeigt werden.<br />
In diesem Bild sehen wir die<br />
Konzentration aller Proteine im<br />
Netzwerk. Es ist aber auch möglich die<br />
Konzentration nur <strong>für</strong> ein bestimmtes<br />
Protein anzuzeigen. Der Grad der<br />
Abstrahierung der Konzentration kann<br />
vom User eingestellt werden. Das heißt<br />
der User kann angeben, in wie weit<br />
GeneVis mehrere Proteine zu einer<br />
„Fläche“ zusammenfassen soll. Ein Wert<br />
von 50% würde hier bedeuten, dass 2<br />
Proteine zusammengefasst werden, ein<br />
Wert von 1,56%, dass 64 Proteine<br />
zusammengefasst werden.<br />
Die verschiedenen Ansichten können<br />
aber auch lokal unterschiedlich sein. Das<br />
heißt der User kann in bestimmten<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 23/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Bereichen des <strong>Netzwerke</strong>s die Konzentrationsansicht verwenden, in anderen die<br />
Interaktionsansicht. Dies wird über das Konzept der Fuzzy Lenses in GeneVis realisiert.<br />
Diese „Linsen“ dienen dazu einen bestimmten Bereich des <strong>Netzwerke</strong>s auszuwählen und dann<br />
eine der drei <strong>Visualisierung</strong>sarten (Konzentrationsansicht, Interaktionsansicht oder beides<br />
übereinander gelegt) auszuwählen. Auf diese Art und Weise ist es zum Beispiel möglich im<br />
Netzwerk eine schematische Konzentrationsansicht anzuzeigen, aber <strong>für</strong> ein bestimmtes Gen<br />
die genaue Interaktionsansicht herauszuzoomen.<br />
Neben den Fuzzy Lenses gibt es GeneVis noch ein zweites Linsenkonzept, und zwar das der<br />
Base Pair Lenses.<br />
Die Gene werden in GeneVis an die Stelle auf dem Chromosomkreis gezeichnet, an der sie<br />
sich auch in Wirklichkeit befinden. Das heißt Gene deren Basensequenzen nahe beieinander<br />
liegen, liegen auch in GeneVis nahe beieinander. Das kann zur Folge haben, dass sich die<br />
Kreise der Gene überlappen. Um das zu<br />
verhindern wurden die Base Pair Lenses<br />
eingeführt. Sie ermöglichen es bestimmte<br />
Kreissektionen auf Kosten anderer zu<br />
vergrößern. Das macht Sinn, weil es oft der<br />
Fall ist, dass bestimmte Kreissektionen fast<br />
keine Gene enthalten, während in anderen<br />
Sektionen sich Gene sogar überlappen. Die<br />
Abbildung zeigt wie die Kreissektion rechts oben gestreckt, und die Kreissektion links oben<br />
geschrumpft wird.<br />
Eine Schwäche der bisher präsentierten Konzepte ist, dass nicht klar ersichtlich ist, welche<br />
Gene andere Gene beeinflussen. Diese wichtige Information kann durch eine andere Art der<br />
<strong>Visualisierung</strong>, die ebenfalls in GeneVis inkludiert ist, veranschaulicht werden. Man geht<br />
dabei von der Vorstellung aus, dass die Gene eine Hierarchie bilden. Das heißt, dass<br />
bestimmte Gene gar nicht beeinflussbar sind, welche dann ganz oben in der Hierarchie stehen.<br />
Andere Gene sind nur von diesen höchsten Genen beeinflussbar usw. Natürlich ist diese<br />
Hierarchie nicht perfekt. Es können sowohl Interaktionen auf einer Hierarchieebene auftreten,<br />
als auch Regulation, die von einer niedrigeren auf eine höhere Ebene gerichtet ist. Die<br />
Entscheidung welche Gene sich auf welcher<br />
Hierarchieebene befinden ist daher nicht immer<br />
leicht und wird aufgrund von statistischen Daten<br />
getroffen. Da auch Interaktionen innerhalb einer<br />
Ebene möglich sind, ist die <strong>Visualisierung</strong> 3<br />
dimensional. Die Punktierten Ringe sind die<br />
Ebenen. Die bunten Linien stellen die<br />
Interaktionen zwischen den Genen dar. Die<br />
Farben haben folgende Bedeutungen: Eine<br />
Regulierung von einer höheren auf eine niedere<br />
Eben ist blau am Ausgangsort. Geht die<br />
Regulierung von einer niederen auf eine höhere<br />
Ebene, so ist die Linie am Ausgangsort<br />
magentafarben. Spielt sich die Regulierung<br />
innerhalb einer Ebene ab, dann ist sie am<br />
Ausgangsort gelb.<br />
Ist eine Linie am Ziel grün, dann induziert sie<br />
Genproduktion, sonst ist sie rot und hemmt die Genproduktion.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 24/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Um auch diese Ansicht noch übersichtlicher zu gestalten existiert das Konzept der Ring<br />
Lenses. Mit ihnen ist es möglich bestimmte Hierarchieebenen zu vergrößern um Details<br />
wahrnehmen zu können.<br />
6. Zusammenfassung<br />
Wir haben viele verschiedene <strong>Visualisierung</strong>sverfahren kennen gelernt. Allgemein kann man<br />
sagen, dass jedes dieser Verfahren in bestimmten Anwendungsbereichen Sinn macht. Sicher<br />
ist, dass die Informatik der Biochemie eine Fülle von Möglichkeiten zur Verfügung stellt, die<br />
ohne computerisierte Unterstützung wohl undenkbar wären.<br />
Der Einsatz von Technologien, die aus diesen Möglichkeiten folgen muss natürlich vor einem<br />
ethischen Hintergrund diskutiert werden. Ich will zum Abschluss einige Beispiele angeben,<br />
die zeigen, dass die biochemische Forschung auch Risiken mit sich bringt:<br />
− Genpatentierung<br />
− Prädikative Gentests (Die Gene ungeborener Kinder werden auf mögliche<br />
Krankheiten untersucht. Werden defekte Gene gefunden werden die Kinder oft nicht<br />
geboren. Ob die Krankheit jemals ausgebrochen wäre kann nie 100%ig eindeutig<br />
gesagt werden.<br />
− Recht auf Nichtwissen (Das Recht nicht wissen zu müssen, wie die eigenen Gene<br />
beschaffen sind)<br />
− Schutz von genetischen Daten<br />
− Klonproblematik<br />
− Stammzellenforschung<br />
Das sind bei weitem nicht alle heiklen Themen die die Erforschung unseres eigenen Erbgutes<br />
mit sich bringt. Man kann in diesem Zusammenhang nur hoffen, dass Zukunftsvisionen<br />
mancher Buchautoren (Huxley, Orwell…) nicht Realität werden.<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 25/26
<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />
Felix Schernhammer TU Wien<br />
Quellen:<br />
− Albert Lehninger „Prinzipien der Biochemie“ SBW-02017465 Walter de Gruyter<br />
Verlag 1987<br />
− C. Stan Tsai „An introduction to computational biochemistry” Wiley-Liss Verlag 2002<br />
− <strong>Visualisierung</strong>en wichtiger Biomoleküle http://www.biokurs.de/skripten/biomol1.htm<br />
− Steffen Noe und Wolfgang Müller TU Darmstadt „<strong>Visualisierung</strong> von<br />
molkularbiologischen und genetischen Daten“ http://eos.bio.tudarmstadt.de/steffen/report99.pdf.<br />
− M.L. Lantin, M.S.T Carpendale Simon Frase University “Supporting Detail-in-<br />
Context for the DNA Representation, H-Curves”<br />
http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/hcurves.pdf<br />
− Various articles on ChemDraw:<br />
http://chemnews.cambridgesoft.com/products.cfm?language=&group=products&keyw<br />
ord=2<br />
− pdb Format Beschreibung http://www-lehre.inf.uos.de/~okrone/DIP/node27.html<br />
− Chime Beschreibung und download<br />
http://www.mdl.com/products/framework/chime/index.jsp<br />
− Carsten Friedrich, Falk Schreiber „Visualisation and navigation methods for typed<br />
protein-protein interaction networks“<br />
http://bioconf.otago.ac.nz/papers/ABI-2-3-suppl-Friedrich.pdf<br />
− Adam Wright „Visualization of biological networks by Selective Reduction and Force<br />
Direction“ http://www.stanford.edu/~adamatw/graphs/bionets.pdf<br />
− Ulrik Brandes, Tim Dwyer, Falk Schreiber “Visualizing Related Metabolic Pathways<br />
in Two and a Half Dimensions”<br />
http://www.wilmascope.org/brandes03metabolicpathways.pdf<br />
− Atsushi Doi, Sachie Fujita, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano<br />
“Constructing biological pathway models with hybrid functional Petri nets”<br />
http://www.bioinfo.de/isb/2004/04/0023/<br />
− Atsushi Doi, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano “Hybrid Petri net<br />
representation of genetic regulatory network”<br />
http://www.smi.stanford.edu/projects/helix/psb00/matsuno.pdf<br />
− Alla H. und David R. “Continious and hybrid Petri nets“<br />
http://www.worldscinet.com/jcsc/08/0801/S0218126698000079.html<br />
− Ilya Shmulevich, Edward R. Dougherty, Wei Zhang “From Boolean to Probabilistic<br />
Boolean Networks as Models of Genetic Regulatory Networks”<br />
http://www2.mdanderson.org/app/ilya/Publications/ProcIEEEpbnsurvey.pdf<br />
− Ilya Shmulevich, Edward R. Dougherty, Wei Zhang, Seungchan Kim “Probabilistic<br />
Boolean networks: a rule based uncertainty model for genetic regulatory networks”<br />
http://www2.mdanderson.org/app/ilya/Publications/pbn1Bioinformatics.pdf<br />
− S.A. Kauffmann “Kaufmann’s NK Boolean networks”<br />
http://pespmc1.vub.ac.be/BOOLNETW.html<br />
− C.A.H Baker, M.S.T Carpendale, P. Prusinkiewicz, M.G Surette “GeneVis:<br />
Visualization Tools for Genetic Regulatory Network Dynamics”<br />
http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/2002/baker-carp-vis02.pdf<br />
<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 26/26