29.12.2013 Aufrufe

Visualisierung biochemischer Netzwerke - Arbeitsbereich für ...

Visualisierung biochemischer Netzwerke - Arbeitsbereich für ...

Visualisierung biochemischer Netzwerke - Arbeitsbereich für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong><br />

Seminararbeit im Rahmen des Seminars<br />

<strong>Visualisierung</strong> abstrakter Daten<br />

am Institut <strong>für</strong> Algorithmen und Datenstrukturen<br />

der technischen Universität Wien<br />

erstellt von Felix Schernhammer<br />

unter der Betreuung von Dr. Andreas Kerren<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 1/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Inhaltsverzeichnis<br />

Einleitung und Motivation ......................................................................................................... 3<br />

1. Biochemische Grundlagen: .................................................................................................... 4<br />

1.1. Die Proteinsynthese (Proteinbiosynthese)....................................................................... 4<br />

1.1.1. Die DNA als Bauplan <strong>für</strong> Proteine........................................................................... 4<br />

1.1.2 Produktion der Proteine............................................................................................. 5<br />

1.1.3 Die Regulation der Proteinsynthese .......................................................................... 8<br />

1.2 Andere biochemische Prozesse:....................................................................................... 8<br />

2. <strong>Visualisierung</strong> von Biomolekühlen:....................................................................................... 9<br />

2.1 <strong>Visualisierung</strong> von Sequenzen: ........................................................................................ 9<br />

2.2 2D <strong>Visualisierung</strong> von Molekülstrukturen..................................................................... 12<br />

2.3 3D <strong>Visualisierung</strong> von Biomolekülen............................................................................ 13<br />

3. Molekülinteraktionen ........................................................................................................... 14<br />

4. Metabolische Pfade .............................................................................................................. 18<br />

5. Regulatorische <strong>Netzwerke</strong> ................................................................................................... 21<br />

5.1 Bool’sche <strong>Netzwerke</strong> ..................................................................................................... 21<br />

5.2 GeneVis.......................................................................................................................... 23<br />

6. Zusammenfassung................................................................................................................ 25<br />

Quellen: .................................................................................................................................... 26<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 2/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Einleitung und Motivation<br />

Die Entschlüsselung des menschlichen Genoms darf als Meilenstein der zeitgeschichtlichen<br />

Forschung angesehen werden. Allerdings ergeben sich aus den Ergebnissen dieser<br />

Entschlüsselung keine direkt brauchbaren Ergebnisse. Denn auch wenn wir DNA Abschnitte<br />

sichtbaren Merkmalen zuordnen können, so ist es bereits viel schwieriger zu erklären wie der<br />

biochemische Weg von einer Abfolge von Basen zu einem bestimmten Merkmal ist. Diese<br />

(und andere) Fragen sind derzeit Gegenstand der Forschung. Das Problem reduziert sich im<br />

Wesentlichen darauf, zu erfassen was unsere körpereigenen Proteine tun und wie sie<br />

interagieren. Leider sind solche Interaktionsnetzwerke riesig und somit nicht durchschaubar.<br />

Die Lösung <strong>für</strong> dieses Problem sind geeignete <strong>Visualisierung</strong>sverfahren, die es den<br />

Biochemikern ermöglichen relevante Eigenschaften aus unüberschaubaren <strong>Netzwerke</strong>n<br />

herauszufiltern. Aber auch andere Aufgaben können mit <strong>Visualisierung</strong>stechniken erfüllt<br />

werden. Als Beispiel sei hier die Simulierung von dynamischen <strong>Netzwerke</strong>n <strong>für</strong> längere<br />

Zeiträume erwähnt.<br />

Diese Arbeit setzt es sich zum Ziel einen Überblick über derzeit gängige<br />

<strong>Visualisierung</strong>sstrategien im Bereich der Biochemie zu geben, und gegebenenfalls<br />

konkurrierende Ansätze zu vergleichen. Es werden dabei statische wie z.B.<br />

Molekülvisualisierung, und auch dynamische <strong>Visualisierung</strong>en betrachtet (z.B. regulatorische<br />

<strong>Netzwerke</strong>).<br />

Im ersten Kapitel erfolgt eine Einführung in die notwendigen biologischen Grundlagen. Ich<br />

beschränke mich hierbei auf den Vorgang der Proteinsynthese, weil er im Mittelpunkt des<br />

wissenschaftlichen Interesses steht. Es darf aber nicht vergessen werden, dass es viele andere<br />

biochemische Prozesse gibt.<br />

Die Nachfolgenden Kapitel stellen <strong>Visualisierung</strong>smethoden <strong>für</strong> verschiedne Arten von<br />

biochemischen <strong>Netzwerke</strong>n vor.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 3/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

1. Biochemische Grundlagen:<br />

1.1. Die Proteinsynthese (Proteinbiosynthese)<br />

1.1.1. Die DNA als Bauplan <strong>für</strong> Proteine<br />

Bekanntlich wird die gesamte Erbinformation jedes Lebewesens in Chromosomen<br />

gespeichert. In jeder Zelle (ein Mensch besteht aus ca. 60 Billionen Zellen) befindet sich eine<br />

identische Kopie dieser Chromosomen. Die Anzahl der Chromosomen variiert jedoch<br />

zwischen den Lebewesen (Mensch: 46). Nun sind alle Chromosomen Teile der DNA<br />

(Desoxyribonukleinsäure) und bestehen aus Genen, welche wiederum kleinere Abschnitte der<br />

DNA sind.<br />

Die DNA selbst besteht aus vier verschiedenen Basen (Adenin, Thymin, Cytosin und<br />

Guanin), deren Sequenz ausschlaggebend <strong>für</strong> die Erbinformation ist. Sie hat die Form einer<br />

gegenläufig verdrillten Doppelhelix. Die „Sprossen“ dieser Leiterstruktur sind die genannten<br />

Basen, die Holme bestehen aus Desoxyribose und Phosphatsäure, deren Hauptaufgabe darin<br />

besteht die vertikale Bindung des DNA Stranges aufrechtzuerhalten.<br />

Die Abbildung zeigt die <strong>Visualisierung</strong> eines DNA-<br />

Abschnitts mit dem Tool „MDL sculpt“ der Firma<br />

MDL (Molecular Design Limited). Das 3 dimensionale<br />

Bild kann beim Betrachten auch gedreht bzw.<br />

umformatiert werden. Dazu ist das frei erhältliche tool<br />

„chime“ derselben Firma notwendig.<br />

Die Farben stehen in diesem Bild <strong>für</strong> die Atome, die am<br />

Aufbau der DNA beteiligt sind:<br />

Orange: Phosphat<br />

Rot: Sauerstoff<br />

Grau: Kohlenstoff<br />

Blau: Stickstoff<br />

Wasserstoff würde aus Gründen der Übersichtlichkeit<br />

weggelassen.<br />

Die DNA besteht grob gesagt aus drei Bestandteilen:<br />

− Phosphorsäure (PO 4 ): Sie ist im Bild leicht<br />

erkennbar an den orangen Stellen. Man sieht<br />

auch sehr leicht, dass das Phosphoratom<br />

Bindungen mit 4 Sauerstoffatomen eingeht. Die<br />

Stelligkeiten der Bindungen sind in diesem Bild<br />

nicht erkennbar.<br />

− Zucker (Desoxyribose C 5 OH 7 ): Dieser Zucker ist namensgebend <strong>für</strong> die DNA und ist<br />

die Verbindung von Phosphatsäure und den organischen Basen (s.u.).<br />

− Organische Basen (die oben genannten Adenin, Thymin, Cytosin, Guanin). In die<br />

Sequenz dieser Basen ist der genetische Code des Lebewesens codiert. Es können sich<br />

immer nur zwei Basen verbinden, nämlich Adenin und Thymin, und Cytosin und<br />

Guanin. (diese werden durch Wasserstoffbrücken verbunden).<br />

Doch was genau codiert diese Sequenz von organischen Basen eigentlich? Es sind Strukturen<br />

von Proteinen. Proteine sind aus Aminosäuren aufgebaut, derer es 20 gibt. Die Sequenz dieser<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 4/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Aminosäuren sowie die Sekundärstruktur (räumliche Anordnung der Molekühle aufgrund<br />

physikalischer und chemischer Eigenschaften) und Tertiärstruktur (räumliche Anordnung der<br />

Moleküle um bestimmte Eigenschaften des Proteins zu erzielen) bestimmen welche<br />

Eigenschaften das Protein hat.<br />

Bevor wir nun auf die Synthese, also die Erzeugung von Proteinen eingehen, stelle ich einige<br />

Funktionen vor, die Proteine in unserem Körper erfüllen, damit offensichtlich wird, wie<br />

wichtig Proteine <strong>für</strong> den Menschen sind:<br />

− Enzyme: Sie werden als Katalysator <strong>für</strong> chemische Reaktionen benötigt. Fast alle<br />

biochemischen Vorgänge in unserem Körper benötigen bestimmte Enzyme um in<br />

Gang zu kommen. Es gibt zum Beispiel 20 verschieden Enzyme, die die Bindung von<br />

Aminosäuren an die verschiedenen t-RNAs (transfer RNA) katalysieren.<br />

− Transportproteine: Sie binden bestimmte Stoffe an sich und können sie durch den<br />

Körper transportieren. Ein Beispiel hier<strong>für</strong> wäre das Hämoglobin, das Sauerstoff in der<br />

Lunge an sich bindet und zu den peripheren Körperregionen transportiert.<br />

− Nährstoff- und Speicherproteine: die Samen vieler Pflanzenzellen speichern<br />

Nährstoffproteine, die <strong>für</strong> das spätere Wachstum essentiell sind. Ein weiteres Beispiel<br />

ist das Ferritin, das Eisen speichern kann.<br />

− Strukturproteine: Viele Proteine dienen als stützende Elemente um biologischen<br />

Strukturen Stabilität und Schutz zu verleihen. In Sehnen und Knorpel ist<br />

beispielsweise das Protein Collagen enthalten. Haare und Fingernägel bestehen u. a.<br />

aus Keratin.<br />

− Verteidigungsproteine: Sie schützen den Organismus vor dem Eindringen anderer<br />

Spezies oder bewahren ihn vor Verletzungen. Die Thrombozyten (Blutplättchen)<br />

beispielsweise verhindern Blutverlust bei Gefäßverletzungen. Leukozyten (weiße<br />

Blutkörperchen) verteidigen den Körper gegen Bakterien.<br />

− Regulatorische Proteine: Sie induzieren bzw. hemmen bestimmte Vorgänge im<br />

Körper. Sie spielen eine wichtige Rolle bei der Genregulation, und der <strong>Visualisierung</strong><br />

derselben mit GeneVis. Als Vertreter wäre hier u.a. das Insulin zu nennen, das den<br />

Zuckerstoffwechsel im Körper reguliert.<br />

− Sonstige: Es gibt noch viele Proteine, deren Eigenschaften nicht in die oben genannten<br />

Gruppe passen.<br />

1.1.2 Produktion der Proteine<br />

Um Proteine tatsächlich erzeugen zu können muss eine Kopie des betreffenden Gens erzeugt<br />

werden. Diese Kopie liegt als RNA vor und wird als m-RNA(messenger RNA) bezeichnet.<br />

(Der Vorgang des Kopierens wird als Transkription bezeichnet). Die m-RNA enthält also die<br />

Abfolge der Aminosäuren, die das entsprechende Protein charakterisiert. Da es nur 4 Basen,<br />

aber 20 Aminosäuren gibt, müssen pro Aminosäuren Codewörter verwendet werden, die<br />

mindestens 3 Zeichen (=Base) lang sein müssen. (weil 4 2 < 20


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

invers ist, dass die beiden eine Bindung eingehen können. Das Basentripel in der t-RNA wird<br />

deshalb auch Anticodon genannt. Wenn sich die t-RNA an die m-RNA bindet werden die<br />

Aminosäuren in räumliche Nähe gebracht und gehen Peptidbindungen ein, weshalb Proteine<br />

Polypeptide sind.<br />

Die Abbildung zeigt den gesamten Vorgang der Proteinsynthese. Die Peptidbindungen sind<br />

hier grün dargestellt. Die DNA speichert Informationen redundant, weil aus einem Strang der<br />

Andere eindeutig folgt. Die Bezeichnung codogener Strang bezieht sich nur darauf welcher<br />

Strang <strong>für</strong> die Transkription verwendet wird.<br />

Der eigentliche Vorgang der Proteinsynthese lässt sich nun in 5 Teile zerlegen:<br />

1. Aktivierung der Aminosäuren<br />

2. Initiation der Polypeptidkette<br />

3. Elongation<br />

4. Termination und Freisetzung<br />

5. Faltung<br />

Diese 5 Stufen werden unter<br />

dem Begriff Translation<br />

zusammengefasst.<br />

ad 1: Zuerst müssen die<br />

Aminosäuren an die<br />

entsprechenden t-RNAs<br />

gebunden werden. Das passiert<br />

in dieser Stufe, die im<br />

Gegensatz zu den anderen<br />

Stufen, die in den Ribosomen<br />

(Teil jeder Zelle) stattfinden,<br />

im Cytosol (wässrige Lösung,<br />

die sich im Zwischenraum der<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 6/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Zellorganellen befindet) stattfindet. Wie bereits erwähnt existiert bei diesem Vorgang <strong>für</strong> jede<br />

der 20 Aminosäuren ein eigenes Enzym, das diesen Vorgang katalysiert.<br />

Im Bild oben kann man die Struktur eines t-RNA Moleküls erkennen. Man sieht unten in<br />

gestricheltem Rahmen das Codon mit dazugehörigem Anticodon der m-RNA. Am 3’ Ende<br />

des Moleküls, oben im Bild, verbindet sich die RNA mit der entsprechenden Aminosäure. Die<br />

beiden Arme links und rechts spielen bei der Proteinsynthese keine Rolle. Auffällig im Bild<br />

ist noch, dass das Basentripel des Anticodons eine Säure mit dem Buchstaben I enthält. Diese<br />

Base heißt Inosin. Inosin kann sich mit drei verschiedenen Basen binden, und zwar Adenin,<br />

Cytosin und Uracil. (Uracil kommt ausschließlich in RNA vor, und ersetzt bei der<br />

Transkription die Base Thymin der DNA, die in RNAs nicht mehr vorkommt). Der Vorteil<br />

der sich ergibt wenn Inosin im Anticodon verwendet wird ist nun der Folgende:<br />

Es gibt 20 verschiedene Aminosäuren aber 64 mögliche Basentripel um diese zu codieren.<br />

Deshalb gibt es <strong>für</strong> eine Aminsäure mehrere gültige Basentripel. Und es ist dabei eine<br />

Rangordnung von der „most significant“ zur „least significant“ Base zu erkennen. Einige<br />

Aminosäuren sind nun allein durch die ersten beiden Basen bestimmt. An die dritte Stelle<br />

kommt sozusagen eine Wildcard, das Inosin. Der Vorteil in dieser Vorgangsweise ist der, dass<br />

die Verbindung von Inosin zu einer Base viel schwächer ist als die herkömmlichen<br />

Verbindungen und somit schneller wieder gelöst werden kann. (denn natürlich müssen t-RNA<br />

und m-RNA nach der Translation wieder getrennt werden). „Die biochemische Evolution hat<br />

demnach <strong>für</strong> die meisten Codon-Anticodon-Wechselwirkungen das Optimum an Genauigkeit<br />

und Geschwindigkeit gefunden“ ([Lehn] S. 985).<br />

ad 2: Zunächst wird in dieser Phase die<br />

m-RNA an das Ribosom gebunden.<br />

Dann wird die erste (initiierende)<br />

Aminosäure, die an der t-RNA „hängt“<br />

dazugefügt. Es gibt zu diesem Zweck ein<br />

Basentripel („Startcodon“), das den<br />

Anfang einer Polypeptidkette<br />

signalisiert.<br />

ad3: Nun wird jede weitere Aminosäure<br />

durch ihre t-RNA, die an das jeweilige<br />

Codon der m-RNA andockt, in<br />

räumliche Nähe zur vorangehenden<br />

Aminosäure gebracht, worauf diese beiden dann eine Peptidbindung eingehen. Dieser<br />

Vorgang wiederholt sich beliebig oft.<br />

ad 4: Die Termination der Elongation wird durch so genannte Nonsense Tripletts<br />

herbeigeführt. Der Name stammt aus den Anfängen der Erforschung der Proteinsynthese.<br />

Man erkannte nämlich nicht gleich die Bedeutung als Terminationscodons, sondern wunderte<br />

sich zunächst darüber, dass diese Sequenzen <strong>für</strong> keine Aminosäure kodieren. Es gibt drei<br />

verschiedene Nonsense Tripletts (UAA, UAG, UGA). Wird ein nun ein solches Triplett<br />

erreicht, löst sich die Polypeptidkette von der t-RNA und diese löst ihre Bindungen mit der m-<br />

RNA.<br />

ad 5: Nicht nur die Aminosäurensequenz ist <strong>für</strong> die Eigenschaften eines Proteins<br />

entscheidend, sondern auch die räumliche Struktur (Tertiärstruktur). In der letzten Phase wird<br />

durch Enzyme gewährleistet, dass das Protein die richtige räumliche Struktur erhält.<br />

(Primärstruktur: Aminosäurensequenz, Sekundärstruktur: räumliche Anordnung, die allein<br />

durch physikalische und chemische Eigenschaften der beteiligten Molekühle (z.B. Ladung)<br />

zustande kommt.)<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 7/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

1.1.3 Die Regulation der Proteinsynthese<br />

Bisher haben wir uns nur darüber Gedanken gemacht wie die Proteinsynthese funktioniert<br />

nicht aber, wie der Vorgang induziert bzw. beendet wird. Um den Bedarf an bestimmten<br />

Proteinen zu erfüllen muss die Produktion der Zellen kontrolliert werden. Diese Kontrolle der<br />

Proteinkontrolle wird unter dem Begriff Genregulation zusammengefasst. Im Wesentlichen<br />

ist die Produktion von Proteinen durch das Vorhandensein bzw. Nichtvorhandensein anderer<br />

oder derselben Proteinen abhängig. Zunächst gibt es sog. Induzierbare Enzyme. Die<br />

Konzentration solcher Enzyme in der Zelle kann variieren. Zum Beispiel können solche<br />

Enzyme die Aufgabe haben bestimmte Stoffe in der Zelle abzubauen, oder umzuwandeln. Die<br />

Anzahl der Enzyme hänge dann davon ab, wie viel von dem Ausgangsstoff (=Substrat)<br />

vorhanden ist. Ist eine große Menge des Substrats in der Zelle, so wird die Produktion von<br />

Enzymen, die den Stoff verarbeiten können induziert. Dieser Vorgang wird auch<br />

Substratinduktion genannt.<br />

Es gibt auch sog. Konstitutive Enzyme, deren Vorkommen in der Zelle konstant ist. Nur bei<br />

prokaryotischen Zellen (Zellen mit Zellkern, alle „höheren“ Lebewesen sind Prokaryoten. Das<br />

Gegenstück dazu sind Eukaryoten. Das sind einzellige Bakterien ohne Zellkern) ist auch eine<br />

Repression der Proteinsynthese möglich. Dabei wird analog zur Substratinduktion durch<br />

ausreichendes Vorhandenseins eines Produktes, das ein Enzym synthetisieren würde, die<br />

Produktion des Enzyms gehemmt.<br />

1.2 Andere biochemische Prozesse:<br />

Natürlich gibt es neben der Proteinsynthese noch eine Reihe anderer <strong>biochemischer</strong> Prozesse.<br />

Diese spielen in der Wissenschaft aber nur eine untergeordnete Rolle, weil Sie zumeist bereits<br />

hinreichend erforscht sind (z.B. Muskelaktivität).<br />

Das Hauptaugenmerk der biochemischen Forschung richtete sich in den letzten Jahren auf die<br />

Entschlüsselung des genetischen Codes des Menschen. Das heißt man versuchte<br />

herauszufinden welch Teile der DNA <strong>für</strong> Proteine codieren und welche nicht, (Teile, die <strong>für</strong><br />

Proteine kodieren werden Exons genannt, die anderen Introns.) und welche Exons <strong>für</strong> welche<br />

Merkmale verantwortlich sind. Die Entschlüsselung der DNA Sequenz an sich, die ja <strong>für</strong><br />

jeden Menschen eindeutig ist, ist bereits früher gelungen. Mit dieser Kenntnis des<br />

menschlichen Genoms wäre es nun möglich das menschliche Erbgut gezielt zu verändern<br />

(also Genmanipulation zu betreiben), was aber ethisch (noch) umstritten ist. Ganz im<br />

Gegensatz dazu steht die Genmanipulation von Bakterien. Sie kann dazu verwendet werden<br />

um Bakterien, bestimmte, <strong>für</strong> den Menschen nützliche, Stoffe produzieren zu lassen.<br />

Die derzeit ausgeübte Genmanipulation beschränkt sich darauf Gene, die in der Natur bereits<br />

vorkommen in andere Lebewesen „einzupflanzen“. Ein ganz anderer Ansatz ist hingegen die<br />

Proteine, die durch die DNA kodiert werden, an sich zu erforschen und zu versuchen <strong>für</strong><br />

bestimmte gewünschte Funktionalitäten die entsprechenden DNA Sequenzen zu finden. Auch<br />

in diese Richtung wird zur Zeit mehr oder weniger intensiv geforscht.<br />

Diese Arbeit wird sich in weiterer Folge mit der <strong>Visualisierung</strong> aller zur Erforschung der<br />

Proteinsynthese wichtigen Vorgänge beschäftigen. Zuerst wird die <strong>Visualisierung</strong> von<br />

Biomolekühlen behandelt. Darunter fallen die <strong>Visualisierung</strong> der DNA in den verschiedensten<br />

Ausprägungen, von der Sequenzvisualisierung bis zur zur 3D animierten <strong>Visualisierung</strong>.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 8/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

2. <strong>Visualisierung</strong> von Biomolekühlen:<br />

Im Wesentlichen existieren 3 verschieden Arten der <strong>Visualisierung</strong> von Biomolekülen. Zuerst<br />

die Eindimensionale, die vor allem zur <strong>Visualisierung</strong> von DNA und RNA verwendet wird<br />

und das Molekül als Sequenz von anderen Molekülen im Textformat darstellt. Um zusätzlich<br />

dazu die chemischen Verbindungen zwischen den Molekülen darzustellen, verwendet man 2-<br />

dimensionale Grafiken. Und um die räumliche Struktur der Teilchen zu veranschaulichen,<br />

verwendet man 3D Grafiken bzw. Animationen.<br />

2.1 <strong>Visualisierung</strong> von Sequenzen:<br />

Bei der Sequenzvisualisierung wird versucht die Sequenz eines Moleküls (sofern ein Molekül<br />

gut durch eine Sequenz beschrieben werden kann, was bei der DNA auf jeden Fall der Fall<br />

ist) durch eine Folge von Buchstaben zu visualisieren. Im Falle der DNA sind das nur 4<br />

Buchstaben (nämlich die der vier Basen). Will man jedoch zum Beispiel die<br />

Aminosäurensequenz eines Proteins visualisieren sind bereits mehrere Buchstaben nötig.<br />

Eines der Standardtools zur Sequenzvisualisierung ist SeqLab (Accelry’s). Es bietet neben der<br />

reinen <strong>Visualisierung</strong> der Sequenz die Möglichkeit Teilbereiche farblich hervorzuheben.<br />

In dieser Abbildung sind die Sequenzen einiger Proteine abgebildet. Es ist hier zu beachten,<br />

dass nicht jede der 20 Aminosäuren eine eigene Farbe hat, sondern die Aminosäuren nach<br />

bestimmten Kriterien gruppiert werden.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 9/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Der Grund warum die Sequenzvisualisierung aber von solch großer Bedeutung ist, ist nicht<br />

die Tatsache, dass man aus dieser Buchstabenrepräsentation einen besonders guten Eindruck<br />

über das Aussehen eines Proteins bekommt, sondern, dass aufgrund solcher <strong>Visualisierung</strong><br />

und mithilfe der <strong>Visualisierung</strong>stools Homologievergleiche angestellt werden können.<br />

Es werden also verschieden Strukturen auf Ähnlichkeiten hin untersucht. Auf diese Weise ist<br />

es möglich bestimmte Aminosäurensequenzen bestimmter Proteine mit einer ganz<br />

spezifischen Funktion des Proteins in Verbindung zu bringen und dadurch ein noch<br />

gezielteres Wissen darüber zu erhalten wo<strong>für</strong> DNA Teilabschnitte verantwortlich sind. Mit<br />

diesem Wissen wäre es dann auch möglich eigene Gene zu kreieren, die ganz spezifische<br />

Funktionen erfüllen.<br />

Die Technik des Homolgievergleichs wird auch dazu verwendet die Funktion unbekannter<br />

Sequenzen durch Findung homolger Teilsequenzen zu beschreiben.<br />

SeqLab bietet u.a. die Möglichkeit einer Kodierung von einzelnen Elementen oder<br />

Teilsequenzen durch graphische Objekte vorzunehmen. Dies kann dazu verwendet werden<br />

auftretende Homologien <strong>für</strong> den Menschen leicht ersichtlich zu machen.<br />

In dieser Grafik werden mehrere Proteine gezeigt, deren Merkmale graphisch kodiert wurden.<br />

Auf diese Weise ist ihre Ähnlichkeit offensichtlich.<br />

Ein anderer Zugang zur Sequenzvisualisierung, der von M.L. Lantin und M. S. T. Carpendale<br />

beschrieben wird, ist die Sequenzvisualisierung mittels H-Kurven. Dieser Zugang ist nur zur<br />

<strong>Visualisierung</strong> von DNA und RNA sinnvoll, da bei zu vielen verschiedenen<br />

Sequenzelementen das Ergebnis unlesbar ist.<br />

Die <strong>Visualisierung</strong> spielt sich in einem zur <strong>Visualisierung</strong> geeigneten 3-dimensionalen<br />

Vektorraum ab. In diesem wählt man ein Erzeugendensystem, das so viele Vektoren<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 10/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

beinhaltet, wie es verschiedene Sequenzelemente gibt. Im Falle der DNA wären das die Basen<br />

ACTG, also wird ein 4-elementiges Erzeugendensystem eines 3 dimensionalen Vektorraums<br />

benötigt. Dieses könnte zum Beispiel so aussehen:<br />

Die Sequenzvisualisierung wird nun durch einen Linienzug verwirklicht, der an dem Punkt<br />

(0,n,0) beginnt. „n“ steht hierbei <strong>für</strong> die Anzahl der Basen, die man visualisieren möchte. Die<br />

vertikale Änderung jedes der Basisvektoren beträgt 1. Zur Illustration betrachte man das<br />

Beispiel der Sequenz ACT. Der Ausgangspunkt ist hier (0, 3, 0).<br />

Der Vorteil bei dieser Art der <strong>Visualisierung</strong> besteht vor allem darin, statistische<br />

Informationen visualisieren zu können. Aus diesem Grund besteht auch die Möglichkeit die<br />

Kurve zu glätten, um globale Basenkonzentrationen besser sehen zu können, und Lokale zu<br />

vernachlässigen. Es ist aber auch leicht möglich durch Projektionen auf eine der drei durch<br />

die Koordinatenachsen aufgespannten Ebenen bestimmte Informationen abzulesen. Projiziert<br />

man in unserem Beispiel auf die Ebene, die durch die Koordinatenachsen y und z aufgespannt<br />

wird, so kann man die Konzentration von Purinbasen (Adenin und Guanin) und<br />

Pyrimidinbasen (Cytosin und Thymin (und Uracil)) sehen.<br />

<strong>Visualisierung</strong> der Sequenz ACT<br />

Projektionen auf die Koordinatenebenen<br />

Man kann im zweiten bild der rechten Grafik leicht erkennen, dass in unserem Beispiel die<br />

Purinbasen überwiegen. Natürlich arbeitet man in der Praxis mit viel größeren Sequenzen.<br />

Dabei ist es nützlich Farben zur besseren Übersichtlichkeit zu verwenden. Es gibt hier<br />

unterschiedliche Möglichkeiten die Farbe als zusätzliche Dimension einzubinden. Die<br />

einfachste Möglichkeit ist den Vektor jeder Base, in einer spezifischen Farbe darzustellen.<br />

Eine zweite Möglichkeit ist Exons, das heißt Gene, farblich hervorzuheben. Dazu noch je ein<br />

Beispiel:<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 11/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Im linken Bild kann man die farbliche Hervorhebung der einzelnen Basen erkennen. Im<br />

rechten Bild werden die Gene hervorgehoben. Man erkennt hier auch noch die Möglichkeit<br />

Bereiche herauszuzoomen, um Basensequenzen einzelner Gene genauer zu betrachten.<br />

2.2 2D <strong>Visualisierung</strong> von Molekülstrukturen<br />

In diesem nächsten Schritt der Molekülvisualisierung wird die Betrachtung um eine<br />

Dimension erweitert. Diese Dimension ist die Verbindung zwischen den Atomen bzw.<br />

Molekülen, die in Stufe 1 die Sequenz gebildet haben. Die räumliche Anordnung spielt<br />

hierbei noch eine untergeordnete Rolle, vielmehr ist wichtig zwischen welchen funktionalen<br />

Atomgruppen Bindungen auftreten.<br />

Die Firma CambridgeSoft stellt ein Tool namens ChemDraw zur Verfügung mit dem solche<br />

2-dimensionalen Strukturen visualisiert werden können.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 12/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Das sind einige <strong>Visualisierung</strong>en, die mit<br />

ChemDraw erstellt wurden.<br />

Ein weiteres sehr ähnliches Tool ist ISIS<br />

Draw von MDL (s.o.).<br />

2.3 3D <strong>Visualisierung</strong> von Biomolekülen<br />

Durch 3D <strong>Visualisierung</strong>en kann die tatsächliche räumliche Struktur von Molekülen<br />

visualisiert werden. Zum einen ergibt sich diese Struktur durch Kräfte, die zwischen den<br />

Molekülen bzw. Atomen wirken. Die Struktur, die durch diese Kräfte (z.B. Van der Waals<br />

Kräfte) entsteht ist von minderem Interesse <strong>für</strong> die Wissenschaft, weil durch sie meist keine<br />

neuen Eigenschaften des Moleküls gebildet werden. Zum anderen werden bestimmte<br />

Moleküle so geformt, dass sie durch eben diese Form zusätzliche Eigenschaften erhalten. (vgl.<br />

Tertiärstruktur von Proteinen (s.o.))<br />

3D <strong>Visualisierung</strong>en können natürlich aus den oben genannten 2D <strong>Visualisierung</strong> mittels der<br />

Plugins ADD/3D <strong>für</strong> ISIS Draw und Chem 3D <strong>für</strong> ChemDraw erzeugt werden. Das<br />

Standardverfahren um Moleküle 3-dimensional zu visualisieren ist allerdings das erzeugen<br />

eines .pdb Files. In diesen Files wird jedes Atom mit den dazugehörigen Koordinaten im 3-<br />

dimensionalen Raum (und zusätzlichen Eigenschaften (u.a. Ladung)) gespeichert. Es gibt nun<br />

mehrere Tools, die in der Lage sind aus solchen Dateien 3D <strong>Visualisierung</strong> zu erzeugen. Zwei<br />

der bekanntesten sind Chime von MDL und das Freeware-Tool RasMol von Roger Sayle.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 13/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

<strong>Visualisierung</strong> eines Viagra Moleküls mit dem Tool Chime von MDL mit einem Ausschnitt<br />

aus dem dazugehörigen pdb File.<br />

3. Protein Protein Interaktionen<br />

Natürlich ist die statische <strong>Visualisierung</strong> von Molekülen <strong>für</strong> viele Aufgabenstellung in der<br />

Biochemie unzureichend. Wichtiger als die Struktur der Moleküle ist deren Interaktion. In der<br />

Literatur ist der Begriff der Protein-Proteininteraktion gebräuchlich, da an fast allen<br />

chemischen Prozessen, die innerhalb von Zellen ablaufen, Proteine beteiligt sind. Diese<br />

Protein-Proteininteraktionen sind <strong>für</strong> das Verständnis der biochemischen Vorgänge in allen<br />

Organismen essentiell. Deshalb steht auch ihre <strong>Visualisierung</strong> im Mittelpunkt des<br />

wissenschaftlichen Interesses. Bei der <strong>Visualisierung</strong> solcher <strong>Netzwerke</strong> stehen vor allem die<br />

physikalischen Interaktionen der Proteine im Vordergrund. Im Gegensatz dazu stehen bei der<br />

<strong>Visualisierung</strong> von metoblischen Wegpfaden (seihe Kapitel 4), an denen ebenfalls fast immer<br />

Proteine beteiligt sind, die chemischen Vorgänge und Zwischenprodukte im Vordergrund.<br />

Die erste und intuitivste Art der <strong>Visualisierung</strong> ist die der Protein-Protein interaction<br />

maps. Eine solche map ist ein Graph dessen Knoten die Proteine (bzw. andere Stoffe)<br />

darstellen und dessen Kanten die Interaktionen sind. Für die Interaktionen gibt es<br />

normalerweise Klassifizierungen. Diese werden aber oft aus verschiedenen Gründen<br />

(Unübersichtlichkeit im Graph, Nichtkenntnis…) weggelassen. Für das Zeichnen des Graphen<br />

werden üblicherweise Algorithmen <strong>für</strong> das force directed graph drawing verwendet. Das<br />

heißt es wird angenommen, dass sich alle Knoten abstoßen und die Kanten Federn darstellen<br />

(also je zwei verbundene Knoten aneinander ziehen). (daher ist auch der Name spring<br />

algorithm (spring = engl. Feder) in der Literatur gebräuchlich). Es wird dann versucht einen<br />

Zustand mit einem möglichst niedrigen Energieniveau zu finden. Auf diese Art und Weise<br />

wird gewährleistet, dass Knoten die durch Kanten verbunden sind, auch räumlich nahe<br />

beieinander liegen.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 14/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

In dieser Abbildung sehen wir eine PPI map. Die Nachteile dieser <strong>Visualisierung</strong>smethode<br />

sind auf den ersten Blick offensichtlich. In dieser Ansicht sind weder die Proteinnamen noch<br />

die Interaktionen nahe am Zentrum zu erkennen. Es gibt hier keine<br />

Interaktionsklassifikationen. Würde man diese hinzufügen, so wäre die Grafik noch<br />

unübersichtlicher.<br />

Ein Versuch bestimmte Daten aus einem PPI Netzwerk herauszufiltern stammt von Carsten<br />

Friedrich und Falk Schreiber (University of Sydney und Bioinformatics Centre Gatersleben<br />

Deutschland). Sie versuchen alle Interaktionen eines bestimmten Typs zu visualisieren,<br />

während alle Interaktionen anderer Typen in den Hintergrund treten. Dies geschieht, indem<br />

ein virtueller Ring gezeichnet wird, in dessen Innerem alle Knoten sind, die an Interaktionen<br />

des gewählten Typs beteiligt sind. Alle anderen Knoten liegen außerhalb. Natürlich sind die<br />

Positionen der Knoten, wenn sie außerhalb des Kreises liegen bei einem Wechsel des<br />

relevanten Interaktionstyps fix. Außerdem wird der Wechsel zwischen zwei Graphen, die<br />

unterschiedliche Interaktionstypen fokussieren animiert vollzogen. Die beiden<br />

Wissenschaftler behaupten, dass dadurch der Benutzer einen besseren Überblick über den<br />

gesamten Graph erhält.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 15/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Zwei PPI <strong>Netzwerke</strong> visualisiert mit dem Verfahren von Carsten Friedrich und Falk Schreiber<br />

Einen sehr viel versprechenden Ansatz stellt Adam Wright von der Stanford University vor.<br />

Er entwickelte eine Reihe von Programmen zur Extrahierung der relevanten Daten aus einem<br />

metabolischen Netzwerk. Er geht dabei von der Idee aus, dass vor allem jene Knoten im<br />

Netzwerk von großer Relevanz sind, die viele Verbindungen mit anderen Knoten aufweisen.<br />

Die Extraktion läuft in diesem Modell in drei Phasen ab:<br />

− Beschreibung der Daten im<br />

Gesamtnetzwerk: Hier wird <strong>für</strong> jeden<br />

Knoten im Graph der Hin- und<br />

Weggrad gespeichert. Die Abbildung<br />

zeigt am Beispiel des <strong>Netzwerke</strong>s<br />

von der vorangehenden Seite<br />

(Germbakterium), dass die Anzahl<br />

der Knoten mit sehr großem Grad<br />

verhältnismäßig klein ist. Die Kurve,<br />

die den Interaktionsgrad beschreibt<br />

ähnelt dem Funktionsgraf einer<br />

exponentiellen Funktion. Diese Tatsache ist typisch <strong>für</strong> metabolische <strong>Netzwerke</strong>,<br />

weswegen der hier beschriebene <strong>Visualisierung</strong>sansatz in der Praxis oft eingesetzt<br />

werden kann.<br />

− Im zweiten Schritt werden die Knoten ausgewählt, die visualisiert werden sollen. Das<br />

kann auf zwei Arten passieren.<br />

1. Es wird ein Wahrscheinlichkeitsmodell benutzt, um die höchstgradig verbundenen<br />

Knoten auszuwählen. Dabei wird auch darauf geachtet, dass die Kantengewichte<br />

zwischen den jetzt verbleibenden Knoten gering sind. z.B.: Ein Knoten, der zwar<br />

hochgradig mit anderen Knoten verbunden ist, aber weit weg vom Zentrum liegt,<br />

ist <strong>für</strong> de <strong>Visualisierung</strong> nicht so interessant wie ein Knoten, der zwar nicht so<br />

stark verknüpft ist, dessen Nachbarn aber wieder hohe Grade besitzen.<br />

2. Die zweite Möglichkeit ist, dass der Benutzer einen oder mehrere Knoten von<br />

Interesse auswählt und dann ausgehend von den gewählten Knoten, alle Knoten,<br />

die mit diesen in Verbindung stehen visualisiert werden. Diese Art der<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 16/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Knotenauswahl ist besonders hilfreich wenn Wissenschaftler die Funktion<br />

bestimmter Proteine herausfinden möchten (was einen großen Teil der<br />

biochemischen Forschung ausmacht), weil im entstehenden Graph einfach<br />

abzulesen ist, mit welchen anderen Stoffen das Protein interagiert.<br />

− Der dritte Schritt ist die <strong>Visualisierung</strong> der in Stufe 2 gewonnen Resultate. Hierbei<br />

sind die üblichen Probleme bei der Graphenvisualisierung zu beachten (möglichst<br />

kleine <strong>Visualisierung</strong>sfläche, wenig Kantenkreuzungen, Knoten sollen möglichst weit<br />

entfernt sein, Kanten sollen Länge entsprechend ihrem Gewicht haben). Um diese<br />

Kriterien zu erfüllen wird das schon besprochene force directed graph drawing<br />

verwendet.<br />

Die Abbildung gibt einen Überblick über die 3 Phasen im Modell von Adam Wright.<br />

Fettgedruckt sind jeweils die Namen der Programme, die die entsprechenden Schritte<br />

ausführen können. Der erste <strong>Visualisierung</strong>sschritt (el2dot) ist nur eine Konvertierung interner<br />

Formate, und wurde daher in der Auflistung oben übergangen.<br />

Hier ein Ergebnis der Reduktion durch Auswahl der höchstgradigen Knoten am Beispiel des<br />

Germbakteriums (siehe 2 Seiten davor).<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 17/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

4. Metabolische Pfade<br />

Wie bereits im vorigen Kapitel erwähnt beschreiben metabolische Pfade chemische<br />

Reaktionsfolgen. Die dabei entstehenden Zwischenprodukte werden Metaboliten genannt.<br />

Formal sind metabolische Pfade so definiert: Ein metabolischer Pfad (metabolic Pathway) ist<br />

eine Abfolge chemischer Reaktionen mit folgenden Eigenschaften:<br />

− Jedes Molekül, das auf dem Pfad liegt unterscheidet sich von allen anderen Molekülen<br />

auf demselben Pfad<br />

− Jedes Substrat wird in eine Substanz umgewandelt, die <strong>für</strong> die folgende Reaktion als<br />

Ausgangsstoff dient. Dies gilt natürlich nicht <strong>für</strong> die letzte Reaktion, in der das<br />

Endprodukt der Gesamtreaktion erzeugt wird<br />

− Die Reaktionsfolge ist in eine Richtung gerichtet und in den meisten Fällen<br />

irreversibel.<br />

− Die Gesamtreaktion benötigt mehrere Enzyme, die verschiedene Funktionen erfüllen.<br />

Man unterscheidet zwischen anabolischen und catabolischen Pfaden. Anabolische Pfade sind<br />

Reaktionen, bei denen aus einfachen Molekülen komplex Strukturierte synthetisiert werden.<br />

Dazu muss Energie zugeführt werden (ATP). Catabolische Pfade sind Reaktionen, bei denen<br />

aus komplexen Molekülen Einfachere erzeugt werden. Dabei wird Energie in Form ATP frei.<br />

Auf den ersten Blick könnte man nun sagen, dass man alle catabolischen Reaktionen<br />

beschreiben kann, wenn man die inversen Reaktionen der Anabolischen betrachtet. Das ist<br />

aber im Allgemeinen nicht richtig, weil in jedem metabolischen Pfad eine Reaktion<br />

vorkommen muss, die irreversibel ist.<br />

Die einfachste Weise einen solchen metabolischen Pfad zu visualisieren, ist durch eine<br />

gerichteten Graphen bzw. Hypergraphen. (i.e. Graph bei dem die Bedingung, dass eine Kante<br />

genau zwei Knoten verbinden muss nicht gilt. Eine Kante kann also auch mehrere Knoten<br />

verbinden) Hierbei gibt es zwei Möglichkeiten. Einerseits kann man die Zwischenprodukte<br />

durch die Knoten darstellen, andererseits kann man die Reaktionen an sich durch die Knoten<br />

darstellen. Im ersteren Fall stellen die Kanten die Reaktionen dar im zweiten Fall die<br />

Substanzen, die zum Triggern der Teilreaktionen benötigt bzw. produziert werden. Eine<br />

Verbindung dieser zwei Möglichkeiten stellt eine Repräsentation der Pfade durch Petri-Netze<br />

dar. Hier sind sowohl Reaktionen, als auch Substrate Knoten und die Kanten setzt diese in<br />

Beziehung. Es ist hier erwähnenswert, dass in einem solchen Petri-Netz nur Substratknoten<br />

mit Reaktionsknoten verbunden werden dürfen. Es darf also keine direkte Beziehung<br />

zwischen zwei gleichartigen Knoten geben, was der Definition von metabolischen<br />

<strong>Netzwerke</strong>n sehr gut entspricht.<br />

Ein <strong>Visualisierung</strong>sansatz, der in diese Richtung geht kommt von einem Forschungsteam der<br />

Yamaguchi Universität Japan und der University of Tokio. Sie stellen hybrid funktionale Petri<br />

Netze vor.<br />

Hybride Petri Netze wurden schon von Hassane Alla und René David vom Laboratoire<br />

d'Automatique de Grenoble vorgestellt. Dabei wird das herkömmliche Petri Netz um folgende<br />

Aspekte erweitert:<br />

− Den Substratknoten wird ein nichtnegativer reeller Zahlenwert zugewiesen. Auf diese<br />

Weise ist es möglich nicht nur das bloße Vorhandensein oder Nicht-Vorhandensein<br />

eines Stoffes darzustellen, sondern auch dessen Konzentration. Das ermöglicht auch<br />

die Erweiterung der Darstellung um stochastische Elemente.<br />

− Auch den Reaktionsknoten werden reelle Werte zugewiesen. Diese Werte geben die<br />

Zeitintervalle an, nach denen die Reaktion feuert (d.h. den Abschluss ihrer<br />

Ausführung an alle Nachfolger weiterleitet). Das Feuern ist hierbei unabhängig von<br />

der Konzentration des Substrats <strong>für</strong> diese Reaktion.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 18/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

− Weiters führt man 3 Arten von Pfeilen ein, die alle mit einem Gewicht w versehen<br />

sind: Erstens gibt es ganz normale Pfeile, sie bewirken, dass w Einheiten eines<br />

Substrats einem Vorgang zugeführt werden bzw. dass w Einheiten von einem Vorgang<br />

zu einem Substratknoten hinzugefügt werden. Zweitens gibt es so genannte<br />

Repressorpfeile (inhibitory arcs), die es Reaktionen ermöglichen nur dann zu feuern,<br />

wenn im Substratknoten weniger als w oder w Einheiten des Substrats vorhanden sind.<br />

Drittens gibt es Testpfeile. Sie überprüfen beispielsweise, ob Substrat in einem Knoten<br />

vorhanden ist und veranlassen den nachfolgenden Reaktionsknoten zu feuern, ohne<br />

Substrat des Ausgangsknoten zu konsumieren.<br />

Das sind die graphischen Symbole <strong>für</strong> die oben<br />

beschriebenen Bestandteile eines hybriden Petri-<br />

Netzes. Diskrete Substrate (in diesem Bild allg.<br />

places) und Reaktionen (transitions) sind<br />

kontinuierlich mit Wert 1.<br />

Die oben genannten japanischen Wissenschaftler erweitern diese hybriden Petri Netze noch<br />

um die Möglichkeit die Feuergeschwindigkeit der Reaktionen als Funktion der<br />

Substratkonzentration in den Quellsubstratknoten festzusetzen. Knoten mit dieser Eigenschaft<br />

werden als “functional continious transitions“ bezeichnet.<br />

Die Informationen, die nötig sind um einen solchen Graphen zu zeichnen, werden tabellarisch<br />

angegeben. Genauer gesagt sind alle Informationen mit einer Liste der Substratknoten und<br />

einer Liste der Reaktionsknoten hinreichend bestimmt. Dazu sind folgende Angaben <strong>für</strong> jede<br />

Reaktion nötig:<br />

− Name des Knotens<br />

− Typ des Knotens (diskret oder kontinuierlich)<br />

− Falls kontinuierlich. Zeitintervalle zwischen dem feuern.<br />

− Quelle(n) der eintreffenden Pfeile<br />

− Gewichte dieser Pfeile<br />

− Typ der eintreffenden Pfeile (normal, Repressorpfeil, Testpfeil)<br />

− Ziel der ausgehenden Pfeile<br />

− Gewicht dieser ausgehenden Pfeile<br />

Die obige Abbildung zeigt einen Ausschnitt aus einer Tabelle mit Beschreibungen der<br />

Reaktionen<br />

Für die Substratnoten sind folgende Angaben nötig:<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 19/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

− Name<br />

− Variable (über diese können Substratknoten in der Reaktionstabelle referenziert<br />

werden)<br />

− Initialwert<br />

Aus diesen Informationen kann ein entsprechendes Petri Netz gezeichnet werden. Zur<br />

<strong>Visualisierung</strong> dieser Information kann ein Tool verwendet werden, dass ebenfalls von diesen<br />

japanischen Wissenschaftlern entwickelt wurde. Sein Name ist GON (Genomic Object Net).<br />

GON arbeitet mit den eben vorgestellten erweiterten Petri Netzen. Zusätzlich bietet es noch<br />

die Möglichkeit jeden Knoten im Petri Netz durch entsprechende biologische Symbole zu<br />

ersetzten, um die Lesbarkeit noch weiter zu erhöhen.<br />

Screenshot von GON<br />

Ausschnitt aus der <strong>Visualisierung</strong> eines metabolischen Pfades mit einem erweiterten Petri<br />

Netz<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 20/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

5. Regulatorische <strong>Netzwerke</strong><br />

Ein Sonderfall der metabolischen <strong>Netzwerke</strong> sind die regulatorischen <strong>Netzwerke</strong>. Von diesen<br />

sind vor allem die <strong>Netzwerke</strong> interessant, welche die Regulierung der Genaktivität<br />

beschreiben. Bei der Genregulation (siehe Kap 1) wird die Eiweißproduktion dadurch<br />

reguliert, dass das Vorhandensein bestimmter Proteine (sog. Regulatorproteine) darüber<br />

entscheidet, ob ein Gen Proteine produziert oder nicht. (natürlich produziert ein Gene keine<br />

Proteine. Die Proteinsynthese wird hier abstrahiert (siehe Kap 1)) Diese Proteine können dann<br />

entweder wieder Regulatorproteine sein, oder entsprechende funktionale Proteine.<br />

Der erste <strong>Visualisierung</strong>sansatz kann von der Pfadvisualisierung übernommen werden. Es<br />

handelt sich um eine <strong>Visualisierung</strong> mittels Petri Netzen. Man benutzt Gene und Proteine <strong>für</strong><br />

die zwei Knotentypen und die Kanten stellen deren Beziehung dar. Auch die oben<br />

beschriebenen Erweiterungen machen auch bei regulatorischen <strong>Netzwerke</strong>n (oder teilweise<br />

auch nur bei solchen) Sinn.<br />

5.1 Bool’sche <strong>Netzwerke</strong><br />

Dieser <strong>Visualisierung</strong>sansatz bietet gute Erkenntnisse über das dynamische Verhalten eines<br />

regulatorischen <strong>Netzwerke</strong>s. Zur Vereinfachung wird die Zeit nicht kontinuierlich behandelt,<br />

sondern es werden immer synchrone Zustandsänderungen vollzogen. Das heißt zu bestimmten<br />

Zeitpunkten ändern alle Gene ihr Expressionsverhalten gemäß der jeweiligen Konzentration<br />

von Regulatorproteinen in ihrer Nähe.<br />

Die Gene selbst sind Knoten, die nur die Werte 1 (Gen „produziert“ Protein) und 0 (Gen<br />

„produziert“ kein Protein) annehmen können. Für jedes Gen ist weiters eine bestimmte<br />

Funktion gegeben, die angibt wie sich das Expressionsverhalten im nächsten Timeslot ändert.<br />

Diese Funktion hängt vom Expressionsverhalten bestimmter anderer Gene im aktuellen<br />

Timeslot ab. Dadurch entstehen Zustände, die durch ein n-Tupel von 0en und 1en beschrieben<br />

werden können, wenn die Anzahl der Gene n ist. Es gibt maximal 2 n Zustände, die man leicht<br />

in einen gerichteten Graphen zeichnen kann. Da aber der Prozess der Regulation theoretisch<br />

endlos läuft muss es Kreise in diesem Graph geben. Knoten, die sich innerhalb solcher Kreise<br />

befinden heißen Attraktoren.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 21/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Die Abbildung zeigt ein solchen Zustandsgraphen. Attraktoren sind in dieser Abbildung die<br />

Knoten „00000“, „00100“, „11110“, „11010“, „10011“ und „11111“. Es gibt in diesem<br />

Beispiel also 5 Gene. Die entsprechenden Funktionen sind der Tabelle zu entnehmen.<br />

f i ist hier die Funktion <strong>für</strong> den Knoten i. Im Allgemeinen sind<br />

nicht alle Gene <strong>für</strong> das Expressionsverhalten eines Genes im<br />

nächsten Timeslot relevant. Welch Gene hier Relevanz <strong>für</strong> den<br />

jeweiligen Knoten besitzen zeigen die Werte bei j i an. Also die<br />

Werte 5,2,4 bei der Funktion f 1 geben an, dass Gen 1 von<br />

diesen anderen Genen abhängig ist.<br />

Da jedes Gen nur von 3 Variablen abhängig ist, reichen 8<br />

Werte, die angeben wie sich das Gen bei allen Konstellationen<br />

dieser Variablen verhalten. Der oberste Wert gehört also zur<br />

Variablenbelegung 000 der nächste zu 001, 010, 011 usw. Die<br />

erste Variable ist in diesem fall Gen 5, die Zweite Gen 2 und<br />

die Dritte Gen 4. Auf diese Art und Weise ist das Netzwerk<br />

hinreichend bestimmt.<br />

Der einzige variable Faktor in dieser Simulation ist hier noch der Startzustand.<br />

Der Nachteil dieser Art der <strong>Visualisierung</strong> ist, dass Zustandsänderungen deterministisch sind.<br />

In der Realität reicht die Produktion eines Regulatorproteins noch nicht aus, um zu<br />

gewährleisten, dass es die Regulatorfunktion auch sofort erfüllt. Dazu bedarf es noch anderer<br />

Faktoren, wie örtlicher Affinität zu den Genen und Konzentration des Proteins.<br />

Um auch diese Sachverhalte in bool’schen <strong>Netzwerke</strong>n simulieren zu können, erweitert man<br />

diese um die Möglichkeit pro Gen mehrere Funktionen anzugeben, die mit bestimmter<br />

Wahrscheinlichkeit angewandt werden.<br />

Die Abbildung zeigt ein stochastisches Bool’sches Netzwerk mit 3 Genen.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 22/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

5.2 GeneVis<br />

Ein anderer Ansatz zur Simulierung und <strong>Visualisierung</strong> von genetischen regulatorischen<br />

<strong>Netzwerke</strong>n kommt von einem Forscherteam der University of Calgary. Sie haben ein Tool<br />

namens GeneVis entwickelt, mit dem regulatorische <strong>Netzwerke</strong> im genetischen Bereich<br />

sowohl simuliert als auch visualisiert werden. Im Gegensatz zu den bool’schen <strong>Netzwerke</strong>n<br />

ermöglicht GeneVis, dass auch die örtliche Lage der Proteine und vor allem deren<br />

Konzentration Einfluss auf das dynamische Verhalten des Netzwerks nimmt.<br />

Dies wird erreicht, indem die Orte, an denen sich die Gene befinden fix sind und die Proteine<br />

sich frei in einem abgegrenzten Raum bewegen. Diese Bewegung ist zufällig.<br />

In diesem Screenshot von GeneVis<br />

sehen wir einen großen Kreis, der ein<br />

Chromosom darstellt und auf dem<br />

Gene liegen. Die kleinen bunten<br />

Punkte stellen die verschiedenartigen<br />

Proteine dar. Bei der Simulation wird,<br />

so wie bei den bool’schen <strong>Netzwerke</strong>n<br />

von diskreten Zeitpunkten<br />

ausgegangen. In jedem Schritt<br />

verändern sich die Positionen der<br />

Proteine und Gene werden aktiviert<br />

bzw. deaktiviert, je nach der<br />

Konzentration der Regulatorproteine in<br />

ihrer Umgebung. Diese Ansicht wird<br />

in GeneVis die Protein-<br />

Interaktionsansicht genannt. Meistens<br />

ist aber nicht die genaue Lage der<br />

Proteine relevant sondern nur ihre<br />

Konzentration in bestimmten<br />

Regionen. Deshalb bietet GeneVis<br />

auch eine Protein-Konzentrationsansicht, mit der nicht einzelne Protein, sondern nur<br />

Konzentrationen angezeigt werden.<br />

In diesem Bild sehen wir die<br />

Konzentration aller Proteine im<br />

Netzwerk. Es ist aber auch möglich die<br />

Konzentration nur <strong>für</strong> ein bestimmtes<br />

Protein anzuzeigen. Der Grad der<br />

Abstrahierung der Konzentration kann<br />

vom User eingestellt werden. Das heißt<br />

der User kann angeben, in wie weit<br />

GeneVis mehrere Proteine zu einer<br />

„Fläche“ zusammenfassen soll. Ein Wert<br />

von 50% würde hier bedeuten, dass 2<br />

Proteine zusammengefasst werden, ein<br />

Wert von 1,56%, dass 64 Proteine<br />

zusammengefasst werden.<br />

Die verschiedenen Ansichten können<br />

aber auch lokal unterschiedlich sein. Das<br />

heißt der User kann in bestimmten<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 23/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Bereichen des <strong>Netzwerke</strong>s die Konzentrationsansicht verwenden, in anderen die<br />

Interaktionsansicht. Dies wird über das Konzept der Fuzzy Lenses in GeneVis realisiert.<br />

Diese „Linsen“ dienen dazu einen bestimmten Bereich des <strong>Netzwerke</strong>s auszuwählen und dann<br />

eine der drei <strong>Visualisierung</strong>sarten (Konzentrationsansicht, Interaktionsansicht oder beides<br />

übereinander gelegt) auszuwählen. Auf diese Art und Weise ist es zum Beispiel möglich im<br />

Netzwerk eine schematische Konzentrationsansicht anzuzeigen, aber <strong>für</strong> ein bestimmtes Gen<br />

die genaue Interaktionsansicht herauszuzoomen.<br />

Neben den Fuzzy Lenses gibt es GeneVis noch ein zweites Linsenkonzept, und zwar das der<br />

Base Pair Lenses.<br />

Die Gene werden in GeneVis an die Stelle auf dem Chromosomkreis gezeichnet, an der sie<br />

sich auch in Wirklichkeit befinden. Das heißt Gene deren Basensequenzen nahe beieinander<br />

liegen, liegen auch in GeneVis nahe beieinander. Das kann zur Folge haben, dass sich die<br />

Kreise der Gene überlappen. Um das zu<br />

verhindern wurden die Base Pair Lenses<br />

eingeführt. Sie ermöglichen es bestimmte<br />

Kreissektionen auf Kosten anderer zu<br />

vergrößern. Das macht Sinn, weil es oft der<br />

Fall ist, dass bestimmte Kreissektionen fast<br />

keine Gene enthalten, während in anderen<br />

Sektionen sich Gene sogar überlappen. Die<br />

Abbildung zeigt wie die Kreissektion rechts oben gestreckt, und die Kreissektion links oben<br />

geschrumpft wird.<br />

Eine Schwäche der bisher präsentierten Konzepte ist, dass nicht klar ersichtlich ist, welche<br />

Gene andere Gene beeinflussen. Diese wichtige Information kann durch eine andere Art der<br />

<strong>Visualisierung</strong>, die ebenfalls in GeneVis inkludiert ist, veranschaulicht werden. Man geht<br />

dabei von der Vorstellung aus, dass die Gene eine Hierarchie bilden. Das heißt, dass<br />

bestimmte Gene gar nicht beeinflussbar sind, welche dann ganz oben in der Hierarchie stehen.<br />

Andere Gene sind nur von diesen höchsten Genen beeinflussbar usw. Natürlich ist diese<br />

Hierarchie nicht perfekt. Es können sowohl Interaktionen auf einer Hierarchieebene auftreten,<br />

als auch Regulation, die von einer niedrigeren auf eine höhere Ebene gerichtet ist. Die<br />

Entscheidung welche Gene sich auf welcher<br />

Hierarchieebene befinden ist daher nicht immer<br />

leicht und wird aufgrund von statistischen Daten<br />

getroffen. Da auch Interaktionen innerhalb einer<br />

Ebene möglich sind, ist die <strong>Visualisierung</strong> 3<br />

dimensional. Die Punktierten Ringe sind die<br />

Ebenen. Die bunten Linien stellen die<br />

Interaktionen zwischen den Genen dar. Die<br />

Farben haben folgende Bedeutungen: Eine<br />

Regulierung von einer höheren auf eine niedere<br />

Eben ist blau am Ausgangsort. Geht die<br />

Regulierung von einer niederen auf eine höhere<br />

Ebene, so ist die Linie am Ausgangsort<br />

magentafarben. Spielt sich die Regulierung<br />

innerhalb einer Ebene ab, dann ist sie am<br />

Ausgangsort gelb.<br />

Ist eine Linie am Ziel grün, dann induziert sie<br />

Genproduktion, sonst ist sie rot und hemmt die Genproduktion.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 24/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Um auch diese Ansicht noch übersichtlicher zu gestalten existiert das Konzept der Ring<br />

Lenses. Mit ihnen ist es möglich bestimmte Hierarchieebenen zu vergrößern um Details<br />

wahrnehmen zu können.<br />

6. Zusammenfassung<br />

Wir haben viele verschiedene <strong>Visualisierung</strong>sverfahren kennen gelernt. Allgemein kann man<br />

sagen, dass jedes dieser Verfahren in bestimmten Anwendungsbereichen Sinn macht. Sicher<br />

ist, dass die Informatik der Biochemie eine Fülle von Möglichkeiten zur Verfügung stellt, die<br />

ohne computerisierte Unterstützung wohl undenkbar wären.<br />

Der Einsatz von Technologien, die aus diesen Möglichkeiten folgen muss natürlich vor einem<br />

ethischen Hintergrund diskutiert werden. Ich will zum Abschluss einige Beispiele angeben,<br />

die zeigen, dass die biochemische Forschung auch Risiken mit sich bringt:<br />

− Genpatentierung<br />

− Prädikative Gentests (Die Gene ungeborener Kinder werden auf mögliche<br />

Krankheiten untersucht. Werden defekte Gene gefunden werden die Kinder oft nicht<br />

geboren. Ob die Krankheit jemals ausgebrochen wäre kann nie 100%ig eindeutig<br />

gesagt werden.<br />

− Recht auf Nichtwissen (Das Recht nicht wissen zu müssen, wie die eigenen Gene<br />

beschaffen sind)<br />

− Schutz von genetischen Daten<br />

− Klonproblematik<br />

− Stammzellenforschung<br />

Das sind bei weitem nicht alle heiklen Themen die die Erforschung unseres eigenen Erbgutes<br />

mit sich bringt. Man kann in diesem Zusammenhang nur hoffen, dass Zukunftsvisionen<br />

mancher Buchautoren (Huxley, Orwell…) nicht Realität werden.<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 25/26


<strong>Visualisierung</strong> abstrakter Daten SS 2004<br />

Felix Schernhammer TU Wien<br />

Quellen:<br />

− Albert Lehninger „Prinzipien der Biochemie“ SBW-02017465 Walter de Gruyter<br />

Verlag 1987<br />

− C. Stan Tsai „An introduction to computational biochemistry” Wiley-Liss Verlag 2002<br />

− <strong>Visualisierung</strong>en wichtiger Biomoleküle http://www.biokurs.de/skripten/biomol1.htm<br />

− Steffen Noe und Wolfgang Müller TU Darmstadt „<strong>Visualisierung</strong> von<br />

molkularbiologischen und genetischen Daten“ http://eos.bio.tudarmstadt.de/steffen/report99.pdf.<br />

− M.L. Lantin, M.S.T Carpendale Simon Frase University “Supporting Detail-in-<br />

Context for the DNA Representation, H-Curves”<br />

http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/hcurves.pdf<br />

− Various articles on ChemDraw:<br />

http://chemnews.cambridgesoft.com/products.cfm?language=&group=products&keyw<br />

ord=2<br />

− pdb Format Beschreibung http://www-lehre.inf.uos.de/~okrone/DIP/node27.html<br />

− Chime Beschreibung und download<br />

http://www.mdl.com/products/framework/chime/index.jsp<br />

− Carsten Friedrich, Falk Schreiber „Visualisation and navigation methods for typed<br />

protein-protein interaction networks“<br />

http://bioconf.otago.ac.nz/papers/ABI-2-3-suppl-Friedrich.pdf<br />

− Adam Wright „Visualization of biological networks by Selective Reduction and Force<br />

Direction“ http://www.stanford.edu/~adamatw/graphs/bionets.pdf<br />

− Ulrik Brandes, Tim Dwyer, Falk Schreiber “Visualizing Related Metabolic Pathways<br />

in Two and a Half Dimensions”<br />

http://www.wilmascope.org/brandes03metabolicpathways.pdf<br />

− Atsushi Doi, Sachie Fujita, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano<br />

“Constructing biological pathway models with hybrid functional Petri nets”<br />

http://www.bioinfo.de/isb/2004/04/0023/<br />

− Atsushi Doi, Hiroshi Matsuno, Masao Nagasaki, Satoru Miyano “Hybrid Petri net<br />

representation of genetic regulatory network”<br />

http://www.smi.stanford.edu/projects/helix/psb00/matsuno.pdf<br />

− Alla H. und David R. “Continious and hybrid Petri nets“<br />

http://www.worldscinet.com/jcsc/08/0801/S0218126698000079.html<br />

− Ilya Shmulevich, Edward R. Dougherty, Wei Zhang “From Boolean to Probabilistic<br />

Boolean Networks as Models of Genetic Regulatory Networks”<br />

http://www2.mdanderson.org/app/ilya/Publications/ProcIEEEpbnsurvey.pdf<br />

− Ilya Shmulevich, Edward R. Dougherty, Wei Zhang, Seungchan Kim “Probabilistic<br />

Boolean networks: a rule based uncertainty model for genetic regulatory networks”<br />

http://www2.mdanderson.org/app/ilya/Publications/pbn1Bioinformatics.pdf<br />

− S.A. Kauffmann “Kaufmann’s NK Boolean networks”<br />

http://pespmc1.vub.ac.be/BOOLNETW.html<br />

− C.A.H Baker, M.S.T Carpendale, P. Prusinkiewicz, M.G Surette “GeneVis:<br />

Visualization Tools for Genetic Regulatory Network Dynamics”<br />

http://pages.cpsc.ucalgary.ca/~sheelagh/personal/pubs/2002/baker-carp-vis02.pdf<br />

<strong>Visualisierung</strong> <strong>biochemischer</strong> <strong>Netzwerke</strong> Seite 26/26

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!