MDCK-MRP2 - Dkfz
MDCK-MRP2 - Dkfz
MDCK-MRP2 - Dkfz
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Forschungsschwerpunkt B<br />
Funktionelle und Strukturelle Genomforschung<br />
DNA-Mikroarrays stellen ein wichtiges Hilfsmittel auf dem<br />
Weg des Verstehens von Organismen auf der genomischen<br />
Ebene dar. Transkriptionsaktivitäten von tausenden Genen<br />
können gleichzeitig bestimmt werden, und sogar das gesamte<br />
Genom eines Organismus kann Gegenstand einer Untersuchung<br />
sein.<br />
Die Anwendung von “Datawarehouse”-Konzepten und<br />
Technologien aus dem Bereich kundenorientierter Geschäftsprozesse<br />
auf genomische Daten ermöglicht ein effizientes<br />
Data Mining [9]. Wir entwickeln deshalb ein integriertes<br />
Konzept, um Mikroarraydaten in einem zentralen<br />
Datawarehouse (spezielle Datenbank für das Data-Mining)<br />
zu speichern und diese Daten in analysierter Form zugänglich<br />
zu machen. Dies geschieht unter Berücksichtigung der Verschiedenartigkeit<br />
der experimentellen Techniken sowie der<br />
Beschreibung von Mikroarrayexperimenten. Darauf aufbauend<br />
entwickeln wir Techniken, um allgemeine Analyseprozesse<br />
zu etablieren, z.B. die Normalisierung von Genexpressionsdaten,<br />
Identifizierung von unterschiedlich transkribierten<br />
Genen oder das Clustering von Proben und Genen in<br />
der Datenbank [21].<br />
Zusätzlich wenden wir Klassifikationsalgorithmen wie Entscheidungsbäume,<br />
neuronale Netzwerke und Support Vektor<br />
Maschinen an. Auf diese Weise können Klassifikationssysteme<br />
entwickelt und für diagnostische oder prognostische<br />
Aussagen nutzbar gemacht werden [16]. Einige wichtige<br />
Beispiele sind die Klassifizierung der Ergebnisse von<br />
Tumoruntersuchungen auf der Grundlage von bereits vorhandenen<br />
Gruppen (Tumorgrad, zytogenetische Daten)<br />
oder das Auffinden neuer Unterklassen in einer Menge von<br />
Tumoruntersuchungen basierend auf Genexpressionsprofilen.<br />
Insbesondere haben wir eine Methode entwickelt, die solche<br />
Klassifikationssysteme auf der Basis von Entscheidungsbäumen<br />
erstellt [5]. Entscheidungsbäume haben den Vorteil,<br />
dass die Entscheidungsregeln transparent sind und sofort<br />
abgelesen werden können; außerdem entfällt die bei<br />
anderen Verfahren z.T. notwendige Merkmalsauswahl, d.h.<br />
die Beschränkung auf eine kleine Zahl informativer Gene.<br />
In einem anderen Ansatz haben wir ein Merkmalsauswahlverfahren<br />
mit einem künstlichen neuronalen Netzwerk kombiniert,<br />
um Daten aus vergleichenden genomischen Hybridisierungen<br />
mit der Wahrscheinlichkeit des Vorliegens von Metastasen<br />
bei Brustkrebs zu assoziieren [17]. Darüber hinaus<br />
konnte durch Analyse der Daten eine neue Hypothese der<br />
Metastasierung bei Brustkrebs entwickelt und gestützt<br />
werden.<br />
In einem weiteren Projekt haben wir Bayes’sche Netzwerke<br />
benutzt, um aus Daten über genetische Aberrationen von<br />
Urothelkarzinomen ein Modell zur Tumorprogression in diesen<br />
Tumoren aufzustellen [20].<br />
Zur Unterscheidung von dedifferenzierten und pleiomorphen<br />
Liposarkomen haben wir neben Clusterverfahren Support<br />
Vektor Maschinen eingesetzt [4]. So konnten die relevanten<br />
Chromosomenorte für die Unterscheidung dieser<br />
Tumorformen identifiziert und Regeln zur Klassifikation aufgestellt<br />
werden.<br />
In einer Untersuchung der Auswirkungen des Verlustes<br />
(Deletion) verschiedener Untereinheiten der Casein-Kinase<br />
II auf den Zellzyklus von Hefe haben wir die Korrespondenzanalyse<br />
eingesetzt, um Gene mit veränderter Transkription<br />
zu identifizieren [13].<br />
In einer weiteren Studie konnten wir zeigen, dass die beobachtete<br />
Häufung von differentiell exprimierten Genen an<br />
Abteilung B080<br />
Theoretische Bioinformatik<br />
bestimmten Chromosomenorten beim Vergleich zweier<br />
Subpopulationen von Thymus-Epithelzellen statistisch signifikant<br />
ist [18].<br />
Aktuelle Untersuchungen betreffen vor allem verschiedene<br />
Formen myeloischer Leukämien (4 Kooperationen) und das<br />
Neuroblastom (3 Kooperationen). Weiterhin stellen wir Service-<br />
und Beratungsleistungen im Rahmen des Nationalen<br />
Genomforschungsnetzwerks (NGFN) zur Verfügung und beteiligen<br />
uns mit Kursen und Wissenschaftleraustausch an<br />
der Weiterbildung biomedizinischer Forscher im Bereich der<br />
Analyse hochdimensionaler molekulargenetischer Daten.<br />
2. Datenbanken und Datenmanagement<br />
J. Eils, K.H. Groß, P. Herde, R. Kabbe, O. Krebs,<br />
C. Lawerenz, R. Eils<br />
Kooperationen: Prof. Dr. Peter Lichter, Molekulare Genomanalyse,<br />
DKFZ; Prof. Dr. Annemarie Poustka, Abteilung Molekulare<br />
Genomanalyse, DKFZ; Prof. Dr. Sándor Suhai, Abteilung Molekulare<br />
Biophysik, DKFZ; Prof. Dr. Christof Niehrs, Abteilung Molekulare<br />
Embryologie, DKFZ; Prof. Dr. Werner Mewes, Institut für<br />
Bioinformatik/MIPS, GSF, Neuherberg; Dr. Alexander Schramm,<br />
Pädiatrische Onkologie, Universitätsklinik Essen; Prof. Dr.<br />
Chakraborty, Institut für Medizinische Mikrobiologie, Universitätsklinik<br />
Giessen; PD Dr. Roland Stauber, Georg-Speyer-Haus Frankfurt;<br />
Prof. Dr. B. Schlegelberger, Institut für Zell- und Molekularpathologie,<br />
MH Hannover; Dr. Albert Becker, Institut für Neuropathologie,<br />
Universität Bonn; Dr. Thomas Häupl, Abteilung Rheumatologie,<br />
Charite Berlin; Prof. Dr. KH Jöckel, Institut für Medizinische<br />
Informatik, Universitätsklinik Essen.<br />
Forschungsgruppen am DKFZ und an anderen Partnerinstituten<br />
erzeugen eine große Menge an geno- und phänotypischen<br />
Daten im Bereich der Mikroarray-Technologie. Diese<br />
Daten müssen in standardisierter Form mit dem Ziel gespeichert<br />
und verwaltet werden, sie sowohl mit anspruchsvollen<br />
Auswertungsmethoden zu analysieren, als auch die wesentlichen<br />
Vorgänge, die zu den experimentellen Ergebnissen<br />
führen, eindeutig und nachvollziehbar zu dokumentieren.<br />
Dazu haben wir ein Informationssystem konzipiert und implementiert,<br />
das das Datenmanagement in die Datenanalyse<br />
integriert. RNA- Expressionsdaten werden mit anderen<br />
funktionellen genomischen Daten integriert. Die Funktionalität<br />
der Plattform reicht vom Speichern der Daten in relationalen<br />
Datenbankmanagementsystemen, etablierten<br />
Schnittstellen zu kommerziellen und frei erhältlichen Auswerteprogrammen<br />
bis zu Werkzeugen zur Präsentation und<br />
Pflege der Daten.<br />
Das MIAME-kompatible Oracle Datenbank-Schema iCHIP<br />
speichert Informationen zur detaillierten Beschreibung von<br />
biologischen Proben und Est-Klonen, Bilddaten, Hybridisierungsbedingungen,<br />
Daten zum Experiment, Genexpressionswerte<br />
(Rohdaten sowie prozessierte Daten), Qualitätsindikatoren<br />
und beschreibende Informationen.<br />
Basierend auf dem Datenbankschema haben wir in diesem<br />
Jahr eine benutzerfreundliche Bedieneroberfläche mit angebundenen<br />
Auswertewerkzeugen entwickelt. Diese Version<br />
von iCHIP ist aktuell in mehreren klinischen Laboren im Einsatz,<br />
wie z.B. im Krebsnetz und im Neuronetz.<br />
Die Erweiterung von iCHIP von cDNA-Mikroarrays hin zu<br />
anderen Datentypen (Proteinen, RNAi, Zellsysteme, Tissue-<br />
Microarray) sowie die Weiterentwicklung von iCHIP zum<br />
zentralen Speicher für umfangreiche Datensammlungen molekularbiologischer<br />
und phenotypischer Daten wird im Fokus<br />
der weiteren Entwicklung der Datenbankgruppe liegen.<br />
DKFZ 2004: Wissenschaftlicher Ergebnisbericht 2002 - 2003<br />
143