26.01.2014 Aufrufe

Aktuelles Schlagwort “Datenbanken in der Bioinformatik”

Aktuelles Schlagwort “Datenbanken in der Bioinformatik”

Aktuelles Schlagwort “Datenbanken in der Bioinformatik”

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Informatik Spektrum, Volume 25, Number 5, pp. 359-362, October 2002, c○ Spr<strong>in</strong>ger-Verlag<br />

<strong>Aktuelles</strong> <strong>Schlagwort</strong><br />

<strong>“Datenbanken</strong> <strong>in</strong> <strong>der</strong> Bio<strong>in</strong>formatik”<br />

François Bry und Peer Kröger<br />

Institut für Informatik, Ludwig-Maximilians-Universität München<br />

http://www.pms.<strong>in</strong>formatik.uni-muenchen.de<br />

Die Bio<strong>in</strong>formatik [2] kann als Anwendung von Informatikmethoden zur Untersuchung von Problemen<br />

<strong>der</strong> Molekularbiologie def<strong>in</strong>iert werden, die auf sehr große Datenmengen beruhen und e<strong>in</strong>er umfangreichen<br />

Datenanalyse bedürfen. Folglich spielen Datenbanken <strong>in</strong> <strong>der</strong> Bio<strong>in</strong>formatik e<strong>in</strong>e zentrale<br />

Rolle. Die Bio<strong>in</strong>formatik-Datenbanken haben <strong>in</strong>teressante Merkmale, die <strong>in</strong> herkömmlichen Datenbanken<br />

selten vorkommen. Insbeson<strong>der</strong>e zeigen Datenbanken mit unterschiedlichen Molekularbiologie-Daten<br />

e<strong>in</strong>heitliche Merkmale.<br />

Fragestellungen, Daten und Verwendung von Datenbanken<br />

Sequenz-Datenbanken zur DNS-Analyse und Sequenzierung. Prote<strong>in</strong>e, die “Bauste<strong>in</strong>e des Lebens”,<br />

s<strong>in</strong>d aus Am<strong>in</strong>osäuren nach e<strong>in</strong>em Bauplan zusammengesetzt, <strong>der</strong> <strong>in</strong> <strong>der</strong> DNS kodiert ist. Die<br />

DNS ist e<strong>in</strong> l<strong>in</strong>eares Polymer, Sequenz genannt, das aus vier Nukle<strong>in</strong>säuren aufgebaut ist. Innerhalb<br />

<strong>der</strong> DNS gibt es kodierende sowie nicht-kodierende Abschnitte, <strong>der</strong>en Grenzen schwierig zu erkennen<br />

s<strong>in</strong>d. Ziel <strong>der</strong> Sequenzierung ist es, die kodierenden sowie nicht-kodierenden Bereiche <strong>in</strong> <strong>der</strong> DNS-<br />

Sequenz e<strong>in</strong>es Organismus zu ermitteln. DNS-Analyse-Methoden werden e<strong>in</strong>gesetzt, um kodierende<br />

sowie weitere Bereiche zu erkennen. Die Daten werden <strong>in</strong> (meist sehr großen) Sequenz-Datenbanken<br />

verwaltet: GenBank [3] enthält z.B. ca. 2 · 10 7 Nukleotidsequenzen und referenziert ca. 2 · 10 10 Vorkommen<br />

von Nukleotiden. Das Wachstum <strong>der</strong> meisten Sequenz-Datenbanken ist exponentiell.<br />

Prote<strong>in</strong>sequenz- und Prote<strong>in</strong>struktur-Datenbanken zur Strukturvorhersage. Die Funktion e<strong>in</strong>es<br />

Prote<strong>in</strong>s hängt von se<strong>in</strong>er 3D-Struktur ab, so dass die Vorhersage <strong>der</strong> Struktur von Prote<strong>in</strong>-<br />

Molekülen aus ihrer Sequenz, die sogenannte Prote<strong>in</strong>-Faltung, e<strong>in</strong> Hauptziel <strong>der</strong> Biologie ist. Bio<strong>in</strong>formatik-Methoden<br />

werden e<strong>in</strong>gesetzt, um Annäherungen an die tatsächliche Struktur von Prote<strong>in</strong>en<br />

zu berechnen und damit Laboruntersuchungen e<strong>in</strong>zuschränken. Homologie-basierte Ansätze vergleichen<br />

dabei die Am<strong>in</strong>osäuresequenzen bereits bekannter Prote<strong>in</strong>e mit <strong>der</strong> Sequenz des unbekannten<br />

Prote<strong>in</strong>s. Dafür werden Prote<strong>in</strong>sequenz- und Prote<strong>in</strong>struktur-Datenbanken aufgebaut und Ähnlichkeitsanfragen<br />

an solche Datenbanken gestellt.<br />

Biochemische Pfade. E<strong>in</strong> biochemischer Pfad ist e<strong>in</strong>e abstrakte Modellierung von aufe<strong>in</strong>an<strong>der</strong>folgenden<br />

chemischen Reaktionen <strong>in</strong> e<strong>in</strong>er Zelle. Beson<strong>der</strong>e Beachtung f<strong>in</strong>den Metabolische Pfade (Reaktionswege<br />

im Stoffwechsel) und Regulatorische Pfade (Kontrollmechanismen <strong>in</strong> <strong>der</strong> Genexpression).<br />

Zum Auff<strong>in</strong>den biochemischer Pfade werden unter an<strong>der</strong>em Sequenz-Datenbanken verwendet.


Die so gewonnenen Daten werden <strong>in</strong> speziellen Datenbanken verwaltet.<br />

Sequenz-Datenbanken zur Ermittlung phylogenetischer Bäume. Die Evolution verän<strong>der</strong>t über<br />

die Jahre h<strong>in</strong>weg die Kodierung <strong>der</strong> Prote<strong>in</strong>e <strong>in</strong> <strong>der</strong> DNS. Modelle dieser Verän<strong>der</strong>ung werden auf die<br />

Daten von Sequenz-Datenbanken angewandt, um die Stammbäume, phylogenetische Bäume genannt,<br />

e<strong>in</strong>zelner Organsimen zu ermitteln.<br />

Genexpressionanalyse. E<strong>in</strong> Gen wird meist als DNS-Abschnitt def<strong>in</strong>iert, <strong>der</strong> e<strong>in</strong> Prote<strong>in</strong> kodiert.<br />

Zellen besitzen Mechanismen für die sogenannte Genexpression, d.h. um e<strong>in</strong> spezielles Gen <strong>in</strong> <strong>der</strong><br />

DNS zu lesen und daraus das kodierte Prote<strong>in</strong> zu synthetisieren. Mit sogenannten DNS-Chips kann<br />

das Expressionsniveau (<strong>in</strong>tuitiv: die “Konzentration”) mehrerer tausend Gene gemessen werden, die<br />

e<strong>in</strong>e Zelle zu e<strong>in</strong>em Zeitpunkt exprimiert. Datenbanktechniken zum Data-M<strong>in</strong><strong>in</strong>g (z.B. Cluster<strong>in</strong>g-<br />

Methoden) werden dazu benutzt, Gene mit ähnlichen Expressionsmustern <strong>in</strong> Gruppen zusammen zu<br />

fassen.<br />

Die Bio<strong>in</strong>formatik-Datenbanken s<strong>in</strong>d sehr unterschiedlich bezüglich ihres Inhaltes. Manche Datenbanken<br />

speichern die Daten aus e<strong>in</strong>em e<strong>in</strong>zigen, möglicherweise schon abgeschlossenen Forschungsprojekt.<br />

An<strong>der</strong>e Datenbanken s<strong>in</strong>d das Ergebnis e<strong>in</strong>er weltweiten und andauernden Zusammenarbeit<br />

zwischen Forschungsteams. Manche Datenbanken be<strong>in</strong>halten Daten über e<strong>in</strong>en e<strong>in</strong>zigen Organismus,<br />

an<strong>der</strong>e über alle Vorkommen e<strong>in</strong>es Prote<strong>in</strong>s <strong>in</strong> allen möglichen Organismen. In manchen Datenbanken<br />

werden neue Daten erst nach Korrektheit- und Konsistenzüberprüfungen aufgenommen.<br />

In an<strong>der</strong>en Datenbanken f<strong>in</strong>den solche Überprüfungen nicht statt. Dennoch haben die Bio<strong>in</strong>formatik-<br />

Datenbanken erstaunlich viele Geme<strong>in</strong>samkeiten, was Datenmodellierung und -management angeht.<br />

[3] gibt e<strong>in</strong>en Überblick über die verbreitesten Datenbanken <strong>der</strong> Bio<strong>in</strong>formatik.<br />

Datenmodellierung und -management<br />

Bemerkenswert ist, dass Datenmodellierung und -management kaum von <strong>der</strong> Art <strong>der</strong> Molekularbiologie-Daten<br />

abhängen.<br />

Datenmodelle.<br />

Bio<strong>in</strong>formatik-Datenbanken verwenden vier Formen <strong>der</strong> Datenmodellierung:<br />

• ASCII-Texte, Flat-Files genannt;<br />

• Datenmodelle, die für herkömmliche Datenbanken entwickelt wurden;<br />

• das Object-Protocol Model (OPM);<br />

• das ACEDB-Datenmodell.<br />

Flat-Files. Die Datensätze aus Bio<strong>in</strong>formatik-Datenbanken, die als Sammlungen von Flat-Files implementiert<br />

s<strong>in</strong>d, s<strong>in</strong>d entwe<strong>der</strong> unstrukturiert (Abbildung 1) o<strong>der</strong> mittels textueller Bezeichner, l<strong>in</strong>e<br />

type genannt, stukturiert (Abbildung 2). Es gibt ke<strong>in</strong>en e<strong>in</strong>heitlichen Satz an solchen Bezeichnern,<br />

<strong>der</strong> <strong>in</strong> den meisten (o<strong>der</strong> vielen) Bio<strong>in</strong>formatik-Datenbanken verwendet wird. Sowohl die Kodierung<br />

von Begriffen mit “l<strong>in</strong>e types” wie auch die Begriffe selbst können sich zwischen Bio<strong>in</strong>formatik-<br />

Datenbanken erheblich unterscheiden. Sehr viele Bio<strong>in</strong>formatik-Datenbanken s<strong>in</strong>d immer noch als


Sammlungen von Flat-Files implementiert: ca. 40% <strong>der</strong> <strong>in</strong> [3] untersuchten Bio<strong>in</strong>formatik-Datenbanken<br />

s<strong>in</strong>d Flat-File-Sammlungen. Zudem s<strong>in</strong>d Flat-Files <strong>der</strong> de facto Standard zum Datenaustausch <strong>in</strong><br />

<strong>der</strong> Bio<strong>in</strong>formatik.<br />

Abbildung 1: Auszug aus <strong>der</strong> Bio<strong>in</strong>formatik-Datenbank HDB<br />

Abbildung 2: Auszug aus <strong>der</strong> Bio<strong>in</strong>formatik-Datenbank SWISS-PROT<br />

Relationale und Objekt-Datenmodelle. Etwa 35% <strong>der</strong> <strong>in</strong> [3] untersuchten Bio<strong>in</strong>formatik-Datenbanken<br />

werden von e<strong>in</strong>em herkömmlichen (relationalen, objekt-orientierten o<strong>der</strong> objekt-relationalen) Datenbanksystem<br />

verwaltet. Ihre Daten werden folglich unter Verwendung des relationalen o<strong>der</strong> des<br />

Objekt-Datenmodels repräsentiert. Mit dem Objekt-Datenmodel werden die (meist weitgehend strukturierten)<br />

Molekularbiologie-Daten gut repräsentiert. Mit dem relationalen Modell werden die Daten<br />

meist unübersichtlich und wenig <strong>in</strong>tuitiv repräsentiert.<br />

Object-Protocol Model (OPM). OPM [6] wurde zur Repräsentation von wissenschaftlichen (Labor-)<br />

Experimenten entwickelt. Es eignet sich beson<strong>der</strong>s gut zur Repräsentation <strong>der</strong> zeitlichen Bed<strong>in</strong>gungen<br />

und des Datenflußes zwischen Teilexperimenten. Folglich eignet sich OPM gut zur Repräsentation<br />

von Phenotyp-Daten, d.h. Daten über die Dynamik von biologischen Prozessen. OPM weist viele<br />

Merkmale von SDM [7] und dem Datenmodell von O 2 [5] auf.<br />

ACEDB. ACEDB (mit “E”) [1] ist e<strong>in</strong> Datenbank-Managementsystem mit e<strong>in</strong>em eigenen, speziellen<br />

Datenmodell, welches ursprünglich für die Bio<strong>in</strong>formatik-Datenbank ACeDB (mit “e”) entwickelt<br />

wurde (ACeDB ist das Kürzel von “A C. elegans Database”). ACEDB f<strong>in</strong>det <strong>in</strong> den Bio<strong>in</strong>formatik-<br />

Datenbanken breite Anwendung zur Repräsentation von genetischen Daten. Grund dafür ist die Flexibilität<br />

des Datenmodells, welches viele Aspekte des semistrukturierten Ansatzes zur Datenmodellierung<br />

[4] besitzt.<br />

Datenbankmanagement. Viele (über 30% <strong>der</strong> <strong>in</strong> [3] untersuchten) Bio<strong>in</strong>formatik-Datenbanken<br />

werden mit e<strong>in</strong>em relationalen Datenbank-Management-System (DBMS) verwaltet, obwohl das relationale<br />

Datenmodell zur Repräsentation von molekularbiologischen Daten wenig geeignet ist. Nur


wenige (ca. 9% <strong>der</strong> <strong>in</strong> [3] untersuchten) Bio<strong>in</strong>formatik-Datenbanken werden mit e<strong>in</strong>em objekt-orientierten<br />

DBMS verwaltet, obwohl die objekt-orientierte Modellierung von molekularbiologischen Daten<br />

sehr passend ist. Diese Lage ist sicherlich auch auf die rasche Entwicklung <strong>der</strong> Bio<strong>in</strong>formatik, auf<br />

das extrem schnelle Wachstum <strong>der</strong> Bio<strong>in</strong>formatik-Datenbanken sowie auf den beschränkten Erfolg<br />

<strong>der</strong> objekt-orientierten DBMS zurückzuführen. Das speziell für die Bio<strong>in</strong>formatik entwickelte DBMS<br />

ACDB ([3]) wird zur Verwaltung von noch wenigen (ca. 4% <strong>der</strong> <strong>in</strong> [3] untersuchten) Bio<strong>in</strong>formatik-<br />

Datenbanken e<strong>in</strong>gesetzt.<br />

Querverweise. Oft verweisen Datensätze von Bio<strong>in</strong>formatik-Datenbanken auf Beschreibungen <strong>der</strong><br />

Experimente, durch die die Daten gewonnen wurden und/o<strong>der</strong> auf ähnliche Daten <strong>in</strong> <strong>der</strong>selben Datenbank<br />

o<strong>der</strong> <strong>in</strong> an<strong>der</strong>en Bio<strong>in</strong>formatik-Datenbanken. Meist werden diese Verweise mittels (künstlicher)<br />

Primärschlüssel realisiert und als Hypertext-L<strong>in</strong>ks implementiert. Die Hypertext-Verl<strong>in</strong>kung ist e<strong>in</strong><br />

beson<strong>der</strong>s auffälliges Merkmal <strong>der</strong> Bio<strong>in</strong>formatik-Datenbanken.<br />

Anfragen und Crawl<strong>in</strong>g. Die meisten Bio<strong>in</strong>formatik-Datenbanken bieten (oft hierarchisch organisierte)<br />

Web-Formulare, womit Anfragen an die Datenbank gestellt werden können. Solche Schnittstellen<br />

s<strong>in</strong>d leicht zu benutzen, aber ermöglichen meist nur begrenzte Anfragen. Anfragesprachen im<br />

herkömmlichen S<strong>in</strong>n werden selten zur Verfügung gestellt, u.a. weil ihre Verwendung Fachkenntnisse<br />

erfor<strong>der</strong>n, über die nur wenige Benutzer von Bio<strong>in</strong>formatik-Datenbanken verfügen. Zusätzlich stellen<br />

fast alle Bio<strong>in</strong>formatik-Datenbanken ihre Daten <strong>in</strong> den unterschiedlichsten Formaten als Flat-Files<br />

zum Herunterladen zur Verfügung. Das System SRS zur Integration von Bio<strong>in</strong>formatik-Datenbanken<br />

bietet e<strong>in</strong>e orig<strong>in</strong>elle Anfragesprache. Mit dieser Anfragesprache kann e<strong>in</strong>e Navigation durch Datenbanken<br />

und Datensätzen spezifiziert werden. Auffällig orig<strong>in</strong>ell s<strong>in</strong>d die Crawl<strong>in</strong>g-Konstrukte <strong>der</strong><br />

SRS-Anfragesprache zur Verfolgung von Hypertext-L<strong>in</strong>ks. Interessanterweise bietet ke<strong>in</strong>e Anfragesprache<br />

für XML [4] solche Crawl<strong>in</strong>g-Konstrukte.<br />

Datenanalyse und -<strong>in</strong>tegration<br />

Auch bei <strong>der</strong> Datenanalyse gibt es überwiegend Geme<strong>in</strong>samkeiten zwischen den Bio<strong>in</strong>formatik-<br />

Datenbanken, unabhängig von <strong>der</strong> Art <strong>der</strong> gespeicherten Daten. Viele Werkzeuge zur Datenanalyse<br />

s<strong>in</strong>d zwar tendenziell eher e<strong>in</strong>er gewissen Art von Daten zu zuordnen, dennoch werden sie oft auch<br />

für Daten an<strong>der</strong>er Art angeboten und benutzt.<br />

Datenbanken, Datenanalyse und Data M<strong>in</strong><strong>in</strong>g. Die meisten Bio<strong>in</strong>formatik-Datenbanken stellen<br />

Bio<strong>in</strong>formatik-Software für die Datenanalyse zur Verfügung. Diese Software s<strong>in</strong>d entwe<strong>der</strong> Implementierungen<br />

von verbreiteten Bio<strong>in</strong>formatik-Algorithmen (z.B. dem Smith-Watermann-Algorithmus)<br />

o<strong>der</strong> Werkzeuge (z.B. BLAST), die auf bekannten und/o<strong>der</strong> weniger bekannten Algorithmen<br />

und Verfahren beruhen. E<strong>in</strong>ige dieser Werkzeuge (z.B. 3Dee) beziehen sich auf Datenbanken, so dass<br />

die Unterscheidung zwischen e<strong>in</strong>er Methode zur Datenanalyse, die e<strong>in</strong>e bestimmte Datenbank verwendet,<br />

und e<strong>in</strong>er Datenbank, die e<strong>in</strong>e bestimmte Methode zur Datenanalyse anbietet, schwierig se<strong>in</strong><br />

kann. Viele Bio<strong>in</strong>formatik-Datenbanken bieten auch elementare Computer-L<strong>in</strong>guistik-Software zur<br />

<strong>Schlagwort</strong>suche und Übersetzungen zwischen den geläufigsten Datenformaten von Bio<strong>in</strong>formatik-<br />

Datenbanken. [3] gibt e<strong>in</strong>en Überblick über die verbreitesten Methoden und Werkzeuge zur Datenanalyse,<br />

die mit Bio<strong>in</strong>formatik-Datenbanken verwendet werden. Mit dem raschen und stetigen Wachstum


<strong>der</strong> Bio<strong>in</strong>formatik-Datenbanken s<strong>in</strong>d Verfahren zum Knowledge Discovery und Data M<strong>in</strong><strong>in</strong>g unabd<strong>in</strong>gbar<br />

geworden. Sie s<strong>in</strong>d Gegenstand aktueller Forschung.<br />

Daten<strong>in</strong>tegration. Die Integration von Daten unterschiedlicher Art und/o<strong>der</strong> aus unterschiedlichen<br />

Bio<strong>in</strong>formatik-Datenbanken ist e<strong>in</strong> akutes Problem. Es treten semantische Konflikte auf: z.B. werden<br />

grundlegende Begriffe wie “Gen” <strong>in</strong> verschiedenen Datenbanken unterschiedlich ausgelegt. Frühe<br />

Systeme zur Daten<strong>in</strong>tegration <strong>in</strong> <strong>der</strong> Bio<strong>in</strong>formatik (wie BioKleisli und SRS) berücksichtigen semantische<br />

Konflikte nicht. Neuere Ansätze (wie Tambis) versuchen semantische Konflikte meist mit<br />

Ontologien zu lösen. Das Problem, dass Daten unterschiedlicher (<strong>in</strong>sbeson<strong>der</strong>e auch sehr schlechter)<br />

Qualität <strong>in</strong>tegriert werden, ist bisher von ke<strong>in</strong>em Integrationsansatz zufriedenstellend behandelt<br />

worden.<br />

Literatur<br />

[1] ACEDB Dokumentationssammlung: http://genome.cornell.edu/acedocs/<br />

[2] R. Backofen, F. Bry, P. Clote, H.-P. Kriegel, T. Seidl, K. Schulz. <strong>Aktuelles</strong> <strong>Schlagwort</strong><br />

Bio<strong>in</strong>formatik. Informatik Spektrum, Vol. 22, No. 9, pp. 376-378, October 1999. Auch<br />

im Informatik-Lexikon <strong>der</strong> GI: http://www.gi-ev.de/<strong>in</strong>formatik/lexikon/<br />

<strong>in</strong>f-lex-bio<strong>in</strong>formatik.shtml<br />

[3] F. Bry, P. Kröger. A Computational Biology Database Digest: Data, Data Analysis,<br />

and Data Management. Research Report PMS-FB-2002-8, Institut für Informatik,<br />

Universität München, http://www.pms.<strong>in</strong>formatik.uni-muenchen.de/<br />

publikationen/#PMS-FB-2002-8<br />

[4] F. Bry, M. Kraus, D. Olteanu, S. Schaffert. <strong>Aktuelles</strong> <strong>Schlagwort</strong> Semistrukturierte<br />

Daten. Informatik Spektrum, Vol. 24, No. 4, pp. 230-233, August 2001. Auch<br />

im Informatik-Lexikon <strong>der</strong> GI: http://www.gi-ev.de/<strong>in</strong>formatik/lexikon/<br />

<strong>in</strong>f-lex-semistrukturierte-daten.shtml<br />

[5] F. Bancilhon, C. Delobel, P. Kanellakis. Build<strong>in</strong>g an Object-Oriented Database System: The<br />

Story of O 2 . Morgan Kaufmann, 1992.<br />

ISBN 1-55860-169-4.<br />

[6] I.-M. Chen, V. Markowitz. An Overview of the Object Protocol Model (OPM) and the OPM<br />

Data Management Tools. Information Systems, 1995, Vol. 20, No. 5, pp. 393-418.<br />

[7] M. Hammer, D. McLeod. Database Description with SDM: A Semantic Database Model.<br />

ACM Transactions on Database Systems, Vol. 6, No. 3, 1981.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!