26.01.2014 Aufrufe

Aktuelles Schlagwort “Datenbanken in der Bioinformatik”

Aktuelles Schlagwort “Datenbanken in der Bioinformatik”

Aktuelles Schlagwort “Datenbanken in der Bioinformatik”

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Die so gewonnenen Daten werden <strong>in</strong> speziellen Datenbanken verwaltet.<br />

Sequenz-Datenbanken zur Ermittlung phylogenetischer Bäume. Die Evolution verän<strong>der</strong>t über<br />

die Jahre h<strong>in</strong>weg die Kodierung <strong>der</strong> Prote<strong>in</strong>e <strong>in</strong> <strong>der</strong> DNS. Modelle dieser Verän<strong>der</strong>ung werden auf die<br />

Daten von Sequenz-Datenbanken angewandt, um die Stammbäume, phylogenetische Bäume genannt,<br />

e<strong>in</strong>zelner Organsimen zu ermitteln.<br />

Genexpressionanalyse. E<strong>in</strong> Gen wird meist als DNS-Abschnitt def<strong>in</strong>iert, <strong>der</strong> e<strong>in</strong> Prote<strong>in</strong> kodiert.<br />

Zellen besitzen Mechanismen für die sogenannte Genexpression, d.h. um e<strong>in</strong> spezielles Gen <strong>in</strong> <strong>der</strong><br />

DNS zu lesen und daraus das kodierte Prote<strong>in</strong> zu synthetisieren. Mit sogenannten DNS-Chips kann<br />

das Expressionsniveau (<strong>in</strong>tuitiv: die “Konzentration”) mehrerer tausend Gene gemessen werden, die<br />

e<strong>in</strong>e Zelle zu e<strong>in</strong>em Zeitpunkt exprimiert. Datenbanktechniken zum Data-M<strong>in</strong><strong>in</strong>g (z.B. Cluster<strong>in</strong>g-<br />

Methoden) werden dazu benutzt, Gene mit ähnlichen Expressionsmustern <strong>in</strong> Gruppen zusammen zu<br />

fassen.<br />

Die Bio<strong>in</strong>formatik-Datenbanken s<strong>in</strong>d sehr unterschiedlich bezüglich ihres Inhaltes. Manche Datenbanken<br />

speichern die Daten aus e<strong>in</strong>em e<strong>in</strong>zigen, möglicherweise schon abgeschlossenen Forschungsprojekt.<br />

An<strong>der</strong>e Datenbanken s<strong>in</strong>d das Ergebnis e<strong>in</strong>er weltweiten und andauernden Zusammenarbeit<br />

zwischen Forschungsteams. Manche Datenbanken be<strong>in</strong>halten Daten über e<strong>in</strong>en e<strong>in</strong>zigen Organismus,<br />

an<strong>der</strong>e über alle Vorkommen e<strong>in</strong>es Prote<strong>in</strong>s <strong>in</strong> allen möglichen Organismen. In manchen Datenbanken<br />

werden neue Daten erst nach Korrektheit- und Konsistenzüberprüfungen aufgenommen.<br />

In an<strong>der</strong>en Datenbanken f<strong>in</strong>den solche Überprüfungen nicht statt. Dennoch haben die Bio<strong>in</strong>formatik-<br />

Datenbanken erstaunlich viele Geme<strong>in</strong>samkeiten, was Datenmodellierung und -management angeht.<br />

[3] gibt e<strong>in</strong>en Überblick über die verbreitesten Datenbanken <strong>der</strong> Bio<strong>in</strong>formatik.<br />

Datenmodellierung und -management<br />

Bemerkenswert ist, dass Datenmodellierung und -management kaum von <strong>der</strong> Art <strong>der</strong> Molekularbiologie-Daten<br />

abhängen.<br />

Datenmodelle.<br />

Bio<strong>in</strong>formatik-Datenbanken verwenden vier Formen <strong>der</strong> Datenmodellierung:<br />

• ASCII-Texte, Flat-Files genannt;<br />

• Datenmodelle, die für herkömmliche Datenbanken entwickelt wurden;<br />

• das Object-Protocol Model (OPM);<br />

• das ACEDB-Datenmodell.<br />

Flat-Files. Die Datensätze aus Bio<strong>in</strong>formatik-Datenbanken, die als Sammlungen von Flat-Files implementiert<br />

s<strong>in</strong>d, s<strong>in</strong>d entwe<strong>der</strong> unstrukturiert (Abbildung 1) o<strong>der</strong> mittels textueller Bezeichner, l<strong>in</strong>e<br />

type genannt, stukturiert (Abbildung 2). Es gibt ke<strong>in</strong>en e<strong>in</strong>heitlichen Satz an solchen Bezeichnern,<br />

<strong>der</strong> <strong>in</strong> den meisten (o<strong>der</strong> vielen) Bio<strong>in</strong>formatik-Datenbanken verwendet wird. Sowohl die Kodierung<br />

von Begriffen mit “l<strong>in</strong>e types” wie auch die Begriffe selbst können sich zwischen Bio<strong>in</strong>formatik-<br />

Datenbanken erheblich unterscheiden. Sehr viele Bio<strong>in</strong>formatik-Datenbanken s<strong>in</strong>d immer noch als

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!