Ausarbeitung - Abteilung Datenbanken Leipzig

Problemseminar “ Bio-Datenbanken”imWS2002/2003 

Einführung 

in 

dieBioinformatik und 

dieBio-Datenbanken 

Betreuer:Dr. DieterSosna 

Bearbeiter: StephanKühn

Inhalt 

1. Einleitung ..........................................................2 

2. Wichtige Grundbausteine inder Molekularbiologie .......................3 

2.1 Aminosäuren. ....................................................3 

2.2 Peptidbindung ...................................................4 

2.3 Peptide .........................................................4 

2.4 Proteine.........................................................5 

2.4.1 Strukturder Proteine .........................................5 

2.4.1.1 Primärstrukturder Proteine .............................5 

2.4.1.2 SekundärstrukturderProteine ...........................5 

2.4.1.3 TertiärstrukturderProteine .............................6 

2.4.1.4 Die Quartärstruktur derProteine .........................7 

2.5 Nucleotide und Nucleinsäuren .......................................7 

2.5.1 Bausteine ..................................................7 

2.5.1.1 Purin-, Pyrimidinbasenund Monosaccharide ...............8 

2.5.1.2 Nucleoside ..........................................8 

2.5.1.3 Nucleotide ..........................................9 

2.5.2 Die Nucleinsäuren ...........................................9 

2.5.2.1 DNA undRNA. .....................................10 

2.5.2.2 PolaritätderNucleinsäurestränge .......................10 

2.5.2.3 Struktur derDNA. ...................................10 

3. Der genetische Code.................................................11 

4. Transkription ......................................................13 

4.1 Transkriptionbei Prokaryonten .....................................13 

4.2 Transkriptionbei Eukaryonten......................................14 

5. Translation ........................................................15 

6. Regulationder Genexpression. ........................................18 

7. Datenbanken in derBioinformatik ....................................19 

7.1 Verwendungvon Datenbankenin denverschiedenen Problemfeldern 

der Molekularbiologie. ............................................19 

7.2 Datenmodellierung und-management ................................20 

7.3 Datenanalyse und -integration ......................................21 

8. Abschließende Bemerkung ...........................................22 

9. Literaturverzeichnis.................................................23

1. Einleitung 

2 

DieMolekularbiologie beschäftig sich mitMakromolekülen undderen Funktionbei der 

Regulationvon biologischen Vorgängen. Von besonderemInteresse sindMoleküle wie 

DNA, RNA undProteine. 

BeiderAnalyse dieserMakromoleküle undderen Funktionfallenviele Daten an. 

DieAufgabe derBioinformatikist nunWerkzeugezurVerwaltung undAnalyse dieser 

gewonnenen Daten zuliefern. 

GegenstanddieserAusarbeitung ist die Einführungin dieGrundlagen derMolekularbiologie 

undein kleinerÜberblicküberdenEinsatz von Datenbanken inder Molekularbiologie.

2. WichtigeGrundbausteine in der Molekularbiologie 

Proteine (Eiweiße)sindHauptbestandteile des Cytoplasmas. Sie sindMakromoleküle, dieaus 

Aminosäurendurch Peptidbindungenentstehen. 

3 

2.1 Aminosäuren 

Aminosäurensindmehrfunktionelle organischeSäuren, 

die wenigstens eine Carboxyl-undeine Aminogruppe 

enthalten. AlleAminosäuren, diein Proteinen vorkommen, 

habendie gleiche Grundstruktur(Abb. 1). 

Sie bestehenaus einemzentralen Kohlenstoffatom, das 

manals α-C-Atom bezeichnet, andem ein 

Wasserstoffatom, die Aminoguppe (NH 2),die 

Carboxylgruppe (COOH)und ein Restgebunden sind. 

Sie unterscheidensichnurim Aufbaudes Restes. 

Aminosäurentragen sowohl diebasischeAminogruppe 

wieauchdie saure Carboxylgruppe, dadurchtritt ein 

Protonenübergang innerhalbdes Moleküls auf(Abb.2). 

Deshalb tragensienegativeund positive Ladungen 

(Zwitterionen). Die Ladungdes Moleküls kannsich 

durch Veränderung des pH-Wertes ändern. 

DerisoelektrischePunkt istderpH-Wert, andem eine 

Aminosäurevollständigals Zwitterion vorliegt. Erhängt 

vonderSäure-und Basenstärke derAminosäureab. 

. 

Abb.1) Grundstrukturder 

Aminosäuren 

Abb.2) ProtonenübergangbeiAminosäuren 

Abb.3) Abh.derLadungvompH-Wert 

Abb.4) WichtigeAminosäurenmitihremNamenund 

Abkürzungen(imDrei-undEin-Buchstaben-Code)

2.2 Peptidbindung 

Die Carboxylgruppeeiner Aminosäure kannsichmitder 

AminogruppeeineranderenAminosäureunter Austritt von 

Wasserverbinden(siehe Abb. 5). 

Die Peptidbindung ist infolge einerElektronendelokalisation(Verschiebungder 

Bindungselektronen vonSauerstoff, 

KohlenstoffundStickstoff)eine Eineinhalbfach- 

Bindung. Dadurch bildendie einzelnenAtome einer 

Peptidbindungeine relativstarre Fläche (C-undN-Atom 

sind nichtgegeneinanderdrehbar)(siehe Abb. 6). 

Abb.5) Verbindungzweier Aminosäuren 

zueinemDipeptid 

4 

Abb.6) DieAtomeeinerPiptidbindung 

liegenineiner Ebene 

2.3 Peptide 

Substanzen, die durchVerbindungmehrererAminosäuren entstehen, nenntman Peptide. 

Bestehtein Peptid aus zweiAminosäuren so ist es einDipeptid, enthält es dreiAminosäurensoist 

es einTripeptidusw., D.h. die Peptide werdennachderZahl enthaltenen Aminosäuren, nichtnach 

derZahlderPeptidbindungen bezeichnet. 

Peptide mitzehnoderwenigerAminosäuren werden als Oligopeptide und solche mitmehrals zehn 

Aminosäurenwerdenals Polypeptide bezeichnet. 

Peptide weiseneine Polaritätauf, an einemEnde des Peptids sitzteine Aminosäure mitfreier 

Aminogruppe (N-terminale Aminosäure, dieses Ende wird durchein H[vonHN- herrührend] 

2 

Abb.7) Polypeptid 

repräsentiert). Am anderenEnde sitzteine Aminosäure miteiner freien Carboxylgruppe 

(C-terminale Aminosäure, symbolisiert durch ein -OH [von -COOHherrührend]). 

Aminosäuren, deren Carboxylgruppe an demAufbau einerPeptidbindung 

beteiligtist ,erhältdie Endung -yl, Z.B. Valyl-serin(H-Val-Ser-OH).

2.4 Proteine 

Polypeptidemit mehrals 50-100Aminosäuren nennt manProteine. 

5 

2.4.1StrukturderProteine 

Die Strukturder Proteine läßtsichin vierStrukturebenen gliedern: 

-Primärstruktur: Aminosäuresequenzdes jeweiligenProteins 

-Sekundärstruktur: Faltung derPolypeptidkette 

-Tertiärstruktur: räumliche Strukturder Polypeptidkette 

-Quartärstruktur: Anzahlund gegenseitige räumliche Anordnung derUntereinheiten 

2.4.1.1 Die PrimärstrukturderProteine 

InProteinentreten 20verschiedene Aminosäuren (proteinogene Aminosäuren)auf. 

Die verschiedenenProteineunterscheiden sich in Anzahl undReihenfolgeder Aminosäurenvoneinander. 

Für Proteine, die aus 100Aminosäurenaufgebaut sind, ergeben sich bereits 20 

100 

Möglichkeitendie verschiedenenAminosäurenanzuordnen. 

100 

Um einGefühl fürdie Größenordnung zu bekommen:20 bewegtsichin derGrößenordnungvon 

130 67 

10 .Im Vergleich dazu hatunserGalaxie 10 Atome. 

SozumBeispielunterscheidetsichdas Insulin des Menschennurin einereinzigen Aminosäure 

vomInsulin des Schweines.(am C-Terminus der B-Kettehatdas SchweineinsulinAla, das 

menschlicheInsulin hingegen Thr). 

Abb.8) Primärstrukturdes Humaninsolins 

DieReihenfolge derAminosäurenin einerPolypeptidKette heißt Primärstruktur. 

2.4.1.2. DieSekundärstrukturderProteine 

DieSekundärstrukturbeschreibtdie FaltungeinerPolypeptidkette. Dies gehtdaraufzurück, dass 

die Peptidbindungeine ziemlich starreEbene (siehe Kapitel2.2)darstellt, so dass mansichdie 

Polypeptidkette als eine Aufeinanderfolge starrerEbenenvorstellenmuss, die in einem 

bestimmtenWinkelzueinanderstehen. 

Es gibtzweiTypen vonSekundärstrukturen:die Helix (Schraube)und das Faltblatt. 

DieHelix 

DieHelix kann rechts-oderlinksgängigsein. 

Rechtsgängigkeitherrscht, wenndie Schraube bei Blickrichtung 

vomN-zum C-Terminismus imUhrzeigersinn verläuft und 

Linksgängigkeit, wennsiediesem entgegenläuft. 

DieSpiralein derAbb.9istrechtsgängig, da -wennman hiervon 

untendaraufschaut (Blickrichtungvon N-nach C-Terminismus) 

-dieSpiraleim Uhrzeigersinnverläuft. 

Abb. 9) SchematischeDarstellung derα-Helixals Peptidkette

Die α-Helix 

isteine stabile Sekundärstruktur. 

JedeWindunghat 3,6 Aminosäurenund derAbstandzwischenzwei benachbarten Windungen 

beträgt5,4Å( Ångström,= 0,54nm), das ist diesogenannte Identitätsperiode. 

Die NH-und CO-Gruppenstehensichin diesemAbstandentlang derHauptachse derHelix 

gegenüber. Wasserstoffbindungenbilden sich (von NH-zu OH-Gruppe)zwischenden einzelnen 

Windungen aus, d.h. sie verlaufenparallel zurLängsachse derHelix undverleihen ihreine 

besondereStabilität. DieSeitenkettenderAminosäurenstehen radialnach außen vomeigentlichen 

Schraubenkörper. Sie können miteinanderoder mit demLösungsmittelinReaktiontreten. 

Die Aminosäure ProlinistmitderRegelmäßigkeit derHelix nichtvereinbarund führt zueiner 

UnterbrechungderHelixund einem "Knick" inderPolypeptidkette . 

WoProlin in derSequenz vorkommt, ergibt sich einAbweichungvon derregelmäßigen Struktur. 

Das Haar- undWollproteinKeratin istein Beispielfürein Protein, das spontaneine α-Helix 

ausbildet. 

6 

Die Faltblattstruktur 

BeidieserStrukturkann man sich die Ebenen derPeptidbindungenals Seiten eines 

Endloscomputerpapiers, die ineinem bestimmten Winkelaufeinandertreffen, vorstellen. Wenn 

zweisolcheFaltblätternebeneinanderliegen, entstehtdie Möglichkeit derAusbildungvon 

Wasserstoffbrücken zwischenihnen, die hierimGegensatz zurα-HelixsenkrechtzurLängsrichtung 

derPolypeptidketten verlaufen. DieSeitenketten derAminosäurenstehennahezusenkrechtzur 

Längsrichtungnachoben bzw. unten. 

Abb.10) SchematischeDarstellung derFaltblattstruktur 

Wasserstoffbrücken, hier gestricheltdargestellt,verbindendiegefaltetenKetten 

2.4.1.3 DieTertiärstruktur derProteine 

Dieglobulären (kugelförmigen)Proteine besitzenim Gegensatzzu den fibrillären(fadenförmigen) 

Proteinen, die nurdie Primär-undSekundärstrukturaufweisen, eine räumliche Struktur -die 

Tertiärstruktur. Siekommtdurch diedreidimensionaleAnordnung ihrerPolypeptidkette zustande. 

DieTertiärstrukturkommendrei Strukturelementevor: 

1.Helices (auchals α-Strukturenbezeichnet), 

2.Faltblätter(auch als β-Strukturen bezeichnet)und 

3.unregelmäßige Schleifen, diehäufig auchals 

Haarnadelbiegungen ausgebildet sind. 

Oft lässtsichdie Ausbildung vonStrukturdomänen beobachten. Strukturdomänensind Teile der 

Tertiärstruktur, diebei miteinanderverwanden Proteinenals Strukturelemente immerwiederkehren, 

einebestimmte Anzahlvon Helices, Faltblätternund Schleifenin bestimmterräumlicher 

Anordnung zueinanderenthaltenund durchbestimmte Funktionengekennzeichnet sind.

Abb.11) EineStrukturdomäneinderRaumstruktur 

einesProteins 

7 

2.4.1.4 Die QuartärstrukturderProteine 

Wenn ein Protein aus mehreren Polypeptidketten, also aus Untereinheiten, aufgebaut ist, spricht 

man voneiner Quartärstruktur. Manbezeichnetdieses dann auch als oligomeres Protein. 

Bevorzugt bestehensolche Proteine entwederaus vierUntereinheiten, dann nenntman einsolches 

Proteintetramer, oderaus zweiUntereinheiten undman sprichtvon einemdimeren Protein. 

EinProtein, das nureine Polypeptidkette enthält, bezeichnetman als monomer. 

Untereinheiten könnenbeioligomerenProteinenentwederidentischodernichtidentischsein. 

Hämoglobin, zum Beispiel, istein tetrameres Protein. Esbesteht aus4Untereinheiten 

die paarweise identischsind undalsα-und β-Ketten bezeichnet werden. 

Abb.12) Quartärstruktur des Hämoglobins αβ 2 2 

Essindjeweils dieN-undC-Terminizuerkennen 

dieα-Kettensindweiß unddie β-Kettengrau 

2.5 Nucleotideund Nucleinsäuren 

2.5.1 Die Bausteine 

Nucleotideund Nucleinsäurensetzen sich aus dreiverschiedenen Gruppen von 

Bausteinenzusammen: 

-Purin-und Pyrimidinbasen 

-Monosaccharide 

-o-Phosphorsäure

2.5.1.1 DiePurin-, Pyrimidinbasen und Monosaccharide 

In Nucleotiden undNucleinsäurenfindetmanAdenin undGuanin als Purinbasen und 

Cytosin, Thymin, Uracil, 5-Methylcytosin(inderDNSvon Bakteriophagen) als Pyrimidinbasen 

8 

Abb.13) DieBasen imÜberblick, 

dieAtomesinddurchnumeriert 

Die Monosaccharide sind D-Ribose unddie 2-Desoxy-D-Ribose. 

SieenthaltenfünfKohlenstoffatome (man sprichtauchvon Pentosen). 

Abb.14) diePentosen,beiderß-D-Ribosesinddie 

C-Atomedurchnumeriert,Numerierung 

erfolgtbeider2-Desoxy-D-Riboseanalog 

2.5.1.2 DieNucleoside 

Ein Nucleosid ist die Verbindung zwischeneinerPurin-bzw.Pyrimidinbase mitdem ersten 

Kohlenstoffatom(C )derD-Ribose. 

1 

Abb.15) StrukturformelnausgesuchterNucleoside 

VerbindungenderBasenmitder 2-Desoxy-D-Ribose bezeichnetman als Desoxynucleoside. 

Die Bindung erfolgtβ-glycosidisch zwischendemN-Atom 3beieiner Pyrimidinbase bzw. 

dem N-Atom 9beieinerPurinbase und demC-Atom1’ derbetreffendenPentose. 

Um Verwechslungen vorzubeugen, werdendie C-Atome des Zuckers miteinemStrichversehen. 

Die Nucleosideder Purinbasenwerden gekennzeichnetdurch dieEndung-osin (Adenosin, Guanosin) 

und die Nucleoside derPyrimidinbasendurch dieEndung-idin(Cytidin, Uridin, Thymidin).

2.5.1.3. DieNucleotide 

Verbindungen derNucleosidemit Phosphorsäurewerdenals Nucleotide bezeichnet. 

Je nach beteiligtemZuckerunterscheidetman Ribo-und Desoxribonuleotide. 

DiePhosphorsäureistindiesen mit derPentose esterförmigüberdie alkoholischeOH-Gruppe am 

C-Atom5'oderC-Atom3' verbunden. Danach unterscheidetman 5'-von3'-Nucleotiden. 

DieNomenklatur derNucleotide berücksichtigt die NaturderBase unddes Zuckers, sowiedie 

Stellung des Phosphorsäuremoleküls am Zucker, zB:Adenosin-5'-monophosphat(auch als 

Adenylsäure bereichnet). DaThyminin dennatürlichen Nucleosidenund Nucleotiden nurin 

Verbindungmit Desoxyribose auftritt, verzichtet manbei diesenaufKennzeichnung mit Desoxy. 

Abb.16) StrukturformelneinigerNucleotide 

9 

2.5.2 Die Nucleinsäuren 

Nucleinsäuren sind Polynucleotide, d.h. siesetzen sich aus vielenNucleotidenzusammen. 

Ein einzelnes Nucleotid bezeichnetman als Mononucleotid. 

Ihre Verknüpfungin denNucleinsäurenerfolgtdurch zweifach verestertePhosphorsäure 

(Phosphorsäurediester-Bindung)zwischen demC-Atom5' eines Nucleotids mit demC-Atom3’ 

des benachbarten Nucleotids. 

Zum Beispiel ergibtsichfolgende Polynucleotidstrukturwie inderAbb. 17und Abb. 18 

Abb.17) FormelausschnitteinerDNA 

mitPhosphatam5’-Ende 

Abb.18) FormelausschnitteinerRNA 

mitPhosphatam5’-Ende

2.5.2.1 DNA und RNA 

JenachArtder Pentose unterscheidet manNucleinsäuren. Ist derZucker2-Desoxy-D-Ribose 

spricht manvon Desoxyribonucleinsäure(DNS)bzw desoxyribonucleic acid (DNA)undvon 

Ribonucleinsäure(RNS) bzw. ribonucleic acid (RNA), wenn Zuckereine D-Ribose ist. 

EinweitererUnterschiedistdie Basenzusammensetzung: 

Inder DNAtreten als BasenAdenin, Guanin, Cytosin undThyminauf, 

inderRNA kommtstatt Thymin dieBase Uracilvor. 

10 

2.5.2.2 Die Polarität der Nucleinsäurestränge 

Nucleinsäuremolekülebesitzen eine Polarität. Siekommtzustande, weildie Phosphorsäurenur die 

Hydroxyle3' und5' miteinanderverknüpfenkann, da das C-Atom 1'derPentose mitderBase und 

das C-Atom 4'mitdem furanoiden Ring besetztist. Dadurch ergeben sich zwei definierte Enden des 

Nucleinsäure-Moleküls. NachKonvention schreibt mandie Kette so, dass das 5'-OH-Ende, das noch 

einen Phosphat-Restträgt, links unddas 3'-OH-Ende rechts steht. 

Die KurzschreibweisederDNA-Strukturvon Abb. 17istpdG-dT-dC-dA-dToderd(pGpTpCpApT) 

und die Kurzschreibweise derRNA-Strukturaus Abb. 18 ist-A-A-U-C oderpApApUpC. 

Abb.20) Demonstration derPolarität,andem 

DNA-AusschnittvonAbb.17 

2.5.2.3 Die Struktur der DNS 

Die DNA trittvorwiegend inFormvon Doppelsträngen aufund 

besitzteine 

charakteristische Sekundärstruktur, die Doppelhelix. 

Mankann sie wie folgt beschreiben: 

1. Die zweiPolynucleotidstränge sind in derDoppelhelix 

spiralförmigverdrillt, siemüssen entdrillt werden, 

wennsiegetrennt werdensollen. 

2. Die Polypeptidketten besitzen entgegengesetzte 

Polarität, sie verlaufenantiparallel 

3. Es stehensichimmerzweiBasen, die strukturell 

komplementärsind, in derDoppelhelix gegenüber. 

Mankann sich alsodie DNAals "verdrillte Strickleiter" 

vorstellen, wobeieine Windung10 Basenpaare enthältund die 

Identitätsperiode 3,4 nmist. Die komplementärenBasenpaaresind 

Adenin -Thymin undCytosin-Guanin. Zwischen den 

komplementären Basenbilden sich Wasserstoffbindungenaus 

(Zwischen Adeninund Thymin zwei undzwischen Guaninund 

Cytosindrei).DieseWasserstoffbindungen halten die Einzelstränge 

zusammenund stabilisieren so dieDNA-Doppelhelix. 

Durch die Basenpaarung bestimmtjedeBase ihrenPartner, so 

dass einStrangdie vollständige Sequenz derBasen des anderen 

Strangs festlegt. 

Die Zuckerrestestehensich nichtdiametralgegenüber.Dies 

bewirkt, dass die Windungen derHelices zumTeil weiterentfernt 

sind, zumTeil näherbeieinanderliegen. Dadurchgibtes eine 

großeund eine kleineFurche. 

Abb.21) zeigtdieräumlicheStruktur 

der DNA-Doppelhelix

Diese GrundformderDNA bezeichnet manals B-DNA.DieDNAkann noch in 

zweiweiterenFormenVorliegen: 

A-DNA istbeigeringer Hydratisierung zubeobachten. 

Hiererscheinendie BasengeneigtgegenüberdemZucker-Phosphat-Gerüst 

undeine vollständige Windungumfaßt11Basenpaare. 

Bei derZ-Konformation derDNA ist dieSchraubenrichtungentgegengesetztzur B-Form. Siehat 

diesen Namen erhalten, weilhier das Zucker-Phosphat-Gerüst Zickzack-förmiggeknickt vorliegt. 

Einzelne Abschnitte können inEukaryonten-Chromosomenin Z-Konformation vorliegen. 

In Sequenzen inden sich die Purin-und Pyrimidin-Basen abwechseln kanneszuBildung vonZ- 

Abschnitten kommen, wenndie umgebende DNA durchihreÜberspiralisierung 

einenZwang aufeine solche DNA ausübt. 

11 

3. Dergenetische Code 

Ein Genistmolekulargenetischbetrachtet, ein StückeinerDNA-Doppelhelix, das inseiner 

Nucleotidsequenzdie Information füreinPolypeptidenthält unddahereine funktionelle Einheit ist. 

In denProteinen derLebewesentreten in derRegel20 verschiedeneAminosäurenauf. 

DerenReihenfolge muss in derNucleotidsequenz derDNA verschlüsselt vorliegen. 

Wiewir in den vorherigen Kapitelngelernt haben, kommen inden Nucleinsäuren 4Basenvor. 

Würde eine Aminosäure durcheine Base bestimmt, so ließensichden 4Basennur 4Aminosäuren 

2 

zuordnen. Zwei Nucleotide würdenauchnicht ausreichen, denn dann könntenerst4=16 

Aminosäurendurch dieDNAcodiert werden. Erst beieinerKombinationvon 3aufeinanderfolgendenNucleotide, 

genanntNucleotidtriplett, ergebensichgenügendviele Möglichkeitendie 20 

3 

Aminosäurenzucodieren. Daraus folgt, dass es 4=64 verschiedeneMöglichkeitenvon 

Triplettstrukturengibt, d.h. wesentlich mehrals zurVerschlüsselung von20 Aminosäuren nötig 

sind. Wichtig istnun, dass alle denkbaren64 Tripletts Codierungsfunktionbesitzen undkein 

einziges Triplett überflüssigist. Durch 61Codons werden20 Aminosäuren codiert, d.h. eine 

Aminosäurewird durch mehrals ein Codon Verschlüsselt. Deshalb nenntmanden genetischen 

Code degeneriert. Die restlichendreiCodons besitzen Signalfunktionen. IhreAnwesenheit markiert 

das Ende derStrukturinformation. Mannenntsie Stopp-Codons. Die Basen-Tripletts derDNA, die 

eineAminosäurecodieren, werdenals Codogenebezeichnet. Dem Codogen entsprichtnachder 

Transkription einCodon auf der mRNA. 

In derCode-Sonne (Abb.22)und Code-Tabelle (Abb. 23)sind die Codons dermRNA angegeben. 

Ihre Gesamtheit ist dergenetischeCode, unddie Einheitdergenetischen Informationist das Codon. 

WichtigeBesonderheiten des Aminosäurecodes: 

1. die Nucleotidtripletts werden nacheinander"abgelesen", jedes Triplett isteine 

eigenständige Einheit, Teile vonihmgehörenwederzumvorhergehenden noch zum 

nächsten Triplett 

2. imgenetischen Code gibtes keine Trennzeichen, d.h. dieTriplettsfolgen unmittelbar 

aufeinander 

3. der genetische Code ist universell:von ganz wenigen Ausnahmen abgesehen, bedienensich 

alle Organismen dieserErde dieses Codes, d.h. sie nutzen die gleichenCodons fürdie 

gleichenAminosäuren. 

Von allendiesen allgemeinenRegeln gibtes einige interessanteAusnahmen: 

1. Einige Bakterienvieren (Bakteriophagen)enthaltenüberlappende Gene mitverschiedenen 

Leserastern.Zum Beispiel enthältderBakteriophage X174zweiGenemiteigenem 

Leseraster, die in größeren Genen mitanderen Leserastern enthaltensind. 

2. Es gibtauch AusnahmenbezüglichderUniversalitätdes genetischen Codes: 

es wurde gezeigt, dass Mitochondrienfürbestimmte Aminosäuren andere Codons 

verwenden. z.B.:UGAfürTrp, AUAfürMetsoweiUAAund UAGfürGln.

Abb.22)DergenetischeCode 

DieCodewörtersindfürdiemRNAgegeben 

DieCodons sindvon innen nachaußen zulesen. 

12 

Abb.23)DergenetischeCodeinRNA- und inKlammernDNA-Schrift

4. Transkription 

Definition: 

DerVorgangderUmschreibung derDNA-in dieRNA-Schriftheißt 

Transkription. 

Die Transkription lässtsichindrei Phasen Unterteilen:die Initiation, die Elongation und 

die Termination. BeiEukaryontenschließtsichhäufignocheine Phase derReifung 

(Processing, Prozessierung)derprimärenTranskripte an. 

13 

4.1 Transkription bei Prokaryonten 

E.coli besitzt eineeinzigeDNA-abhängige RNA-Polymerase, diedie Synthese 

allerRNA-Typenin diesen Bakterien katalysiert. 

Initiation: 

Betrachte nun dencodogenenStrang. 

Die RNA-Polymerase lagertsichan dieStartstellen derTranskription, dersog. Promotor-Region, 

derDNAan. Diese Promotor-Regionentsprichtmeist derBasenfolge 5'-TATAAT-3'oder 

ähnlichen Sequenzen(Pribnow-Box)und liegtetwa 10 Nucleotideoberhalb dertranskriptierten 

Regionbzw. des mRNA-Starts. 

Elongation: 

Nachder Initiationlöstdie RNA-Polymerase dieWasserstoff-Bindungen umden Startpunkt 

der mRNA undbeginnt ander hierentwundenen DNA mitderSynthese. 

Die RNA-Polymerase liest denMatrizenstrang ((-)Strang), dessenPolaritätvon 3'nach5' 

gerichtet ist, ab. Der andere, nichttranskribierteStrangderDNA-Doppelhelixheißt codogener 

Strang((+)Strang)). 

Die RNA wirddurch die RNA-Polymerase von 5'nach3' synthetisiert. Die Synthese selbst 

beginnt mitATP(Adenosintriphosphat)oderGTP(Guanosintriphosphat), an dessen 3'-OH- 

Gruppe dienachfolgendenBausteine angelagert werden. Dadurchhat dieneugebildete RNA 

am 5'-Ende nocheineTriphosphatgruppe. Die Angliederungerfolgt komplementärzu den 

Basen des Matrizenstranges. 

Abb.24) Transkription 

A: Codogener und Matrizenstrang, 

dieTranskriptionsblaseentstehtdurch mehrere 

EnzymeundandereProteine 

B: RNA-PolymerasetranskriptiertMatrizenstrang 

inderTaranskriptionsblase 

Abb.25) Mechanismus derRNA-Polymerasereaktion 

(Rib.=Ribose;dR=Desoxyribose

Termination: 

BeiProkaryontenunterscheidetman zwei Klassenvon Terminationssignalen, jenachdemob 

diese einenProteinfaktor, den sog. Faktorrho, brauchen. 

rho-unabhängigisteine RNA-Haarnadelschleife, die aus komplementärenBasen bestehtund 

sichspontanwährendderTranskriptionausbildet. Ihr Zentrumliegt ca. 20 Nucleotidevon 

RNA-Ende entfernt. Diesemfolgen bis zumEndedes RNA-Transkripts Uridylsäurereste. 

Diese Haarnadelstruktur zerstörtoffenbardie RNA-DNA-Wechselwirkungen, so dass sichdie 

RNA vonderDNA löst. 

Die zweiteKlassebilden dierho-abhängigen Gene. Beiihnen wird auch amEndeeinekurze 

Haarnadel inderRNA gebildet. Isthexameres rho-Protein vorhanden, so bricht dieRNA- 

Polymerase ihre Wirkungab undverläßt die DNA-Matrize. 

14 

Abb.26) Termination derRNA-Synthese 

CG-reicheHaarnadelschleifemitvierterminalen 

UracilrestenamEndederSynthetisierten 

Prä-RNA 

Abb.27) 

TerminationderRNA-Synthese 

Rolledes rho-ProteinsbeiderTermination 

4.2.Transkription bei Eukaryonten 

Sie verläuftnach den gleichenPrinzipien, jedoch findet manim einzelnen einigeUnterschiede. 

WährendE.coli nureine einzige RNA-Polymerase besitzt, kennt manbei Eukaryontenzellendrei 

verschiedene Typendes Enzyms, die als Polymerase I, IIund IIIunterschiedenwerden. Diein den 

Nucleolus lokalisierteRNA-Polymerase Isynthetisiertdreiverschiedene ribosomalenRNAs 

(rRNAs). Im Nucleoplasma befindetsichRNA-PolymeraseIIund III. 

DieRNA-Polymerase II transkriptiertdie Gene fürdie Synthese dermRNAbzw.deren Vorläufer. 

Sie wirddurchdas Gift des GrünenKnollenblätterpilzes ( α-Amanitin)stark gehemmt. 

Bei hoherKonzentrationhemmt dieses Giftauchdie RNA-Polymerase III. 

DieRNA-Polymerase III istfürdie Synthese derkleineren RNA-Artenwie tRNA (transferRNA), 

ribosomalen5S-RNA undeinige kleine Kern-RNA-Arten (snRNA small nuclearRNA). 

Auchbeiden Eukaryonten steuern DNA-Abschnitte denAnfang derTranskription. Diese 

charakteristische Sequenzensind Bindungsstellen vonspezifischen Proteinen, die man als 

Transkriptionsfaktoren bezeichnet. Sie sind fürdie Initiation derTranskription verantwortlich, 

in dem sie die Anbindung derRNA-Polymerase an denPromotorermöglichen. 

Bei denProteincodierenden Strukturgenen, die vonderRNA-Polymerase II transkriptiertwerden, 

unterscheidet mandreiverschiedene stromaufwärts vom Gen liegende Transkriptionsfaktoren 

bindendeDNA-Segmentenmitjeweils spezifischen Consensussequenzen: 

Die TATA-Box,das isteine Adenin-und Thyminreiche Promotorsequenz mit 

typischerFolge "TATAAA", CCAAT-und GC-Boxen. 

Ein weitererUnterschied zwischenderTranskription beiProkaryontenund Eukaryonten ist, dass 

die primärenProdukte der TranskriptionbeiEukaryonten noch invielfältigerWeiseverändert 

werden. Diese Phasebezeichnetmanals Reifung oderauch als Prozessieren(bzw. engl. processing) 

derRNA.

Processing: 

Aus demTranskriptionsprodukt, derPrä-mRNA (hnRNA), entsteht imZellkerndurch 

Umwandlung(Processing)die fertige mRNA. Dafürsind folgendechemische 

Modifikationen notwendig: 

Die UmwandlungderPrä-mRNA beginnt damit, dass am 5'-EndeeineCap-Struktur 

angehängtwird. Sie dient derBindung dermRNA an das Ribosom zurEinleitung 

derTranslation undals Schutz vorenzymatischem Abbau. 

An das 3'-Ende derPrä-mRNAwirdeinePoly-AMP-Sequenz angehängt, die 

etwa eine Länge von 100-200 Basen besitzt. 

Die Vorstufen dermRNA-MoleküleenthaltenAminosäure codierende Sequenzen, 

die sog. Exons, und nichtcodierende, intervenierendeSequenzen, die Introns. 

DieseInstons werdenherausgeschnitten unddie übriggebliebenenExons 

zusammengeführt. DiesenVorgangnennt manSpleißen. 

Nachdem Processing wird die reife mRNA vomZellkern ins Zytoplasmatransportiert, 

wo dieTranslation stattfindet. 

rRNA-und tRNA-Synthese verlaufennachdem selbenPrinzip wie diemRNA-Synthese. 

Der AblaufderTranskriptionimÜberblick: 

1. Initiation: 

1.1RNA-Polymerase (Enzymkomplex)bindetaneiner best. Startsequenz derDNAan. 

2. Elongation: 

2.1Entspiralisierung undAufspaltung derDNA-Doppelhelix aneinerbest. Stelle. 

2.2RNA-Polymerase wandertin 3'->5'-Richtung aufdem Matrizenstrang ((-)Strang). 

2.3Anlagerung vonjeweils komplementärenRibonukleosidtriphosphatennachdem 

PrinzipderBasenpaarung 

2.4Verbindungder Ribonucleotide in 5'->3'-Richtung, dannVerdrängung des fertigen 

mRNA-Stranges undWiederherstellungderDNA-Doppelhelix. 

3. Termination: 

Beendigungder Transkriptiondurch eine best. Terminationssequenz. 

4. Processing/Reifung(beiEukaryonten): 

Nichtfunktionsfähige Prä-mRNA umwandeln in die fertigemRNA 

5. Translation 

tRNA: 

Die vierdoppelsträngigenBereicheund diedrei einsträngigenSchleifen 

destRNA-Moleküls bildendie typische Kleeblattstruktur. 

ImZentrumder2. Schleife liegtdas Anticodon, welches aus dreiBasen 

bestehtund durchdie komplementäreBasenpaarungbestimmte mRNA-Codons 

erkennt. Die tRNA trägtam 3'(CCA'3)diejenigeAminosäure, diedem 

genetischen Code dementsprechenden mRNA-Codon zugeordnetist. 

Viele Basen dertRNA sind chemischverändert, zum Beispielmethyliert. 

Abb.28) Raumstruktur (Tertiärstruktur)eines 

tRNA-Moleküls 

15

16 

Ribosomen: 

Ribosomen sindaus zweiUntereinheitenbestehende Zellorganellen, andenen die 

Proteinsynthesestattfindet. Sie sind imZytoplasma, indenMitochondrien undauf demrauhen 

ER (Endoplasmatischem Reticulum)zu finden. 

Ribosomen sindaus rRNA(ribosomalerRNA)und ribosomalenProteinenaufgebautund 

besitzen eineDurchmesservon12 -25nm . 

Die Ribosomensindaus einergroßenund einerkleinen Untereinheitaufgebaut. 

Diese Untereinheitenwerden jeweils nach ihrerSedimentationskonstanteKbenannt. 

Die Sedimentationskonstantewird in Svedberg-Einheiten (S)gemessen. 

Einvollständiges Ribosomen imZytoplasma hateine Sedimentationskoeffizienten von80S, 

die Untereinheitenvon40Sund 60S. Diese Werte werdenin derUltrazentrifuge ermittelt, sie 

lassensichnicht addieren. 

InBakterienund Mitochondrien sindRibosomen kleiner, ihre Sedimentationskonstante beträgt 

70S, die derUntereinheiten 30Sund50S. 

InZellen mit hoherWachstumsgeschwindigkeit (Tumorzellen, regenerierendes Gewebe)oder 

umfangreicherProteinsysnthese (Leber, Nervenzellen)ist die Zahlder Ribosomen entsprechend 

hoch. 

ImaktivenZustand lagernsichRibosomenentlangeinem mRNA-Moleküls zu Polysomen 

zusammen. 

Definition: 

Die Übersetzungder in derBasensequenz dermRNAverschlüsseltenInformation in eine 

Aminosäuresquenz eines Proteins wird als Translation bezeichnetundläuft in den 

Ribosomen ab. 

Die Translationlässt sich infünfPhasen einteilen: 

AktivierungderAminosäuren undderen Übertragung auftRNA, Initiation, Elongation, 

Terminationund Prozessierung 

Aktivierung der AminosäureundderenÜbertragungauftRNA 

IndieserPhase wird dietRNAmitAminosäurebeladen. DieserVorgang verbrauchtATPzu 

AMP.Hierverbinden Enzymedie einzelnen Aminosäuren mitihrenentsprechenden tRNA- 

Molekülen. DieseEnzyme werdenAminoacyl-tRNA-Synthetasengenannt. Sie erkennen 

einerseits diezu übertragendeAminosäureund anderseits die zugehörigetRNA. 

EinetRNA, dieeineAminosäure trägt, nenntman Aminoacyl-tRNA. 

Initiation: 

Die Proteinsynthese beginnt mit derBildung des ribosomalen Initiations- oderStartkomplexes. 

Diesersetztsichaus folgendenKomponenten zusammen: 

- derkleinenUntereinheit 40Seines Ribosoms 

- dermRNA 

- denInitiationsfaktoren 

beiProkaryonten gibtes drei (IF-1 bis IF-3), 

beiEukaryonten zehn (eIF-1bis eIF-10) 

- derInitiator-tRNS 

- GTP 

- Mg2+ 

Die Proteinsynthese beginnt stets miteiner Initiator-Aminosäure(Methionin, bei Bakterien mit 

N-Formylin). Die Ableserichtung dermRNA ist von5' nach3' unddas Protein wird vonseinem 

NH2-zu seinemCOOH-Ende hin synthetisiert. Das Startzeichenauf dermRNA ist ein StartoderInititator-Codon(5'-AUG-3' 

bzw. 5'-GUG-3', wobeiAUGbevorzugt vorkommt). An dieses 

Startcodonwird eineInitiator-tRNA (tRNA, die dieInitiator-Aminosäure trägt)überihr 

Anticodon (3'-UAC-5') gebundenund gelangt so andie festgelegte Stelleim Startkomplex. 

Einepurinreiche Sequenz, die stromaufwärts vomStartcodonliegt, ist komplementärzu einer 

bestimmten Sequenz am 3'Ende der16S-rRNAderkleinenUntereinheit undträgtdamit dazu 

bei, dass die mRNA in derrichtigenPosition imInitiationskomplexliegt.

Nachdemdie Initiator-tRNA sich andie mitderkleinenUntereinheit verbundenenmRNA 

verbunden hat, erfolgtdie Bindung dergroßenUntereinheit mitdem Startkomplex unter 

FreisetzungallerInitiationsfaktorenzu einem funktionsfähigen ApparatderProteinsynthese. 

An diesemunterscheidetman zwei verschiedene Zentren: 

-das Aminoacyl-tRNA-Bindungs-bzw. Acceptorzentrum(A-Zentrum) 

-das Peptidyl-tRNS-Bindungszentrum(P-Zentrum) 

17 

Elongation: 

IndieserPhase werdenin Gegenwartvon Elongationsfaktoren (EF)Aminosäuren Schrittweise 

verknüpft, so dass eine Polypeptidketteentsteht. 

Die Initiator-tRNA (N-Formyl-Methionin-tRNAf)liegt amAnfang derSynthese imP-Zentrum, 

dasA-Zentrumist nochfrei. In diesembefindetsichdas zweiteCodon, das direktaufdas Start- 

Codonfolgt. Andieses bindetsichnun eine zudemCodon passende Aminoacyl-tRNA 

(Aminosäure tragendetRNA), wodurchdas A-Zentrum besetztwird. Nunsinddas P-und A- 

Zentrumdes Ribosoms besetztund die Bedingungenfürdie Bildungder erstenPeptidbindung 

zwischen derInitiator(fMethionyl-tRNAf)undder Aminoacyl-tRNAgeschaffen. 

Hieristjetztdas EnzymPeptidyltransferase, die indergroßenUntereinheit (S50/S60)sitzt. 

Die aktive Carboxylgruppe des Formylmethionins wirddabeimitderAminogruppe derim 

A-Zenrum liegenden Aminoacyl-tRNAgebunden. Dabeientstehteine Dipeptidyl-tRNA, die 

zunächst nochim A-Zentrumliegt. 

Nun folgt einTeilschritt, die Translocation. Hier bewegtsichdas Ribosom, durch die Translocase 

katalysiert, umein Triplettauf das 3'Ende dermRNAzu. Die dafürbenötigte Energie wird aus 

derSpaltung vonGTPzuGDP undPhosphat gewonnen. Die Dipeptidyl.tRNAwird vondem 

A-Zentrum indas P-Zentrumverschoben undgleichzeitig dieentladenetRNAin das 

Zytosol/Zytoplasma verdrängt. Das A-Zentrum ist jetztfreiund kanndie nächstebeladenetRNA 

binden usw. 

Die Verlängerung derPolypeptidkette nimmt demzufolge einen zyklischenVerlauf: 

- Bindung einerAminoacyl-tRNA an das A-Zentrum 

- Knüpfungeinerneuen Peptidbindung durchÜbertragungdesPeptidylrestes 

derPeptidyl-tRNAimP-Zentrum aufdie Aminoacylgruppe imA-Zentrum 

- Abgabe derfreien tRNA aus dem P-Zentrum undvorrückenderPeptidyl-tRNA 

aus demA-Zentrum indas P-Zentrum 

- Bindungder nächstenAminoacyl-tRNA an das freigewordene A-Zentrum 

Termintion: 

Die Polypeptidkettensynthese schreitetsolange fort, bis eines derdrei Terminations-oder 

Stoppcodons (UAG,UAAoderUGA)auf dermRNA das Endesignalisiert. DieStopp-Tripletts 

codieren keine Aminosäure, d.h. es gibtinderZelle keine tRNA, deren Anticodonkomplementär 

zumStoppcodonist. 

ZurErkennung derStoppcodons gibtes zweiAblösungsfaktoren, diejeweils spezifische 

Stoppcodons imA-Zentrum erkennen undsichan sie bindenund damiteine Wirkungsänderung 

derPeptidyltransferasebewirken. Die Peptidyltransferase verknüpft nunkeine Peptidemehr, 

sondernspaltetdie synthetisierte Polypeptidkette vom letzenTriplettab undgibt sie frei. 

Ebensoverlassen auchdie mRNA undtRNAdas Ribosom, das nun wiederin eine große und 

kleine Untereinheitzerfälltund nunwiederzurerneuten Proteinsynthese zurVerfügung stehen. 

Prozessierung: 

Die Polypeptidkette wird nach derTerminationdurch irreversible chemischeVorgänge inihre 

biologisch aktiveFormumgewandelt. Man sprichthiervon einerposttranslationalen 

Modifikation.

DieWirksamkeitderProteinsynthese wird gesteigert, indemsich mehrere Ribosomengleichzeitig 

einund dieselbe mRNA translatieren. Mannennt diese Aufreihungvon Ribosomen, die vonder 

mRNA zusammengehaltenwerden, Polysom. 

18 

6. Regulation derGenexpression 

Das Jacob-Monod-Modell(Operon-Modell) 

ZurErklärungdiese Modells derRegulationder 

Genaktivitätbeziehenwiruns auf Prokaryonten. 

Man kanndie Gene jenachFunktionin drei 

verschiedene Gruppeneinteilen: 

Strukturgene, Operatorgeneund Regulatorgene 

Strukturgene sind verantwortlich fürdieAusprägung 

von Eigenschaften. Ihre Nucleotidsequenz codiertdie 

Aminosäuresequenzdes Proteins/Enzyms. 

Überdiese Enzymegreifensiein den Stoffwechselein. 

Operatorgene kontrollieren dieFunktionstüchtigkeit 

derStrukturproteine. Sie liegenin derDNA-Doppelhelix 

vorden Strukturgenen undkönnen hemmendoder 

anregendaufdie Transkription derStrukturgene 

wirken. 

Als Operon bezeichnetman einOperatorgen unddie 

dazugehörigenStrukturgene, die bei einemBiosyntheseschrittzusammenwirken. 

DerPromotor 

ist, wie wirimKapitel derTranskription 

erfahrenhaben, eine Regiondes DNA-Stranges, an 

demsich die RNA-Polymerase bindet. 

Beider Tanskriptionbeginnt beiihm die Synthese der 

mRNA. DerPromotoristauchBestandteil des 

Operons. 

Regulatorgene steuern dieGenaktivität,sie regulieren 

alsodie Operons. Dazuerzeugensiespezielle Proteine, 

die sog. Repressoren.Diese Gene liegenaußerhalb des 

Operons. 

Die Repressoren lagern sich an die Operatorgene und 

verhindernsodie Transkription derStrukturgene, d.h. 

das Operon ist inaktiviert. 

Induktormoleküle veränderndie Raumstrukturdes 

Repressors, sie inaktivierenihn, so dass ermitdem 

Operatorgen nichtmehr in Wechselwirkungtreten kann 

und damitdas Operon wiederaktiv wird unddie 

Transkriptionungehindert erfolgen kann. 

Wenndas Substrat eines Enzyms des Operons die 

Genaktivitätunddamit dieEnzymsynthese auslöst, 

sprichtman auchvon Substratinduktion. 

Beider Endprodukt-RepressionoderEnzym- 

Repressionhemmtein Endprodukt einerReaktionskette 

eine weitere Enzym-Synthese. 

Abb.29) Induktion 

RRegulatorgen, OOperator, SStrukturgene, 

PPromotor 

Abb.30) Endprodukt-Repression 

RRegulatorgen, OOperator,SStrukturgene, 

PPromotor

7. Datenbanken in derBioinformatik 

DieBioinformatikbeschäftigt sich mitMethodenzurUntersuchung vonProblemender 

Molekularbiologie auf Computersystemen. AufGrundderdabeianfallenden sehrgroßen 

Datenmengen undumfangreichen Datenanalysen, sind Datenbanken inderBioinformatik 

vongroßerBedeutung. 

19 

7.1Verwendungvon Datenbanken in den verschiedenen Problemfeldern 

derMolekularbiologie: 

Sequenz-Datenbanken zurDNA-AnalyseundSequenzierung 

Ziel derSequenzierung istdie Ermittlung derkodierenden undnicht-kodierenden Bereiche der 

DNA-Sequenzeines Organismus. Die durchdie DNA-Analyse-Methoden erworbenenDaten 

werdenin Sequenz-Datenbanken verwaltet. DieseDatenbankensindmeistsehrgroßund besitzen 

exponentielles Wachstum. 

Proteinsequenz- undProteinstruktur-Datenbanken zurStrukturvorhersage 

Ein HauptzielderBiologieistdie Strukturvorhersagevon Protein-Molekülenaus ihre 

Aminosäuresequenz, da dieFunktioneines Proteins vonseiner3D-Strukturabhängigist. Diese 

Vorhersage ermöglichtLaboruntersuchungen einzuschränken. 

BeiHomologie-BasiertenAnsätzen werden Aminosäuresequenzen bereitsbekannterProteinemit 

derSequenz des unbekannten Proteins verglichen. Fürdiesen Zweckwerden Proteinsequenz-und 

Proteinstruktur-Datenbankenaufgebautund andieseÄhnlichkeitsanfragengestellt. 

Pathways/Biochemische Pfade 

Einbiochemischer Pfad modelliert abstrakteineAbfolge vonchemischen Reaktionen ineiner 

Zelle. Metabolische Pfade(Reaktionswege imStoffwechsel) undRegulatorische Pfade 

(KontrollmechanismeninderGenexpression, siehe vorheriges Kapitel)sind vonbesonderem 

Interesse. Um biochemische Pfadezufinden, werden unteranderemSequenz-Datenbanken 

genutzt. DieVerwaltungderdabei gewonnenen Daten geschieht ebenfalls inspeziellen 

Datenbanken. 

Sequenz-Datenbank zurErmittlung phylogenetischerBäume 

DieEvolution geht mit Veränderung derKodierungderProteine derOrganismeneinher. 

Umzu entscheiden, wann die EntwicklungderNachfolgereines Organismus auseinander ging, 

werdenspezielle Sequenzanalysealgorithmen, die aufModellen derGeschwindigkeitder 

VeränderungderKodierungder Proteine beruhen, angewandt. 

Man erhältso die Stammbäume, die sog. phylogenetischen Bäume, derOrganismen. 

BeiderBerechnung dieserBäume werden oft Sequenz-Datenbanken genutzt. 

Genexpressionsanalyse 

EinGenwirdoftalsDNA-Abschnittdefiniert, derein Protein kodiert. Die Transkription (siehe 

vorheriges Kapitel), insbesonderederStrukturgene, wirdals Genexpression bezeichnet. Mittels 

sog. DNA-Chips kann das Expressionsniveaumehrerertausend Gene gemessenwerden, die die 

Zelle zueinembestimmten Zeitpunkt exprimiert. 

Gesunde undkranke Zellenkönnen an Handdes Expressionsniveau unterschiedenwerden. 

Data-Miningwirdgenutztum Gene mit ähnlichen Expressionsmustern inGruppen zusammen 

zufassen.

7.2 Datenmodellierung und -management 

20 

BeiBio-Datenbanken werdenvier Formen vonDatenmodellenverwendet: 

- ASCII-Texte, sog. Flat-Files 

- Datenmodelle von Standard Datenbanken, 

z.B.: relational, Objektoderobjektrelationale Datenbanken 

- ObjectProtocol Model(OPM) 

- ACEDB-Datenmodell. 

Flat-Files 

In derAnfangszeitderMolekularbiologie-Datenbanken wurdenDatenbankManagement 

Systeme (DBMS)wenig genutzt. Stattdessenwurden die Bio-Datenbankenaus 

indiziertenASCIITextdateien, densog. "flatfiles", aufgebaut. 

Einige Datenbankenbasierenheute noch aufdiesen. Ein Grund dafürist, dass dieDatender 

Molekularbiologieoftsehrkomplex sind, sodass vieleflat-files tiefgeschachtelte Datensätze, 

Mengen, Listenund Abweichungen enthält, diesichnichteinfach in einem relationalenoder 

ObjektDBMS repräsentierenlassen. 

Bio-Datenbanken, die als flat-files implementiertwurden, besitzenkein explizites Datenmodell. 

Ihre Einträge sindgewöhnlichimplizitoderexplizitdurchSuchindexestrukturiert. Die meisten 

flat-fileSammlungen, die explizitstrukturiert sind, nutzen Schlüsselworte, sog. "line types", als 

Index. DieSchlüsselworte undIndizes unterscheidensich oft inverschiedenen flat-files nicht 

nurinihrerSyntax, sondern auch vonihrerSemantik. 

Viele Bio-Datenbanken, insbesondere Sequenzdatenbanken, sind nochals flat-file Sammlungen 

implementiert. Zudemsindheute flat-files derde factoStandard zumDatenaustauschin der 

Bio-Informatik. Undviele Werkzeuge inder Bio-Informatik (z.B.:BLASTund FASTA) 

arbeitennurmit flat-files. Deshalbbietenviele Bio-Datenbanken ihrengesamtenInhalt in 

einemodermehrerenflat-files an. 

Relationale und Objekt-Datenmodelle 

Viele deraufflat-file beruhendenDatenbanken wurdenaufrelationalen, objekt-orientierten 

oderobjekt-relationalenDBMSreimplementiert. 

Ihre Daten werdenfolglichunter Verwendung des relationalenoderdes Objekt-Datenmodels 

repräsentiert. Das Objekt-Modell istbessergeeignet als das relationaleModel, ummolekularbiologische 

Daten zumodellieren. Bio-Datenbankenbasierendaufdemrelationalen Modell 

besitzenoftsehrkomplexe Schemas undsinddamit nichtsointuitiv. Dasmachtes schwierigsie 

zuadministrieren undAnfragen aufsie zu stellen. 

Dennoch werdenoftsolche DBMS, wie z.B.:Oracle, SybasederMySQLgenutzt. 

ACEDB 

ACEDB isteinDBMS, das ursprünglichfürdie Datenbank "A C.elegans Data Base” 

(abgekürztACeDB). Diese Datenbankenthielt Daten voneinem kleinenWurm "C.elegans". 

ACEDB isteineErweiterung dieses DBSM umandere solche spezialisierten Daten zu 

verwalten. 

Bei ACEDB werdendie Daten als Objekte, die inKlassen organisiertsind, modelliert. 

Jedochunterstützt ACEDB wederKlassenhierarchie noch Vererbung. 

Ein solches ACEDB-Objektbesitzteine Mengevon Attributen, die Objekte oderatomareWerte 

(Zahlen oderZeichenketten)seinkönnen. 

ACEDB Objekte werdenals Bäume, deren(beschrifteten)KnotenObjekte oderatomare Werte 

sind undderen Kanten Attributbeziehungendarstellen, repräsentiert. 

Das Klassen-ModellvonACEDBspezifiziertdie maximaleMenge vonAttributen, die ein 

ObjektderKlasse habendarfund den Typ/Classe dieserAttribute/Objekte. 

ACEDB wird vonBio-Datenbanken oft zurVerwaltung genetischerDaten verwendet. 

DerQuellcodevon ACEDB istpublic undkanndeshalbdenverschiedenenAnforderungender 

speziellenAnwendungenangepasstwerden.

21 

Object-ProtocolModel (OPM) 

OPM wurde entwickeltzurModellierungbiologischerDaten undderEreignisabfolge in 

wissenschaftlichenExperimenten. Es eignetsichgutzurRepräsentationzeitlicherBedingungen 

und des Datenflusses zwischendenTeilexperimenten. 

OPM eignet sich gutzur ModellierungdynamischerDaten, wiePhenotyp-Daten und die 

Dynamik vonbiologischenProzessen. 

OPM und dessen"data management tools suite" istkommerziell. 

Querverwiese 

InBio-Datenbanken verweisen Datensätze aufBeschreibungen derExperimente, durch die 

die Daten gewonnen wurden, aufähnliche Daten inder selben odereinen anderen Datenbank. 

Meist werdendiese Verweisedurch (künstliche)Primärschlüsselrealisiertund als Hyperlinks 

implementiert. 

Diese Hypertext-Verlinkung ist einbesonders auffälliges MerkmalderBio-Datenbanken. 

Anfragen 

FürAnfragestellungenbieten dieBio-Datenbankenoft Webformulare an. 

Die derzeitgenutztenSchnittstellenlassen sich leichtbenutzen, es sind abernur meist begrenzte 

Anfragen möglich undmankann dort Anfragesprachen imherkömmlichenSinn nurselten 

finden. Einige Tools greifendirektaufdiese Schnittstellenzu. Zusätzlichstellenfastalle Bio- 

Datenbanken ihre Daten inden unterschiedlichsten Formaten als flat-files zumDownloadzur 

Verfügung. 

7.3 Datenanalyse und -integration 

Die meisten Bio-Datenbanken enthalten Software zurDatenanalyse. Diese Software sindentweder 

Implementierungenvon denbekanntenBioinformatik-Algorithmen, wiezumBeispielderSmith- 

Watermann-Algorithmus, oderWerkzeuge, wieBLAST, die aufbekannte oderwenige bekannte 

Algorithmenberuhen. Einige dieserTools sind schwierig zubenutzen, daviele Parameter 

angegebenwerden müssenund viele dieser Tools unzureichenddokumentiertsind. 

Viele Bio-Datenbanken enthalten außerdem elementare Computer-Linguistik-Software zur 

Schlagwortsuche undÜbersetzungenzwischenden geläufigsten Datenformaten. 

Wegendes schnellen Wachstums von Bio-DatenbankenspielenVerfahren zurKnowledge 

Discoveryund DataMiningimmergrößereRolle. 

Integration vonDatenunterschiedlicherUrsprünge führtzu "Beschreibungs-", "Heterogenitäts-" 

und "semantischen" Konflikten. 

Beschreibungskonflikt liegt vor, wenndas selbe semantischeObjektinverschiedenen 

Datenbanken unterschiedlich modelliertwird. 

Heterogenitätskonflikt resultiert aus denunterschiedlichen Datenmodellen und Managementsystemen 

der verschiedenen Datenbanken. 

Semantischer Konflikt tritt auf, wenndie grundlegenden Begriffe, wie zumBeispiel "Gen"in 

verschiedenen Datenbankenunterschiedlich ausgelegt werden. 

FrüheWerkzeugezur DatenintegrationberücksichtigendieseKonflikte nicht. 

Neuere Ansätzeversuchen Semantische Konflikte unteranderem mittels Ontologien zu lösen. 

Das Problem, Daten unterschiedlicherQualitätzu integrieren, wurde bishernochnicht 

zufriedenstellend gelöst. 

Um die Datenaus den verschiedenDatenbankenaktuellzu halten, sind regelmäßige(tägliche) 

Updates nötig. BeiBio-Datenbankenistdies besonders rechenintensiv, daflat-files derdefacto 

Standardbeim Datenaustauschsind. Strukturierte Modelle sind fürdenDatenaustausch 

vorzuziehen. Die semistrukturierteHerangehensweise zurDatenmodellierungund 

Datenmanagementscheintvielversprechend fürdie DatenintegrationbeiBio-Datenbanken. 

Verschiedene Forschungen beschäftigensichmitder Modellierungmolekularbiologischer Daten 

mittels XML.

8. AbschließendeBemerkung 

22 

DieVorgänge, die inden Biowissenschaften( Molekularbiologie, Biochemie und Genetik) 

untersuchtwerden, sindsehrkomplex undheute teilweise noch nichtbis ins letzte Detailbekannt. 

Bei derErforschungdieserVorgänge fallen großeDatenmengenan, diemittels Methodender 

Bioinformatikanalysiertund verwaltetwerden. Diese Methoden ermöglichenes in den 

Biowissenschaften Modelle leichter zuentwickelnund in diesenzu rechnen. 

Das PotentialderInformatik istheutebei den Biowissenschaften bei weitemnoch nicht 

ausgeschöpft. Somit istdie Bioinformatik einähnlich interessantes Forschungsgebiet, 

wiedie einzelne Biowissenschaftenselbst, in denendie Bioinformatik als Werkzeug 

eingesetztwird.

Literaturverzeichnis 

23 

HO96 Prof. Dr.Hofmann, E.: Medizinische Biochemie systematisch 

UNI-MEDVerlagAG, 1996, ISBN 3-89599-121-X 

KA88 Karlson, P.: Kurzes Lehrbuchder Biochemie für Mediziner und Naturwissenschaftler 

Georg Thieme VerlagStuttgart, NewYork, 1988, ISBN3-13-357813-8 

AB97 hrsg. von Abdolvahab-Emminger, H.: Physikum EXAKT-Das gesamte Prüfungswissen in 

einemBand Georg Thieme VerlagStuttgart, NewYork, 1997, ISBN3-13-107031-5 

BK89 Bayrhuber,H. ,Kull,U.: Linder Biologie -Lehrbuchfür die Oberstufe 

Schroedel Schulbuchverlag, 1989, ISBN3-507-02347-4 

MS88 Miram,W., Scharf,K.-H.: Biologie heute SII-Neubearbeitung 

Schroedel Schulbuchverlag;1988, ISBN 3-507-10540-3 

FI92 Fink, E.: Biologie BON-MED, 1992, ISBN3-928730-63-0 

TR97 Trachsel, H.: MOLEKULARBIOLOGIE -Repetitorium für Studierendeder Human-und 

Veterinär-Medizin http://ntbiouser.unibe.ch/trachsel/teaching/MBVorl/MBVorl.htm; 1997 

FK02 Francois, B. ,Kröger,P.: AComputational Biology Database Digest:Data, Data Analysis, 

and DataManagement http://www.pms.informatik.uni-muenchen.de/publikationen/ 

2002 

KF02 Francois, B. ,Kröger,P.: Aktuelles Schlagwort“Datenbankeninder Bioinformatik” 

http://www.pms.informatik.uni-muenchen.de/publikationen/, 2002 

GI 

GI e.V.: Informatik-Lexikon:Bioinformatik 

http://www.gi-ev.de/informatik/lexikon/inf-lex-bioinformatik.shtml 

WM1 www.webmic.de: Transkription 

http://www.webmic.de 

WM2 www.webmic.de: Proteinsynthese 

http://www.webmic.de 

Bildverzeichnis 

[BK89] Abb.1, Abb.2, Abb. 3, Abb. 10, Abb. 22, Abb.29, Abb. 30 

[AB97] 

[HO96] 

[KA88] 

Abb.4 

Abb.5, Abb.6, Abb.7, Abb.8, Abb.11, Abb.12, Abb.14, Abb.15, Abb.16, Abb.23, 

Abb.24, Abb.25, Abb.26, Abb.27, Abb.28 

Abb.9, Abb.17, Abb.18, Abb.20, Abb.21

Ausarbeitung - Abteilung Datenbanken Leipzig

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?