Ausarbeitung - Abteilung Datenbanken Leipzig
Ausarbeitung - Abteilung Datenbanken Leipzig
Ausarbeitung - Abteilung Datenbanken Leipzig
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Problemseminar “ Bio-<strong>Datenbanken</strong>”imWS2002/2003<br />
Einführung<br />
in<br />
dieBioinformatik und<br />
dieBio-<strong>Datenbanken</strong><br />
Betreuer:Dr. DieterSosna<br />
Bearbeiter: StephanKühn
Inhalt<br />
1. Einleitung ..........................................................2<br />
2. Wichtige Grundbausteine inder Molekularbiologie .......................3<br />
2.1 Aminosäuren. ....................................................3<br />
2.2 Peptidbindung ...................................................4<br />
2.3 Peptide .........................................................4<br />
2.4 Proteine.........................................................5<br />
2.4.1 Strukturder Proteine .........................................5<br />
2.4.1.1 Primärstrukturder Proteine .............................5<br />
2.4.1.2 SekundärstrukturderProteine ...........................5<br />
2.4.1.3 TertiärstrukturderProteine .............................6<br />
2.4.1.4 Die Quartärstruktur derProteine .........................7<br />
2.5 Nucleotide und Nucleinsäuren .......................................7<br />
2.5.1 Bausteine ..................................................7<br />
2.5.1.1 Purin-, Pyrimidinbasenund Monosaccharide ...............8<br />
2.5.1.2 Nucleoside ..........................................8<br />
2.5.1.3 Nucleotide ..........................................9<br />
2.5.2 Die Nucleinsäuren ...........................................9<br />
2.5.2.1 DNA undRNA. .....................................10<br />
2.5.2.2 PolaritätderNucleinsäurestränge .......................10<br />
2.5.2.3 Struktur derDNA. ...................................10<br />
3. Der genetische Code.................................................11<br />
4. Transkription ......................................................13<br />
4.1 Transkriptionbei Prokaryonten .....................................13<br />
4.2 Transkriptionbei Eukaryonten......................................14<br />
5. Translation ........................................................15<br />
6. Regulationder Genexpression. ........................................18<br />
7. <strong>Datenbanken</strong> in derBioinformatik ....................................19<br />
7.1 Verwendungvon <strong>Datenbanken</strong>in denverschiedenen Problemfeldern<br />
der Molekularbiologie. ............................................19<br />
7.2 Datenmodellierung und-management ................................20<br />
7.3 Datenanalyse und -integration ......................................21<br />
8. Abschließende Bemerkung ...........................................22<br />
9. Literaturverzeichnis.................................................23
1. Einleitung<br />
2<br />
DieMolekularbiologie beschäftig sich mitMakromolekülen undderen Funktionbei der<br />
Regulationvon biologischen Vorgängen. Von besonderemInteresse sindMoleküle wie<br />
DNA, RNA undProteine.<br />
BeiderAnalyse dieserMakromoleküle undderen Funktionfallenviele Daten an.<br />
DieAufgabe derBioinformatikist nunWerkzeugezurVerwaltung undAnalyse dieser<br />
gewonnenen Daten zuliefern.<br />
Gegenstanddieser<strong>Ausarbeitung</strong> ist die Einführungin dieGrundlagen derMolekularbiologie<br />
undein kleinerÜberblicküberdenEinsatz von <strong>Datenbanken</strong> inder Molekularbiologie.
2. WichtigeGrundbausteine in der Molekularbiologie<br />
Proteine (Eiweiße)sindHauptbestandteile des Cytoplasmas. Sie sindMakromoleküle, dieaus<br />
Aminosäurendurch Peptidbindungenentstehen.<br />
3<br />
2.1 Aminosäuren<br />
Aminosäurensindmehrfunktionelle organischeSäuren,<br />
die wenigstens eine Carboxyl-undeine Aminogruppe<br />
enthalten. AlleAminosäuren, diein Proteinen vorkommen,<br />
habendie gleiche Grundstruktur(Abb. 1).<br />
Sie bestehenaus einemzentralen Kohlenstoffatom, das<br />
manals α-C-Atom bezeichnet, andem ein<br />
Wasserstoffatom, die Aminoguppe (NH 2),die<br />
Carboxylgruppe (COOH)und ein Restgebunden sind.<br />
Sie unterscheidensichnurim Aufbaudes Restes.<br />
Aminosäurentragen sowohl diebasischeAminogruppe<br />
wieauchdie saure Carboxylgruppe, dadurchtritt ein<br />
Protonenübergang innerhalbdes Moleküls auf(Abb.2).<br />
Deshalb tragensienegativeund positive Ladungen<br />
(Zwitterionen). Die Ladungdes Moleküls kannsich<br />
durch Veränderung des pH-Wertes ändern.<br />
DerisoelektrischePunkt istderpH-Wert, andem eine<br />
Aminosäurevollständigals Zwitterion vorliegt. Erhängt<br />
vonderSäure-und Basenstärke derAminosäureab.<br />
.<br />
Abb.1) Grundstrukturder<br />
Aminosäuren<br />
Abb.2) ProtonenübergangbeiAminosäuren<br />
Abb.3) Abh.derLadungvompH-Wert<br />
Abb.4) WichtigeAminosäurenmitihremNamenund<br />
Abkürzungen(imDrei-undEin-Buchstaben-Code)
2.2 Peptidbindung<br />
Die Carboxylgruppeeiner Aminosäure kannsichmitder<br />
AminogruppeeineranderenAminosäureunter Austritt von<br />
Wasserverbinden(siehe Abb. 5).<br />
Die Peptidbindung ist infolge einerElektronendelokalisation(Verschiebungder<br />
Bindungselektronen vonSauerstoff,<br />
KohlenstoffundStickstoff)eine Eineinhalbfach-<br />
Bindung. Dadurch bildendie einzelnenAtome einer<br />
Peptidbindungeine relativstarre Fläche (C-undN-Atom<br />
sind nichtgegeneinanderdrehbar)(siehe Abb. 6).<br />
Abb.5) Verbindungzweier Aminosäuren<br />
zueinemDipeptid<br />
4<br />
Abb.6) DieAtomeeinerPiptidbindung<br />
liegenineiner Ebene<br />
2.3 Peptide<br />
Substanzen, die durchVerbindungmehrererAminosäuren entstehen, nenntman Peptide.<br />
Bestehtein Peptid aus zweiAminosäuren so ist es einDipeptid, enthält es dreiAminosäurensoist<br />
es einTripeptidusw., D.h. die Peptide werdennachderZahl enthaltenen Aminosäuren, nichtnach<br />
derZahlderPeptidbindungen bezeichnet.<br />
Peptide mitzehnoderwenigerAminosäuren werden als Oligopeptide und solche mitmehrals zehn<br />
Aminosäurenwerdenals Polypeptide bezeichnet.<br />
Peptide weiseneine Polaritätauf, an einemEnde des Peptids sitzteine Aminosäure mitfreier<br />
Aminogruppe (N-terminale Aminosäure, dieses Ende wird durchein H[vonHN- herrührend]<br />
2<br />
Abb.7) Polypeptid<br />
repräsentiert). Am anderenEnde sitzteine Aminosäure miteiner freien Carboxylgruppe<br />
(C-terminale Aminosäure, symbolisiert durch ein -OH [von -COOHherrührend]).<br />
Aminosäuren, deren Carboxylgruppe an demAufbau einerPeptidbindung<br />
beteiligtist ,erhältdie Endung -yl, Z.B. Valyl-serin(H-Val-Ser-OH).
2.4 Proteine<br />
Polypeptidemit mehrals 50-100Aminosäuren nennt manProteine.<br />
5<br />
2.4.1StrukturderProteine<br />
Die Strukturder Proteine läßtsichin vierStrukturebenen gliedern:<br />
-Primärstruktur: Aminosäuresequenzdes jeweiligenProteins<br />
-Sekundärstruktur: Faltung derPolypeptidkette<br />
-Tertiärstruktur: räumliche Strukturder Polypeptidkette<br />
-Quartärstruktur: Anzahlund gegenseitige räumliche Anordnung derUntereinheiten<br />
2.4.1.1 Die PrimärstrukturderProteine<br />
InProteinentreten 20verschiedene Aminosäuren (proteinogene Aminosäuren)auf.<br />
Die verschiedenenProteineunterscheiden sich in Anzahl undReihenfolgeder Aminosäurenvoneinander.<br />
Für Proteine, die aus 100Aminosäurenaufgebaut sind, ergeben sich bereits 20<br />
100<br />
Möglichkeitendie verschiedenenAminosäurenanzuordnen.<br />
100<br />
Um einGefühl fürdie Größenordnung zu bekommen:20 bewegtsichin derGrößenordnungvon<br />
130 67<br />
10 .Im Vergleich dazu hatunserGalaxie 10 Atome.<br />
SozumBeispielunterscheidetsichdas Insulin des Menschennurin einereinzigen Aminosäure<br />
vomInsulin des Schweines.(am C-Terminus der B-Kettehatdas SchweineinsulinAla, das<br />
menschlicheInsulin hingegen Thr).<br />
Abb.8) Primärstrukturdes Humaninsolins<br />
DieReihenfolge derAminosäurenin einerPolypeptidKette heißt Primärstruktur.<br />
2.4.1.2. DieSekundärstrukturderProteine<br />
DieSekundärstrukturbeschreibtdie FaltungeinerPolypeptidkette. Dies gehtdaraufzurück, dass<br />
die Peptidbindungeine ziemlich starreEbene (siehe Kapitel2.2)darstellt, so dass mansichdie<br />
Polypeptidkette als eine Aufeinanderfolge starrerEbenenvorstellenmuss, die in einem<br />
bestimmtenWinkelzueinanderstehen.<br />
Es gibtzweiTypen vonSekundärstrukturen:die Helix (Schraube)und das Faltblatt.<br />
DieHelix<br />
DieHelix kann rechts-oderlinksgängigsein.<br />
Rechtsgängigkeitherrscht, wenndie Schraube bei Blickrichtung<br />
vomN-zum C-Terminismus imUhrzeigersinn verläuft und<br />
Linksgängigkeit, wennsiediesem entgegenläuft.<br />
DieSpiralein derAbb.9istrechtsgängig, da -wennman hiervon<br />
untendaraufschaut (Blickrichtungvon N-nach C-Terminismus)<br />
-dieSpiraleim Uhrzeigersinnverläuft.<br />
Abb. 9) SchematischeDarstellung derα-Helixals Peptidkette
Die α-Helix<br />
isteine stabile Sekundärstruktur.<br />
JedeWindunghat 3,6 Aminosäurenund derAbstandzwischenzwei benachbarten Windungen<br />
beträgt5,4Å( Ångström,= 0,54nm), das ist diesogenannte Identitätsperiode.<br />
Die NH-und CO-Gruppenstehensichin diesemAbstandentlang derHauptachse derHelix<br />
gegenüber. Wasserstoffbindungenbilden sich (von NH-zu OH-Gruppe)zwischenden einzelnen<br />
Windungen aus, d.h. sie verlaufenparallel zurLängsachse derHelix undverleihen ihreine<br />
besondereStabilität. DieSeitenkettenderAminosäurenstehen radialnach außen vomeigentlichen<br />
Schraubenkörper. Sie können miteinanderoder mit demLösungsmittelinReaktiontreten.<br />
Die Aminosäure ProlinistmitderRegelmäßigkeit derHelix nichtvereinbarund führt zueiner<br />
UnterbrechungderHelixund einem "Knick" inderPolypeptidkette .<br />
WoProlin in derSequenz vorkommt, ergibt sich einAbweichungvon derregelmäßigen Struktur.<br />
Das Haar- undWollproteinKeratin istein Beispielfürein Protein, das spontaneine α-Helix<br />
ausbildet.<br />
6<br />
Die Faltblattstruktur<br />
BeidieserStrukturkann man sich die Ebenen derPeptidbindungenals Seiten eines<br />
Endloscomputerpapiers, die ineinem bestimmten Winkelaufeinandertreffen, vorstellen. Wenn<br />
zweisolcheFaltblätternebeneinanderliegen, entstehtdie Möglichkeit derAusbildungvon<br />
Wasserstoffbrücken zwischenihnen, die hierimGegensatz zurα-HelixsenkrechtzurLängsrichtung<br />
derPolypeptidketten verlaufen. DieSeitenketten derAminosäurenstehennahezusenkrechtzur<br />
Längsrichtungnachoben bzw. unten.<br />
Abb.10) SchematischeDarstellung derFaltblattstruktur<br />
Wasserstoffbrücken, hier gestricheltdargestellt,verbindendiegefaltetenKetten<br />
2.4.1.3 DieTertiärstruktur derProteine<br />
Dieglobulären (kugelförmigen)Proteine besitzenim Gegensatzzu den fibrillären(fadenförmigen)<br />
Proteinen, die nurdie Primär-undSekundärstrukturaufweisen, eine räumliche Struktur -die<br />
Tertiärstruktur. Siekommtdurch diedreidimensionaleAnordnung ihrerPolypeptidkette zustande.<br />
DieTertiärstrukturkommendrei Strukturelementevor:<br />
1.Helices (auchals α-Strukturenbezeichnet),<br />
2.Faltblätter(auch als β-Strukturen bezeichnet)und<br />
3.unregelmäßige Schleifen, diehäufig auchals<br />
Haarnadelbiegungen ausgebildet sind.<br />
Oft lässtsichdie Ausbildung vonStrukturdomänen beobachten. Strukturdomänensind Teile der<br />
Tertiärstruktur, diebei miteinanderverwanden Proteinenals Strukturelemente immerwiederkehren,<br />
einebestimmte Anzahlvon Helices, Faltblätternund Schleifenin bestimmterräumlicher<br />
Anordnung zueinanderenthaltenund durchbestimmte Funktionengekennzeichnet sind.
Abb.11) EineStrukturdomäneinderRaumstruktur<br />
einesProteins<br />
7<br />
2.4.1.4 Die QuartärstrukturderProteine<br />
Wenn ein Protein aus mehreren Polypeptidketten, also aus Untereinheiten, aufgebaut ist, spricht<br />
man voneiner Quartärstruktur. Manbezeichnetdieses dann auch als oligomeres Protein.<br />
Bevorzugt bestehensolche Proteine entwederaus vierUntereinheiten, dann nenntman einsolches<br />
Proteintetramer, oderaus zweiUntereinheiten undman sprichtvon einemdimeren Protein.<br />
EinProtein, das nureine Polypeptidkette enthält, bezeichnetman als monomer.<br />
Untereinheiten könnenbeioligomerenProteinenentwederidentischodernichtidentischsein.<br />
Hämoglobin, zum Beispiel, istein tetrameres Protein. Esbesteht aus4Untereinheiten<br />
die paarweise identischsind undalsα-und β-Ketten bezeichnet werden.<br />
Abb.12) Quartärstruktur des Hämoglobins αβ 2 2<br />
Essindjeweils dieN-undC-Terminizuerkennen<br />
dieα-Kettensindweiß unddie β-Kettengrau<br />
2.5 Nucleotideund Nucleinsäuren<br />
2.5.1 Die Bausteine<br />
Nucleotideund Nucleinsäurensetzen sich aus dreiverschiedenen Gruppen von<br />
Bausteinenzusammen:<br />
-Purin-und Pyrimidinbasen<br />
-Monosaccharide<br />
-o-Phosphorsäure
2.5.1.1 DiePurin-, Pyrimidinbasen und Monosaccharide<br />
In Nucleotiden undNucleinsäurenfindetmanAdenin undGuanin als Purinbasen und<br />
Cytosin, Thymin, Uracil, 5-Methylcytosin(inderDNSvon Bakteriophagen) als Pyrimidinbasen<br />
8<br />
Abb.13) DieBasen imÜberblick,<br />
dieAtomesinddurchnumeriert<br />
Die Monosaccharide sind D-Ribose unddie 2-Desoxy-D-Ribose.<br />
SieenthaltenfünfKohlenstoffatome (man sprichtauchvon Pentosen).<br />
Abb.14) diePentosen,beiderß-D-Ribosesinddie<br />
C-Atomedurchnumeriert,Numerierung<br />
erfolgtbeider2-Desoxy-D-Riboseanalog<br />
2.5.1.2 DieNucleoside<br />
Ein Nucleosid ist die Verbindung zwischeneinerPurin-bzw.Pyrimidinbase mitdem ersten<br />
Kohlenstoffatom(C )derD-Ribose.<br />
1<br />
Abb.15) StrukturformelnausgesuchterNucleoside<br />
VerbindungenderBasenmitder 2-Desoxy-D-Ribose bezeichnetman als Desoxynucleoside.<br />
Die Bindung erfolgtβ-glycosidisch zwischendemN-Atom 3beieiner Pyrimidinbase bzw.<br />
dem N-Atom 9beieinerPurinbase und demC-Atom1’ derbetreffendenPentose.<br />
Um Verwechslungen vorzubeugen, werdendie C-Atome des Zuckers miteinemStrichversehen.<br />
Die Nucleosideder Purinbasenwerden gekennzeichnetdurch dieEndung-osin (Adenosin, Guanosin)<br />
und die Nucleoside derPyrimidinbasendurch dieEndung-idin(Cytidin, Uridin, Thymidin).
2.5.1.3. DieNucleotide<br />
Verbindungen derNucleosidemit Phosphorsäurewerdenals Nucleotide bezeichnet.<br />
Je nach beteiligtemZuckerunterscheidetman Ribo-und Desoxribonuleotide.<br />
DiePhosphorsäureistindiesen mit derPentose esterförmigüberdie alkoholischeOH-Gruppe am<br />
C-Atom5'oderC-Atom3' verbunden. Danach unterscheidetman 5'-von3'-Nucleotiden.<br />
DieNomenklatur derNucleotide berücksichtigt die NaturderBase unddes Zuckers, sowiedie<br />
Stellung des Phosphorsäuremoleküls am Zucker, zB:Adenosin-5'-monophosphat(auch als<br />
Adenylsäure bereichnet). DaThyminin dennatürlichen Nucleosidenund Nucleotiden nurin<br />
Verbindungmit Desoxyribose auftritt, verzichtet manbei diesenaufKennzeichnung mit Desoxy.<br />
Abb.16) StrukturformelneinigerNucleotide<br />
9<br />
2.5.2 Die Nucleinsäuren<br />
Nucleinsäuren sind Polynucleotide, d.h. siesetzen sich aus vielenNucleotidenzusammen.<br />
Ein einzelnes Nucleotid bezeichnetman als Mononucleotid.<br />
Ihre Verknüpfungin denNucleinsäurenerfolgtdurch zweifach verestertePhosphorsäure<br />
(Phosphorsäurediester-Bindung)zwischen demC-Atom5' eines Nucleotids mit demC-Atom3’<br />
des benachbarten Nucleotids.<br />
Zum Beispiel ergibtsichfolgende Polynucleotidstrukturwie inderAbb. 17und Abb. 18<br />
Abb.17) FormelausschnitteinerDNA<br />
mitPhosphatam5’-Ende<br />
Abb.18) FormelausschnitteinerRNA<br />
mitPhosphatam5’-Ende
2.5.2.1 DNA und RNA<br />
JenachArtder Pentose unterscheidet manNucleinsäuren. Ist derZucker2-Desoxy-D-Ribose<br />
spricht manvon Desoxyribonucleinsäure(DNS)bzw desoxyribonucleic acid (DNA)undvon<br />
Ribonucleinsäure(RNS) bzw. ribonucleic acid (RNA), wenn Zuckereine D-Ribose ist.<br />
EinweitererUnterschiedistdie Basenzusammensetzung:<br />
Inder DNAtreten als BasenAdenin, Guanin, Cytosin undThyminauf,<br />
inderRNA kommtstatt Thymin dieBase Uracilvor.<br />
10<br />
2.5.2.2 Die Polarität der Nucleinsäurestränge<br />
Nucleinsäuremolekülebesitzen eine Polarität. Siekommtzustande, weildie Phosphorsäurenur die<br />
Hydroxyle3' und5' miteinanderverknüpfenkann, da das C-Atom 1'derPentose mitderBase und<br />
das C-Atom 4'mitdem furanoiden Ring besetztist. Dadurch ergeben sich zwei definierte Enden des<br />
Nucleinsäure-Moleküls. NachKonvention schreibt mandie Kette so, dass das 5'-OH-Ende, das noch<br />
einen Phosphat-Restträgt, links unddas 3'-OH-Ende rechts steht.<br />
Die KurzschreibweisederDNA-Strukturvon Abb. 17istpdG-dT-dC-dA-dToderd(pGpTpCpApT)<br />
und die Kurzschreibweise derRNA-Strukturaus Abb. 18 ist-A-A-U-C oderpApApUpC.<br />
Abb.20) Demonstration derPolarität,andem<br />
DNA-AusschnittvonAbb.17<br />
2.5.2.3 Die Struktur der DNS<br />
Die DNA trittvorwiegend inFormvon Doppelsträngen aufund<br />
besitzteine<br />
charakteristische Sekundärstruktur, die Doppelhelix.<br />
Mankann sie wie folgt beschreiben:<br />
1. Die zweiPolynucleotidstränge sind in derDoppelhelix<br />
spiralförmigverdrillt, siemüssen entdrillt werden,<br />
wennsiegetrennt werdensollen.<br />
2. Die Polypeptidketten besitzen entgegengesetzte<br />
Polarität, sie verlaufenantiparallel<br />
3. Es stehensichimmerzweiBasen, die strukturell<br />
komplementärsind, in derDoppelhelix gegenüber.<br />
Mankann sich alsodie DNAals "verdrillte Strickleiter"<br />
vorstellen, wobeieine Windung10 Basenpaare enthältund die<br />
Identitätsperiode 3,4 nmist. Die komplementärenBasenpaaresind<br />
Adenin -Thymin undCytosin-Guanin. Zwischen den<br />
komplementären Basenbilden sich Wasserstoffbindungenaus<br />
(Zwischen Adeninund Thymin zwei undzwischen Guaninund<br />
Cytosindrei).DieseWasserstoffbindungen halten die Einzelstränge<br />
zusammenund stabilisieren so dieDNA-Doppelhelix.<br />
Durch die Basenpaarung bestimmtjedeBase ihrenPartner, so<br />
dass einStrangdie vollständige Sequenz derBasen des anderen<br />
Strangs festlegt.<br />
Die Zuckerrestestehensich nichtdiametralgegenüber.Dies<br />
bewirkt, dass die Windungen derHelices zumTeil weiterentfernt<br />
sind, zumTeil näherbeieinanderliegen. Dadurchgibtes eine<br />
großeund eine kleineFurche.<br />
Abb.21) zeigtdieräumlicheStruktur<br />
der DNA-Doppelhelix
Diese GrundformderDNA bezeichnet manals B-DNA.DieDNAkann noch in<br />
zweiweiterenFormenVorliegen:<br />
A-DNA istbeigeringer Hydratisierung zubeobachten.<br />
Hiererscheinendie BasengeneigtgegenüberdemZucker-Phosphat-Gerüst<br />
undeine vollständige Windungumfaßt11Basenpaare.<br />
Bei derZ-Konformation derDNA ist dieSchraubenrichtungentgegengesetztzur B-Form. Siehat<br />
diesen Namen erhalten, weilhier das Zucker-Phosphat-Gerüst Zickzack-förmiggeknickt vorliegt.<br />
Einzelne Abschnitte können inEukaryonten-Chromosomenin Z-Konformation vorliegen.<br />
In Sequenzen inden sich die Purin-und Pyrimidin-Basen abwechseln kanneszuBildung vonZ-<br />
Abschnitten kommen, wenndie umgebende DNA durchihreÜberspiralisierung<br />
einenZwang aufeine solche DNA ausübt.<br />
11<br />
3. Dergenetische Code<br />
Ein Genistmolekulargenetischbetrachtet, ein StückeinerDNA-Doppelhelix, das inseiner<br />
Nucleotidsequenzdie Information füreinPolypeptidenthält unddahereine funktionelle Einheit ist.<br />
In denProteinen derLebewesentreten in derRegel20 verschiedeneAminosäurenauf.<br />
DerenReihenfolge muss in derNucleotidsequenz derDNA verschlüsselt vorliegen.<br />
Wiewir in den vorherigen Kapitelngelernt haben, kommen inden Nucleinsäuren 4Basenvor.<br />
Würde eine Aminosäure durcheine Base bestimmt, so ließensichden 4Basennur 4Aminosäuren<br />
2<br />
zuordnen. Zwei Nucleotide würdenauchnicht ausreichen, denn dann könntenerst4=16<br />
Aminosäurendurch dieDNAcodiert werden. Erst beieinerKombinationvon 3aufeinanderfolgendenNucleotide,<br />
genanntNucleotidtriplett, ergebensichgenügendviele Möglichkeitendie 20<br />
3<br />
Aminosäurenzucodieren. Daraus folgt, dass es 4=64 verschiedeneMöglichkeitenvon<br />
Triplettstrukturengibt, d.h. wesentlich mehrals zurVerschlüsselung von20 Aminosäuren nötig<br />
sind. Wichtig istnun, dass alle denkbaren64 Tripletts Codierungsfunktionbesitzen undkein<br />
einziges Triplett überflüssigist. Durch 61Codons werden20 Aminosäuren codiert, d.h. eine<br />
Aminosäurewird durch mehrals ein Codon Verschlüsselt. Deshalb nenntmanden genetischen<br />
Code degeneriert. Die restlichendreiCodons besitzen Signalfunktionen. IhreAnwesenheit markiert<br />
das Ende derStrukturinformation. Mannenntsie Stopp-Codons. Die Basen-Tripletts derDNA, die<br />
eineAminosäurecodieren, werdenals Codogenebezeichnet. Dem Codogen entsprichtnachder<br />
Transkription einCodon auf der mRNA.<br />
In derCode-Sonne (Abb.22)und Code-Tabelle (Abb. 23)sind die Codons dermRNA angegeben.<br />
Ihre Gesamtheit ist dergenetischeCode, unddie Einheitdergenetischen Informationist das Codon.<br />
WichtigeBesonderheiten des Aminosäurecodes:<br />
1. die Nucleotidtripletts werden nacheinander"abgelesen", jedes Triplett isteine<br />
eigenständige Einheit, Teile vonihmgehörenwederzumvorhergehenden noch zum<br />
nächsten Triplett<br />
2. imgenetischen Code gibtes keine Trennzeichen, d.h. dieTriplettsfolgen unmittelbar<br />
aufeinander<br />
3. der genetische Code ist universell:von ganz wenigen Ausnahmen abgesehen, bedienensich<br />
alle Organismen dieserErde dieses Codes, d.h. sie nutzen die gleichenCodons fürdie<br />
gleichenAminosäuren.<br />
Von allendiesen allgemeinenRegeln gibtes einige interessanteAusnahmen:<br />
1. Einige Bakterienvieren (Bakteriophagen)enthaltenüberlappende Gene mitverschiedenen<br />
Leserastern.Zum Beispiel enthältderBakteriophage X174zweiGenemiteigenem<br />
Leseraster, die in größeren Genen mitanderen Leserastern enthaltensind.<br />
2. Es gibtauch AusnahmenbezüglichderUniversalitätdes genetischen Codes:<br />
es wurde gezeigt, dass Mitochondrienfürbestimmte Aminosäuren andere Codons<br />
verwenden. z.B.:UGAfürTrp, AUAfürMetsoweiUAAund UAGfürGln.
Abb.22)DergenetischeCode<br />
DieCodewörtersindfürdiemRNAgegeben<br />
DieCodons sindvon innen nachaußen zulesen.<br />
12<br />
Abb.23)DergenetischeCodeinRNA- und inKlammernDNA-Schrift
4. Transkription<br />
Definition:<br />
DerVorgangderUmschreibung derDNA-in dieRNA-Schriftheißt<br />
Transkription.<br />
Die Transkription lässtsichindrei Phasen Unterteilen:die Initiation, die Elongation und<br />
die Termination. BeiEukaryontenschließtsichhäufignocheine Phase derReifung<br />
(Processing, Prozessierung)derprimärenTranskripte an.<br />
13<br />
4.1 Transkription bei Prokaryonten<br />
E.coli besitzt eineeinzigeDNA-abhängige RNA-Polymerase, diedie Synthese<br />
allerRNA-Typenin diesen Bakterien katalysiert.<br />
Initiation:<br />
Betrachte nun dencodogenenStrang.<br />
Die RNA-Polymerase lagertsichan dieStartstellen derTranskription, dersog. Promotor-Region,<br />
derDNAan. Diese Promotor-Regionentsprichtmeist derBasenfolge 5'-TATAAT-3'oder<br />
ähnlichen Sequenzen(Pribnow-Box)und liegtetwa 10 Nucleotideoberhalb dertranskriptierten<br />
Regionbzw. des mRNA-Starts.<br />
Elongation:<br />
Nachder Initiationlöstdie RNA-Polymerase dieWasserstoff-Bindungen umden Startpunkt<br />
der mRNA undbeginnt ander hierentwundenen DNA mitderSynthese.<br />
Die RNA-Polymerase liest denMatrizenstrang ((-)Strang), dessenPolaritätvon 3'nach5'<br />
gerichtet ist, ab. Der andere, nichttranskribierteStrangderDNA-Doppelhelixheißt codogener<br />
Strang((+)Strang)).<br />
Die RNA wirddurch die RNA-Polymerase von 5'nach3' synthetisiert. Die Synthese selbst<br />
beginnt mitATP(Adenosintriphosphat)oderGTP(Guanosintriphosphat), an dessen 3'-OH-<br />
Gruppe dienachfolgendenBausteine angelagert werden. Dadurchhat dieneugebildete RNA<br />
am 5'-Ende nocheineTriphosphatgruppe. Die Angliederungerfolgt komplementärzu den<br />
Basen des Matrizenstranges.<br />
Abb.24) Transkription<br />
A: Codogener und Matrizenstrang,<br />
dieTranskriptionsblaseentstehtdurch mehrere<br />
EnzymeundandereProteine<br />
B: RNA-PolymerasetranskriptiertMatrizenstrang<br />
inderTaranskriptionsblase<br />
Abb.25) Mechanismus derRNA-Polymerasereaktion<br />
(Rib.=Ribose;dR=Desoxyribose
Termination:<br />
BeiProkaryontenunterscheidetman zwei Klassenvon Terminationssignalen, jenachdemob<br />
diese einenProteinfaktor, den sog. Faktorrho, brauchen.<br />
rho-unabhängigisteine RNA-Haarnadelschleife, die aus komplementärenBasen bestehtund<br />
sichspontanwährendderTranskriptionausbildet. Ihr Zentrumliegt ca. 20 Nucleotidevon<br />
RNA-Ende entfernt. Diesemfolgen bis zumEndedes RNA-Transkripts Uridylsäurereste.<br />
Diese Haarnadelstruktur zerstörtoffenbardie RNA-DNA-Wechselwirkungen, so dass sichdie<br />
RNA vonderDNA löst.<br />
Die zweiteKlassebilden dierho-abhängigen Gene. Beiihnen wird auch amEndeeinekurze<br />
Haarnadel inderRNA gebildet. Isthexameres rho-Protein vorhanden, so bricht dieRNA-<br />
Polymerase ihre Wirkungab undverläßt die DNA-Matrize.<br />
14<br />
Abb.26) Termination derRNA-Synthese<br />
CG-reicheHaarnadelschleifemitvierterminalen<br />
UracilrestenamEndederSynthetisierten<br />
Prä-RNA<br />
Abb.27)<br />
TerminationderRNA-Synthese<br />
Rolledes rho-ProteinsbeiderTermination<br />
4.2.Transkription bei Eukaryonten<br />
Sie verläuftnach den gleichenPrinzipien, jedoch findet manim einzelnen einigeUnterschiede.<br />
WährendE.coli nureine einzige RNA-Polymerase besitzt, kennt manbei Eukaryontenzellendrei<br />
verschiedene Typendes Enzyms, die als Polymerase I, IIund IIIunterschiedenwerden. Diein den<br />
Nucleolus lokalisierteRNA-Polymerase Isynthetisiertdreiverschiedene ribosomalenRNAs<br />
(rRNAs). Im Nucleoplasma befindetsichRNA-PolymeraseIIund III.<br />
DieRNA-Polymerase II transkriptiertdie Gene fürdie Synthese dermRNAbzw.deren Vorläufer.<br />
Sie wirddurchdas Gift des GrünenKnollenblätterpilzes ( α-Amanitin)stark gehemmt.<br />
Bei hoherKonzentrationhemmt dieses Giftauchdie RNA-Polymerase III.<br />
DieRNA-Polymerase III istfürdie Synthese derkleineren RNA-Artenwie tRNA (transferRNA),<br />
ribosomalen5S-RNA undeinige kleine Kern-RNA-Arten (snRNA small nuclearRNA).<br />
Auchbeiden Eukaryonten steuern DNA-Abschnitte denAnfang derTranskription. Diese<br />
charakteristische Sequenzensind Bindungsstellen vonspezifischen Proteinen, die man als<br />
Transkriptionsfaktoren bezeichnet. Sie sind fürdie Initiation derTranskription verantwortlich,<br />
in dem sie die Anbindung derRNA-Polymerase an denPromotorermöglichen.<br />
Bei denProteincodierenden Strukturgenen, die vonderRNA-Polymerase II transkriptiertwerden,<br />
unterscheidet mandreiverschiedene stromaufwärts vom Gen liegende Transkriptionsfaktoren<br />
bindendeDNA-Segmentenmitjeweils spezifischen Consensussequenzen:<br />
Die TATA-Box,das isteine Adenin-und Thyminreiche Promotorsequenz mit<br />
typischerFolge "TATAAA", CCAAT-und GC-Boxen.<br />
Ein weitererUnterschied zwischenderTranskription beiProkaryontenund Eukaryonten ist, dass<br />
die primärenProdukte der TranskriptionbeiEukaryonten noch invielfältigerWeiseverändert<br />
werden. Diese Phasebezeichnetmanals Reifung oderauch als Prozessieren(bzw. engl. processing)<br />
derRNA.
Processing:<br />
Aus demTranskriptionsprodukt, derPrä-mRNA (hnRNA), entsteht imZellkerndurch<br />
Umwandlung(Processing)die fertige mRNA. Dafürsind folgendechemische<br />
Modifikationen notwendig:<br />
Die UmwandlungderPrä-mRNA beginnt damit, dass am 5'-EndeeineCap-Struktur<br />
angehängtwird. Sie dient derBindung dermRNA an das Ribosom zurEinleitung<br />
derTranslation undals Schutz vorenzymatischem Abbau.<br />
An das 3'-Ende derPrä-mRNAwirdeinePoly-AMP-Sequenz angehängt, die<br />
etwa eine Länge von 100-200 Basen besitzt.<br />
Die Vorstufen dermRNA-MoleküleenthaltenAminosäure codierende Sequenzen,<br />
die sog. Exons, und nichtcodierende, intervenierendeSequenzen, die Introns.<br />
DieseInstons werdenherausgeschnitten unddie übriggebliebenenExons<br />
zusammengeführt. DiesenVorgangnennt manSpleißen.<br />
Nachdem Processing wird die reife mRNA vomZellkern ins Zytoplasmatransportiert,<br />
wo dieTranslation stattfindet.<br />
rRNA-und tRNA-Synthese verlaufennachdem selbenPrinzip wie diemRNA-Synthese.<br />
Der AblaufderTranskriptionimÜberblick:<br />
1. Initiation:<br />
1.1RNA-Polymerase (Enzymkomplex)bindetaneiner best. Startsequenz derDNAan.<br />
2. Elongation:<br />
2.1Entspiralisierung undAufspaltung derDNA-Doppelhelix aneinerbest. Stelle.<br />
2.2RNA-Polymerase wandertin 3'->5'-Richtung aufdem Matrizenstrang ((-)Strang).<br />
2.3Anlagerung vonjeweils komplementärenRibonukleosidtriphosphatennachdem<br />
PrinzipderBasenpaarung<br />
2.4Verbindungder Ribonucleotide in 5'->3'-Richtung, dannVerdrängung des fertigen<br />
mRNA-Stranges undWiederherstellungderDNA-Doppelhelix.<br />
3. Termination:<br />
Beendigungder Transkriptiondurch eine best. Terminationssequenz.<br />
4. Processing/Reifung(beiEukaryonten):<br />
Nichtfunktionsfähige Prä-mRNA umwandeln in die fertigemRNA<br />
5. Translation<br />
tRNA:<br />
Die vierdoppelsträngigenBereicheund diedrei einsträngigenSchleifen<br />
destRNA-Moleküls bildendie typische Kleeblattstruktur.<br />
ImZentrumder2. Schleife liegtdas Anticodon, welches aus dreiBasen<br />
bestehtund durchdie komplementäreBasenpaarungbestimmte mRNA-Codons<br />
erkennt. Die tRNA trägtam 3'(CCA'3)diejenigeAminosäure, diedem<br />
genetischen Code dementsprechenden mRNA-Codon zugeordnetist.<br />
Viele Basen dertRNA sind chemischverändert, zum Beispielmethyliert.<br />
Abb.28) Raumstruktur (Tertiärstruktur)eines<br />
tRNA-Moleküls<br />
15
16<br />
Ribosomen:<br />
Ribosomen sindaus zweiUntereinheitenbestehende Zellorganellen, andenen die<br />
Proteinsynthesestattfindet. Sie sind imZytoplasma, indenMitochondrien undauf demrauhen<br />
ER (Endoplasmatischem Reticulum)zu finden.<br />
Ribosomen sindaus rRNA(ribosomalerRNA)und ribosomalenProteinenaufgebautund<br />
besitzen eineDurchmesservon12 -25nm .<br />
Die Ribosomensindaus einergroßenund einerkleinen Untereinheitaufgebaut.<br />
Diese Untereinheitenwerden jeweils nach ihrerSedimentationskonstanteKbenannt.<br />
Die Sedimentationskonstantewird in Svedberg-Einheiten (S)gemessen.<br />
Einvollständiges Ribosomen imZytoplasma hateine Sedimentationskoeffizienten von80S,<br />
die Untereinheitenvon40Sund 60S. Diese Werte werdenin derUltrazentrifuge ermittelt, sie<br />
lassensichnicht addieren.<br />
InBakterienund Mitochondrien sindRibosomen kleiner, ihre Sedimentationskonstante beträgt<br />
70S, die derUntereinheiten 30Sund50S.<br />
InZellen mit hoherWachstumsgeschwindigkeit (Tumorzellen, regenerierendes Gewebe)oder<br />
umfangreicherProteinsysnthese (Leber, Nervenzellen)ist die Zahlder Ribosomen entsprechend<br />
hoch.<br />
ImaktivenZustand lagernsichRibosomenentlangeinem mRNA-Moleküls zu Polysomen<br />
zusammen.<br />
Definition:<br />
Die Übersetzungder in derBasensequenz dermRNAverschlüsseltenInformation in eine<br />
Aminosäuresquenz eines Proteins wird als Translation bezeichnetundläuft in den<br />
Ribosomen ab.<br />
Die Translationlässt sich infünfPhasen einteilen:<br />
AktivierungderAminosäuren undderen Übertragung auftRNA, Initiation, Elongation,<br />
Terminationund Prozessierung<br />
Aktivierung der AminosäureundderenÜbertragungauftRNA<br />
IndieserPhase wird dietRNAmitAminosäurebeladen. DieserVorgang verbrauchtATPzu<br />
AMP.Hierverbinden Enzymedie einzelnen Aminosäuren mitihrenentsprechenden tRNA-<br />
Molekülen. DieseEnzyme werdenAminoacyl-tRNA-Synthetasengenannt. Sie erkennen<br />
einerseits diezu übertragendeAminosäureund anderseits die zugehörigetRNA.<br />
EinetRNA, dieeineAminosäure trägt, nenntman Aminoacyl-tRNA.<br />
Initiation:<br />
Die Proteinsynthese beginnt mit derBildung des ribosomalen Initiations- oderStartkomplexes.<br />
Diesersetztsichaus folgendenKomponenten zusammen:<br />
- derkleinenUntereinheit 40Seines Ribosoms<br />
- dermRNA<br />
- denInitiationsfaktoren<br />
beiProkaryonten gibtes drei (IF-1 bis IF-3),<br />
beiEukaryonten zehn (eIF-1bis eIF-10)<br />
- derInitiator-tRNS<br />
- GTP<br />
- Mg2+<br />
Die Proteinsynthese beginnt stets miteiner Initiator-Aminosäure(Methionin, bei Bakterien mit<br />
N-Formylin). Die Ableserichtung dermRNA ist von5' nach3' unddas Protein wird vonseinem<br />
NH2-zu seinemCOOH-Ende hin synthetisiert. Das Startzeichenauf dermRNA ist ein StartoderInititator-Codon(5'-AUG-3'<br />
bzw. 5'-GUG-3', wobeiAUGbevorzugt vorkommt). An dieses<br />
Startcodonwird eineInitiator-tRNA (tRNA, die dieInitiator-Aminosäure trägt)überihr<br />
Anticodon (3'-UAC-5') gebundenund gelangt so andie festgelegte Stelleim Startkomplex.<br />
Einepurinreiche Sequenz, die stromaufwärts vomStartcodonliegt, ist komplementärzu einer<br />
bestimmten Sequenz am 3'Ende der16S-rRNAderkleinenUntereinheit undträgtdamit dazu<br />
bei, dass die mRNA in derrichtigenPosition imInitiationskomplexliegt.
Nachdemdie Initiator-tRNA sich andie mitderkleinenUntereinheit verbundenenmRNA<br />
verbunden hat, erfolgtdie Bindung dergroßenUntereinheit mitdem Startkomplex unter<br />
FreisetzungallerInitiationsfaktorenzu einem funktionsfähigen ApparatderProteinsynthese.<br />
An diesemunterscheidetman zwei verschiedene Zentren:<br />
-das Aminoacyl-tRNA-Bindungs-bzw. Acceptorzentrum(A-Zentrum)<br />
-das Peptidyl-tRNS-Bindungszentrum(P-Zentrum)<br />
17<br />
Elongation:<br />
IndieserPhase werdenin Gegenwartvon Elongationsfaktoren (EF)Aminosäuren Schrittweise<br />
verknüpft, so dass eine Polypeptidketteentsteht.<br />
Die Initiator-tRNA (N-Formyl-Methionin-tRNAf)liegt amAnfang derSynthese imP-Zentrum,<br />
dasA-Zentrumist nochfrei. In diesembefindetsichdas zweiteCodon, das direktaufdas Start-<br />
Codonfolgt. Andieses bindetsichnun eine zudemCodon passende Aminoacyl-tRNA<br />
(Aminosäure tragendetRNA), wodurchdas A-Zentrum besetztwird. Nunsinddas P-und A-<br />
Zentrumdes Ribosoms besetztund die Bedingungenfürdie Bildungder erstenPeptidbindung<br />
zwischen derInitiator(fMethionyl-tRNAf)undder Aminoacyl-tRNAgeschaffen.<br />
Hieristjetztdas EnzymPeptidyltransferase, die indergroßenUntereinheit (S50/S60)sitzt.<br />
Die aktive Carboxylgruppe des Formylmethionins wirddabeimitderAminogruppe derim<br />
A-Zenrum liegenden Aminoacyl-tRNAgebunden. Dabeientstehteine Dipeptidyl-tRNA, die<br />
zunächst nochim A-Zentrumliegt.<br />
Nun folgt einTeilschritt, die Translocation. Hier bewegtsichdas Ribosom, durch die Translocase<br />
katalysiert, umein Triplettauf das 3'Ende dermRNAzu. Die dafürbenötigte Energie wird aus<br />
derSpaltung vonGTPzuGDP undPhosphat gewonnen. Die Dipeptidyl.tRNAwird vondem<br />
A-Zentrum indas P-Zentrumverschoben undgleichzeitig dieentladenetRNAin das<br />
Zytosol/Zytoplasma verdrängt. Das A-Zentrum ist jetztfreiund kanndie nächstebeladenetRNA<br />
binden usw.<br />
Die Verlängerung derPolypeptidkette nimmt demzufolge einen zyklischenVerlauf:<br />
- Bindung einerAminoacyl-tRNA an das A-Zentrum<br />
- Knüpfungeinerneuen Peptidbindung durchÜbertragungdesPeptidylrestes<br />
derPeptidyl-tRNAimP-Zentrum aufdie Aminoacylgruppe imA-Zentrum<br />
- Abgabe derfreien tRNA aus dem P-Zentrum undvorrückenderPeptidyl-tRNA<br />
aus demA-Zentrum indas P-Zentrum<br />
- Bindungder nächstenAminoacyl-tRNA an das freigewordene A-Zentrum<br />
Termintion:<br />
Die Polypeptidkettensynthese schreitetsolange fort, bis eines derdrei Terminations-oder<br />
Stoppcodons (UAG,UAAoderUGA)auf dermRNA das Endesignalisiert. DieStopp-Tripletts<br />
codieren keine Aminosäure, d.h. es gibtinderZelle keine tRNA, deren Anticodonkomplementär<br />
zumStoppcodonist.<br />
ZurErkennung derStoppcodons gibtes zweiAblösungsfaktoren, diejeweils spezifische<br />
Stoppcodons imA-Zentrum erkennen undsichan sie bindenund damiteine Wirkungsänderung<br />
derPeptidyltransferasebewirken. Die Peptidyltransferase verknüpft nunkeine Peptidemehr,<br />
sondernspaltetdie synthetisierte Polypeptidkette vom letzenTriplettab undgibt sie frei.<br />
Ebensoverlassen auchdie mRNA undtRNAdas Ribosom, das nun wiederin eine große und<br />
kleine Untereinheitzerfälltund nunwiederzurerneuten Proteinsynthese zurVerfügung stehen.<br />
Prozessierung:<br />
Die Polypeptidkette wird nach derTerminationdurch irreversible chemischeVorgänge inihre<br />
biologisch aktiveFormumgewandelt. Man sprichthiervon einerposttranslationalen<br />
Modifikation.
DieWirksamkeitderProteinsynthese wird gesteigert, indemsich mehrere Ribosomengleichzeitig<br />
einund dieselbe mRNA translatieren. Mannennt diese Aufreihungvon Ribosomen, die vonder<br />
mRNA zusammengehaltenwerden, Polysom.<br />
18<br />
6. Regulation derGenexpression<br />
Das Jacob-Monod-Modell(Operon-Modell)<br />
ZurErklärungdiese Modells derRegulationder<br />
Genaktivitätbeziehenwiruns auf Prokaryonten.<br />
Man kanndie Gene jenachFunktionin drei<br />
verschiedene Gruppeneinteilen:<br />
Strukturgene, Operatorgeneund Regulatorgene<br />
Strukturgene sind verantwortlich fürdieAusprägung<br />
von Eigenschaften. Ihre Nucleotidsequenz codiertdie<br />
Aminosäuresequenzdes Proteins/Enzyms.<br />
Überdiese Enzymegreifensiein den Stoffwechselein.<br />
Operatorgene kontrollieren dieFunktionstüchtigkeit<br />
derStrukturproteine. Sie liegenin derDNA-Doppelhelix<br />
vorden Strukturgenen undkönnen hemmendoder<br />
anregendaufdie Transkription derStrukturgene<br />
wirken.<br />
Als Operon bezeichnetman einOperatorgen unddie<br />
dazugehörigenStrukturgene, die bei einemBiosyntheseschrittzusammenwirken.<br />
DerPromotor<br />
ist, wie wirimKapitel derTranskription<br />
erfahrenhaben, eine Regiondes DNA-Stranges, an<br />
demsich die RNA-Polymerase bindet.<br />
Beider Tanskriptionbeginnt beiihm die Synthese der<br />
mRNA. DerPromotoristauchBestandteil des<br />
Operons.<br />
Regulatorgene steuern dieGenaktivität,sie regulieren<br />
alsodie Operons. Dazuerzeugensiespezielle Proteine,<br />
die sog. Repressoren.Diese Gene liegenaußerhalb des<br />
Operons.<br />
Die Repressoren lagern sich an die Operatorgene und<br />
verhindernsodie Transkription derStrukturgene, d.h.<br />
das Operon ist inaktiviert.<br />
Induktormoleküle veränderndie Raumstrukturdes<br />
Repressors, sie inaktivierenihn, so dass ermitdem<br />
Operatorgen nichtmehr in Wechselwirkungtreten kann<br />
und damitdas Operon wiederaktiv wird unddie<br />
Transkriptionungehindert erfolgen kann.<br />
Wenndas Substrat eines Enzyms des Operons die<br />
Genaktivitätunddamit dieEnzymsynthese auslöst,<br />
sprichtman auchvon Substratinduktion.<br />
Beider Endprodukt-RepressionoderEnzym-<br />
Repressionhemmtein Endprodukt einerReaktionskette<br />
eine weitere Enzym-Synthese.<br />
Abb.29) Induktion<br />
RRegulatorgen, OOperator, SStrukturgene,<br />
PPromotor<br />
Abb.30) Endprodukt-Repression<br />
RRegulatorgen, OOperator,SStrukturgene,<br />
PPromotor
7. <strong>Datenbanken</strong> in derBioinformatik<br />
DieBioinformatikbeschäftigt sich mitMethodenzurUntersuchung vonProblemender<br />
Molekularbiologie auf Computersystemen. AufGrundderdabeianfallenden sehrgroßen<br />
Datenmengen undumfangreichen Datenanalysen, sind <strong>Datenbanken</strong> inderBioinformatik<br />
vongroßerBedeutung.<br />
19<br />
7.1Verwendungvon <strong>Datenbanken</strong> in den verschiedenen Problemfeldern<br />
derMolekularbiologie:<br />
Sequenz-<strong>Datenbanken</strong> zurDNA-AnalyseundSequenzierung<br />
Ziel derSequenzierung istdie Ermittlung derkodierenden undnicht-kodierenden Bereiche der<br />
DNA-Sequenzeines Organismus. Die durchdie DNA-Analyse-Methoden erworbenenDaten<br />
werdenin Sequenz-<strong>Datenbanken</strong> verwaltet. Diese<strong>Datenbanken</strong>sindmeistsehrgroßund besitzen<br />
exponentielles Wachstum.<br />
Proteinsequenz- undProteinstruktur-<strong>Datenbanken</strong> zurStrukturvorhersage<br />
Ein HauptzielderBiologieistdie Strukturvorhersagevon Protein-Molekülenaus ihre<br />
Aminosäuresequenz, da dieFunktioneines Proteins vonseiner3D-Strukturabhängigist. Diese<br />
Vorhersage ermöglichtLaboruntersuchungen einzuschränken.<br />
BeiHomologie-BasiertenAnsätzen werden Aminosäuresequenzen bereitsbekannterProteinemit<br />
derSequenz des unbekannten Proteins verglichen. Fürdiesen Zweckwerden Proteinsequenz-und<br />
Proteinstruktur-<strong>Datenbanken</strong>aufgebautund andieseÄhnlichkeitsanfragengestellt.<br />
Pathways/Biochemische Pfade<br />
Einbiochemischer Pfad modelliert abstrakteineAbfolge vonchemischen Reaktionen ineiner<br />
Zelle. Metabolische Pfade(Reaktionswege imStoffwechsel) undRegulatorische Pfade<br />
(KontrollmechanismeninderGenexpression, siehe vorheriges Kapitel)sind vonbesonderem<br />
Interesse. Um biochemische Pfadezufinden, werden unteranderemSequenz-<strong>Datenbanken</strong><br />
genutzt. DieVerwaltungderdabei gewonnenen Daten geschieht ebenfalls inspeziellen<br />
<strong>Datenbanken</strong>.<br />
Sequenz-Datenbank zurErmittlung phylogenetischerBäume<br />
DieEvolution geht mit Veränderung derKodierungderProteine derOrganismeneinher.<br />
Umzu entscheiden, wann die EntwicklungderNachfolgereines Organismus auseinander ging,<br />
werdenspezielle Sequenzanalysealgorithmen, die aufModellen derGeschwindigkeitder<br />
VeränderungderKodierungder Proteine beruhen, angewandt.<br />
Man erhältso die Stammbäume, die sog. phylogenetischen Bäume, derOrganismen.<br />
BeiderBerechnung dieserBäume werden oft Sequenz-<strong>Datenbanken</strong> genutzt.<br />
Genexpressionsanalyse<br />
EinGenwirdoftalsDNA-Abschnittdefiniert, derein Protein kodiert. Die Transkription (siehe<br />
vorheriges Kapitel), insbesonderederStrukturgene, wirdals Genexpression bezeichnet. Mittels<br />
sog. DNA-Chips kann das Expressionsniveaumehrerertausend Gene gemessenwerden, die die<br />
Zelle zueinembestimmten Zeitpunkt exprimiert.<br />
Gesunde undkranke Zellenkönnen an Handdes Expressionsniveau unterschiedenwerden.<br />
Data-Miningwirdgenutztum Gene mit ähnlichen Expressionsmustern inGruppen zusammen<br />
zufassen.
7.2 Datenmodellierung und -management<br />
20<br />
BeiBio-<strong>Datenbanken</strong> werdenvier Formen vonDatenmodellenverwendet:<br />
- ASCII-Texte, sog. Flat-Files<br />
- Datenmodelle von Standard <strong>Datenbanken</strong>,<br />
z.B.: relational, Objektoderobjektrelationale <strong>Datenbanken</strong><br />
- ObjectProtocol Model(OPM)<br />
- ACEDB-Datenmodell.<br />
Flat-Files<br />
In derAnfangszeitderMolekularbiologie-<strong>Datenbanken</strong> wurdenDatenbankManagement<br />
Systeme (DBMS)wenig genutzt. Stattdessenwurden die Bio-<strong>Datenbanken</strong>aus<br />
indiziertenASCIITextdateien, densog. "flatfiles", aufgebaut.<br />
Einige <strong>Datenbanken</strong>basierenheute noch aufdiesen. Ein Grund dafürist, dass dieDatender<br />
Molekularbiologieoftsehrkomplex sind, sodass vieleflat-files tiefgeschachtelte Datensätze,<br />
Mengen, Listenund Abweichungen enthält, diesichnichteinfach in einem relationalenoder<br />
ObjektDBMS repräsentierenlassen.<br />
Bio-<strong>Datenbanken</strong>, die als flat-files implementiertwurden, besitzenkein explizites Datenmodell.<br />
Ihre Einträge sindgewöhnlichimplizitoderexplizitdurchSuchindexestrukturiert. Die meisten<br />
flat-fileSammlungen, die explizitstrukturiert sind, nutzen Schlüsselworte, sog. "line types", als<br />
Index. DieSchlüsselworte undIndizes unterscheidensich oft inverschiedenen flat-files nicht<br />
nurinihrerSyntax, sondern auch vonihrerSemantik.<br />
Viele Bio-<strong>Datenbanken</strong>, insbesondere Sequenzdatenbanken, sind nochals flat-file Sammlungen<br />
implementiert. Zudemsindheute flat-files derde factoStandard zumDatenaustauschin der<br />
Bio-Informatik. Undviele Werkzeuge inder Bio-Informatik (z.B.:BLASTund FASTA)<br />
arbeitennurmit flat-files. Deshalbbietenviele Bio-<strong>Datenbanken</strong> ihrengesamtenInhalt in<br />
einemodermehrerenflat-files an.<br />
Relationale und Objekt-Datenmodelle<br />
Viele deraufflat-file beruhenden<strong>Datenbanken</strong> wurdenaufrelationalen, objekt-orientierten<br />
oderobjekt-relationalenDBMSreimplementiert.<br />
Ihre Daten werdenfolglichunter Verwendung des relationalenoderdes Objekt-Datenmodels<br />
repräsentiert. Das Objekt-Modell istbessergeeignet als das relationaleModel, ummolekularbiologische<br />
Daten zumodellieren. Bio-<strong>Datenbanken</strong>basierendaufdemrelationalen Modell<br />
besitzenoftsehrkomplexe Schemas undsinddamit nichtsointuitiv. Dasmachtes schwierigsie<br />
zuadministrieren undAnfragen aufsie zu stellen.<br />
Dennoch werdenoftsolche DBMS, wie z.B.:Oracle, SybasederMySQLgenutzt.<br />
ACEDB<br />
ACEDB isteinDBMS, das ursprünglichfürdie Datenbank "A C.elegans Data Base”<br />
(abgekürztACeDB). Diese <strong>Datenbanken</strong>thielt Daten voneinem kleinenWurm "C.elegans".<br />
ACEDB isteineErweiterung dieses DBSM umandere solche spezialisierten Daten zu<br />
verwalten.<br />
Bei ACEDB werdendie Daten als Objekte, die inKlassen organisiertsind, modelliert.<br />
Jedochunterstützt ACEDB wederKlassenhierarchie noch Vererbung.<br />
Ein solches ACEDB-Objektbesitzteine Mengevon Attributen, die Objekte oderatomareWerte<br />
(Zahlen oderZeichenketten)seinkönnen.<br />
ACEDB Objekte werdenals Bäume, deren(beschrifteten)KnotenObjekte oderatomare Werte<br />
sind undderen Kanten Attributbeziehungendarstellen, repräsentiert.<br />
Das Klassen-ModellvonACEDBspezifiziertdie maximaleMenge vonAttributen, die ein<br />
ObjektderKlasse habendarfund den Typ/Classe dieserAttribute/Objekte.<br />
ACEDB wird vonBio-<strong>Datenbanken</strong> oft zurVerwaltung genetischerDaten verwendet.<br />
DerQuellcodevon ACEDB istpublic undkanndeshalbdenverschiedenenAnforderungender<br />
speziellenAnwendungenangepasstwerden.
21<br />
Object-ProtocolModel (OPM)<br />
OPM wurde entwickeltzurModellierungbiologischerDaten undderEreignisabfolge in<br />
wissenschaftlichenExperimenten. Es eignetsichgutzurRepräsentationzeitlicherBedingungen<br />
und des Datenflusses zwischendenTeilexperimenten.<br />
OPM eignet sich gutzur ModellierungdynamischerDaten, wiePhenotyp-Daten und die<br />
Dynamik vonbiologischenProzessen.<br />
OPM und dessen"data management tools suite" istkommerziell.<br />
Querverwiese<br />
InBio-<strong>Datenbanken</strong> verweisen Datensätze aufBeschreibungen derExperimente, durch die<br />
die Daten gewonnen wurden, aufähnliche Daten inder selben odereinen anderen Datenbank.<br />
Meist werdendiese Verweisedurch (künstliche)Primärschlüsselrealisiertund als Hyperlinks<br />
implementiert.<br />
Diese Hypertext-Verlinkung ist einbesonders auffälliges MerkmalderBio-<strong>Datenbanken</strong>.<br />
Anfragen<br />
FürAnfragestellungenbieten dieBio-<strong>Datenbanken</strong>oft Webformulare an.<br />
Die derzeitgenutztenSchnittstellenlassen sich leichtbenutzen, es sind abernur meist begrenzte<br />
Anfragen möglich undmankann dort Anfragesprachen imherkömmlichenSinn nurselten<br />
finden. Einige Tools greifendirektaufdiese Schnittstellenzu. Zusätzlichstellenfastalle Bio-<br />
<strong>Datenbanken</strong> ihre Daten inden unterschiedlichsten Formaten als flat-files zumDownloadzur<br />
Verfügung.<br />
7.3 Datenanalyse und -integration<br />
Die meisten Bio-<strong>Datenbanken</strong> enthalten Software zurDatenanalyse. Diese Software sindentweder<br />
Implementierungenvon denbekanntenBioinformatik-Algorithmen, wiezumBeispielderSmith-<br />
Watermann-Algorithmus, oderWerkzeuge, wieBLAST, die aufbekannte oderwenige bekannte<br />
Algorithmenberuhen. Einige dieserTools sind schwierig zubenutzen, daviele Parameter<br />
angegebenwerden müssenund viele dieser Tools unzureichenddokumentiertsind.<br />
Viele Bio-<strong>Datenbanken</strong> enthalten außerdem elementare Computer-Linguistik-Software zur<br />
Schlagwortsuche undÜbersetzungenzwischenden geläufigsten Datenformaten.<br />
Wegendes schnellen Wachstums von Bio-<strong>Datenbanken</strong>spielenVerfahren zurKnowledge<br />
Discoveryund DataMiningimmergrößereRolle.<br />
Integration vonDatenunterschiedlicherUrsprünge führtzu "Beschreibungs-", "Heterogenitäts-"<br />
und "semantischen" Konflikten.<br />
Beschreibungskonflikt liegt vor, wenndas selbe semantischeObjektinverschiedenen<br />
<strong>Datenbanken</strong> unterschiedlich modelliertwird.<br />
Heterogenitätskonflikt resultiert aus denunterschiedlichen Datenmodellen und Managementsystemen<br />
der verschiedenen <strong>Datenbanken</strong>.<br />
Semantischer Konflikt tritt auf, wenndie grundlegenden Begriffe, wie zumBeispiel "Gen"in<br />
verschiedenen <strong>Datenbanken</strong>unterschiedlich ausgelegt werden.<br />
FrüheWerkzeugezur DatenintegrationberücksichtigendieseKonflikte nicht.<br />
Neuere Ansätzeversuchen Semantische Konflikte unteranderem mittels Ontologien zu lösen.<br />
Das Problem, Daten unterschiedlicherQualitätzu integrieren, wurde bishernochnicht<br />
zufriedenstellend gelöst.<br />
Um die Datenaus den verschieden<strong>Datenbanken</strong>aktuellzu halten, sind regelmäßige(tägliche)<br />
Updates nötig. BeiBio-<strong>Datenbanken</strong>istdies besonders rechenintensiv, daflat-files derdefacto<br />
Standardbeim Datenaustauschsind. Strukturierte Modelle sind fürdenDatenaustausch<br />
vorzuziehen. Die semistrukturierteHerangehensweise zurDatenmodellierungund<br />
Datenmanagementscheintvielversprechend fürdie DatenintegrationbeiBio-<strong>Datenbanken</strong>.<br />
Verschiedene Forschungen beschäftigensichmitder Modellierungmolekularbiologischer Daten<br />
mittels XML.
8. AbschließendeBemerkung<br />
22<br />
DieVorgänge, die inden Biowissenschaften( Molekularbiologie, Biochemie und Genetik)<br />
untersuchtwerden, sindsehrkomplex undheute teilweise noch nichtbis ins letzte Detailbekannt.<br />
Bei derErforschungdieserVorgänge fallen großeDatenmengenan, diemittels Methodender<br />
Bioinformatikanalysiertund verwaltetwerden. Diese Methoden ermöglichenes in den<br />
Biowissenschaften Modelle leichter zuentwickelnund in diesenzu rechnen.<br />
Das PotentialderInformatik istheutebei den Biowissenschaften bei weitemnoch nicht<br />
ausgeschöpft. Somit istdie Bioinformatik einähnlich interessantes Forschungsgebiet,<br />
wiedie einzelne Biowissenschaftenselbst, in denendie Bioinformatik als Werkzeug<br />
eingesetztwird.
Literaturverzeichnis<br />
23<br />
HO96 Prof. Dr.Hofmann, E.: Medizinische Biochemie systematisch<br />
UNI-MEDVerlagAG, 1996, ISBN 3-89599-121-X<br />
KA88 Karlson, P.: Kurzes Lehrbuchder Biochemie für Mediziner und Naturwissenschaftler<br />
Georg Thieme VerlagStuttgart, NewYork, 1988, ISBN3-13-357813-8<br />
AB97 hrsg. von Abdolvahab-Emminger, H.: Physikum EXAKT-Das gesamte Prüfungswissen in<br />
einemBand Georg Thieme VerlagStuttgart, NewYork, 1997, ISBN3-13-107031-5<br />
BK89 Bayrhuber,H. ,Kull,U.: Linder Biologie -Lehrbuchfür die Oberstufe<br />
Schroedel Schulbuchverlag, 1989, ISBN3-507-02347-4<br />
MS88 Miram,W., Scharf,K.-H.: Biologie heute SII-Neubearbeitung<br />
Schroedel Schulbuchverlag;1988, ISBN 3-507-10540-3<br />
FI92 Fink, E.: Biologie BON-MED, 1992, ISBN3-928730-63-0<br />
TR97 Trachsel, H.: MOLEKULARBIOLOGIE -Repetitorium für Studierendeder Human-und<br />
Veterinär-Medizin http://ntbiouser.unibe.ch/trachsel/teaching/MBVorl/MBVorl.htm; 1997<br />
FK02 Francois, B. ,Kröger,P.: AComputational Biology Database Digest:Data, Data Analysis,<br />
and DataManagement http://www.pms.informatik.uni-muenchen.de/publikationen/<br />
2002<br />
KF02 Francois, B. ,Kröger,P.: Aktuelles Schlagwort“<strong>Datenbanken</strong>inder Bioinformatik”<br />
http://www.pms.informatik.uni-muenchen.de/publikationen/, 2002<br />
GI<br />
GI e.V.: Informatik-Lexikon:Bioinformatik<br />
http://www.gi-ev.de/informatik/lexikon/inf-lex-bioinformatik.shtml<br />
WM1 www.webmic.de: Transkription<br />
http://www.webmic.de<br />
WM2 www.webmic.de: Proteinsynthese<br />
http://www.webmic.de<br />
Bildverzeichnis<br />
[BK89] Abb.1, Abb.2, Abb. 3, Abb. 10, Abb. 22, Abb.29, Abb. 30<br />
[AB97]<br />
[HO96]<br />
[KA88]<br />
Abb.4<br />
Abb.5, Abb.6, Abb.7, Abb.8, Abb.11, Abb.12, Abb.14, Abb.15, Abb.16, Abb.23,<br />
Abb.24, Abb.25, Abb.26, Abb.27, Abb.28<br />
Abb.9, Abb.17, Abb.18, Abb.20, Abb.21