28.12.2013 Aufrufe

Ausarbeitung - Abteilung Datenbanken Leipzig

Ausarbeitung - Abteilung Datenbanken Leipzig

Ausarbeitung - Abteilung Datenbanken Leipzig

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Problemseminar “ Bio-<strong>Datenbanken</strong>”imWS2002/2003<br />

Einführung<br />

in<br />

dieBioinformatik und<br />

dieBio-<strong>Datenbanken</strong><br />

Betreuer:Dr. DieterSosna<br />

Bearbeiter: StephanKühn


Inhalt<br />

1. Einleitung ..........................................................2<br />

2. Wichtige Grundbausteine inder Molekularbiologie .......................3<br />

2.1 Aminosäuren. ....................................................3<br />

2.2 Peptidbindung ...................................................4<br />

2.3 Peptide .........................................................4<br />

2.4 Proteine.........................................................5<br />

2.4.1 Strukturder Proteine .........................................5<br />

2.4.1.1 Primärstrukturder Proteine .............................5<br />

2.4.1.2 SekundärstrukturderProteine ...........................5<br />

2.4.1.3 TertiärstrukturderProteine .............................6<br />

2.4.1.4 Die Quartärstruktur derProteine .........................7<br />

2.5 Nucleotide und Nucleinsäuren .......................................7<br />

2.5.1 Bausteine ..................................................7<br />

2.5.1.1 Purin-, Pyrimidinbasenund Monosaccharide ...............8<br />

2.5.1.2 Nucleoside ..........................................8<br />

2.5.1.3 Nucleotide ..........................................9<br />

2.5.2 Die Nucleinsäuren ...........................................9<br />

2.5.2.1 DNA undRNA. .....................................10<br />

2.5.2.2 PolaritätderNucleinsäurestränge .......................10<br />

2.5.2.3 Struktur derDNA. ...................................10<br />

3. Der genetische Code.................................................11<br />

4. Transkription ......................................................13<br />

4.1 Transkriptionbei Prokaryonten .....................................13<br />

4.2 Transkriptionbei Eukaryonten......................................14<br />

5. Translation ........................................................15<br />

6. Regulationder Genexpression. ........................................18<br />

7. <strong>Datenbanken</strong> in derBioinformatik ....................................19<br />

7.1 Verwendungvon <strong>Datenbanken</strong>in denverschiedenen Problemfeldern<br />

der Molekularbiologie. ............................................19<br />

7.2 Datenmodellierung und-management ................................20<br />

7.3 Datenanalyse und -integration ......................................21<br />

8. Abschließende Bemerkung ...........................................22<br />

9. Literaturverzeichnis.................................................23


1. Einleitung<br />

2<br />

DieMolekularbiologie beschäftig sich mitMakromolekülen undderen Funktionbei der<br />

Regulationvon biologischen Vorgängen. Von besonderemInteresse sindMoleküle wie<br />

DNA, RNA undProteine.<br />

BeiderAnalyse dieserMakromoleküle undderen Funktionfallenviele Daten an.<br />

DieAufgabe derBioinformatikist nunWerkzeugezurVerwaltung undAnalyse dieser<br />

gewonnenen Daten zuliefern.<br />

Gegenstanddieser<strong>Ausarbeitung</strong> ist die Einführungin dieGrundlagen derMolekularbiologie<br />

undein kleinerÜberblicküberdenEinsatz von <strong>Datenbanken</strong> inder Molekularbiologie.


2. WichtigeGrundbausteine in der Molekularbiologie<br />

Proteine (Eiweiße)sindHauptbestandteile des Cytoplasmas. Sie sindMakromoleküle, dieaus<br />

Aminosäurendurch Peptidbindungenentstehen.<br />

3<br />

2.1 Aminosäuren<br />

Aminosäurensindmehrfunktionelle organischeSäuren,<br />

die wenigstens eine Carboxyl-undeine Aminogruppe<br />

enthalten. AlleAminosäuren, diein Proteinen vorkommen,<br />

habendie gleiche Grundstruktur(Abb. 1).<br />

Sie bestehenaus einemzentralen Kohlenstoffatom, das<br />

manals α-C-Atom bezeichnet, andem ein<br />

Wasserstoffatom, die Aminoguppe (NH 2),die<br />

Carboxylgruppe (COOH)und ein Restgebunden sind.<br />

Sie unterscheidensichnurim Aufbaudes Restes.<br />

Aminosäurentragen sowohl diebasischeAminogruppe<br />

wieauchdie saure Carboxylgruppe, dadurchtritt ein<br />

Protonenübergang innerhalbdes Moleküls auf(Abb.2).<br />

Deshalb tragensienegativeund positive Ladungen<br />

(Zwitterionen). Die Ladungdes Moleküls kannsich<br />

durch Veränderung des pH-Wertes ändern.<br />

DerisoelektrischePunkt istderpH-Wert, andem eine<br />

Aminosäurevollständigals Zwitterion vorliegt. Erhängt<br />

vonderSäure-und Basenstärke derAminosäureab.<br />

.<br />

Abb.1) Grundstrukturder<br />

Aminosäuren<br />

Abb.2) ProtonenübergangbeiAminosäuren<br />

Abb.3) Abh.derLadungvompH-Wert<br />

Abb.4) WichtigeAminosäurenmitihremNamenund<br />

Abkürzungen(imDrei-undEin-Buchstaben-Code)


2.2 Peptidbindung<br />

Die Carboxylgruppeeiner Aminosäure kannsichmitder<br />

AminogruppeeineranderenAminosäureunter Austritt von<br />

Wasserverbinden(siehe Abb. 5).<br />

Die Peptidbindung ist infolge einerElektronendelokalisation(Verschiebungder<br />

Bindungselektronen vonSauerstoff,<br />

KohlenstoffundStickstoff)eine Eineinhalbfach-<br />

Bindung. Dadurch bildendie einzelnenAtome einer<br />

Peptidbindungeine relativstarre Fläche (C-undN-Atom<br />

sind nichtgegeneinanderdrehbar)(siehe Abb. 6).<br />

Abb.5) Verbindungzweier Aminosäuren<br />

zueinemDipeptid<br />

4<br />

Abb.6) DieAtomeeinerPiptidbindung<br />

liegenineiner Ebene<br />

2.3 Peptide<br />

Substanzen, die durchVerbindungmehrererAminosäuren entstehen, nenntman Peptide.<br />

Bestehtein Peptid aus zweiAminosäuren so ist es einDipeptid, enthält es dreiAminosäurensoist<br />

es einTripeptidusw., D.h. die Peptide werdennachderZahl enthaltenen Aminosäuren, nichtnach<br />

derZahlderPeptidbindungen bezeichnet.<br />

Peptide mitzehnoderwenigerAminosäuren werden als Oligopeptide und solche mitmehrals zehn<br />

Aminosäurenwerdenals Polypeptide bezeichnet.<br />

Peptide weiseneine Polaritätauf, an einemEnde des Peptids sitzteine Aminosäure mitfreier<br />

Aminogruppe (N-terminale Aminosäure, dieses Ende wird durchein H[vonHN- herrührend]<br />

2<br />

Abb.7) Polypeptid<br />

repräsentiert). Am anderenEnde sitzteine Aminosäure miteiner freien Carboxylgruppe<br />

(C-terminale Aminosäure, symbolisiert durch ein -OH [von -COOHherrührend]).<br />

Aminosäuren, deren Carboxylgruppe an demAufbau einerPeptidbindung<br />

beteiligtist ,erhältdie Endung -yl, Z.B. Valyl-serin(H-Val-Ser-OH).


2.4 Proteine<br />

Polypeptidemit mehrals 50-100Aminosäuren nennt manProteine.<br />

5<br />

2.4.1StrukturderProteine<br />

Die Strukturder Proteine läßtsichin vierStrukturebenen gliedern:<br />

-Primärstruktur: Aminosäuresequenzdes jeweiligenProteins<br />

-Sekundärstruktur: Faltung derPolypeptidkette<br />

-Tertiärstruktur: räumliche Strukturder Polypeptidkette<br />

-Quartärstruktur: Anzahlund gegenseitige räumliche Anordnung derUntereinheiten<br />

2.4.1.1 Die PrimärstrukturderProteine<br />

InProteinentreten 20verschiedene Aminosäuren (proteinogene Aminosäuren)auf.<br />

Die verschiedenenProteineunterscheiden sich in Anzahl undReihenfolgeder Aminosäurenvoneinander.<br />

Für Proteine, die aus 100Aminosäurenaufgebaut sind, ergeben sich bereits 20<br />

100<br />

Möglichkeitendie verschiedenenAminosäurenanzuordnen.<br />

100<br />

Um einGefühl fürdie Größenordnung zu bekommen:20 bewegtsichin derGrößenordnungvon<br />

130 67<br />

10 .Im Vergleich dazu hatunserGalaxie 10 Atome.<br />

SozumBeispielunterscheidetsichdas Insulin des Menschennurin einereinzigen Aminosäure<br />

vomInsulin des Schweines.(am C-Terminus der B-Kettehatdas SchweineinsulinAla, das<br />

menschlicheInsulin hingegen Thr).<br />

Abb.8) Primärstrukturdes Humaninsolins<br />

DieReihenfolge derAminosäurenin einerPolypeptidKette heißt Primärstruktur.<br />

2.4.1.2. DieSekundärstrukturderProteine<br />

DieSekundärstrukturbeschreibtdie FaltungeinerPolypeptidkette. Dies gehtdaraufzurück, dass<br />

die Peptidbindungeine ziemlich starreEbene (siehe Kapitel2.2)darstellt, so dass mansichdie<br />

Polypeptidkette als eine Aufeinanderfolge starrerEbenenvorstellenmuss, die in einem<br />

bestimmtenWinkelzueinanderstehen.<br />

Es gibtzweiTypen vonSekundärstrukturen:die Helix (Schraube)und das Faltblatt.<br />

DieHelix<br />

DieHelix kann rechts-oderlinksgängigsein.<br />

Rechtsgängigkeitherrscht, wenndie Schraube bei Blickrichtung<br />

vomN-zum C-Terminismus imUhrzeigersinn verläuft und<br />

Linksgängigkeit, wennsiediesem entgegenläuft.<br />

DieSpiralein derAbb.9istrechtsgängig, da -wennman hiervon<br />

untendaraufschaut (Blickrichtungvon N-nach C-Terminismus)<br />

-dieSpiraleim Uhrzeigersinnverläuft.<br />

Abb. 9) SchematischeDarstellung derα-Helixals Peptidkette


Die α-Helix<br />

isteine stabile Sekundärstruktur.<br />

JedeWindunghat 3,6 Aminosäurenund derAbstandzwischenzwei benachbarten Windungen<br />

beträgt5,4Å( Ångström,= 0,54nm), das ist diesogenannte Identitätsperiode.<br />

Die NH-und CO-Gruppenstehensichin diesemAbstandentlang derHauptachse derHelix<br />

gegenüber. Wasserstoffbindungenbilden sich (von NH-zu OH-Gruppe)zwischenden einzelnen<br />

Windungen aus, d.h. sie verlaufenparallel zurLängsachse derHelix undverleihen ihreine<br />

besondereStabilität. DieSeitenkettenderAminosäurenstehen radialnach außen vomeigentlichen<br />

Schraubenkörper. Sie können miteinanderoder mit demLösungsmittelinReaktiontreten.<br />

Die Aminosäure ProlinistmitderRegelmäßigkeit derHelix nichtvereinbarund führt zueiner<br />

UnterbrechungderHelixund einem "Knick" inderPolypeptidkette .<br />

WoProlin in derSequenz vorkommt, ergibt sich einAbweichungvon derregelmäßigen Struktur.<br />

Das Haar- undWollproteinKeratin istein Beispielfürein Protein, das spontaneine α-Helix<br />

ausbildet.<br />

6<br />

Die Faltblattstruktur<br />

BeidieserStrukturkann man sich die Ebenen derPeptidbindungenals Seiten eines<br />

Endloscomputerpapiers, die ineinem bestimmten Winkelaufeinandertreffen, vorstellen. Wenn<br />

zweisolcheFaltblätternebeneinanderliegen, entstehtdie Möglichkeit derAusbildungvon<br />

Wasserstoffbrücken zwischenihnen, die hierimGegensatz zurα-HelixsenkrechtzurLängsrichtung<br />

derPolypeptidketten verlaufen. DieSeitenketten derAminosäurenstehennahezusenkrechtzur<br />

Längsrichtungnachoben bzw. unten.<br />

Abb.10) SchematischeDarstellung derFaltblattstruktur<br />

Wasserstoffbrücken, hier gestricheltdargestellt,verbindendiegefaltetenKetten<br />

2.4.1.3 DieTertiärstruktur derProteine<br />

Dieglobulären (kugelförmigen)Proteine besitzenim Gegensatzzu den fibrillären(fadenförmigen)<br />

Proteinen, die nurdie Primär-undSekundärstrukturaufweisen, eine räumliche Struktur -die<br />

Tertiärstruktur. Siekommtdurch diedreidimensionaleAnordnung ihrerPolypeptidkette zustande.<br />

DieTertiärstrukturkommendrei Strukturelementevor:<br />

1.Helices (auchals α-Strukturenbezeichnet),<br />

2.Faltblätter(auch als β-Strukturen bezeichnet)und<br />

3.unregelmäßige Schleifen, diehäufig auchals<br />

Haarnadelbiegungen ausgebildet sind.<br />

Oft lässtsichdie Ausbildung vonStrukturdomänen beobachten. Strukturdomänensind Teile der<br />

Tertiärstruktur, diebei miteinanderverwanden Proteinenals Strukturelemente immerwiederkehren,<br />

einebestimmte Anzahlvon Helices, Faltblätternund Schleifenin bestimmterräumlicher<br />

Anordnung zueinanderenthaltenund durchbestimmte Funktionengekennzeichnet sind.


Abb.11) EineStrukturdomäneinderRaumstruktur<br />

einesProteins<br />

7<br />

2.4.1.4 Die QuartärstrukturderProteine<br />

Wenn ein Protein aus mehreren Polypeptidketten, also aus Untereinheiten, aufgebaut ist, spricht<br />

man voneiner Quartärstruktur. Manbezeichnetdieses dann auch als oligomeres Protein.<br />

Bevorzugt bestehensolche Proteine entwederaus vierUntereinheiten, dann nenntman einsolches<br />

Proteintetramer, oderaus zweiUntereinheiten undman sprichtvon einemdimeren Protein.<br />

EinProtein, das nureine Polypeptidkette enthält, bezeichnetman als monomer.<br />

Untereinheiten könnenbeioligomerenProteinenentwederidentischodernichtidentischsein.<br />

Hämoglobin, zum Beispiel, istein tetrameres Protein. Esbesteht aus4Untereinheiten<br />

die paarweise identischsind undalsα-und β-Ketten bezeichnet werden.<br />

Abb.12) Quartärstruktur des Hämoglobins αβ 2 2<br />

Essindjeweils dieN-undC-Terminizuerkennen<br />

dieα-Kettensindweiß unddie β-Kettengrau<br />

2.5 Nucleotideund Nucleinsäuren<br />

2.5.1 Die Bausteine<br />

Nucleotideund Nucleinsäurensetzen sich aus dreiverschiedenen Gruppen von<br />

Bausteinenzusammen:<br />

-Purin-und Pyrimidinbasen<br />

-Monosaccharide<br />

-o-Phosphorsäure


2.5.1.1 DiePurin-, Pyrimidinbasen und Monosaccharide<br />

In Nucleotiden undNucleinsäurenfindetmanAdenin undGuanin als Purinbasen und<br />

Cytosin, Thymin, Uracil, 5-Methylcytosin(inderDNSvon Bakteriophagen) als Pyrimidinbasen<br />

8<br />

Abb.13) DieBasen imÜberblick,<br />

dieAtomesinddurchnumeriert<br />

Die Monosaccharide sind D-Ribose unddie 2-Desoxy-D-Ribose.<br />

SieenthaltenfünfKohlenstoffatome (man sprichtauchvon Pentosen).<br />

Abb.14) diePentosen,beiderß-D-Ribosesinddie<br />

C-Atomedurchnumeriert,Numerierung<br />

erfolgtbeider2-Desoxy-D-Riboseanalog<br />

2.5.1.2 DieNucleoside<br />

Ein Nucleosid ist die Verbindung zwischeneinerPurin-bzw.Pyrimidinbase mitdem ersten<br />

Kohlenstoffatom(C )derD-Ribose.<br />

1<br />

Abb.15) StrukturformelnausgesuchterNucleoside<br />

VerbindungenderBasenmitder 2-Desoxy-D-Ribose bezeichnetman als Desoxynucleoside.<br />

Die Bindung erfolgtβ-glycosidisch zwischendemN-Atom 3beieiner Pyrimidinbase bzw.<br />

dem N-Atom 9beieinerPurinbase und demC-Atom1’ derbetreffendenPentose.<br />

Um Verwechslungen vorzubeugen, werdendie C-Atome des Zuckers miteinemStrichversehen.<br />

Die Nucleosideder Purinbasenwerden gekennzeichnetdurch dieEndung-osin (Adenosin, Guanosin)<br />

und die Nucleoside derPyrimidinbasendurch dieEndung-idin(Cytidin, Uridin, Thymidin).


2.5.1.3. DieNucleotide<br />

Verbindungen derNucleosidemit Phosphorsäurewerdenals Nucleotide bezeichnet.<br />

Je nach beteiligtemZuckerunterscheidetman Ribo-und Desoxribonuleotide.<br />

DiePhosphorsäureistindiesen mit derPentose esterförmigüberdie alkoholischeOH-Gruppe am<br />

C-Atom5'oderC-Atom3' verbunden. Danach unterscheidetman 5'-von3'-Nucleotiden.<br />

DieNomenklatur derNucleotide berücksichtigt die NaturderBase unddes Zuckers, sowiedie<br />

Stellung des Phosphorsäuremoleküls am Zucker, zB:Adenosin-5'-monophosphat(auch als<br />

Adenylsäure bereichnet). DaThyminin dennatürlichen Nucleosidenund Nucleotiden nurin<br />

Verbindungmit Desoxyribose auftritt, verzichtet manbei diesenaufKennzeichnung mit Desoxy.<br />

Abb.16) StrukturformelneinigerNucleotide<br />

9<br />

2.5.2 Die Nucleinsäuren<br />

Nucleinsäuren sind Polynucleotide, d.h. siesetzen sich aus vielenNucleotidenzusammen.<br />

Ein einzelnes Nucleotid bezeichnetman als Mononucleotid.<br />

Ihre Verknüpfungin denNucleinsäurenerfolgtdurch zweifach verestertePhosphorsäure<br />

(Phosphorsäurediester-Bindung)zwischen demC-Atom5' eines Nucleotids mit demC-Atom3’<br />

des benachbarten Nucleotids.<br />

Zum Beispiel ergibtsichfolgende Polynucleotidstrukturwie inderAbb. 17und Abb. 18<br />

Abb.17) FormelausschnitteinerDNA<br />

mitPhosphatam5’-Ende<br />

Abb.18) FormelausschnitteinerRNA<br />

mitPhosphatam5’-Ende


2.5.2.1 DNA und RNA<br />

JenachArtder Pentose unterscheidet manNucleinsäuren. Ist derZucker2-Desoxy-D-Ribose<br />

spricht manvon Desoxyribonucleinsäure(DNS)bzw desoxyribonucleic acid (DNA)undvon<br />

Ribonucleinsäure(RNS) bzw. ribonucleic acid (RNA), wenn Zuckereine D-Ribose ist.<br />

EinweitererUnterschiedistdie Basenzusammensetzung:<br />

Inder DNAtreten als BasenAdenin, Guanin, Cytosin undThyminauf,<br />

inderRNA kommtstatt Thymin dieBase Uracilvor.<br />

10<br />

2.5.2.2 Die Polarität der Nucleinsäurestränge<br />

Nucleinsäuremolekülebesitzen eine Polarität. Siekommtzustande, weildie Phosphorsäurenur die<br />

Hydroxyle3' und5' miteinanderverknüpfenkann, da das C-Atom 1'derPentose mitderBase und<br />

das C-Atom 4'mitdem furanoiden Ring besetztist. Dadurch ergeben sich zwei definierte Enden des<br />

Nucleinsäure-Moleküls. NachKonvention schreibt mandie Kette so, dass das 5'-OH-Ende, das noch<br />

einen Phosphat-Restträgt, links unddas 3'-OH-Ende rechts steht.<br />

Die KurzschreibweisederDNA-Strukturvon Abb. 17istpdG-dT-dC-dA-dToderd(pGpTpCpApT)<br />

und die Kurzschreibweise derRNA-Strukturaus Abb. 18 ist-A-A-U-C oderpApApUpC.<br />

Abb.20) Demonstration derPolarität,andem<br />

DNA-AusschnittvonAbb.17<br />

2.5.2.3 Die Struktur der DNS<br />

Die DNA trittvorwiegend inFormvon Doppelsträngen aufund<br />

besitzteine<br />

charakteristische Sekundärstruktur, die Doppelhelix.<br />

Mankann sie wie folgt beschreiben:<br />

1. Die zweiPolynucleotidstränge sind in derDoppelhelix<br />

spiralförmigverdrillt, siemüssen entdrillt werden,<br />

wennsiegetrennt werdensollen.<br />

2. Die Polypeptidketten besitzen entgegengesetzte<br />

Polarität, sie verlaufenantiparallel<br />

3. Es stehensichimmerzweiBasen, die strukturell<br />

komplementärsind, in derDoppelhelix gegenüber.<br />

Mankann sich alsodie DNAals "verdrillte Strickleiter"<br />

vorstellen, wobeieine Windung10 Basenpaare enthältund die<br />

Identitätsperiode 3,4 nmist. Die komplementärenBasenpaaresind<br />

Adenin -Thymin undCytosin-Guanin. Zwischen den<br />

komplementären Basenbilden sich Wasserstoffbindungenaus<br />

(Zwischen Adeninund Thymin zwei undzwischen Guaninund<br />

Cytosindrei).DieseWasserstoffbindungen halten die Einzelstränge<br />

zusammenund stabilisieren so dieDNA-Doppelhelix.<br />

Durch die Basenpaarung bestimmtjedeBase ihrenPartner, so<br />

dass einStrangdie vollständige Sequenz derBasen des anderen<br />

Strangs festlegt.<br />

Die Zuckerrestestehensich nichtdiametralgegenüber.Dies<br />

bewirkt, dass die Windungen derHelices zumTeil weiterentfernt<br />

sind, zumTeil näherbeieinanderliegen. Dadurchgibtes eine<br />

großeund eine kleineFurche.<br />

Abb.21) zeigtdieräumlicheStruktur<br />

der DNA-Doppelhelix


Diese GrundformderDNA bezeichnet manals B-DNA.DieDNAkann noch in<br />

zweiweiterenFormenVorliegen:<br />

A-DNA istbeigeringer Hydratisierung zubeobachten.<br />

Hiererscheinendie BasengeneigtgegenüberdemZucker-Phosphat-Gerüst<br />

undeine vollständige Windungumfaßt11Basenpaare.<br />

Bei derZ-Konformation derDNA ist dieSchraubenrichtungentgegengesetztzur B-Form. Siehat<br />

diesen Namen erhalten, weilhier das Zucker-Phosphat-Gerüst Zickzack-förmiggeknickt vorliegt.<br />

Einzelne Abschnitte können inEukaryonten-Chromosomenin Z-Konformation vorliegen.<br />

In Sequenzen inden sich die Purin-und Pyrimidin-Basen abwechseln kanneszuBildung vonZ-<br />

Abschnitten kommen, wenndie umgebende DNA durchihreÜberspiralisierung<br />

einenZwang aufeine solche DNA ausübt.<br />

11<br />

3. Dergenetische Code<br />

Ein Genistmolekulargenetischbetrachtet, ein StückeinerDNA-Doppelhelix, das inseiner<br />

Nucleotidsequenzdie Information füreinPolypeptidenthält unddahereine funktionelle Einheit ist.<br />

In denProteinen derLebewesentreten in derRegel20 verschiedeneAminosäurenauf.<br />

DerenReihenfolge muss in derNucleotidsequenz derDNA verschlüsselt vorliegen.<br />

Wiewir in den vorherigen Kapitelngelernt haben, kommen inden Nucleinsäuren 4Basenvor.<br />

Würde eine Aminosäure durcheine Base bestimmt, so ließensichden 4Basennur 4Aminosäuren<br />

2<br />

zuordnen. Zwei Nucleotide würdenauchnicht ausreichen, denn dann könntenerst4=16<br />

Aminosäurendurch dieDNAcodiert werden. Erst beieinerKombinationvon 3aufeinanderfolgendenNucleotide,<br />

genanntNucleotidtriplett, ergebensichgenügendviele Möglichkeitendie 20<br />

3<br />

Aminosäurenzucodieren. Daraus folgt, dass es 4=64 verschiedeneMöglichkeitenvon<br />

Triplettstrukturengibt, d.h. wesentlich mehrals zurVerschlüsselung von20 Aminosäuren nötig<br />

sind. Wichtig istnun, dass alle denkbaren64 Tripletts Codierungsfunktionbesitzen undkein<br />

einziges Triplett überflüssigist. Durch 61Codons werden20 Aminosäuren codiert, d.h. eine<br />

Aminosäurewird durch mehrals ein Codon Verschlüsselt. Deshalb nenntmanden genetischen<br />

Code degeneriert. Die restlichendreiCodons besitzen Signalfunktionen. IhreAnwesenheit markiert<br />

das Ende derStrukturinformation. Mannenntsie Stopp-Codons. Die Basen-Tripletts derDNA, die<br />

eineAminosäurecodieren, werdenals Codogenebezeichnet. Dem Codogen entsprichtnachder<br />

Transkription einCodon auf der mRNA.<br />

In derCode-Sonne (Abb.22)und Code-Tabelle (Abb. 23)sind die Codons dermRNA angegeben.<br />

Ihre Gesamtheit ist dergenetischeCode, unddie Einheitdergenetischen Informationist das Codon.<br />

WichtigeBesonderheiten des Aminosäurecodes:<br />

1. die Nucleotidtripletts werden nacheinander"abgelesen", jedes Triplett isteine<br />

eigenständige Einheit, Teile vonihmgehörenwederzumvorhergehenden noch zum<br />

nächsten Triplett<br />

2. imgenetischen Code gibtes keine Trennzeichen, d.h. dieTriplettsfolgen unmittelbar<br />

aufeinander<br />

3. der genetische Code ist universell:von ganz wenigen Ausnahmen abgesehen, bedienensich<br />

alle Organismen dieserErde dieses Codes, d.h. sie nutzen die gleichenCodons fürdie<br />

gleichenAminosäuren.<br />

Von allendiesen allgemeinenRegeln gibtes einige interessanteAusnahmen:<br />

1. Einige Bakterienvieren (Bakteriophagen)enthaltenüberlappende Gene mitverschiedenen<br />

Leserastern.Zum Beispiel enthältderBakteriophage X174zweiGenemiteigenem<br />

Leseraster, die in größeren Genen mitanderen Leserastern enthaltensind.<br />

2. Es gibtauch AusnahmenbezüglichderUniversalitätdes genetischen Codes:<br />

es wurde gezeigt, dass Mitochondrienfürbestimmte Aminosäuren andere Codons<br />

verwenden. z.B.:UGAfürTrp, AUAfürMetsoweiUAAund UAGfürGln.


Abb.22)DergenetischeCode<br />

DieCodewörtersindfürdiemRNAgegeben<br />

DieCodons sindvon innen nachaußen zulesen.<br />

12<br />

Abb.23)DergenetischeCodeinRNA- und inKlammernDNA-Schrift


4. Transkription<br />

Definition:<br />

DerVorgangderUmschreibung derDNA-in dieRNA-Schriftheißt<br />

Transkription.<br />

Die Transkription lässtsichindrei Phasen Unterteilen:die Initiation, die Elongation und<br />

die Termination. BeiEukaryontenschließtsichhäufignocheine Phase derReifung<br />

(Processing, Prozessierung)derprimärenTranskripte an.<br />

13<br />

4.1 Transkription bei Prokaryonten<br />

E.coli besitzt eineeinzigeDNA-abhängige RNA-Polymerase, diedie Synthese<br />

allerRNA-Typenin diesen Bakterien katalysiert.<br />

Initiation:<br />

Betrachte nun dencodogenenStrang.<br />

Die RNA-Polymerase lagertsichan dieStartstellen derTranskription, dersog. Promotor-Region,<br />

derDNAan. Diese Promotor-Regionentsprichtmeist derBasenfolge 5'-TATAAT-3'oder<br />

ähnlichen Sequenzen(Pribnow-Box)und liegtetwa 10 Nucleotideoberhalb dertranskriptierten<br />

Regionbzw. des mRNA-Starts.<br />

Elongation:<br />

Nachder Initiationlöstdie RNA-Polymerase dieWasserstoff-Bindungen umden Startpunkt<br />

der mRNA undbeginnt ander hierentwundenen DNA mitderSynthese.<br />

Die RNA-Polymerase liest denMatrizenstrang ((-)Strang), dessenPolaritätvon 3'nach5'<br />

gerichtet ist, ab. Der andere, nichttranskribierteStrangderDNA-Doppelhelixheißt codogener<br />

Strang((+)Strang)).<br />

Die RNA wirddurch die RNA-Polymerase von 5'nach3' synthetisiert. Die Synthese selbst<br />

beginnt mitATP(Adenosintriphosphat)oderGTP(Guanosintriphosphat), an dessen 3'-OH-<br />

Gruppe dienachfolgendenBausteine angelagert werden. Dadurchhat dieneugebildete RNA<br />

am 5'-Ende nocheineTriphosphatgruppe. Die Angliederungerfolgt komplementärzu den<br />

Basen des Matrizenstranges.<br />

Abb.24) Transkription<br />

A: Codogener und Matrizenstrang,<br />

dieTranskriptionsblaseentstehtdurch mehrere<br />

EnzymeundandereProteine<br />

B: RNA-PolymerasetranskriptiertMatrizenstrang<br />

inderTaranskriptionsblase<br />

Abb.25) Mechanismus derRNA-Polymerasereaktion<br />

(Rib.=Ribose;dR=Desoxyribose


Termination:<br />

BeiProkaryontenunterscheidetman zwei Klassenvon Terminationssignalen, jenachdemob<br />

diese einenProteinfaktor, den sog. Faktorrho, brauchen.<br />

rho-unabhängigisteine RNA-Haarnadelschleife, die aus komplementärenBasen bestehtund<br />

sichspontanwährendderTranskriptionausbildet. Ihr Zentrumliegt ca. 20 Nucleotidevon<br />

RNA-Ende entfernt. Diesemfolgen bis zumEndedes RNA-Transkripts Uridylsäurereste.<br />

Diese Haarnadelstruktur zerstörtoffenbardie RNA-DNA-Wechselwirkungen, so dass sichdie<br />

RNA vonderDNA löst.<br />

Die zweiteKlassebilden dierho-abhängigen Gene. Beiihnen wird auch amEndeeinekurze<br />

Haarnadel inderRNA gebildet. Isthexameres rho-Protein vorhanden, so bricht dieRNA-<br />

Polymerase ihre Wirkungab undverläßt die DNA-Matrize.<br />

14<br />

Abb.26) Termination derRNA-Synthese<br />

CG-reicheHaarnadelschleifemitvierterminalen<br />

UracilrestenamEndederSynthetisierten<br />

Prä-RNA<br />

Abb.27)<br />

TerminationderRNA-Synthese<br />

Rolledes rho-ProteinsbeiderTermination<br />

4.2.Transkription bei Eukaryonten<br />

Sie verläuftnach den gleichenPrinzipien, jedoch findet manim einzelnen einigeUnterschiede.<br />

WährendE.coli nureine einzige RNA-Polymerase besitzt, kennt manbei Eukaryontenzellendrei<br />

verschiedene Typendes Enzyms, die als Polymerase I, IIund IIIunterschiedenwerden. Diein den<br />

Nucleolus lokalisierteRNA-Polymerase Isynthetisiertdreiverschiedene ribosomalenRNAs<br />

(rRNAs). Im Nucleoplasma befindetsichRNA-PolymeraseIIund III.<br />

DieRNA-Polymerase II transkriptiertdie Gene fürdie Synthese dermRNAbzw.deren Vorläufer.<br />

Sie wirddurchdas Gift des GrünenKnollenblätterpilzes ( α-Amanitin)stark gehemmt.<br />

Bei hoherKonzentrationhemmt dieses Giftauchdie RNA-Polymerase III.<br />

DieRNA-Polymerase III istfürdie Synthese derkleineren RNA-Artenwie tRNA (transferRNA),<br />

ribosomalen5S-RNA undeinige kleine Kern-RNA-Arten (snRNA small nuclearRNA).<br />

Auchbeiden Eukaryonten steuern DNA-Abschnitte denAnfang derTranskription. Diese<br />

charakteristische Sequenzensind Bindungsstellen vonspezifischen Proteinen, die man als<br />

Transkriptionsfaktoren bezeichnet. Sie sind fürdie Initiation derTranskription verantwortlich,<br />

in dem sie die Anbindung derRNA-Polymerase an denPromotorermöglichen.<br />

Bei denProteincodierenden Strukturgenen, die vonderRNA-Polymerase II transkriptiertwerden,<br />

unterscheidet mandreiverschiedene stromaufwärts vom Gen liegende Transkriptionsfaktoren<br />

bindendeDNA-Segmentenmitjeweils spezifischen Consensussequenzen:<br />

Die TATA-Box,das isteine Adenin-und Thyminreiche Promotorsequenz mit<br />

typischerFolge "TATAAA", CCAAT-und GC-Boxen.<br />

Ein weitererUnterschied zwischenderTranskription beiProkaryontenund Eukaryonten ist, dass<br />

die primärenProdukte der TranskriptionbeiEukaryonten noch invielfältigerWeiseverändert<br />

werden. Diese Phasebezeichnetmanals Reifung oderauch als Prozessieren(bzw. engl. processing)<br />

derRNA.


Processing:<br />

Aus demTranskriptionsprodukt, derPrä-mRNA (hnRNA), entsteht imZellkerndurch<br />

Umwandlung(Processing)die fertige mRNA. Dafürsind folgendechemische<br />

Modifikationen notwendig:<br />

Die UmwandlungderPrä-mRNA beginnt damit, dass am 5'-EndeeineCap-Struktur<br />

angehängtwird. Sie dient derBindung dermRNA an das Ribosom zurEinleitung<br />

derTranslation undals Schutz vorenzymatischem Abbau.<br />

An das 3'-Ende derPrä-mRNAwirdeinePoly-AMP-Sequenz angehängt, die<br />

etwa eine Länge von 100-200 Basen besitzt.<br />

Die Vorstufen dermRNA-MoleküleenthaltenAminosäure codierende Sequenzen,<br />

die sog. Exons, und nichtcodierende, intervenierendeSequenzen, die Introns.<br />

DieseInstons werdenherausgeschnitten unddie übriggebliebenenExons<br />

zusammengeführt. DiesenVorgangnennt manSpleißen.<br />

Nachdem Processing wird die reife mRNA vomZellkern ins Zytoplasmatransportiert,<br />

wo dieTranslation stattfindet.<br />

rRNA-und tRNA-Synthese verlaufennachdem selbenPrinzip wie diemRNA-Synthese.<br />

Der AblaufderTranskriptionimÜberblick:<br />

1. Initiation:<br />

1.1RNA-Polymerase (Enzymkomplex)bindetaneiner best. Startsequenz derDNAan.<br />

2. Elongation:<br />

2.1Entspiralisierung undAufspaltung derDNA-Doppelhelix aneinerbest. Stelle.<br />

2.2RNA-Polymerase wandertin 3'->5'-Richtung aufdem Matrizenstrang ((-)Strang).<br />

2.3Anlagerung vonjeweils komplementärenRibonukleosidtriphosphatennachdem<br />

PrinzipderBasenpaarung<br />

2.4Verbindungder Ribonucleotide in 5'->3'-Richtung, dannVerdrängung des fertigen<br />

mRNA-Stranges undWiederherstellungderDNA-Doppelhelix.<br />

3. Termination:<br />

Beendigungder Transkriptiondurch eine best. Terminationssequenz.<br />

4. Processing/Reifung(beiEukaryonten):<br />

Nichtfunktionsfähige Prä-mRNA umwandeln in die fertigemRNA<br />

5. Translation<br />

tRNA:<br />

Die vierdoppelsträngigenBereicheund diedrei einsträngigenSchleifen<br />

destRNA-Moleküls bildendie typische Kleeblattstruktur.<br />

ImZentrumder2. Schleife liegtdas Anticodon, welches aus dreiBasen<br />

bestehtund durchdie komplementäreBasenpaarungbestimmte mRNA-Codons<br />

erkennt. Die tRNA trägtam 3'(CCA'3)diejenigeAminosäure, diedem<br />

genetischen Code dementsprechenden mRNA-Codon zugeordnetist.<br />

Viele Basen dertRNA sind chemischverändert, zum Beispielmethyliert.<br />

Abb.28) Raumstruktur (Tertiärstruktur)eines<br />

tRNA-Moleküls<br />

15


16<br />

Ribosomen:<br />

Ribosomen sindaus zweiUntereinheitenbestehende Zellorganellen, andenen die<br />

Proteinsynthesestattfindet. Sie sind imZytoplasma, indenMitochondrien undauf demrauhen<br />

ER (Endoplasmatischem Reticulum)zu finden.<br />

Ribosomen sindaus rRNA(ribosomalerRNA)und ribosomalenProteinenaufgebautund<br />

besitzen eineDurchmesservon12 -25nm .<br />

Die Ribosomensindaus einergroßenund einerkleinen Untereinheitaufgebaut.<br />

Diese Untereinheitenwerden jeweils nach ihrerSedimentationskonstanteKbenannt.<br />

Die Sedimentationskonstantewird in Svedberg-Einheiten (S)gemessen.<br />

Einvollständiges Ribosomen imZytoplasma hateine Sedimentationskoeffizienten von80S,<br />

die Untereinheitenvon40Sund 60S. Diese Werte werdenin derUltrazentrifuge ermittelt, sie<br />

lassensichnicht addieren.<br />

InBakterienund Mitochondrien sindRibosomen kleiner, ihre Sedimentationskonstante beträgt<br />

70S, die derUntereinheiten 30Sund50S.<br />

InZellen mit hoherWachstumsgeschwindigkeit (Tumorzellen, regenerierendes Gewebe)oder<br />

umfangreicherProteinsysnthese (Leber, Nervenzellen)ist die Zahlder Ribosomen entsprechend<br />

hoch.<br />

ImaktivenZustand lagernsichRibosomenentlangeinem mRNA-Moleküls zu Polysomen<br />

zusammen.<br />

Definition:<br />

Die Übersetzungder in derBasensequenz dermRNAverschlüsseltenInformation in eine<br />

Aminosäuresquenz eines Proteins wird als Translation bezeichnetundläuft in den<br />

Ribosomen ab.<br />

Die Translationlässt sich infünfPhasen einteilen:<br />

AktivierungderAminosäuren undderen Übertragung auftRNA, Initiation, Elongation,<br />

Terminationund Prozessierung<br />

Aktivierung der AminosäureundderenÜbertragungauftRNA<br />

IndieserPhase wird dietRNAmitAminosäurebeladen. DieserVorgang verbrauchtATPzu<br />

AMP.Hierverbinden Enzymedie einzelnen Aminosäuren mitihrenentsprechenden tRNA-<br />

Molekülen. DieseEnzyme werdenAminoacyl-tRNA-Synthetasengenannt. Sie erkennen<br />

einerseits diezu übertragendeAminosäureund anderseits die zugehörigetRNA.<br />

EinetRNA, dieeineAminosäure trägt, nenntman Aminoacyl-tRNA.<br />

Initiation:<br />

Die Proteinsynthese beginnt mit derBildung des ribosomalen Initiations- oderStartkomplexes.<br />

Diesersetztsichaus folgendenKomponenten zusammen:<br />

- derkleinenUntereinheit 40Seines Ribosoms<br />

- dermRNA<br />

- denInitiationsfaktoren<br />

beiProkaryonten gibtes drei (IF-1 bis IF-3),<br />

beiEukaryonten zehn (eIF-1bis eIF-10)<br />

- derInitiator-tRNS<br />

- GTP<br />

- Mg2+<br />

Die Proteinsynthese beginnt stets miteiner Initiator-Aminosäure(Methionin, bei Bakterien mit<br />

N-Formylin). Die Ableserichtung dermRNA ist von5' nach3' unddas Protein wird vonseinem<br />

NH2-zu seinemCOOH-Ende hin synthetisiert. Das Startzeichenauf dermRNA ist ein StartoderInititator-Codon(5'-AUG-3'<br />

bzw. 5'-GUG-3', wobeiAUGbevorzugt vorkommt). An dieses<br />

Startcodonwird eineInitiator-tRNA (tRNA, die dieInitiator-Aminosäure trägt)überihr<br />

Anticodon (3'-UAC-5') gebundenund gelangt so andie festgelegte Stelleim Startkomplex.<br />

Einepurinreiche Sequenz, die stromaufwärts vomStartcodonliegt, ist komplementärzu einer<br />

bestimmten Sequenz am 3'Ende der16S-rRNAderkleinenUntereinheit undträgtdamit dazu<br />

bei, dass die mRNA in derrichtigenPosition imInitiationskomplexliegt.


Nachdemdie Initiator-tRNA sich andie mitderkleinenUntereinheit verbundenenmRNA<br />

verbunden hat, erfolgtdie Bindung dergroßenUntereinheit mitdem Startkomplex unter<br />

FreisetzungallerInitiationsfaktorenzu einem funktionsfähigen ApparatderProteinsynthese.<br />

An diesemunterscheidetman zwei verschiedene Zentren:<br />

-das Aminoacyl-tRNA-Bindungs-bzw. Acceptorzentrum(A-Zentrum)<br />

-das Peptidyl-tRNS-Bindungszentrum(P-Zentrum)<br />

17<br />

Elongation:<br />

IndieserPhase werdenin Gegenwartvon Elongationsfaktoren (EF)Aminosäuren Schrittweise<br />

verknüpft, so dass eine Polypeptidketteentsteht.<br />

Die Initiator-tRNA (N-Formyl-Methionin-tRNAf)liegt amAnfang derSynthese imP-Zentrum,<br />

dasA-Zentrumist nochfrei. In diesembefindetsichdas zweiteCodon, das direktaufdas Start-<br />

Codonfolgt. Andieses bindetsichnun eine zudemCodon passende Aminoacyl-tRNA<br />

(Aminosäure tragendetRNA), wodurchdas A-Zentrum besetztwird. Nunsinddas P-und A-<br />

Zentrumdes Ribosoms besetztund die Bedingungenfürdie Bildungder erstenPeptidbindung<br />

zwischen derInitiator(fMethionyl-tRNAf)undder Aminoacyl-tRNAgeschaffen.<br />

Hieristjetztdas EnzymPeptidyltransferase, die indergroßenUntereinheit (S50/S60)sitzt.<br />

Die aktive Carboxylgruppe des Formylmethionins wirddabeimitderAminogruppe derim<br />

A-Zenrum liegenden Aminoacyl-tRNAgebunden. Dabeientstehteine Dipeptidyl-tRNA, die<br />

zunächst nochim A-Zentrumliegt.<br />

Nun folgt einTeilschritt, die Translocation. Hier bewegtsichdas Ribosom, durch die Translocase<br />

katalysiert, umein Triplettauf das 3'Ende dermRNAzu. Die dafürbenötigte Energie wird aus<br />

derSpaltung vonGTPzuGDP undPhosphat gewonnen. Die Dipeptidyl.tRNAwird vondem<br />

A-Zentrum indas P-Zentrumverschoben undgleichzeitig dieentladenetRNAin das<br />

Zytosol/Zytoplasma verdrängt. Das A-Zentrum ist jetztfreiund kanndie nächstebeladenetRNA<br />

binden usw.<br />

Die Verlängerung derPolypeptidkette nimmt demzufolge einen zyklischenVerlauf:<br />

- Bindung einerAminoacyl-tRNA an das A-Zentrum<br />

- Knüpfungeinerneuen Peptidbindung durchÜbertragungdesPeptidylrestes<br />

derPeptidyl-tRNAimP-Zentrum aufdie Aminoacylgruppe imA-Zentrum<br />

- Abgabe derfreien tRNA aus dem P-Zentrum undvorrückenderPeptidyl-tRNA<br />

aus demA-Zentrum indas P-Zentrum<br />

- Bindungder nächstenAminoacyl-tRNA an das freigewordene A-Zentrum<br />

Termintion:<br />

Die Polypeptidkettensynthese schreitetsolange fort, bis eines derdrei Terminations-oder<br />

Stoppcodons (UAG,UAAoderUGA)auf dermRNA das Endesignalisiert. DieStopp-Tripletts<br />

codieren keine Aminosäure, d.h. es gibtinderZelle keine tRNA, deren Anticodonkomplementär<br />

zumStoppcodonist.<br />

ZurErkennung derStoppcodons gibtes zweiAblösungsfaktoren, diejeweils spezifische<br />

Stoppcodons imA-Zentrum erkennen undsichan sie bindenund damiteine Wirkungsänderung<br />

derPeptidyltransferasebewirken. Die Peptidyltransferase verknüpft nunkeine Peptidemehr,<br />

sondernspaltetdie synthetisierte Polypeptidkette vom letzenTriplettab undgibt sie frei.<br />

Ebensoverlassen auchdie mRNA undtRNAdas Ribosom, das nun wiederin eine große und<br />

kleine Untereinheitzerfälltund nunwiederzurerneuten Proteinsynthese zurVerfügung stehen.<br />

Prozessierung:<br />

Die Polypeptidkette wird nach derTerminationdurch irreversible chemischeVorgänge inihre<br />

biologisch aktiveFormumgewandelt. Man sprichthiervon einerposttranslationalen<br />

Modifikation.


DieWirksamkeitderProteinsynthese wird gesteigert, indemsich mehrere Ribosomengleichzeitig<br />

einund dieselbe mRNA translatieren. Mannennt diese Aufreihungvon Ribosomen, die vonder<br />

mRNA zusammengehaltenwerden, Polysom.<br />

18<br />

6. Regulation derGenexpression<br />

Das Jacob-Monod-Modell(Operon-Modell)<br />

ZurErklärungdiese Modells derRegulationder<br />

Genaktivitätbeziehenwiruns auf Prokaryonten.<br />

Man kanndie Gene jenachFunktionin drei<br />

verschiedene Gruppeneinteilen:<br />

Strukturgene, Operatorgeneund Regulatorgene<br />

Strukturgene sind verantwortlich fürdieAusprägung<br />

von Eigenschaften. Ihre Nucleotidsequenz codiertdie<br />

Aminosäuresequenzdes Proteins/Enzyms.<br />

Überdiese Enzymegreifensiein den Stoffwechselein.<br />

Operatorgene kontrollieren dieFunktionstüchtigkeit<br />

derStrukturproteine. Sie liegenin derDNA-Doppelhelix<br />

vorden Strukturgenen undkönnen hemmendoder<br />

anregendaufdie Transkription derStrukturgene<br />

wirken.<br />

Als Operon bezeichnetman einOperatorgen unddie<br />

dazugehörigenStrukturgene, die bei einemBiosyntheseschrittzusammenwirken.<br />

DerPromotor<br />

ist, wie wirimKapitel derTranskription<br />

erfahrenhaben, eine Regiondes DNA-Stranges, an<br />

demsich die RNA-Polymerase bindet.<br />

Beider Tanskriptionbeginnt beiihm die Synthese der<br />

mRNA. DerPromotoristauchBestandteil des<br />

Operons.<br />

Regulatorgene steuern dieGenaktivität,sie regulieren<br />

alsodie Operons. Dazuerzeugensiespezielle Proteine,<br />

die sog. Repressoren.Diese Gene liegenaußerhalb des<br />

Operons.<br />

Die Repressoren lagern sich an die Operatorgene und<br />

verhindernsodie Transkription derStrukturgene, d.h.<br />

das Operon ist inaktiviert.<br />

Induktormoleküle veränderndie Raumstrukturdes<br />

Repressors, sie inaktivierenihn, so dass ermitdem<br />

Operatorgen nichtmehr in Wechselwirkungtreten kann<br />

und damitdas Operon wiederaktiv wird unddie<br />

Transkriptionungehindert erfolgen kann.<br />

Wenndas Substrat eines Enzyms des Operons die<br />

Genaktivitätunddamit dieEnzymsynthese auslöst,<br />

sprichtman auchvon Substratinduktion.<br />

Beider Endprodukt-RepressionoderEnzym-<br />

Repressionhemmtein Endprodukt einerReaktionskette<br />

eine weitere Enzym-Synthese.<br />

Abb.29) Induktion<br />

RRegulatorgen, OOperator, SStrukturgene,<br />

PPromotor<br />

Abb.30) Endprodukt-Repression<br />

RRegulatorgen, OOperator,SStrukturgene,<br />

PPromotor


7. <strong>Datenbanken</strong> in derBioinformatik<br />

DieBioinformatikbeschäftigt sich mitMethodenzurUntersuchung vonProblemender<br />

Molekularbiologie auf Computersystemen. AufGrundderdabeianfallenden sehrgroßen<br />

Datenmengen undumfangreichen Datenanalysen, sind <strong>Datenbanken</strong> inderBioinformatik<br />

vongroßerBedeutung.<br />

19<br />

7.1Verwendungvon <strong>Datenbanken</strong> in den verschiedenen Problemfeldern<br />

derMolekularbiologie:<br />

Sequenz-<strong>Datenbanken</strong> zurDNA-AnalyseundSequenzierung<br />

Ziel derSequenzierung istdie Ermittlung derkodierenden undnicht-kodierenden Bereiche der<br />

DNA-Sequenzeines Organismus. Die durchdie DNA-Analyse-Methoden erworbenenDaten<br />

werdenin Sequenz-<strong>Datenbanken</strong> verwaltet. Diese<strong>Datenbanken</strong>sindmeistsehrgroßund besitzen<br />

exponentielles Wachstum.<br />

Proteinsequenz- undProteinstruktur-<strong>Datenbanken</strong> zurStrukturvorhersage<br />

Ein HauptzielderBiologieistdie Strukturvorhersagevon Protein-Molekülenaus ihre<br />

Aminosäuresequenz, da dieFunktioneines Proteins vonseiner3D-Strukturabhängigist. Diese<br />

Vorhersage ermöglichtLaboruntersuchungen einzuschränken.<br />

BeiHomologie-BasiertenAnsätzen werden Aminosäuresequenzen bereitsbekannterProteinemit<br />

derSequenz des unbekannten Proteins verglichen. Fürdiesen Zweckwerden Proteinsequenz-und<br />

Proteinstruktur-<strong>Datenbanken</strong>aufgebautund andieseÄhnlichkeitsanfragengestellt.<br />

Pathways/Biochemische Pfade<br />

Einbiochemischer Pfad modelliert abstrakteineAbfolge vonchemischen Reaktionen ineiner<br />

Zelle. Metabolische Pfade(Reaktionswege imStoffwechsel) undRegulatorische Pfade<br />

(KontrollmechanismeninderGenexpression, siehe vorheriges Kapitel)sind vonbesonderem<br />

Interesse. Um biochemische Pfadezufinden, werden unteranderemSequenz-<strong>Datenbanken</strong><br />

genutzt. DieVerwaltungderdabei gewonnenen Daten geschieht ebenfalls inspeziellen<br />

<strong>Datenbanken</strong>.<br />

Sequenz-Datenbank zurErmittlung phylogenetischerBäume<br />

DieEvolution geht mit Veränderung derKodierungderProteine derOrganismeneinher.<br />

Umzu entscheiden, wann die EntwicklungderNachfolgereines Organismus auseinander ging,<br />

werdenspezielle Sequenzanalysealgorithmen, die aufModellen derGeschwindigkeitder<br />

VeränderungderKodierungder Proteine beruhen, angewandt.<br />

Man erhältso die Stammbäume, die sog. phylogenetischen Bäume, derOrganismen.<br />

BeiderBerechnung dieserBäume werden oft Sequenz-<strong>Datenbanken</strong> genutzt.<br />

Genexpressionsanalyse<br />

EinGenwirdoftalsDNA-Abschnittdefiniert, derein Protein kodiert. Die Transkription (siehe<br />

vorheriges Kapitel), insbesonderederStrukturgene, wirdals Genexpression bezeichnet. Mittels<br />

sog. DNA-Chips kann das Expressionsniveaumehrerertausend Gene gemessenwerden, die die<br />

Zelle zueinembestimmten Zeitpunkt exprimiert.<br />

Gesunde undkranke Zellenkönnen an Handdes Expressionsniveau unterschiedenwerden.<br />

Data-Miningwirdgenutztum Gene mit ähnlichen Expressionsmustern inGruppen zusammen<br />

zufassen.


7.2 Datenmodellierung und -management<br />

20<br />

BeiBio-<strong>Datenbanken</strong> werdenvier Formen vonDatenmodellenverwendet:<br />

- ASCII-Texte, sog. Flat-Files<br />

- Datenmodelle von Standard <strong>Datenbanken</strong>,<br />

z.B.: relational, Objektoderobjektrelationale <strong>Datenbanken</strong><br />

- ObjectProtocol Model(OPM)<br />

- ACEDB-Datenmodell.<br />

Flat-Files<br />

In derAnfangszeitderMolekularbiologie-<strong>Datenbanken</strong> wurdenDatenbankManagement<br />

Systeme (DBMS)wenig genutzt. Stattdessenwurden die Bio-<strong>Datenbanken</strong>aus<br />

indiziertenASCIITextdateien, densog. "flatfiles", aufgebaut.<br />

Einige <strong>Datenbanken</strong>basierenheute noch aufdiesen. Ein Grund dafürist, dass dieDatender<br />

Molekularbiologieoftsehrkomplex sind, sodass vieleflat-files tiefgeschachtelte Datensätze,<br />

Mengen, Listenund Abweichungen enthält, diesichnichteinfach in einem relationalenoder<br />

ObjektDBMS repräsentierenlassen.<br />

Bio-<strong>Datenbanken</strong>, die als flat-files implementiertwurden, besitzenkein explizites Datenmodell.<br />

Ihre Einträge sindgewöhnlichimplizitoderexplizitdurchSuchindexestrukturiert. Die meisten<br />

flat-fileSammlungen, die explizitstrukturiert sind, nutzen Schlüsselworte, sog. "line types", als<br />

Index. DieSchlüsselworte undIndizes unterscheidensich oft inverschiedenen flat-files nicht<br />

nurinihrerSyntax, sondern auch vonihrerSemantik.<br />

Viele Bio-<strong>Datenbanken</strong>, insbesondere Sequenzdatenbanken, sind nochals flat-file Sammlungen<br />

implementiert. Zudemsindheute flat-files derde factoStandard zumDatenaustauschin der<br />

Bio-Informatik. Undviele Werkzeuge inder Bio-Informatik (z.B.:BLASTund FASTA)<br />

arbeitennurmit flat-files. Deshalbbietenviele Bio-<strong>Datenbanken</strong> ihrengesamtenInhalt in<br />

einemodermehrerenflat-files an.<br />

Relationale und Objekt-Datenmodelle<br />

Viele deraufflat-file beruhenden<strong>Datenbanken</strong> wurdenaufrelationalen, objekt-orientierten<br />

oderobjekt-relationalenDBMSreimplementiert.<br />

Ihre Daten werdenfolglichunter Verwendung des relationalenoderdes Objekt-Datenmodels<br />

repräsentiert. Das Objekt-Modell istbessergeeignet als das relationaleModel, ummolekularbiologische<br />

Daten zumodellieren. Bio-<strong>Datenbanken</strong>basierendaufdemrelationalen Modell<br />

besitzenoftsehrkomplexe Schemas undsinddamit nichtsointuitiv. Dasmachtes schwierigsie<br />

zuadministrieren undAnfragen aufsie zu stellen.<br />

Dennoch werdenoftsolche DBMS, wie z.B.:Oracle, SybasederMySQLgenutzt.<br />

ACEDB<br />

ACEDB isteinDBMS, das ursprünglichfürdie Datenbank "A C.elegans Data Base”<br />

(abgekürztACeDB). Diese <strong>Datenbanken</strong>thielt Daten voneinem kleinenWurm "C.elegans".<br />

ACEDB isteineErweiterung dieses DBSM umandere solche spezialisierten Daten zu<br />

verwalten.<br />

Bei ACEDB werdendie Daten als Objekte, die inKlassen organisiertsind, modelliert.<br />

Jedochunterstützt ACEDB wederKlassenhierarchie noch Vererbung.<br />

Ein solches ACEDB-Objektbesitzteine Mengevon Attributen, die Objekte oderatomareWerte<br />

(Zahlen oderZeichenketten)seinkönnen.<br />

ACEDB Objekte werdenals Bäume, deren(beschrifteten)KnotenObjekte oderatomare Werte<br />

sind undderen Kanten Attributbeziehungendarstellen, repräsentiert.<br />

Das Klassen-ModellvonACEDBspezifiziertdie maximaleMenge vonAttributen, die ein<br />

ObjektderKlasse habendarfund den Typ/Classe dieserAttribute/Objekte.<br />

ACEDB wird vonBio-<strong>Datenbanken</strong> oft zurVerwaltung genetischerDaten verwendet.<br />

DerQuellcodevon ACEDB istpublic undkanndeshalbdenverschiedenenAnforderungender<br />

speziellenAnwendungenangepasstwerden.


21<br />

Object-ProtocolModel (OPM)<br />

OPM wurde entwickeltzurModellierungbiologischerDaten undderEreignisabfolge in<br />

wissenschaftlichenExperimenten. Es eignetsichgutzurRepräsentationzeitlicherBedingungen<br />

und des Datenflusses zwischendenTeilexperimenten.<br />

OPM eignet sich gutzur ModellierungdynamischerDaten, wiePhenotyp-Daten und die<br />

Dynamik vonbiologischenProzessen.<br />

OPM und dessen"data management tools suite" istkommerziell.<br />

Querverwiese<br />

InBio-<strong>Datenbanken</strong> verweisen Datensätze aufBeschreibungen derExperimente, durch die<br />

die Daten gewonnen wurden, aufähnliche Daten inder selben odereinen anderen Datenbank.<br />

Meist werdendiese Verweisedurch (künstliche)Primärschlüsselrealisiertund als Hyperlinks<br />

implementiert.<br />

Diese Hypertext-Verlinkung ist einbesonders auffälliges MerkmalderBio-<strong>Datenbanken</strong>.<br />

Anfragen<br />

FürAnfragestellungenbieten dieBio-<strong>Datenbanken</strong>oft Webformulare an.<br />

Die derzeitgenutztenSchnittstellenlassen sich leichtbenutzen, es sind abernur meist begrenzte<br />

Anfragen möglich undmankann dort Anfragesprachen imherkömmlichenSinn nurselten<br />

finden. Einige Tools greifendirektaufdiese Schnittstellenzu. Zusätzlichstellenfastalle Bio-<br />

<strong>Datenbanken</strong> ihre Daten inden unterschiedlichsten Formaten als flat-files zumDownloadzur<br />

Verfügung.<br />

7.3 Datenanalyse und -integration<br />

Die meisten Bio-<strong>Datenbanken</strong> enthalten Software zurDatenanalyse. Diese Software sindentweder<br />

Implementierungenvon denbekanntenBioinformatik-Algorithmen, wiezumBeispielderSmith-<br />

Watermann-Algorithmus, oderWerkzeuge, wieBLAST, die aufbekannte oderwenige bekannte<br />

Algorithmenberuhen. Einige dieserTools sind schwierig zubenutzen, daviele Parameter<br />

angegebenwerden müssenund viele dieser Tools unzureichenddokumentiertsind.<br />

Viele Bio-<strong>Datenbanken</strong> enthalten außerdem elementare Computer-Linguistik-Software zur<br />

Schlagwortsuche undÜbersetzungenzwischenden geläufigsten Datenformaten.<br />

Wegendes schnellen Wachstums von Bio-<strong>Datenbanken</strong>spielenVerfahren zurKnowledge<br />

Discoveryund DataMiningimmergrößereRolle.<br />

Integration vonDatenunterschiedlicherUrsprünge führtzu "Beschreibungs-", "Heterogenitäts-"<br />

und "semantischen" Konflikten.<br />

Beschreibungskonflikt liegt vor, wenndas selbe semantischeObjektinverschiedenen<br />

<strong>Datenbanken</strong> unterschiedlich modelliertwird.<br />

Heterogenitätskonflikt resultiert aus denunterschiedlichen Datenmodellen und Managementsystemen<br />

der verschiedenen <strong>Datenbanken</strong>.<br />

Semantischer Konflikt tritt auf, wenndie grundlegenden Begriffe, wie zumBeispiel "Gen"in<br />

verschiedenen <strong>Datenbanken</strong>unterschiedlich ausgelegt werden.<br />

FrüheWerkzeugezur DatenintegrationberücksichtigendieseKonflikte nicht.<br />

Neuere Ansätzeversuchen Semantische Konflikte unteranderem mittels Ontologien zu lösen.<br />

Das Problem, Daten unterschiedlicherQualitätzu integrieren, wurde bishernochnicht<br />

zufriedenstellend gelöst.<br />

Um die Datenaus den verschieden<strong>Datenbanken</strong>aktuellzu halten, sind regelmäßige(tägliche)<br />

Updates nötig. BeiBio-<strong>Datenbanken</strong>istdies besonders rechenintensiv, daflat-files derdefacto<br />

Standardbeim Datenaustauschsind. Strukturierte Modelle sind fürdenDatenaustausch<br />

vorzuziehen. Die semistrukturierteHerangehensweise zurDatenmodellierungund<br />

Datenmanagementscheintvielversprechend fürdie DatenintegrationbeiBio-<strong>Datenbanken</strong>.<br />

Verschiedene Forschungen beschäftigensichmitder Modellierungmolekularbiologischer Daten<br />

mittels XML.


8. AbschließendeBemerkung<br />

22<br />

DieVorgänge, die inden Biowissenschaften( Molekularbiologie, Biochemie und Genetik)<br />

untersuchtwerden, sindsehrkomplex undheute teilweise noch nichtbis ins letzte Detailbekannt.<br />

Bei derErforschungdieserVorgänge fallen großeDatenmengenan, diemittels Methodender<br />

Bioinformatikanalysiertund verwaltetwerden. Diese Methoden ermöglichenes in den<br />

Biowissenschaften Modelle leichter zuentwickelnund in diesenzu rechnen.<br />

Das PotentialderInformatik istheutebei den Biowissenschaften bei weitemnoch nicht<br />

ausgeschöpft. Somit istdie Bioinformatik einähnlich interessantes Forschungsgebiet,<br />

wiedie einzelne Biowissenschaftenselbst, in denendie Bioinformatik als Werkzeug<br />

eingesetztwird.


Literaturverzeichnis<br />

23<br />

HO96 Prof. Dr.Hofmann, E.: Medizinische Biochemie systematisch<br />

UNI-MEDVerlagAG, 1996, ISBN 3-89599-121-X<br />

KA88 Karlson, P.: Kurzes Lehrbuchder Biochemie für Mediziner und Naturwissenschaftler<br />

Georg Thieme VerlagStuttgart, NewYork, 1988, ISBN3-13-357813-8<br />

AB97 hrsg. von Abdolvahab-Emminger, H.: Physikum EXAKT-Das gesamte Prüfungswissen in<br />

einemBand Georg Thieme VerlagStuttgart, NewYork, 1997, ISBN3-13-107031-5<br />

BK89 Bayrhuber,H. ,Kull,U.: Linder Biologie -Lehrbuchfür die Oberstufe<br />

Schroedel Schulbuchverlag, 1989, ISBN3-507-02347-4<br />

MS88 Miram,W., Scharf,K.-H.: Biologie heute SII-Neubearbeitung<br />

Schroedel Schulbuchverlag;1988, ISBN 3-507-10540-3<br />

FI92 Fink, E.: Biologie BON-MED, 1992, ISBN3-928730-63-0<br />

TR97 Trachsel, H.: MOLEKULARBIOLOGIE -Repetitorium für Studierendeder Human-und<br />

Veterinär-Medizin http://ntbiouser.unibe.ch/trachsel/teaching/MBVorl/MBVorl.htm; 1997<br />

FK02 Francois, B. ,Kröger,P.: AComputational Biology Database Digest:Data, Data Analysis,<br />

and DataManagement http://www.pms.informatik.uni-muenchen.de/publikationen/<br />

2002<br />

KF02 Francois, B. ,Kröger,P.: Aktuelles Schlagwort“<strong>Datenbanken</strong>inder Bioinformatik”<br />

http://www.pms.informatik.uni-muenchen.de/publikationen/, 2002<br />

GI<br />

GI e.V.: Informatik-Lexikon:Bioinformatik<br />

http://www.gi-ev.de/informatik/lexikon/inf-lex-bioinformatik.shtml<br />

WM1 www.webmic.de: Transkription<br />

http://www.webmic.de<br />

WM2 www.webmic.de: Proteinsynthese<br />

http://www.webmic.de<br />

Bildverzeichnis<br />

[BK89] Abb.1, Abb.2, Abb. 3, Abb. 10, Abb. 22, Abb.29, Abb. 30<br />

[AB97]<br />

[HO96]<br />

[KA88]<br />

Abb.4<br />

Abb.5, Abb.6, Abb.7, Abb.8, Abb.11, Abb.12, Abb.14, Abb.15, Abb.16, Abb.23,<br />

Abb.24, Abb.25, Abb.26, Abb.27, Abb.28<br />

Abb.9, Abb.17, Abb.18, Abb.20, Abb.21

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!