Bioinformatik für Biochemiker - Applied Bioinformatics Group ...

Bioinformatik 

für Biochemiker 

Oliver Kohlbacher 

WS 2009/2010 

15. Zusammenfassung 

Abt. Simulation biologischer Systeme 

WSI/ZBIT, Eberhard Karls Universität Tübingen 

Bioinformatik – Definition 

Bioinformatik verwendet Methoden der 

Mathematik, Statistik und Informatik 

zur Analyse und Interpretation von 

biologischen, biochemischen und 

biophysikalischen Daten. 


Mathematik, 

Informatik 

Lebens- 

wissenschaften 


Physik, 

Chemie 

1

Bioinformatik – Gebiete 

• Sequenzbasierte Bioinformatik 

– Assemblierung 

– Sequenzsuche/-vergleich 

– Comparative Genomics 

– .... 

• Strukturelle Bioinformatik 

– Proteinstrukturvorhersage 

– Wirkstoffentwurf () Chemoinformatik) 

– ... 

• Biologische Informationssyteme 

– Datenintegration und biologische Datenbanksysteme 

– Modellierung biologischer Daten 

– … 

• Systembiologie 

– Computational Proteomics 

– Computational Metabolomics 

– Biologische Netzwerke 

– … 

• ... 

Algorithmen 

• Bevor man ein Programm schreibt, muss man wissen 

was der Rechner tun soll! 

• Die Beschreibung einer Methode zur Lösung der 

gegebenen Aufgabenstellung nennt man Algorithmus 

• Dementsprechend sind Kochrezepte oder 

Bedienungsanleitungen nichts anderes als 

Algorithmen 

• Ein Programm ist eine formale Umsetzung eines 

Algorithmus in einer Programmiersprache 

• Da Rechner nur Maschinencode ausführen können, 

sind Compiler oder Interpreter notwendig, die das 

Programm aus der Programmiersprache in 

Maschinencode umsetzen, der dann ausgeführt wird 

Algorithmen, Code, Rechner 

Programm- 

code 

Algo- 

rithmus 

Compiler/ 

Interpreter 

Maschinen- 

code 

Eingabe- 

daten 

Ausgabe- 

daten 

2

Betriebssystem, Shell und GUI 

• Jedes Programm (Applikation, 

“Befehl”) braucht eine 

Schnittstelle zum Rechner 

• Unterste Schnittstelle: 

Betriebssystem 

• Betriebssystem stellt 

Applikationen (Programmen, 

“Befehlen”) Grundfunktionalität 

zur Verfügung 

– Verwaltung von Dateien 

– Zugriff auf Benutzerdaten 

Python – Schleifen 

Programm 

Betriebs- 

system 

Rechner 

(Hardware) 

• Python kennt For-Schleifen, bei denen eine Schleifenvariable eine 

Folge von Werten durchläuft und für jeden dieser Werte der 

Rumpf ausgeführt wird 

• Der Kopf definiert dabei die Schleifenvariable und die möglichen 

Werte 

• Der Rumpf wird vom Kopf durch Einrückung unterschieden 

• Der Rumpf kann eine oder mehrere Zeilen Code enthalten 

• Die Funktion range(Wert) erzeugt dabei eine Liste von Wert 

Zahlen, die bei 0 anfangen und jeweils um eins erhöht werden 

for i in range(10): 

print i 

• Dieses kurze Programm gibt dementsprechend die Zahlen von 0 

bis 9 aus 

Laufzeitanalyse 

for i in range(n): 

for j in range(n): 

for k in range(n): 

a = a + … 

for i in range(n): 

a = a + … 

for i in range(5*n): 

a = a + … 

for i in range(10*n): 

a = a + … 

• Möchte man die Laufzeit zweier Programme analysieren, so „zählt“ 

man üblicherweise die Rechenoperationen die auszuführen sind. 

• Interessant ist dabei der Vergleich, wie die Zahl mit der Größe der 

Eingabe (z.B. Sequenzlänge n variiert) 

• In den obigen Beispielen können wir zum Beispiel die Anzahl der 

Additionen („a = a + …“) betrachten. 

Beispiel: n = 3 n = 20 

Links: 3 * 3 * 3 = 27 Additionen 20 * 20 * 20 = 8000 

Rechts: 3 + 15 + 30 = 48 Additionen 20 + 100 + 200 = 320 

3

O-Notation 

• Die O-Notation sagt nichts darüber aus, ob eine bestimmte 

Problemgröße mit einem Algorithmus lösbar ist! 

• Statt dessen trifft sie eine Aussage darüber, wie der Algorithmus 

beim Übergang zu immer größeren Probleminstanzen skaliert 

• Algorithmen mit besserer Komplexität können (und sind es auch 

oft) für sehr kleine Probleminstanzen langsamer sein 

Strings und Sequenzen 

• Formale Definitionen 

• Sequenzdatenbanken 

• Einige Grundbegriffe 

der Informatik 

• Alignments 

– Definition 

– Distanzfunktionen 

– Dotplots 

Strings und Sequenzen 

Definition: 

Ein Alphabet Σ ist eine endliche Menge von Zeichen. 

Sequenzen sind Zeichenreihen über Σ. 

Dabei ist: 

Σ 0 := {ε} (ε steht für die leere Sequenz) 

Σ n ist die Menge aller Worte der Länge n auf Σ 

Σn+1 := {aA | a 2 Σ, A 2 Σ n } 

Σ * ist die Menge aller Sequenzen (aller Längen) über Σ. 

Beispiel: 

DNA-Sequenzen sind definiert über dem Alphabet 

Σ DNA = {A,C,G,T} 

Protein-Sequenzen sind definiert über 

Σ P = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y} 

4

Alignment mit DP 

• Alignmentalgorithmen 

– Trivial 

– Dyn. Programmierung 

• Scoringmatrizen 

• Begriff der Komplexität 

• Implementierung 

• Tools 

– Alignments 

– Dotplots 

Ähnlichkeit und Distanz 

Merkl, Waack, Bioinformatik interaktiv 

• Wie kann man die Ähnlichkeit zweier Sequenzen 

beschreiben? 

• Einfachste Möglichkeit: „Zählen“ identischer Zeichen 

GATCGTTCG 

|| ||| 

CATGGTTGA 

• Problem: Was bei Sequenzen unterschiedlicher Länge? 

GATCGTTCG GATCGTTCG GATCGTTCG 

||| | ||| | 

---GGTTGA G---GTT-GA -GGTTGA-- 

Ähnlichkeit: (Anzahl Matches) 

3 5 0 

Analog die Distanz (Anzahl Mismatches): 

6 5 9 

Alignments 

• Beispiel: Berechnen des Scores zweier Alignments von 

A = ACGTAGTAGCA und B = ACTTAGTACGT 

ACGTAGTAGC-A ACGTAGTA-GCA 

|| | ||| | | || | || | | 

ACTT-GTACGTA ACTTG-TACGTA 

Beobachtung: 

Die Alignments der Präfixe der Länge vier von A und B 

sind identisch. Damit auch die Scores der Alignments 

dieser Präfixe. 

) Wir berechnen die Scores vieler Teilalignments 

immer wieder! 

Idee: 

Merke die besten Scores dieser Teilalignments und 

berechne sie nicht ständig neu. 

5

Dynamische Programmierung 

• Die 0. Spalte/Zeile der 

Matrix beschreibt 

Alignments die mit einem 

Gapzeichen beginnen 

• Gemäß unserer Überlegung 

über Präfixalignments gilt 

für die Matrixelemente: 

• Damit ergibt sich der Inhalt 

einer Zelle der Matrix aus 

den Werten der drei 

Nachbarzellen links, oben 

und links oben 

Beispiel: 

• A = ACGT, m = 4 

• B = AGC, n = 3 

- 

A 

C 

G 

T 

- A G C 

D 0,0 

Dynamische Programmierung 

• Traceback der T-Matrix 

– Diagonal: Matche zwei 

Zeichen 

– Horizontal: matche Zeichen 

aus B mit Gap 

– Vertikal: matche Zeichen aus 

A mit Gap 

• Beispiel: 

Diagonal von (1,1) nach (0,0) 

ACGT 

A-GC 

Datenbanken - Definition 

Beispiel: 

• A = ACGT, m = 4 

• B = AGC, n = 3 

D m,n 

- A G C 

- 0 1 2 3 

A 1 0 1 2 

C 2 1 1 1 

G 3 2 1 2 

T 4 3 2 2 

Datenbank (DB): 

eine Datensammlung, die nach 

bestimmten Kriterien organisiert ist. 

6

ENTREZ 

BLAST – w-mere 

• Für jede Anfrage S konstruiert BLAST zunächst eine Liste aller in 

S vorkommenden w-mere, dann eine Liste aller dazu ähnlichen 

w-mere (gemäß Scoringmatrix) 

• Nach diesen w-meren wird dann in D gesucht 

• Da keine Gaps zugelassen werden und nur direkte Identität mit 

sehr kurzen Sequenzen getestet werden muss, geht dies sehr 

schnell 

S 

BLAST-Ausgabe 

BLASTP 2.2.8 [Jan-05-2004] 

w-mere aus S Ähnliche k-mere 

Treffer in D 

Treffer in D 

Datenbanksequenz D 

Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro 

A. Schaffer, 

Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman 

(1997), 

"Gapped BLAST and PSI-BLAST: a new generation of protein 

database search 

programs", Nucleic Acids Res. 25:3389-3402. 

Query= 1HSO:B CLASS I ALCOHOL DEHYDROGENASE 1, ALPHA SUBUNIT 

(374 letters) 

Database: Arabidopsis_chr1.fasta 

7493 sequences; 3,192,001 total letters 

Searching...............done 

7

Problemdefinition 

Multiples Sequenzalignment 

(MSA, multiple sequence alignment, Profil) 

• Gegeben: k Sequenzen 

• Gesucht: 

– Alignment aller k Sequenzen 

– Möglichst optimal bezüglich einer Distanz- oder Scoringfunktion 

WIN1_SOLTU AQQCGRQKGGALCSGNLCCSQFGWCGSTPEFCSPSQGCQSRC 

HEVE_HEVBR AEQCGRQAGGKLCPNNLCCSQWGWCGSTDEYCSPDHNCQSNC 

CHIX_PEA AEQCGSQAGGAVCPNGLCCSKFGFCGSTDPYCGD..GCQSQC 

CHI2_ORYSA AEQCGSQAGGAVCPNCLCCSQFGWCGSTSDYCGA..GCQSQC 

CHI1_ORYSA GEQCGSQAGGALCPNCLCCSQYGWCGSTSDYCGA..GCQSQC 

AGI_URTDI AQRCGSQGGGGTCPALWCCSIWGWCGDSEPYCGR..TCENKC 

Anwendung – Strukturkonservierung 

WIN1_SOLTU AQQCGRQKGGALCSG.NLCCSQFGWCGSTPEFCSPSQGCQ.SRC 

HEVE_HEVBR AEQCGRQAGGKLCPN.NLCCSQWGWCGSTDEYCSPDHNCQ.SNC 

CHIX_PEA AEQCGSQAGGAVCPN.GLCCSKFGFCGSTDPYCGD..GCQ.SQC 

CHI2_ORYSA AEQCGSQAGGAVCPN.CLCCSQFGWCGSTSDYCGA..GCQ.SQC 

CHI1_TOBAC AEQCGSQAGGARCPS.GLCCSKFGWCGNTNDYCGPG.NCQ.SQC 

HEVL_ARATH GQQCGRQGGGRTCPG.NICCSQYGYCGTTADYCSPTNNCQ.SNC 

CHIT_DIOJA .QNCQ.......CDTTIYCCSQHGYCGNSYDYCGP..GCQAGPC 

CHIP_BETVU AQNCG.......CAP.NLCCSNFGFCGTGTPYCGVG.NCQSGPC 

CHIA_MAIZE AQNCG.......CQP.NFCCSKFGYCGTTDAYCGD..GCQSGPC 

AGI1_WHEAT AQRCGEQGSNMECPN.NLCCSQYGYCGMGGDYCGK..GCQNGAC 

AGI_ORYSA AQTCGKQNDGMICPH.NLCCSQFGYCGLGRDYCGT..GCQSGAC 

AGI_URTDI AQRCGSQGGGGTCPA.LWCCSIWGWCGDSEPYCGR..TCE.NKC 

„One or two homologous sequences whisper … 

a full multiple sequence alignment shouts out 

loud.“ (Arthur Lesk, 1996) 

CLUSTALW – Überblick 

S 1 

S 2 

- 

. 

D 1,2 

- 

D 1,3 D 2,3 - 

D 1,2 

D 1,3 

D 1,4 D 2,4 D 3,4 - 

S 1 

S 2 

S 3 

S 4 

• Globales Alignment 

• Distanzmatrix 

• Konstruktion eines Leitbaums 

• Profilalignment entlang des 

Baums 

8

Sequenzlogos 

• Profile lassen sich auf einfache Weise mit Hilfe sogenannter 

Sequenzlogos visualisieren 

• Dabei zeichnet man an jeder Position der Sequenz die 

möglichen Buchstaben, wobei die Buchstabenhöhe 

proportional zum Informationsgehalt ist 

• Dadurch lassen sich die motivrelevanten Teile des Profils direkt 

ablesen 

• Beispiel: 

TATA-Box- 

Sequenzen aus 

Hefe 

Protein-Strukturvorhersage 

Problemdefinition: 

Gegeben Sequenz, finde Struktur 

...LGFCYWS... 

Proteinstruktur – Überblick 

Primärstruktur 

Sekundärstruktur 

Tertiärstruktur 

Quartärstruktur 

http://www.lecb.ncifcrf.gov/~toms/sequencelogo.html 

Sequenz: ...LGFCYWS... 

9

PDB – Der erste Eintrag! 

PDB-Format 

Beispiel: ATOM-Records für VAL 

Röntgenstrukturen 

ATOM 1 N VAL 1 -2.900 17.600 15.500 enthalten 1.00 0.00 nur Schweratome 

2 1MBN 72 

ATOM 2 CA VAL 1 -3.600 16.400 15.300 1.00 0.00 2 1MBN 73 

ATOM 3 C VAL 1 -3.000 15.300 16.200 Valin 1.00 (VAL) 0.00 enthält 2 1MBN dann 74 

ATOM 4 O VAL 1 -3.700 14.700 17.000 1.00 0.00 2 1MBN 75 

sieben Atome: 

ATOM 5 CB VAL 1 -3.500 16.000 13.800 1.00 0.00 2 1MBN 76 

ATOM 6 CG1 VAL 1 -2.100 15.700 13.300 N, 1.00 CA, C, 0.00 O – Rückgrat 2 1MBNP 4 

ATOM 7 CG2 VAL 1 -4.600 14.900 13.400 1.00 0.00 2 1MBNL 8 

ATOM 8 N LEU 2 -1.700 15.100 16.000 CB, 1.00 CG1, 0.00 CG2 – 1 Seitenkette 

1MBN 79 

ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80 

ATOM 10 C LEU 2 -1.000 13.900 18.300 1.00 0.00 1MBN 81 

ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82 

ATOM 12 CB LEU 2 .600 14.200 16.500 1.00 0.00 1MBN 83 

ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 1MBN 84 

ATOM 14 CD1 LEU 2 .400 15.500 14.400 1.00 0.00 1 1MBNL 9 

Record- Nummer + Name + 

typ Name des Nummer 

Atoms des Rests 

BALLView 

X Y Z 

Koordinaten 

10

Threading 

Gesucht 

Zuordnung der Zielsequenz zu Positionen in 

der Schablonenstruktur 

) Sequenz-Struktur-Alignment 

CCP vs. CP 

Beispiel 

Grau: 1IVM 

Gelb: 1IVM gethreaded auf 1LZY 

...LGFCYWS... 

...ILVGCIL... 

Lengauer, Zimmer, In: Bioinformatics: From Genomes to Drugs, T. Lengauer (Hrsg.), Wiley, 2002 

Blau: 1LZY 

Gelb: 1IVM gethreaded auf 1LZY 

12

ROSETTA 

• Modell 

– Torsionswinkelraum, reduziert auf 

Fragmente 

– Seitenketten auf C β reduziert 

• Potenzialfunktion 

– Wahrscheinlichkeitsbasiert (Bayes-Ansatz) 

• Algorithmus 

– Simulated Annealing: 

MMC mit linear sinkender Temperatur 

– Feste Anzahl Schritte (10000) 

ROSETTA – Ergebnisse CASP5 

Loop-Datenbanken 

• Clustering liefert 

große Zahl sehr 

ähnlicher Fragmente 

• Cluster werden 

üblicherweise auf 

einzelne 

Repräsentanten 

reduziert 

• Methoden 

– Hierarchisches 

Clustering 

– Nächste Nachbarn 

Fechteler, Dengler, Schomburg, J. Mol. Biol. (1995), 253, 114-131 

13

Rotamere 

• Torsionswinkel werden nicht 

unabhängig voneinander 

angenommen 

• Es existieren ausgezeichnete 

Winkelbereiche die Konformeren 

im Torsionsraum entsprechen 

• Da diese Konformere durch 

Rotation um Torsionswinkel 

entstehen, nennt man sie Rotamere 

Rotamere von LYS 

• Rotamere: 

Seitenkettenkonformationen 

minimaler Energie 

Was Ihnen vorenthalten wurde… 

• Sequenzanalyse 

– Assemblierung von Genomen 

– Genomvergleich 

– RNA-Struktur 

– Metagenomik 

– … 

• Expressionsanalyse 

– Transkriptomik (Microarrays) 

– Proteomik 

– … 

• Systembiologie 

– Regulatorische Netzwerke 

– Interaktomik 

– Metabolomik 

– … 

• Strukturbioinformatik 

– Proteinähnlichkeit 

– Molecular Modeling 

– Wirkstoffentwurf 

– Protein-Protein 

Interaktionen 

– … 

• Sonstiges 

– Immunoinformatik 

– Populationsdynamik 

– … 

Weiterführende Veranstaltungen 

• Vorlesung „Informatik I + II“ (WS/SS) 

• Vorlesungen „Drug Design 1“ und „Drug Design 2“ (WS 

10/11, SS 11, Englisch) 

• Vorlesung „Computational Immunomics“ 

(SS 10, Englisch) 

• Praktikum „Applied Structure-Based Drug 

Design“ (Blockprakt., jedes Semester) 

• Vorlesung Grundlagen der Bioinformatik (jedes SS) 

• Vorlesung Bioinformatik I + II (WS/SS) 

• Praktikum Datenintegration (Blockprakt.) 

14

Bioinformatik für Biochemiker - Applied Bioinformatics Group ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?