10.07.2015 Views

Bioinformatyczne bazy danych - Zakład Teorii Informatyki

Bioinformatyczne bazy danych - Zakład Teorii Informatyki

Bioinformatyczne bazy danych - Zakład Teorii Informatyki

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Instytut <strong>Informatyki</strong> PolitechnikiŚląskiej, GliwiceZakład <strong>Teorii</strong> <strong>Informatyki</strong>Wyszukiwanie informacji wrozproszonych bioinformatycznychsystemach baz <strong>danych</strong>Bożena MałysiakBozena.Malysiak@polsl.plDariusz MrozekDariusz.Mrozek@polsl.pl


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Zarys wystąpieniaBioinformatyka jako pole naukoweZałożenia dotyczące prowadzonych badańBiologiczne <strong>bazy</strong> <strong>danych</strong>Architektura tworzonego systemuWyszukiwanie podobieństwaPodsumowanie


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Co to jest bioinformatyka?Definicja EBI (European(Bioinformatics Institute):Bioinformatyka stanowi multidyscyplinarne pole naukowe,będące interfejsem między biologią a informatyką.Zasadniczym celem bioinformatyki jest odkrycie bogactwabiologicznej informacji ukrytej w masie <strong>danych</strong> i otrzymaniajaśniejszego wglądu w fundamenty biologiczne organizmu.


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Obszary rozwoju bioinformatykiReplikacjaDNATranskrypcja RNATranslacja Białkosekwencja DNA determinuje sekwencję proteinsekwencja protein determinuje strukturę proteinstruktura protein determinuje funkcję protein


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Biologiczne <strong>bazy</strong> <strong>danych</strong>Są to archiwa informacji, które kolekcjonują dane zszerokiego spektrum obszarów biologii molekularnej.Pierwotne b.d. . przechowują informacje pochodzącenajczęściej z badań biologów molekularnych ibiochemików, głównie adnotacje dotyczące:– DNA i sekwencji proteinowych– DNA i struktur proteinowychWtórne b.d. . (wyprowadzone) przechowują rezultatyanaliz pierwotnych złóż <strong>danych</strong>


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,GenBankEuropean Molecular BiologyLaboratory(http://www.embl.org)EMBLDDBJDNA Data Bank of Japan(http://www.ddbj.nig.ac.jp)National Center forBiotechnology Information(http://www.ncbi.nlm.nih.gov)NCBI


GenBank (DDBJ)Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


UniProt/SwissprotPolitechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Protein Data Bank (PDB)Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Format PDB (nagłówek)Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Format PDB (sekwencja)Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Format PDB (współrzędne)X Y ZPolitechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Baza <strong>danych</strong> BIND(Biomolecular Interaction Network Database )interakcje międzyproteinowe, , interakcje proteina-obiektobiekt– białko– DNA– RNA– kompleks molekularny– gen– foton– inny, niesklasyfikowany obiektkompleksy molekularneścieżki, szlaki (np(np. . szlaki metaboliczne)– interakcje składowe, ich kolejność, substraty, produkty– lokalizacja szlaku w cyklu komórkowym– informacja o potencjalnych powiązaniach z niektórymi chorobami


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Baza <strong>danych</strong> BIND(Biomolecular Interaction Network Database )


Baza BioCartaPolitechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,KEGG(Kyoto Encyclopedia of Genes and Genomes)


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Bazy <strong>danych</strong>PDB (TheProtein Data Bank, Research Collaboratory for Structural Bioinformatics, RCSB) –struktury białekMMDB (TheMolecular Modeling Database, National Center for Biotechnology Information,NCBI) – struktury białekUniProt/SwissProt(TheUniversal Protein Resource, , EBI) – sekwencje aminokwasówBioCarta – struktury kaskad, szlaki metaboliczneBIND (TheBiomolecular Interaction Network Database) – interakcje międzyproteinoweaMaze – reakcje wewnątrzkomórkowe, interakcje międzyproteinoweGenBank (DNADataBank of Japan (DDBJ), the European Molecular Biology Laboratory(EMBL), the NCBI) – sekwencje DNAKEGG (Kyoto Encyclopedia of Genes and Genomes, Kyoto University BioinformaticsCenter) – geny, szlaki metaboliczne, kaskady sygnałowe, reakcjach wewnątrzkomórkowych


Sieć baz bioinformatycznychPolitechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,(EuropeanMolecularEMBL-EBIEBIMolecular Biology Laboratory - European Bioinformatics Institute)


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,NCBI Entrez(NationalCenter for Biotechnology Information )


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Pochodzenie <strong>danych</strong>Pytanie: Skąd pochodzą dane o sekwencjach w bazach <strong>danych</strong>organizacji NCBI?z <strong>bazy</strong> UniProt/SwissProtz <strong>bazy</strong> PIR (Protein(Information Resource)z <strong>bazy</strong> PRF (Protein(Research Foundation)z <strong>bazy</strong> PDB (Protein Data Bank)z translacji regionów kodujących DNA <strong>bazy</strong> GenBank


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Dane liczboweGenBank: 58 758 902 sekwencji DNA i RNAUniProt/SwissprotSwissprot: 2 408 258 wpisów dotyczącychsekwencji aminokwasówPDB: 33 065 struktur białkowych i in.BIND: 198 893 interakcji proteina-obiektobiektKEGG: 30 224 szlaków (pathways(pathways)


Lokalne środowisko baz<strong>danych</strong>


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Rozproszenie informacjiSekwencjeaminokwasoweWebbrowserWebbrowserInterakcjeprot-obiektSekwencjeDNAWebbrowserWebbrowserWebbrowserSzlakimetaboliczneStrukturybiałkowe


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Problemyróżne źródła <strong>danych</strong> dla różnych aspektów biologiipredefiniowany sposób przetwarzania <strong>danych</strong>mało satysfakcjonujący format rezultatów zapytaniawąski/szeroki zbiór odpowiedzibrak/ograniczone możliwości wtórnegoprzetworzenia <strong>danych</strong>brak możliwości wykonania złożonych grup operacjii przetworzenia <strong>danych</strong> w trybie wsadowymNa szczęście istnieje również dostęp do <strong>danych</strong> poprzez serweryFTP niektórych organizacji.


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Arch. oparta o lokalne repliki(Mirror-based architecture)Użytk.1Użytk.2GUI layerPDBSwissPROTTBINDPrimarydatabasesModuł translacjizapytań i integracji<strong>danych</strong> (QTDIm)Modułsynchronizacjireplik (MSSm)INTERNETControl middle-layerPersistence layerLokalne replikiRMDBXML-MSTXT


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Formaty wymiany, specyfikacjei metody wymiany <strong>danych</strong>Pliki tekstowe (np. formaty PDB i mmCIF organizacji RCSB,format Swiss-Prot/Prot/TrEMBLorganizacji EBI, format FASTA)Format XML (np.. język KGML – KEGG Markup Language,PDBML – Protein Data Bank Markup Language)Macromolecular Structure Specification i BiomolecularSequence Analysis Specification (by Object ManagementGroup) z wykorzystaniem technologii CORBA IDL


Podobieństwo białek


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Podobieństwo sekwencjiZnajomość sekwencji białka jest pomocna w wyjaśnieniu mechanizmujego działania. Zmieniając sekwencję białka o znanej strukturze możnauzyskać białko o nowych właściwościach.Analiza zależności między sekwencją aminokwasów a strukturąprzestrzenną białka pozwala ustalić reguły rządzące fałdowaniem sięłańcuchów polipeptydowych. . Sekwencja aminokwasów łączy informacjęgenetyczną, zapisaną w DNA, , ze strukturą przestrzenną białka, od którejzależy jego funkcja biologiczna.Oznaczanie sekwencji jest niezbędne w patologii molekularnej, dziedziniemedycyny ostatnio intensywnie się rozwijającej. Zmiany sekwencjiaminokwasów mogą być przyczyną nienormalnego funkcjonowania lubchoroby organizmu.Sekwencje aminokwasowe dostarczają informacji na temat historiiewolucji białek.


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Algorytmy dopasowaniasekwencjiPodobieństwo/dopasowanie na poziomiesekwencji (aminokwasy)BLAST (Basic Local Alignment Search Tools),FASTA (FAST-Aye)


Dopasowanie sekwencjiaminokwasów (NCBI’sBLAST)Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


BLAST w lokalnych replikachPolitechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Zapytanie BLAST (przykład 1)SzukanaSzukanasekwencja:sekwencja:LTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFLTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFSELECTSELECTT_SEQ_IDT_SEQ_IDASASSEQ_ID,SEQ_ID,SCORE,SCORE,EXPECTEXPECTFROMFROMTABLE(TABLE(BLASTP_MATCHBLASTP_MATCH((((SELECTSELECTSEQUENCESEQUENCEFROMFROMQUERY_PATTERNQUERY_PATTERNWHEREWHERESEQUENCE_ID='7'),SEQUENCE_ID='7'),CURSOR(CURSOR(SELECTSELECTSEQ_ID,SEQ_ID,SEQ_DATASEQ_DATAFROMFROMSWISSPROTSWISSPROTWHEREWHEREORGANISMORGANISM=='Homo'Homosapienssapiens(Human)'(Human)'),),1,1,-1,-1,0,0,0,0,'BLOSUM62','BLOSUM62',10,10,0,0,0,0,0,0,0,0,0)0)););SEQ_IDSEQ_IDSCORESCOREEXPECTEXPECT----------------------------------------------------------------------------------------------------------------------P02008P02008181181.00000000000000515530800927943.00000000000000515530800927943P09105P09105174174.0000000000000334157339464379.0000000000000334157339464379P62027P62027129129.00000000552076428061243.00000000552076428061243P02100P02100118118.000000104117108337374.000000104117108337374P02042P02042114114.000000302934408154424.000000302934408154424Q8WWM9Q8WWM97171.0293415837178974.0293415837178974P26599P2659957571.232753728173181.23275372817318


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Zapytanie BLAST (przykład 2)SzukanaSzukanasekwencja:sekwencja:AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTAGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTSELECTSELECTT.T_SEQ_ID,T.T_SEQ_ID,T.ALIGNMENT_LENGTH,T.ALIGNMENT_LENGTH,T.PCT_IDENTITY,T.PCT_IDENTITY,T.Q_SEQ_START,T.Q_SEQ_START,T.Q_SEQ_END,T.Q_SEQ_END,T.T_SEQ_START,T.T_SEQ_START,T.T_SEQ_END,T.T_SEQ_END,T.SCORE,T.SCORE,T.EXPECT,T.EXPECT,G.PUBLICATION_DATE,G.PUBLICATION_DATE,G.ORGANISMG.ORGANISMFROMFROMGENEBANKGENEBANKG,G,TABLETABLE((BLASTN_ALIGNBLASTN_ALIGN(((SELECT(SELECTSEQUENCESEQUENCEFROMFROMQUERY_PATTERNQUERY_PATTERNWHEREWHERESEQUENCE_IDSEQUENCE_ID=='2'),'2'),CURSORCURSOR(SELECT(SELECTSEQ_ID,SEQ_ID,SEQUENCESEQUENCEFROMFROMGENEBANKGENEBANKWHEREWHEREPUBLICATION_DATEPUBLICATION_DATE>>'01-JAN-2000'),'01-JAN-2000'),1,1,-1,-1,0,0,0,0,10,10,0,0,0,0,0,0,0,0,11,11,0,0,0)0)))TTWHEREWHERET.T_SEQ_IDT.T_SEQ_ID==G.SEQ_IDG.SEQ_IDANDANDT.SCORET.SCORE>>2525ANDANDT.PCT_IDENTITYT.PCT_IDENTITY>>50;50;


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Zapytanie BLAST (przykład 3)SzukanaSzukanasekwencja:sekwencja:PADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVSELECTSELECTT_SEQ_ID,T_SEQ_ID,ALIGNMENT_LENGTH,ALIGNMENT_LENGTH,Q_SEQ_START,Q_SEQ_START,Q_SEQ_ENDQ_SEQ_END,,Q_FRAME,Q_FRAME,T_SEQ_START,T_SEQ_START,T_SEQ_END,T_SEQ_END,T_FRAME,T_FRAME,SCORE,SCORE,EXPECTEXPECTFROMFROMTABLE(TABLE(BLASTP_ALIGNBLASTP_ALIGN(((SELECT(SELECTSEQUENCESEQUENCEFROMFROMQUERY_PATTERNQUERY_PATTERNWHEREWHERESEQUENCE_ID='5'),SEQUENCE_ID='5'),CURSOR(CURSOR(SELECTSELECTSEQ_ID,SEQ_ID,SEQ_DATASEQ_DATAFROMFROMSWISSPROTSWISSPROT),),1,1,-1,-1,0,0,0,0,'PAM70','PAM70',10,10,0,0,0,0,0,0,0,0,0)0)););


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,Podobieństwo strukturalnePodobieństwo/dopasowanie na poziomie struktury – pomiędzyprzestrzennymi strukturami– VAST (Vector Alignment Search Tool, National Center for Biotechnology Information,NCBI)– DALI– CE (Combinatorial Extension of the optimal path, Research Collaboratoryfor StructuralBioinformatics - RCSB)– CATH (Class, Architecture, Topology and Homologous superfamily ) - a hierarchicalclassification of protein domain structures, University College London– FATCAT (Flexible structure AlignmenT by Chaining Aligned fragment pairs allowingTwists, The Burnham Institute)– FSSP (Fold classification based on Structure-Structure alignment of Proteins, EuropeanBioinformatics Institute, EBI)– SCOP (Structural Classification Of Proteins, MRC Laboratory of Molecular Biologyand Centre for Protein Engineering)– i in.


VAST (NCBI)Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,PodsumowanieUzyskany został dostęp do odpowiednich baz <strong>danych</strong> (w tym lokalnie:Uniprot/SwissprotSwissprot,PDB, KEGG, BIND)Zgromadzona została wiedza niezbędna dla planowanych badań oraz narzędzia konieczne dobadania wybranych procesówOdrzucono metodę wyszukiwania dokładnego ze względu na zbyt wąski i zbiórotrzymywanych wynikówStworzono narzędzia/programy pozwalające na dostęp do lokalnych baz <strong>danych</strong> orazprzetwarzania <strong>danych</strong> w nich zawartych zgodnie z wytyczonymi celami przyszłych badańNa bazie budowanego systemu możliwe jest prowadzenie różnych badań ań i analizowaniemniej/bardziej złożonych zjawisk zachodzących na poziomie molekularnymlarnymŚrodowisko może zostać użyte zarówno w celach naukowych, jak i edukacyjnycheW trakcie realizacji zadania nawiązano współpracę z Zakładem Biochemii, Śląskiej AkademiiMedycznej w Zabrzu


Politechnika Śląska, Zakład <strong>Teorii</strong> <strong>Informatyki</strong>: Bozena.Malysiak@polsl.pl, Dariusz.Mrozek@polsl.pl,PublikacjeMałysiak, , B., Mrozek, D., Romuk, , E., Grucka-MamczarMamczar, , E., Birkner, , E., „Dopasowanie„sekwencji nukleotydów i aminokwasów z wykorzystaniem ODM BLAST”, w monografiiBazy <strong>danych</strong>: Modele, Technologie, Narzędzia. Tom 2 – Analiza <strong>danych</strong> i wybranezastosowania. Wydawnictwa Komunikacji i Łączności, Warszawa, 2005, pp. 141-152.152.Małysiak, , B., Mrozek, D., “Analiza“kaskad sygnałowych”, w monografii Wysoko wydajnesieci komputerowe. Tom 1 – Nowe technologie, Wydawnictwa Komunikacji i Łączności,Warszawa, 2005, pp. 45-54.54.Mrozek, D., Małysiak, , B., Frączek, , J., “Information“Processing in Bioinformatics DatabaseSystems – Mirror-basedArchitecture and Approximate Search”, Proc. of InternationalConference on Engineering Education, , ICEE 2005, V. 2, Gliwice, Poland, , 2005, pp. 535-540.540.Mrozek, D., Małysiak, , B., Frączek, , J., Kasprowski, , P., “Signal“Cascades Analysis inNanoprocesses with Distributed Database System”,International Conference onComputational Science (ICCS 2005), Springer-VerlagGmbH, , LNCS 3516/3, 2005, pp. 334-341.Małysiak, , B., Mrozek, D., „Signal„Transduction in Nanoprocess Cells”, Archiwum<strong>Informatyki</strong> Teoretycznej i Stosowanej, Tom 17 (2005), z. 1, pp. 55-64.


Dziękuję za uwagęInstytut <strong>Informatyki</strong> Politechniki ŚląskiejZakład <strong>Teorii</strong> <strong>Informatyki</strong>Bożena Małysiak: Bozena.Malysiak@polsl.plDariusz Mrozek: Dariusz.Mrozek@polsl.pl

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!