12.07.2015 Views

Bioinformatikai algoritmusok

Bioinformatikai algoritmusok

Bioinformatikai algoritmusok

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

13.1. Algoritmusok szekvenciákonbelső csúcsaira adtak meg konszenzus szekvenciákat. Mára a bioinformatika egyik kulcskérdésévévált a gyors és adekvát többszörös szekvencia illesztés, Dan Gusfield a bioinformatikaSzent Gráljának nevezi. Ma a többszörös illesztés egyformán elterjedt az adatbázisokbanvaló keresésre, valamint evolúciós leszármazások vizsgálatára. Segítségével meg lehettalálni egy szekvencia család konzervatív régióit, azokat a pozíciókat, amelyek az adott fehérjecsaládfunkcionális tulajdonságát kialakítják. Arthur Lesk szavaival: Amit két homológszekvencia suttog, azt egy többszörös illesztés hangosan kiáltja.A többszörös illesztés egymás alá írt k-asait illesztett k-asoknak hívjuk. A többszörösillesztés dinamikus programozási algoritmusa egyszerű általánosítása a páronkénti illesztésalgoritmusának: k szekvencia illesztéséhez egy k dimenziós dinamikus programozásitáblázatot kell kitölteni. A táblázat minden egyes elemének a kiszámításához ismerni kellazokat az elemeket, amelyeknek valahány indexe eggyel kisebb, ha nem engedünk megtöbbszörös réseket, és a koordinátatengelyekkel párhuzamos hipersíkok minden kisebb indexűelemét, ha többszörös réseket megengedünk. Így ezen <strong>algoritmusok</strong> memóriaigénye kdarab, egyenként n hosszúságú szekvencia esetén Θ(n k ), számolásigénye pedig Θ(2 k n k ), halineáris résbüntetést alkalmazunk, és Θ(n 2k−1 ), ha tetszőleges résbüntetést alkalmazunk.A többszörös szekvencia illesztéssel két alapvető probléma van. Az egyik algoritmuselméletiprobléma: a pontos megoldáshoz szükséges idő a szekvenciák számával exponenciálisannő. Bebizonyították, hogy a többszörös illesztés NP-teljes probléma. A másik metodikaiprobléma: nem világos, hogyan kell értékelni egy többszörös illesztést, ha többfaj leszármazási sorrendjére vagyunk kíváncsiak. Objektív értékelési lehetőség csak akkoradódna, ha ismernénk a leszármazási viszonyokat, ekkor lehetne egy evolúciós fa menténértékelni egy többszörös illesztést.Mindkét problémára heurisztikus megoldást ad a fa mentén való iteratív páronkénti illesztés.Ez a módszer először egy úgynevezett vezérfát állít elő páronkénti távolságokból kiindulva(ilyen fakészítő módszerekkel találkozhatunk például a 13.5 alfejezetben), majd ezthasználja fel többszörös illesztésre. Először a fa alapján szomszédos szekvenciákat illeszti,majd a már illesztett szekvencia párokhoz, hármasokhoz stb. illeszti az újabb szekvenciákat,szekvencia párokat, hármasokat, stb. úgy, hogy a már illesztett szekvenciák illesztett k-asaitnem lehet megbontani, csak egy csupa rés jelekből álló oszlopot beilleszteni. Így k − 1 páronkéntiillesztéssel kapjuk meg k szekvencia többszörös illesztését. Sokszor a már illesztettszekvenciákat csak egy úgynevezett profillal ábrázolják. Egy profil egy (|Σ| + 1) × l-es táblázat,ahol l az illesztés hossza. Az egyes oszlopokban az adott pozíciójú illesztett k-asrólkészült statisztika található. Az egyes értékek azt mutatják, hogy az ábécé adott betűje hányszázalékban szerepel az illesztés adott illesztett k-asában. Az oszlop utolsó helyén a rés jelszázalékos előfordulása található.Természetesen a kapott többszörös illesztés felhasználható egy újabb fa készítésére,amiből egy újabb illesztés generálható, és ezt a ciklust addig lehet ismételni, ameddig azújabb iteráció már nem hoz változást az illesztésben. A módszer magyarázata az a feltételezés,hogy a közeli szekvenciák optimális páronkénti illesztése ugyanaz, mint amit az optimálistöbbszörös illesztésből kapunk. A módszer hátránya az, hogy még ha az előbbi feltételezésigaz is, akkor is lehet több egyformán optimális illesztés, és ezek száma is exponenciálisannőhet a szekvencia hosszával. Például tekintsük az AUCGGUACAG és az AUCAUACAGszekvenciák alábbi két optimális illesztését:A U C G G U A C A GA U C - A U A C A GA U C G G U A C A GA U C A - U A C A G

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!