13.3. Algoritmusok sztochasztikus nyelvtanokon £• levezetés valószínűségét,• a legvalószínűbb levezetést,• valamint annak a valószínűségét, hogy a szekvencia egy adott a i karakterét egy adottlevezetési szabály vezette le.13.3-3. Egy rejtett Markov-modellben lehetnek úgynevezett csendes vagy nem kibocsátóállapotok, melyek a rejtett Markov-modell ábrázolását elősegíthetik. Mutassuk meg, hogyminden rejtett Markov-modell, mely csendes állapotokat tartalmaz, átírható olyan rejtettMarkov-modellé, amely nem tartalmaz csendes állapotokat, és ekvivalens az eredeti modellel,azaz ugyanazon szekvenciákat ugyanakkora valószínűséggel bocsátja ki.13.3-4. A páros rejtett Markov-modellek olyan rejtett Markov-modellek, melyekben azegyes állapotok nem csak egy szekvenciába bocsátanak ki karaktereket, hanem kettőbe.Egyes állapotok csak az egyik szekvenciába, mások csak a másikba, ismét mások pedigmindkét szekvenciába bocsátanak ki karaktereket. Egy állapot egy lépésben mindegyikszekvenciába legfeljebb egy karaktert bocsáthat ki. Adjuk meg a páros rejtett MarkovfolyamatokVITERBI, ELŐRE és HÁTRA algoritmusait.13.3-5. Viterbi algoritmusában nem használtuk ki, hogy a tranzíciók és a kibocsátási valószínűségekvalószínűségek, azaz nem negatívak és eggyé összegződnek. Valamint az algoritmusakkor is működik, ha szorzás helyett összeadások vannak, és maximalizálás helyettakár minimalizálhatunk is. Adjunk meg egy olyan módosított páros rejtett Markov-modellt(amelyben a ”valószínűségek” nem feltétlenül nem negatívak, és nem feltétlenül összegződnekeggyé), melyre Viterbi algoritmusa összeadásokkal és minimalizálással ekvivalensGotoh algoritmusával.13.3-6. Másodlagos térszerkezetnek nevezzük az RNS-ek olyan bázispárosodását, amelybena bázispárosodott nukleinsavakat összekötő, a szekvencia fölött haladó ívek nem metszikegymást. A lehetséges bázispárosodások: A − U, U − A, C − G, G − C, G − U és U − G.Adjunk meg egy dinamikus programozási algoritmust, amely egy adott RNS szekvenciáramegkeresi azt a másodlagos térszerkezetet, melyben a párosodott nukleinsavak száma maximális.13.3-7. A Knudsen–Hein-nyelvtan levezetési szabályai:S → LS |L ,F → dFd|LS ,L → s|dFd ,ahol minden s terminális levezetést még helyettesíteni kell az RNS szekvenciák lehetségeskaraktereivel, a dFd kifejezésben pedig a két d terminális szimbólumot helyettesítenikell a lehetséges bázispárosodásokkal. Mutassuk meg, hogy adott szekvencia és a levezetésekadott valószínűségi eloszlása esetén meg lehet adni egy olyan dinamikus programozásialgoritmust, amely megadja a szekvencia levezetésének a valószínűségét, anélkül, hogyChomsky-féle normálformába írnánk át a nyelvtant.
¡ £¢689(73C8168 +G8=3¥¤e0W0768 ¢e0 &)< #§¦ +fAe0 ¢¡13. BioinformatikaAz alábbi részben különböző szerkezeteket hasonlítunk össze dinamikus programozási <strong>algoritmusok</strong>segítségével. Mint meg fogjuk mutatni, a címkézett, gyökeres fák illesztésérehasznált algoritmus általánosítása a szekvenciák összehasonlítására használt algoritmusnak.A rejtett Markov-modellek összehasonlítását végző algoritmus egy lineáris egyenletrendszermegoldásával adja meg két rejtett Markov-modell együttes kibocsátásának a valószínűségét,azaz annak a valószínűséget, hogy két rejtett Markov-modell ugyanazt a szekvenciátbocsátja ki.D;EF©9FGDF ¢ jQI;NPCKBK ¤\a 1Q7P@d PM ¦ Z?QkV%^ ^_PM.NCK[IM`PLegyen Σ egy véges ABC, Σ − = Σ ∪ {−}, Σ 2 = Σ − × Σ − \{−, −}. Egy F fa címkézésén egyolyan függvényt értünk, mely az F fa minden egyes n ∈ V F csúcsához hozzárendeli Σ egykarakterét. Ha egy gyökeres fából kitörlünk egy csúcsot, akkor a kitörölt csúcs gyerekei akitörölt csúcs szülőjének a gyerekei lesznek. Amennyiben a fa gyökerét töröljük ki, a fa erdőreesik szét. Legyen A egy gyökeres fa, melynek csúcsai Σ 2 elemeivel vannak címkézve,az ezt meghatározó függvény legyen c : V A → Σ 2 . Azt mondjuk, hogy A illesztése az Fés G Σ karaktereivel címkézett, gyökeres fáknak, ha A címkézéseinek első és második koordinátájánvett megszorításával, és az így ’−’ szimbólummal címkézett csúcsok törlésévelrendre az F és G fákat kapjuk vissza.Legyen adva egy hasonlósági függvény, s : Σ 2 → R. Erre a hasonlósági függvényresemmilyen megkötést nem teszünk, egy karakter lehet akár kevésbé hasonló önmagához,mint egy másik karakterhez. F és G fák optimális illesztésén egy olyan Σ 2 elemeivel címkézettA fát értünk, melyre∑n∈V As(c(n)) (13.58)maximális. Ezt a fát A F,G -vel fogjuk jelölni. Vegyük észre, hogy egy szekvencia ábrázolhatóolyan faként, melynek egyetlen levele van.A továbbiakban csak olyan fákkal foglalkozunk, melyekben bármely csúcsnak legfeljebbkét gyereke van. Az optimális illesztést megadó dinamikus programozás a gyökeresrészfákon történik, ezek azon részfák, melyek a fa egy adott csúcsát, mint gyökeret és ezekleszármazottjait tartalmazzák. Az r gyökér által meghatározott részfát t r -rel jelöljük. Egyfát egy üres fához csak egyféleképen illeszthetünk. Két, a, ill. b karakterekkel címkézettlevél illesztése csak három módon lehetséges: az illesztés vagy egyetlen csúcsot tartalmaz,és (a, b)-vel van címkézve, vagy két csúcsot tartalmaz, ezek közül az egyik (a, −), a másik(−, b) címkézésű, és a két csúcs közül az egyik a gyökér, a másik ennek a gyereke. Ez utóbbikét lehetőség ekvivalens a hasonlósági függvény szempontjából.Hasonlóan, egy levelet egy gyökeres részfával úgy lehet összeilleszteni, hogy az A illesztésbenvagy együtt van címkézve a levél karaktere a részfa valamely karakterével, vagyegy ’−’ szimbólummal van együtt címkézve. Ez utóbbi címkézést tartalmazó csúcsot a részfábasokféleképen lehet beszúrni, de ezek mindegyike ekvivalens.Ezután az inicializáció után a dinamikus programozásban egyre nagyobb részfákat illesztünkössze. Feltehetjük, hogy t r , illetve t s részfák esetében ismerjük már az A tr ,t x, A tr ,t y,A tu ,t s, A tv ,t s, A tu ,t x, A tu ,t y, A tv ,t xés A tv ,t yillesztéseket, és ezen illesztések értékeit, ahol u és vcsúcsok r gyerekei, x és y csúcsok pedig s gyerekei (amennyiben valamelyik csúcsnak csak