PDF, 22 Kb - Computational Biology @ Comenius University in ...
PDF, 22 Kb - Computational Biology @ Comenius University in ...
PDF, 22 Kb - Computational Biology @ Comenius University in ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Vyhl’adávanie v texte (Str<strong>in</strong>g/Pattern Match<strong>in</strong>g Algorithms)<br />
Broňa Brejová<br />
• Kontakt: brejova@fmph.uniba.sk, M163<br />
• Prednášky streda 14:00-15:30 M-VII a štvrtok 16:30-18:00 M-III<br />
Vyhovuje tento čas?<br />
• Webstránka: http://compbio.fmph.uniba.sk/vyuka/vvt/<br />
• Moodle na odovzdávanie úloh a evidenciu bodov,<br />
prihláste sa heslom “hladaj slovo”<br />
• Konzultácie: utorok 16:00-17:00 alebo po dohode<br />
• Neváhajte sa klást’ otázky na hod<strong>in</strong>e, na konzultáciách, príp. emailom<br />
• Anglické prednášky?<br />
1
Ciele predmetu<br />
• Úvod do efektívnych dátových štruktúr a algoritmov pre prácu s textom.<br />
• Užitočné v <strong>in</strong>ternetových vyhl’adávačoch, databázach, editoroch,<br />
kompilátoroch, bio<strong>in</strong>formatike, antivírových programoch, . . .<br />
• Využitie a preh´lbenie vedomostí o tvorbe a analýze algoritmov a<br />
z formálnych jazykov<br />
• ˇDalšie zručnosti: práca s literatúrou, prezentovanie, výpočtové<br />
experimenty.<br />
2
Preberané témy<br />
• Hl’adanie kl’účových slov (<strong>in</strong>vertovaný <strong>in</strong>dex, lexikografický strom)<br />
• Hl’adanie vzorky v texte (Knuth-Morris-Pratt-ov algoritmus a <strong>in</strong>é),<br />
hl’adanie viacerých vzoriek, 2D vyhl’adávanie, . . .<br />
• Indexovanie textu (sufixové stromy a polia)<br />
• Editačná vzdialenost’ (dynamické programovanie a jeho vylepšenia),<br />
vyhl’adávanie približných výskytov vzorky<br />
• Iné témy: regulárne výrazy, aplikácie v biológii, FFT, LCA<br />
• Vaše prezentácie<br />
3
Pravidlá<br />
Všetci:<br />
Aktivita na hod<strong>in</strong>e 10% (+ najviac 10% bonus)<br />
Prezentácia článku 15%<br />
Alternatíva A:<br />
Domáca úloha 15%<br />
Skúška 60%<br />
A: >=90, B:80...89, C: 70...79, D: 60...69, E: 50...59, FX:
Pravidlá<br />
Všetci:<br />
Aktivita na hod<strong>in</strong>e 10% (+ najviac 10% bonus)<br />
Prezentácia článku 15%<br />
Alternatíva A:<br />
Domáca úloha 15%<br />
Skúška 60%<br />
Alternatíva B:<br />
Domáca úloha 15%<br />
Projekt 60%<br />
Alternatíva A je základ<br />
Alternatíva C:<br />
Projekt 75%<br />
V prípade záujmu o B alebo C sa príd’te dohodnút’ do 31.3.<br />
A: >=90, B:80...89, C: 70...79, D: 60...69, E: 50...59, FX:
Pravidlá<br />
Domáca úloha<br />
V prvej polovici semestra, implementácia algoritmov a ich experimentálne<br />
porovnanie, bonusové otázky<br />
Prezentácie<br />
Vyberte si vedecký článok súvisiaci s témou predmetu (do 16.4.)<br />
Prezentácie cez prednášku na konci semestra<br />
Skúška<br />
Písomná skúška s riešením problémov (tvorba/analýza algoritmov)<br />
Ústna skúška: vysvetlite algoritmus z prednášky, detaily vášho článku<br />
Povolený t’ahák 2 listy A4<br />
5
Pravidlá<br />
Projekt (nepov<strong>in</strong>ný)<br />
M<strong>in</strong>i-diplomovka (8-20 strán)<br />
Rôzne možnosti: Prehl’ad/implementácia a experimenty/teória<br />
Výber témy do 31.3., dohodnite sa s vyučujúcou<br />
Aktivita<br />
Odpovedanie otázky cez prednášku, prezentácia nepov<strong>in</strong>nej DÚ (1-3)<br />
Písanie/zlepšovanie poznámok z prednášok v LaTeXu (1-5)<br />
Hl’adanie chýb v poznámkach/na prednáške<br />
Neopisovat’<br />
Môžete sa o domácej úlohe rozprávat’ so spolužiakmi<br />
Ale každý vlastnú implementáciu, experimenty a text<br />
Nekopírovat’ z <strong>in</strong>ternetu, citujte prípadné zdroje<br />
6
Literatúra<br />
• Dan Gusfield (1997) Algorithms on Str<strong>in</strong>gs, Trees and Sequences:<br />
Computer Science and <strong>Computational</strong> <strong>Biology</strong>. Cambridge <strong>University</strong><br />
Press V knižnici so signatúrou I-INF-G-8.<br />
• Alberto Apostolico, Zvi Galil, editors (1997) Pattern Match<strong>in</strong>g<br />
Algorithms, Oxford <strong>University</strong> Press.<br />
• Gonzalo Navarro, Mathieu Raff<strong>in</strong>ot (2002) Flexible Pattern Match<strong>in</strong>g <strong>in</strong><br />
Str<strong>in</strong>gs. Cambridge <strong>University</strong> Press.<br />
• Vedecké články<br />
• Poznámky z prednášok<br />
7
Plnotextové vyhl’adávanie kl’účových slov<br />
(Full-text keyword search)<br />
Def<strong>in</strong>ícia problému<br />
Dokument: Postupnost’ slov<br />
Ciel’: Vytvorit’ <strong>in</strong>dex pre statickú množ<strong>in</strong>u dokumentov, aby sme vedeli<br />
rýchlo odpovedat’ na dotazy.<br />
Dotaz: Dané slovow, nájdite všetky dokumenty obsahujúcew.<br />
Príklad:<br />
Dokument 0: Ema ma mamu.<br />
Dokument 1: Mama ma Emu.<br />
Dokument 2: Mama sa ma. Ema sa ma.<br />
Dotaz: Mama vráti dokumenty 1,2.<br />
8
Plnotextové vyhl’adávanie kl’účových slov<br />
(Full-text keyword search)<br />
Def<strong>in</strong>ícia problému<br />
Dokument: Postupnost’ slov<br />
Ciel’: Vytvorit’ <strong>in</strong>dex pre statickú množ<strong>in</strong>u dokumentov, aby sme vedeli<br />
rýchlo odpovedat’ na dotazy.<br />
Dotaz: Dané slovow, nájdite všetky dokumenty obsahujúcew.<br />
Praktické otázky<br />
Dokument: webstránka/email/kniha/kapitola/abstrakt/. . .<br />
Predspracovanie: malé/vel’ké písmená, úprava na základný tvar<br />
(stemm<strong>in</strong>g), čo je slovo/oddel’ovač slov?, synonymá,. . .<br />
Čo ak je vel’a dokumentov, ako ich zoradit’? (Information/text retrieval)<br />
9