28.07.2013 Views

PDF, 22 Kb - Computational Biology @ Comenius University in ...

PDF, 22 Kb - Computational Biology @ Comenius University in ...

PDF, 22 Kb - Computational Biology @ Comenius University in ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Vyhl’adávanie v texte (Str<strong>in</strong>g/Pattern Match<strong>in</strong>g Algorithms)<br />

Broňa Brejová<br />

• Kontakt: brejova@fmph.uniba.sk, M163<br />

• Prednášky streda 14:00-15:30 M-VII a štvrtok 16:30-18:00 M-III<br />

Vyhovuje tento čas?<br />

• Webstránka: http://compbio.fmph.uniba.sk/vyuka/vvt/<br />

• Moodle na odovzdávanie úloh a evidenciu bodov,<br />

prihláste sa heslom “hladaj slovo”<br />

• Konzultácie: utorok 16:00-17:00 alebo po dohode<br />

• Neváhajte sa klást’ otázky na hod<strong>in</strong>e, na konzultáciách, príp. emailom<br />

• Anglické prednášky?<br />

1


Ciele predmetu<br />

• Úvod do efektívnych dátových štruktúr a algoritmov pre prácu s textom.<br />

• Užitočné v <strong>in</strong>ternetových vyhl’adávačoch, databázach, editoroch,<br />

kompilátoroch, bio<strong>in</strong>formatike, antivírových programoch, . . .<br />

• Využitie a preh´lbenie vedomostí o tvorbe a analýze algoritmov a<br />

z formálnych jazykov<br />

• ˇDalšie zručnosti: práca s literatúrou, prezentovanie, výpočtové<br />

experimenty.<br />

2


Preberané témy<br />

• Hl’adanie kl’účových slov (<strong>in</strong>vertovaný <strong>in</strong>dex, lexikografický strom)<br />

• Hl’adanie vzorky v texte (Knuth-Morris-Pratt-ov algoritmus a <strong>in</strong>é),<br />

hl’adanie viacerých vzoriek, 2D vyhl’adávanie, . . .<br />

• Indexovanie textu (sufixové stromy a polia)<br />

• Editačná vzdialenost’ (dynamické programovanie a jeho vylepšenia),<br />

vyhl’adávanie približných výskytov vzorky<br />

• Iné témy: regulárne výrazy, aplikácie v biológii, FFT, LCA<br />

• Vaše prezentácie<br />

3


Pravidlá<br />

Všetci:<br />

Aktivita na hod<strong>in</strong>e 10% (+ najviac 10% bonus)<br />

Prezentácia článku 15%<br />

Alternatíva A:<br />

Domáca úloha 15%<br />

Skúška 60%<br />

A: >=90, B:80...89, C: 70...79, D: 60...69, E: 50...59, FX:


Pravidlá<br />

Všetci:<br />

Aktivita na hod<strong>in</strong>e 10% (+ najviac 10% bonus)<br />

Prezentácia článku 15%<br />

Alternatíva A:<br />

Domáca úloha 15%<br />

Skúška 60%<br />

Alternatíva B:<br />

Domáca úloha 15%<br />

Projekt 60%<br />

Alternatíva A je základ<br />

Alternatíva C:<br />

Projekt 75%<br />

V prípade záujmu o B alebo C sa príd’te dohodnút’ do 31.3.<br />

A: >=90, B:80...89, C: 70...79, D: 60...69, E: 50...59, FX:


Pravidlá<br />

Domáca úloha<br />

V prvej polovici semestra, implementácia algoritmov a ich experimentálne<br />

porovnanie, bonusové otázky<br />

Prezentácie<br />

Vyberte si vedecký článok súvisiaci s témou predmetu (do 16.4.)<br />

Prezentácie cez prednášku na konci semestra<br />

Skúška<br />

Písomná skúška s riešením problémov (tvorba/analýza algoritmov)<br />

Ústna skúška: vysvetlite algoritmus z prednášky, detaily vášho článku<br />

Povolený t’ahák 2 listy A4<br />

5


Pravidlá<br />

Projekt (nepov<strong>in</strong>ný)<br />

M<strong>in</strong>i-diplomovka (8-20 strán)<br />

Rôzne možnosti: Prehl’ad/implementácia a experimenty/teória<br />

Výber témy do 31.3., dohodnite sa s vyučujúcou<br />

Aktivita<br />

Odpovedanie otázky cez prednášku, prezentácia nepov<strong>in</strong>nej DÚ (1-3)<br />

Písanie/zlepšovanie poznámok z prednášok v LaTeXu (1-5)<br />

Hl’adanie chýb v poznámkach/na prednáške<br />

Neopisovat’<br />

Môžete sa o domácej úlohe rozprávat’ so spolužiakmi<br />

Ale každý vlastnú implementáciu, experimenty a text<br />

Nekopírovat’ z <strong>in</strong>ternetu, citujte prípadné zdroje<br />

6


Literatúra<br />

• Dan Gusfield (1997) Algorithms on Str<strong>in</strong>gs, Trees and Sequences:<br />

Computer Science and <strong>Computational</strong> <strong>Biology</strong>. Cambridge <strong>University</strong><br />

Press V knižnici so signatúrou I-INF-G-8.<br />

• Alberto Apostolico, Zvi Galil, editors (1997) Pattern Match<strong>in</strong>g<br />

Algorithms, Oxford <strong>University</strong> Press.<br />

• Gonzalo Navarro, Mathieu Raff<strong>in</strong>ot (2002) Flexible Pattern Match<strong>in</strong>g <strong>in</strong><br />

Str<strong>in</strong>gs. Cambridge <strong>University</strong> Press.<br />

• Vedecké články<br />

• Poznámky z prednášok<br />

7


Plnotextové vyhl’adávanie kl’účových slov<br />

(Full-text keyword search)<br />

Def<strong>in</strong>ícia problému<br />

Dokument: Postupnost’ slov<br />

Ciel’: Vytvorit’ <strong>in</strong>dex pre statickú množ<strong>in</strong>u dokumentov, aby sme vedeli<br />

rýchlo odpovedat’ na dotazy.<br />

Dotaz: Dané slovow, nájdite všetky dokumenty obsahujúcew.<br />

Príklad:<br />

Dokument 0: Ema ma mamu.<br />

Dokument 1: Mama ma Emu.<br />

Dokument 2: Mama sa ma. Ema sa ma.<br />

Dotaz: Mama vráti dokumenty 1,2.<br />

8


Plnotextové vyhl’adávanie kl’účových slov<br />

(Full-text keyword search)<br />

Def<strong>in</strong>ícia problému<br />

Dokument: Postupnost’ slov<br />

Ciel’: Vytvorit’ <strong>in</strong>dex pre statickú množ<strong>in</strong>u dokumentov, aby sme vedeli<br />

rýchlo odpovedat’ na dotazy.<br />

Dotaz: Dané slovow, nájdite všetky dokumenty obsahujúcew.<br />

Praktické otázky<br />

Dokument: webstránka/email/kniha/kapitola/abstrakt/. . .<br />

Predspracovanie: malé/vel’ké písmená, úprava na základný tvar<br />

(stemm<strong>in</strong>g), čo je slovo/oddel’ovač slov?, synonymá,. . .<br />

Čo ak je vel’a dokumentov, ako ich zoradit’? (Information/text retrieval)<br />

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!