15.02.2014 Views

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

klientov. TME časť môže byť implementovaná ako lokálna knižnica, alebo<br />

ako server v architektúre klient – server.<br />

− Sklady dolovaných objektov (Mining Objects Repository, MOR) – TME<br />

využíva sklady dolovaných objektov, ktoré slúžia na umiestnenie modelov<br />

dolovania v textoch (pre algoritmy kontrolovaného aj nekontrolovaného<br />

učenia).<br />

TME riadi realizáciu všeobecných úloh dolovania v textoch, ktorými sú<br />

napríklad jazyková analýza textu dokumentu, budovanie a testovanie modelu,<br />

aplikovanie modelu na nové údaje, výpočet štatistík, import a export existujúcich<br />

objektov dolovania z a do MOR.<br />

Z funkčného hľadiska pozostáva knižnica Jbowl z modulov, ktoré možno<br />

rozdeliť do piatich úrovní (obrázok 1):<br />

1. Dokumenty. Na tejto úrovni sú implementované mechanizmy pre reprezentáciu<br />

textových dokumentov v XML formáte (delenie na kapitoly,<br />

odseky, meta-údaje), fulltextový index (klasické vyhľadávanie v plnom<br />

texte) a tezaurus pre popis obsahu dokumentu pomocou kľúčových<br />

slov.<br />

2. Analýza. Do tejto úrovne patria všetky operácie predspracovania a jazykovej<br />

analýzy textu: načítanie a konverzia na jednotný formát, značkovanie,<br />

identifikácia slovných druhov (POS tagging), morfologická analýza (stemming),<br />

lematizácia, identifikácia ustálených slovných spojení, syntaktická<br />

analýza.<br />

3. Údaje. V tejto úrovni sa nachádzajú funkcie na manipuláciu s vektorovým<br />

modelom, čiže údajo<strong>vo</strong>u reprezentáciou textov po predspracovaní<br />

a jazykovej analýze. Patria sem mechanizmy výberu vhodných termov<br />

(kľúčových slov, fráz, konceptuálnych popisov), rôzne spôsoby váženia<br />

termov (binárne, na základe frekvencie výskytu, alebo TF-IDF váženie),<br />

a napokon štatistické operácie na vyhodnocovanie matice term – dokument.<br />

4. Modely. Táto úroveň obsahuje implementáciu viacerých algoritmov<br />

pre dolovanie v textoch (kategorizácia textov využívajúca kontrolované<br />

učenie, zhlukovanie textov na základe nekontrolovaného učenia), pre<br />

extrakciu kľúčových slov (a následnú automatickú t<strong>vo</strong>rbu sumárov a abstraktov)<br />

a pre extrakciu informácií z textov.<br />

5. Utility. Napokon, na tejto úrovni sa nachádzajú podporné a obslužné<br />

programy pre efektívnu prácu s matico<strong>vo</strong>u a vektoro<strong>vo</strong>u reprezentáciou<br />

dokumentov.<br />

V nasledujúcich troch častiach stručne popíšeme činnosť funkcií knižnice<br />

Jbowl pri predspracovaní a jazykovej analýze textov na získanie vektorovej<br />

reprezentácie dokumentu a následné využitie tejto reprezentácie v algoritmoch<br />

klasifikácie a zhlukovania.<br />

124

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!