15.02.2014 Views

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka*<br />

Karol Furdík – Peter Bednár<br />

Centrum pre informačné technológie, Fakulta elektrotechniky a informatiky<br />

Technickej univerzity v Košiciach<br />

Ú<strong>vo</strong>d<br />

Knižnica Jbowl (Java Bag-Of-Words Library) 1 je softvérový systém pre<br />

manipuláciu s textovými dokumentmi, poskytuje funkcie a metódy pre podporu<br />

spracovania prirodzeného jazyka, získavania znalostí a dolovania v textoch.<br />

Bol vyt<strong>vo</strong>rený v programo<strong>vo</strong>m prostredí Java a je realizovaný ako Open source<br />

projekt pod GNU Lesser licenciou.<br />

Návrh systému, ciele a požiadavky<br />

Systém Jbowl vznikol a je ďalej vyvíjaný v Centre pre informačné technológie,<br />

spoločnom pracovisku Ústavu informatiky SAV a Technickej univerzity<br />

v Košiciach. Hlavným cieľom bolo navrhnúť a implementovať ucelený, dostatočne<br />

flexibilný a rozšíriteľný systém, ktorý by na jednom mieste združoval<br />

algoritmy a technológie potrebné pre oblasti skúmané v Centre pre informačné<br />

technológie. Sú to predovšetkým manažment a reprezentácia znalostí, dolovanie<br />

a obja<strong>vo</strong>vanie znalostí v textoch, vyhľadávanie a extrakcia informácií, sémantický<br />

web a sémantické technológie <strong>vo</strong> všeobecnosti. Vo všetkých týchto oblastiach<br />

je primárnym zdrojom údajov písaný text, organizovaný do štruktúry<br />

rozsiahlych súborov elektronických textových dokumentov. Navrhovaný systém<br />

by teda mal poskytnúť jednoduchú rozšíriteľnosť a modulárnu konštrukciu na<br />

predspracovanie, jazykovú analýzu, indexáciu a ďalšie skúmanie takýchto<br />

veľkých textových súborov.<br />

Z takto definovaného cieľa vyplynuli nasledujúce požiadavky, ktoré by mal<br />

softvérový systém pre tieto účely spĺňať (Bednár a kol., 2005):<br />

− Schopnosť efektívne predspracovávať rozsiahle kolekcie textových<br />

dokumentov pomocou flexibilnej množiny dostupných techník predspracovania.<br />

* Príspe<strong>vo</strong>k vznikol s podporou Kultúrnej a edukačnej agentúry Ministerstva školstva<br />

SR (KEGA) v rámci projektu č. 3/3124/05 s náz<strong>vo</strong>m „Virtuálne laboratórium manažmentu<br />

dodávateľsko-odberateľských reťazcov“ a projektu VEGA č. 1/4074/07 „Metódy<br />

anotovania, vyhľadávania, t<strong>vo</strong>rby a sprístupňovania znalostí s využitím metadát pre<br />

sémantický popis znalostí“.<br />

1<br />

http://sourceforge.net/projects/jbowl/<br />

122

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!