15.02.2014 Views

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

− Presné techniky predspracovania by mali byť dobre adaptovateľné na<br />

rôznych typoch a formátoch textu (napr. zrozumiteľný text, HTML alebo<br />

XML).<br />

− Schopnosť spracovávať súbory textov v rôznych jazykoch, predovšetkým<br />

v angličtine a v slovenčine. Rôzne jazyky vyžadujú rozdielne prístupy <strong>vo</strong><br />

fáze predspracovania a jazykovej analýzy.<br />

− Podpora pre indexáciu a vyhľadávanie v súboroch textových dokumentov<br />

(a experimenty s rôznymi vyhľadávacími technikami).<br />

− Dobre navrhnuté rozhranie pre znalostné štruktúry ako sú ontológie,<br />

kontrolované slovníky, alebo WordNet.<br />

Samotnej implementácii systému Jbowl predchádzala detailná analýza<br />

existujúcich Open source nástrojov s funkcionalitou blízkou formulovaným<br />

požiadavkám. Boli identifikované štyri skupiny nástrojov, a to:<br />

− Nástroje pre indexáciu a vyhľadávacie mechanizmy (Jakarta Lucene).<br />

− Nástroje pre spracovanie textu (GATE, JavaNLP).<br />

− Nástroje pre podporu obja<strong>vo</strong>vania znalostí v databázach (Weka, KDD<br />

package, JDM API).<br />

− Nástroje pre prácu s ontológiami (KAON).<br />

Ako sa ukázalo v práci P. Bednár a kol. (2005), každá z týchto skupín pokrýva<br />

iba jednu, nanajvýš dve z deklarovnaých požiadaviek. Pre požadovanú<br />

úroveň podpory dolovania v textoch a sémantického vyhľadávania bolo teda<br />

potrebné vyvinúť knižnicu Jbowl ako modulárny, flexibilný a rozšíriteľný rámec<br />

s ľahko pochopiteľnou vnútornou štruktúrou, poskytujúci mechanizmy pre<br />

predspracovanie, jazykovú analýzu a indexáciu rozsiahlych kolekcií textových<br />

dokumentov, a tiež pre t<strong>vo</strong>rbu, testovanie a vyhodnocovanie modelov dolovania<br />

v textoch algoritmami kontrolovaného aj nekontrolovaného učenia.<br />

Architektúra knižnice Jbowl<br />

Jbowl má rovnakú architektúru ako štandardné rozhranie Java Data Mining<br />

API (JSR 73, špecifikácia 6) 2 . Táto architektúra pozostáva z troch základných<br />

komponentov, ktoré môžu byť implementované buď samostatne, alebo v distribuovanom<br />

prostredí:<br />

− Aplikačné programovacie rozhranie (API) obsahuje množinu používateľsky<br />

viditeľných tried a rozhraní, ktoré do<strong>vo</strong>ľujú prístup k poskytovaným<br />

službám pomocou prostriedkov dolovania v textoch (TME). Pre aplikácie<br />

využívajúce knižnicu Jbowl stačí poznať iba toto API rozhranie, nie je<br />

potrebná detailná znalosť ďalších podporných komponentov.<br />

− Prostriedky dolovania v textoch (Text Mining Engine, TME) poskytujú<br />

infraštruktúru, ktorá ponúka množinu služieb dolovania v textoch pre API<br />

2<br />

http://www.jcp.org/en/jsr/detail?id=73<br />

123

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!