15.02.2014 Views

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ich textov. Na rozdiel od kategorizácie, zhlukovanie je príkladom nekontrolovaného<br />

učenia.<br />

Na zhlukovanie dokumentov poskytuje knižnica Jbowl prístup založený na<br />

samoorganizujúcich sa mapách (self-organizing maps – SOM: Kohonen, 1995).<br />

Toto riešenie je vhodné pre mnohorozmerné údaje, aké sa produkujú pri úlohách<br />

dolovania v textoch. Metóda SOM je nelineárne zobraznenie, ktoré transformuje<br />

mnohorozmernú kolekciu vstupných údajov na d<strong>vo</strong>jrozmernú výstupnú mapu.<br />

Istou nevýhodou metódy SOM je jej statická architektúra, preto bola do knižnice<br />

Jbowl doplnená aj implementácia metódy GHSOM (Growing Hierarchical<br />

SOM) s modifikovaným algoritmom, zamedzujúcim problémom s rastom mapy<br />

a inicializáciou nových vrstiev (Paralič – Bednár, 2003).<br />

Implementácia metódy GHSOM v knižnici Jbowl pozostáva zo zhlukovacieho<br />

algoritmu a z vizualizačnej a vyhodnocovacej metódy. Na rozdiel od<br />

pô<strong>vo</strong>dnej GHSOM metódy, modifikovaná verzia pridáva <strong>vo</strong> fáze rastu iba jeden<br />

neurón, čo zamedzuje obja<strong>vo</strong>vaniu sa neinicializovaných neurónov pri pridávaní<br />

celého riadku či stĺpca matice.<br />

Výstupom vizualizačnej a vyhodnocovacej metódy je skupina HTML stránok<br />

generovaných osobitne pre jednotlivé vrstvy. Pre každý neurón sa extrahuje zoznam<br />

charakteristických termov, zoradených podľa variability ich výskytov v textoch,<br />

spolu s informáciou o počte dokumentov patriacich do daného zhluku.<br />

Kvalita zhlukovacej analýzy, podobne ako aj klasifikačných úloh, <strong>vo</strong> veľkej<br />

miere závisí od úspešnosti predspracovania a jazykovej analýzy textu. Voľba najvhodnejšieho<br />

algoritmu pre tú-ktorú aplikáciu pritom závisí aj od konkrétnej úlohy,<br />

ktorá sa má v danej aplikácii riešiť. Z tohto hľadiska je veľkou výhodou modulárna<br />

architektúra knižnice, ktorá umožňuje paralelne porovnať rôzne algoritmy,<br />

vyhodnotiť ich úspešnosť a pre finálne riešenie vybrať najefektívnejší prístup.<br />

Aplikácie<br />

Knižnica Jbowl bola od začiatku navrhovaná a budovaná ako podporný<br />

nástroj pre nasadenie v praktických aplikáciách a projektoch. Práve orientácia<br />

na praktickú použiteľnosť bola hnacou silou dopĺňania jednotlivých algortimov,<br />

a zároveň aj testovacou platformou pre úspešnosť a efektívnosť konkrétnej<br />

implementácie. Spomenieme tri projekty z rôznych aplikačných oblastí, v ktorých<br />

knižnica Jbowl zohráva dôležitú úlohu.<br />

V projekte GridMiner 3 bola knižnica Jbowl využitá na obja<strong>vo</strong>vanie znalostí<br />

v heterogénnych a distribuovaných priestoroch údajov. Aplikačnou oblasťou<br />

boli texty z oblasti medicíny, písané v angličtine. Metódami knižnice Jbowl sa<br />

uskutočovalo predspracovanie textov (delenie na lexikálne jednotky, značkovanie,<br />

filtrovanie stop-slov a morfologická analýza), indexácia textov, transformácia<br />

do matice term – dokument, nastavenie váh pomocou algoritmu TF-IDF.<br />

3<br />

http://www.gridminer.org<br />

128

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!