15.02.2014 Views

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

či ATN siete. Ot<strong>vo</strong>rené rozhranie a modulárna architektúra knižnice Jbowl do<strong>vo</strong>ľuje<br />

pomerne jednoducho tieto rozšírenia realizovať.<br />

Kategorizácia textov<br />

Cieľom úloh kategorizácie textov je klasifikácia, zatriedenie dokumentov<br />

podľa ich obsahu do niektorých z preddefinovaných kategórií. Pri klasifikácii<br />

sa využívajú princípy kontrolovaného učenia, kde sa z množiny trénovacích<br />

príkladov, t.j. <strong>vo</strong>pred ručne do daných kategórií zaradených dokumentov, vyt<strong>vo</strong>rí<br />

model, a tento sa následne použije pri klasifikácii ďalších (neznámych,<br />

nezaradených) dokumentov.<br />

Knižnica Jbowl poskytuje množinu (súbor) všeobecných Java tried a rozhraní,<br />

ktoré do<strong>vo</strong>ľujú integráciu rôznych klasifikačných metód. Rozlišujú sa<br />

klasifikačné algoritmy (napr. SVM, lineárny perceptrón, atď.) a klasifikačné<br />

modely (lineárny klasifikátor, klasifikátor založený na pravidlách).<br />

Používatelia knižnice Jbowl majú veľké množst<strong>vo</strong> možností ako implementovať<br />

vybrané algoritmy. Algoritmus môže byť dokonca implementovaný aj<br />

v iných programovacích jazykoch (C, C++) a následne integrovaný do Jbowl<br />

s Java Native Interface.<br />

V súčasnosti sú v knižnici Jbowl implementované tieto klasifikačné algoritmy:<br />

− jednoduché porovnávanie termov,<br />

− Support Vector Machine, lineárna klasifikácia,<br />

− kNN, metóda k najbližších susedov,<br />

− rozhodovacie stromy (rôzne kombinácie orezávania a rastu),<br />

− lineárny perceptrón,<br />

− bayesovský klasifikátor (binomiálny a multinomiálny),<br />

− Winnow algoritmus,<br />

− Boosting, metóda na zvýšenie presnosti klasifikátorov.<br />

Proces klasifikácie možno ukázať na príklade metódy k najbližších susedov.<br />

Tento algoritmus pracuje na nasledujúcom princípe: ak do systému vstupuje nový<br />

dokument, systém k nemu nájde k najbližších susedov medzi trénovacími dokumentmi,<br />

pričom použije už priradené kategórie týchto susedov na váženie kandidátskych<br />

kategórií pre nový dokument. Pri analýze dokumentu sa dajú vybrať<br />

rôzne komponenty, napríklad frekvencia termov, opačná frekvenciu dokumentu<br />

a normalizačného faktora. Týmto sa vyt<strong>vo</strong>rí vektorový model dokumentu s rozličnými<br />

váhovými schémami (t.j. binárne, TF, TF-IDF váhovanie).<br />

Zhlukovanie dokumentov<br />

Cieľom zhlukovania dokumentov je nájsť v kolekcii nejaké „skryté“, explicitne<br />

nevyjadrené kategórie, zhluky či skupiny istým spôsobom vzájomne podobných<br />

dokumentov, pričom ich podobnosť je daná sémantickou blízkosťou<br />

127

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!