15.02.2014 Views

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

Kompletný zborník vo formáte PDF - Jazykovedný ústav Ľudovíta ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Pre klasifikačné a zhlukovacie algoritmy dolovania v textoch však tento<br />

XML formát ešte nie je vhodný. Potrebné je získať vektorovú reprezentáciu,<br />

v ktorej je dokument reprezentovaný ako vektor v n-rozmernom príznako<strong>vo</strong>m<br />

priestore (n je počet príznakov, termov). Príznakmi môžu byť napríklad slová,<br />

korene slov, frázy, n‐gramy, významy slov (napr. WordNet synsety), a podobne.<br />

Voľba príznakov závisí od konkrétnej aplikácie, <strong>vo</strong> všeobecnosti však platí, že<br />

najefektívnejším spôsobom vyhľadania a identifikácie príznakov v texte sú<br />

metódy jazykovej analýzy a počítačového spracovania jazyka.<br />

Proces jazykovej analýzy pozostáva z niekoľkých krokov, ktorými sú značkovanie<br />

(tokenizácia, delenie textu na textové jednotky – slová, interpunkciu,<br />

numerické znaky, a pod.), eliminácia tzv. stop-slov (stop-words, t.j. slov, pri<br />

ktorých sa predpokladá zanedbateľne malý príspe<strong>vo</strong>k k celkovému obsahu),<br />

morfologická analýza (stemming – určenie koreňa slov, POS tagging – identifikácia<br />

slovných druhov), lematizácia (úprava slov na ich základný tvar – lemmu),<br />

dezambiguácia (zjednoznačnenie, odstránenie alternatív), syntaktická<br />

analýza (zhlukovanie fráz, určenie syntaktických kategórií), váženie (číselné<br />

ohodnotenie termov, t.j. slov a fráz, podľa ich relatívnej dôležitosti, príspevku<br />

k celkovému obsahu dokumentu).<br />

Konkrétne mechanizmy jazykovej analýzy sú do veľkej miery jazyko<strong>vo</strong><br />

a aplikačne závislé. Knižnica Jbowl ponúka sériu tzv. značkovacích filtrov<br />

(Machová, 2006), ktoré slúžia na zmenu textu niektorej značky (na malé písmená,<br />

stemming), pridanie informácie k značke (POS tagging, dezambiguácia),<br />

odstránenie niektorých značiek (stop-words), spájanie značiek (zhlukovanie<br />

fráz) a váženie termov <strong>vo</strong> výslednom indexe. Pomocou definovaného API rozhrania<br />

je možné pomerne jednoducho pripojiť k Jbowl aj ďalšie mechanizmy<br />

jazykovej analýzy.<br />

M. Tymeš (2006) implementoval do knižnice Jbowl ďalšie moduly jazykovej<br />

analýzy pre spracovanie textov v slovenčine. Upravil mechanizmy značkovania,<br />

lematizácie a následnej morfologickej anotácie podľa spôsobov použitých<br />

pri morfologickej anotácii Slovenského národného korpusu (Garabík a kol.,<br />

2004). Navrhol a implementoval aj modul syntakticko-sémantickej analýzy,<br />

založený na ATN sieťach a na viazaní gramatických kategórií medzi značkami.<br />

Na základe údajov z reálnych textov bol vyt<strong>vo</strong>rený slovník ATN sietí pre slovenčinu<br />

a výsledná aplikácia bola úspešne testovaná v systéme na extrakciu<br />

informácií.<br />

Jazyková analýza <strong>vo</strong> všeobecnosti identifikuje v textoch tie jazykové a sémantické<br />

javy, ktoré sú podstatné pre konštruovanie obsahu textu. Formálnym<br />

vyjadrením obsahu textu pre ďalšie spracovanie algoritmami dolovania v texte<br />

(kategorizáciou a zhlukovaním) je jeho vektorový model. Kvalita jazykovej<br />

analýzy je teda určujúca pre úspešnú aplikáciu klasifikačných a zhlukovacích<br />

algoritmov. Na druhej strane, kvalitu jednotlivých krokov v procese jazykovej<br />

analýzy možno zvýšiť jednak modifikáciou existujúcich modulov a algoritmov,<br />

a jednak rozšírením použitých slovníkov, napríklad pre morfologickú analýzu<br />

126

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!