23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

tiny se jako vhodnější jeví morfologické analyzátory (viz dále). Zmínili jsme<br />

se už o gramatickém značkování (tagging) – přiřazení (symbolů) značek slovních<br />

druhů každému výskytu slova v korpusu. Výsledkem je tedy anotovaný<br />

korpus, tj. ne již čistý (surový) korpus, ale jeho verze opatřená gramatickými<br />

informacemi jistého druhu.<br />

Takto anotovaný korpus se stává odrazovým můstkem pro další výzkum:<br />

pomocí konkordančního programu v něm můžeme vyhledávat gramatické<br />

abstrakce, jako např. výskyty pasíva (seznamy tvarů jako dělán, prodán, vyroben),<br />

vidu (aspektu) (seznam všech dokonavých sloves s předponou vy-),<br />

různé posloupnosti slovních druhů aj. Anotovaný korpus poskytuje též výchozí<br />

statistická data pro pravděpodobnostní <strong>zpracování</strong> <strong>jazyka</strong>. Ke značkovaným<br />

korpusům patří Brown Corpus, Lancaster- Oslo-Bergen Corpus<br />

(LOB) a Spoken English Corpus, který obsahuje fonetické a fonémické značkování.<br />

Z českých korpusů můžeme uvést již zmíněný DESAM, dále DESAM2<br />

a s jistými výhradami i SYN2000 (ČNK, Čermák et al, 2000).<br />

V poslední řadě době se začíná věnovat též sémantickému značkování korpusů,<br />

a to zejména v souvislosti s nově se rozvíjejícím směrem výzkumu, který<br />

se označuje jako zjednoznačňování významů slov (word sense desambiguation,<br />

wsd) (Agirra, 2001). Svou povahou patří tato problematika primárně do oblasti<br />

lexikální sémantiky (viz níže odd. ...),<br />

3.7 Značkování pro češtinu – ajka<br />

Problematika značkování je v češtině v některých ohledech poněkud jiná než<br />

např. v angličtině a podobných jazycích, kde tagger může být jeden program<br />

(např. CLAWS), který jak značkuje, tak i desambiguuje. V češtině díky složitější<br />

flexi je potřeba značkování rozložit do dvou fází:<br />

• <strong>zpracování</strong> morfologickým analyzátorem – morfologická analýza<br />

• desambiguace – manuální, program CED (Veber, 2000)<br />

– na bázi částečné syntaktické analýzy (partial parsing) – program DIS<br />

(Žáčková, 2001)<br />

– kombinované přístupy pravidlové s učením (Brill, )<br />

– pravidlové s kontextovými omezeními (Karlsson, Voutilainen, Petkevič,<br />

Oliva, 2001)<br />

– statistické techniky a stochastické desambiguátory (Hajič, 2000)<br />

– techniky strojového učení (Popelinský, Nepil, Žáčková, 2000).<br />

30

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!