13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ženy: tvar=ženy. lemma=žena, slovní_druh=substantivum, pád=nominativ,jmenný rod=femininum, číslo=plurálsnědí: tvar=snédí, lemma=sníst, slovnUlruh=slovuo, osoba=3, čas=prézens,způsob=indilcativ,číslo=pluráltři: tvar=tři, lemma=tři, slovní_druh=éíslovka, pád=akuzativ, číslo=plurálslanečky : tvar-slanečky, lemma=slaneček, slovní druh=substantivum,pád=akuzativ, jmenný rod=maskuUnum jivotné, číslo=plurálBez ohledu na kontext jeslovní tvar ty také osobní zájmeno - lemma tyslovní tvar ženy je také gen. sg., ak. pl., vok. pl.slovní tvar snědí je také nom. a vok. pl. adjektiva snědýslovní tvar tři je také nom. a vok. číslovky tři a též imperativ slovesa třít.Je ovšem jasné, že obrovské objemy dat, jaké zahrnují současné jazykovékorpusy, ručně disambiguovat nelze nebo je to možné jen s nasazením velkéhopočtu pracovníků zvaných anotátoři, kteří obvykle nejsou k dispozicí (ručnědisambiguován byl napf. brněnský korpus DlSAM, který ovšem obsahuje pouzecca I mil. slovních tvarů). Chceme-Ii tedy mít náležítě morfologickyjednoznačně označkované milióny slov, abychom mohli na rozsáhlém textovémmateriálu studovat napf. syntaktickou stavbu české věty, musíme <strong>ke</strong> značkovánípoužít jiných metod než klopotné ruční práce. Je tedy tfeba texty značkovatautomaticky - softwarovými nástroji.Co nejpřesnější a nejméně chybová automatická disambiguace textůpřirozeného <strong>jazyka</strong> je obecně jednim z hlavních úkolů dnešní matematickélingvistiky, a to pro každý jazyk. Jeho obtížnost je ovšem do značné míry dánatím, nakolik je daný jazyk sám svým systémem víceznačný a nakolik má býtznačkování podrobné. Čeština je jazyk s obrovskou mírou víceznačnosti jakmorfologické, tak slovnědruhové; existuje v ní přes 1000 tříd víceznačnosti.Tyto třídy jsou buď systémové - takovou třídu tvoří napf. genitív a akuzativživotných maskulin, jinou zase nominativ, akuzativ a vokativ singulárusubstantiv středního rodu skloňovaných podle vzoru město, další třídou jeinstrumentál singuláru maskulina/neutra adjektiva dativ plurálu adjektiv -, nebonesystémové: tyto třídy obsahují náhodné homonymní tvary- např . výše uvedenéloučím. Morfologicky disambiguovat český text programovými nástroji jetak úkol mimořádně složitý. Je to úkol nesrovnatelně složitější než automatickálemmatizace a automatická morfologická analýza, neboť výběr správné značky15

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!