Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
–qua1– květin-ov-ý<br />
–qua2– kve-t-ouc-í<br />
květen-ství<br />
Dané příklady naznačují, že slovotvorná hnízda jsou dostatečně pravidelná<br />
a jejich vnitřní struktura je evidentně determinována sémantickými<br />
typy (třídy), k nimž jednotlivé kmeny/kořeny patří. Z příkladů vysvítá, že<br />
tyto typy mají úzký vztah ke slovním druhům a k poměrně obecně pojatým<br />
sémantickým kategoriím jako je činnost, děj, bytost, událost, proces,<br />
nástroj či entita. Podle našeho názoru lze pro stanovení těchto kategorií využít<br />
vrcholové ontologie (EWN TO), která je takovými kategoriemi tvořena, a<br />
její struktura umožňuje zmíněné sémantické typy/třídy automaticky získat z<br />
WN včetně seznamů lemmat, která pod tyto jednotlivé sémantické příznaky<br />
spadají.<br />
Jak lze dále vidět z uvedených příkladů, mezi sémantickou povahou kmenů/kořenů<br />
(resp. jejich typy/třídami danými naznačenými sémantickými příznaky) a<br />
jednotlivými typy hnízd existují poměrně pravidelné vztahy. tj. podle sémantického<br />
typu kmene/kořene lze celkem spolehlivě predikovat typ hnízda<br />
a jeho vnitřní strukturu. Vnitřní struktura hnízd je dobře signalizována i<br />
formálně pomocí sufixů a lze ji reprezentovat jako samostatné sémantické<br />
podsítě (grafy), v nichž uzly odpovídají jednotlivým derivovaným lemmatům<br />
a hrany jsou ohodnoceny sémantickými značkami jako act(ion), ag(ens),<br />
loc(us), qua(lity) a dalšími. Předběžně odhadujeme, že bychom mohli vystačit<br />
s inventářem značek čítajícím asi 10-12 jednotek podobných klasickým<br />
sémantickými rolím (ILR v EWN, viz též Fillmore, Sgall et al). Na rozdíl<br />
od ILR v EWN, které jsou definovány jako striktně binární, dostáváme zde<br />
bohatší síť vztahů, jež je spolehlivě signalizována především formálně.<br />
Dále je vidět, že jednotlivé prvky hnízd mohou být vhodně spojeny s jednotlivými<br />
synsety ve WN. Tak lze získat novou, bohatší a hierarchizovanou<br />
sémantickou síť, na níž lze založit lexikální databázi kvalitativně nového typu,<br />
která bude poskytovat úplnější a lépe strukturovaná data pro NLP.<br />
Lze pokusit i o zachycení hnízd tvořených prefixací, je však vidět, že v<br />
následujícím příkladě situace má struktura hnízda jinou povahu než v předchozích<br />
případech. U drž-e-t totiž nejde o kmen/kořen, nýbrž o konkrétní<br />
sloveso, u něhož je potřeba přihlížet k jeho jednotlivým dobře rozlišitelným<br />
významům.<br />
drž- –act– drž-e-t<br />
do-drž-e-t (slib)<br />
38