23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5.10 Východiska pro třídy sloves<br />

Popsaný seznam čítající téměř 12 tisíc českých sloves může posloužit jako východisko<br />

k získání slovesných tříd, u nichž klasifikačním kritériem jsou pádové<br />

příznaky (a jejich kombinace), s nimiž se jednotlivá slovesa pojí. Díky celkové<br />

složitosti notace a velkému počtu různých valenčních vzorců představuje třídění<br />

sloves s jejich valenčními vzorci dosti komplikovaný úkol, pro jehož úplné vyřešení<br />

je třeba napsat samostatný program a také v postupných krocích testovat konzistenci<br />

zápisu valencí v aktuální verzi valenčního seznamu. Jde o natolik komplexní<br />

problém, že zatím můžeme nabídnout jen svého druhu sondu poskytující jen předběžné<br />

údaje o základních typech valencí a valenčních vzorců. Učinili jsme zatím<br />

první pokus a pomocí valencí jsme se pokusili vytřídit z našeho seznamu slovesa<br />

pohybu. Použili jsme k tomu valencí do čeho a z čeho, které lze považovat<br />

za relativně spolehlivé signály místního doplnění. Takto získaný podseznam jsme<br />

ještě prošli manuálně a vyřadili některá slovesa, jež se sice vyskytují s valencí do<br />

čeho, ovšem označují velmi specifickou variantu pohybu jako např. bít, bouchat<br />

do čeho: výsledkem je seznam sloves pohybu, který zatím čítá cca 1700 sloves (z<br />

cca 12 tis. sloves). Tento seznam se ještě zjevně rozpadne na menší a sémanticky<br />

kompaktnější skupiny podle jednotlivých typů pohybu – k tomuto jemnějšímu<br />

třídění použijeme dalších valencí vyskytujících se u sloves v seznamu jako např.<br />

na co a v čem a dalších.<br />

Již získaná data tedy jasně naznačují, že pomocí valenčních vzorců bude<br />

možno získat širší sémantickou klasifikaci českých sloves, která bude velmi užitečná<br />

pro různé softwarové aplikace.<br />

První soubor údajů se týká tranzitivity a intranzitivity: chápeme je celkem<br />

formálně tak, že za tranzitiva pokládáme všechna slovesa, která mají ve svém<br />

valenčním vzorci akuzativ – i v kombinaci s jinými pády, zatímco mezi intranzitiva<br />

řadíme ta slovesa, u nichž se akuzativ nevyskytuje. Počítáme tu i s případy, kdy<br />

je sloveso víceznačné: např. .....,<br />

K rozlišení možných variant slouží příznaky t a i uvedené u jednotlivých<br />

heslových slov.<br />

Podobně je zachycena i reflexivita, a to tak, že u heslového slova je podle potřeby<br />

uvedeno se nebo si, které pak slouží jako rozlišující příznak. Takto lze opět<br />

rozlišit případy jako ...<br />

První stručná tabulka tab. 0 tedy poskytuje představu o vztazích mezi tranzitivy<br />

a intranzitivy a o četnostech sloves se si a se na základě vzorku sebraných cca<br />

12 000 sloves.<br />

Tabulka 0 – tranzitiva, intranzitiva reflexiva<br />

72

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!