Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
slovních druhů včetně sloves v současné češtině, je spolehlivé gramatické označkování<br />
dostatečně velké části ČNK. V tomto směru je současnosti k dispozici jen<br />
korpus DESAM na FI MU, který je ovšem pro tento účel s rozsahem cca 1 mil.<br />
slovních tvarů nedostačující, resp. může sloužit jen jako základní východisko.<br />
Na rozdíl od seznamu vytvořeného pod vedením N. Svozilové v ÚJČ (Svozilová<br />
et al, 1998?), který jednoznačně předpokládá uživatele – člověka, je VSČS<br />
primárně orientován na algoritmický popis české syntaxe a její počítačové <strong>zpracování</strong><br />
– je proto zachycen pomocí formální notace. Abychom mohli dostatečně<br />
přesně zachytit české valence, navrhli jsme notační prostředky, které zachycují jak<br />
jednotlivé jednoduché valence, tak i jejich možné kombinace mající pak podobu<br />
konkrétních valenčních vzorců. Návrh notace valenčních vzorců svým způsobem<br />
navazuje na existující strojový slovník českých kmenů a algoritmický popis české<br />
morfologie (Osolsobě, 1996). Principy notace pro valenční vzorce jsou uvedeny a<br />
objasněny níže v odd.??, Horák, 2002.<br />
Celkově byl materiál pro VSČS byl získán z následujících zdrojů:<br />
1. Slovník českých synonym, NLN, Praha 1995,<br />
2. Slovník spisovné češtiny, Academia, Praha 1994, 2.vyd.<br />
3. počítačový slovník českých kmenů s celkovým rozsahem cca 160 000 jednotek<br />
(prefigovaná slovesa a pravidelně tvořená deverbativa, adjektiva a<br />
adverbia jsou však v tomto slovníku generována automaticky, takže skutečný<br />
rozsah tohoto slovníku je v každém případě větší než 300 000 položek,<br />
Sedláček, 2001).<br />
Výchozí soubor získaný z uvedených zdrojů čítal kolem 10 000 tisíc českých<br />
sloves. Po jeho <strong>zpracování</strong> a postupném porovnání se SSJČ jsme dospěli k první<br />
verzi seznamu obsahujícímu cca 12 000 českých sloves, který byl ještě doplněn o<br />
slovesa získaná z korpusu DESAM na rozsah cca 15 000 položek, což je rozsah,<br />
který lze z hlediska současných potřeb pokládat za dostačující.<br />
5.8.1 Výchozí pojmy<br />
Ve shodě s Čermákem a Holubem (1991), jako výchozí koncept může sloužit<br />
kolokabilita, tj. obecná schopnost slova (a dalších jednotek) spojovat se v textu<br />
s jinými. S tímto vymezením by se pravděpodobně dalo vystačit, u sloves je<br />
však obvyklé mluvit o valenci zejména proto, že ji lze vyjadřovat morfologickými<br />
prostředky, tj. pády. Tuto schopnost sloves vázat na sebe gramaticky ostatní slova<br />
63