23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

slovních druhů včetně sloves v současné češtině, je spolehlivé gramatické označkování<br />

dostatečně velké části ČNK. V tomto směru je současnosti k dispozici jen<br />

korpus DESAM na FI MU, který je ovšem pro tento účel s rozsahem cca 1 mil.<br />

slovních tvarů nedostačující, resp. může sloužit jen jako základní východisko.<br />

Na rozdíl od seznamu vytvořeného pod vedením N. Svozilové v ÚJČ (Svozilová<br />

et al, 1998?), který jednoznačně předpokládá uživatele – člověka, je VSČS<br />

primárně orientován na algoritmický popis české syntaxe a její počítačové <strong>zpracování</strong><br />

– je proto zachycen pomocí formální notace. Abychom mohli dostatečně<br />

přesně zachytit české valence, navrhli jsme notační prostředky, které zachycují jak<br />

jednotlivé jednoduché valence, tak i jejich možné kombinace mající pak podobu<br />

konkrétních valenčních vzorců. Návrh notace valenčních vzorců svým způsobem<br />

navazuje na existující strojový slovník českých kmenů a algoritmický popis české<br />

morfologie (Osolsobě, 1996). Principy notace pro valenční vzorce jsou uvedeny a<br />

objasněny níže v odd.??, Horák, 2002.<br />

Celkově byl materiál pro VSČS byl získán z následujících zdrojů:<br />

1. Slovník českých synonym, NLN, Praha 1995,<br />

2. Slovník spisovné češtiny, Academia, Praha 1994, 2.vyd.<br />

3. počítačový slovník českých kmenů s celkovým rozsahem cca 160 000 jednotek<br />

(prefigovaná slovesa a pravidelně tvořená deverbativa, adjektiva a<br />

adverbia jsou však v tomto slovníku generována automaticky, takže skutečný<br />

rozsah tohoto slovníku je v každém případě větší než 300 000 položek,<br />

Sedláček, 2001).<br />

Výchozí soubor získaný z uvedených zdrojů čítal kolem 10 000 tisíc českých<br />

sloves. Po jeho <strong>zpracování</strong> a postupném porovnání se SSJČ jsme dospěli k první<br />

verzi seznamu obsahujícímu cca 12 000 českých sloves, který byl ještě doplněn o<br />

slovesa získaná z korpusu DESAM na rozsah cca 15 000 položek, což je rozsah,<br />

který lze z hlediska současných potřeb pokládat za dostačující.<br />

5.8.1 Výchozí pojmy<br />

Ve shodě s Čermákem a Holubem (1991), jako výchozí koncept může sloužit<br />

kolokabilita, tj. obecná schopnost slova (a dalších jednotek) spojovat se v textu<br />

s jinými. S tímto vymezením by se pravděpodobně dalo vystačit, u sloves je<br />

však obvyklé mluvit o valenci zejména proto, že ji lze vyjadřovat morfologickými<br />

prostředky, tj. pády. Tuto schopnost sloves vázat na sebe gramaticky ostatní slova<br />

63

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!