Počítačové zpracování přirozeného jazyka

More documents

Recommendations

Info

$TeX a LaTeX$

slovních druhů včetně sloves v současné češtině, je spolehlivé gramatické označkování dostatečně velké části ČNK. V tomto směru je současnosti k dispozici jen korpus DESAM na FI MU, který je ovšem pro tento účel s rozsahem cca 1 mil. slovních tvarů nedostačující, resp. může sloužit jen jako základní východisko. Na rozdíl od seznamu vytvořeného pod vedením N. Svozilové v ÚJČ (Svozilová et al, 1998?), který jednoznačně předpokládá uživatele – člověka, je VSČS primárně orientován na algoritmický popis české syntaxe a její počítačové <strong>zpracování</strong> – je proto zachycen pomocí formální notace. Abychom mohli dostatečně přesně zachytit české valence, navrhli jsme notační prostředky, které zachycují jak jednotlivé jednoduché valence, tak i jejich možné kombinace mající pak podobu konkrétních valenčních vzorců. Návrh notace valenčních vzorců svým způsobem navazuje na existující strojový slovník českých kmenů a algoritmický popis české morfologie (Osolsobě, 1996). Principy notace pro valenční vzorce jsou uvedeny a objasněny níže v odd.??, Horák, 2002. Celkově byl materiál pro VSČS byl získán z následujících zdrojů: 1. Slovník českých synonym, NLN, Praha 1995, 2. Slovník spisovné češtiny, Academia, Praha 1994, 2.vyd. 3. počítačový slovník českých kmenů s celkovým rozsahem cca 160 000 jednotek (prefigovaná slovesa a pravidelně tvořená deverbativa, adjektiva a adverbia jsou však v tomto slovníku generována automaticky, takže skutečný rozsah tohoto slovníku je v každém případě větší než 300 000 položek, Sedláček, 2001). Výchozí soubor získaný z uvedených zdrojů čítal kolem 10 000 tisíc českých sloves. Po jeho <strong>zpracování</strong> a postupném porovnání se SSJČ jsme dospěli k první verzi seznamu obsahujícímu cca 12 000 českých sloves, který byl ještě doplněn o slovesa získaná z korpusu DESAM na rozsah cca 15 000 položek, což je rozsah, který lze z hlediska současných potřeb pokládat za dostačující. 5.8.1 Výchozí pojmy Ve shodě s Čermákem a Holubem (1991), jako výchozí koncept může sloužit kolokabilita, tj. obecná schopnost slova (a dalších jednotek) spojovat se v textu s jinými. S tímto vymezením by se pravděpodobně dalo vystačit, u sloves je však obvyklé mluvit o valenci zejména proto, že ji lze vyjadřovat morfologickými prostředky, tj. pády. Tuto schopnost sloves vázat na sebe gramaticky ostatní slova 63
můžeme symbolicky reprezentovat v termínech slovních druhů – substantiv a zájmen nebo pomocí specifických pronominálních výrazů jako koho, co, čeho, komu, čemu, .... V literatuře se často diskutuje o tom, zda valence je jevem primárně syntaktickým nebo sémantickým. Většinou se setkáváme s názorem, že valence je záležitostí roviny syntaktické, což se primárně opírá o fakt, že je (např. v češtině) vyjadřována morfologickými prostředky – pády, které se vazebně pojí s jednotlivými slovesy. Tyto formální prostředky realizace valence by nám však neměly zakrýt podstatu věci, totiž skutečnost, že schopnost slova kombinovat se v textu s jinými slovy je primárně dána sémanticky, tj. významy spojujících se slov. Považujeme proto slovesnou valenci za jev primárně sémantický a chápeme ji jako významem determinovanou schopnost slova kombinovat se s jinými slovy. V dalším budeme usilovat o co nejúplnější významovou charakterizaci jednotlivých argumentů, i když v dané verzi slovníku zatím pracujeme zatím především s povrchovými pádovými příznaky. Je však jasné, že bez přihlížení k významu sloves nemůžeme rozumně vysvětlit kontextové elipsy typu (v1) Otec čte dětem před spaním. (pohádku) nebo významově blízké případy – synonyma jako (v2a) Matka mluví s otcem o těch penězích. (v2b) Matka vykládá otci o těch penězích., i když jejich valenční vlastnosti se povrchově liší (viz např. Leech, 1981). 5.8.2 Typy valencí Při popisu valenci a pak i sestavování slovníku je nejobtížnější vyrovnat se s obligatorností a fakultativností jednotlivých argumentů u sloves, resp. klasifikovat je vzhledem k těmto kritériím. Obtíže, které tu vznikají, však podle našeho názoru signalizují, že čistě syntaktická kritéria obligatornosti a fakultativnosti nejsou dostatečně vymezena a často neumožňují dospívat ke konzistentním rozhodnutím. Vzhledem k rozsahu materiálu jsme proto zatím rezignovali na striktní rozlišení obligatorních a fakultativních doplnění a zaměřujeme se primárně na jejich zachycení hlavně v souladu s významem toho kterého predikátu. Jinak řečeno, jde nám hlavně o to, abychom na prvním místě zachytili, co k danému slovesu patří, a teprve na druhém, jak to k němu patří. V tomto ohledu nejde ovšem jen o naši zkušenost, a proto např. ve shodě se Somersem (Somers, 1987) jsme se pokusili rozlišit následujících šest stupňů valenční vázanosti, pro něž zavádíme po řadě i příslušné notační konvence: 1. integrální, lexikálně determinovaná, nevypustitelná doplnění, nepřipouš- 64
Page 1 and 2:
Fakulta informatiky Masarykovy univ
Page 3 and 4:
5.7 Nekontextové gramatiky a DC gr
Page 5 and 6:
1 Předmluva Předkládaná práce
Page 7 and 8:
a na něj navazující korpus ALL o
Page 9 and 10:
• PJ je podstatnou složkou naše
Page 11 and 12:
- vyhledávací (fulltextové) prog
Page 13 and 14: flektivních jazycích, jako je če
Page 15 and 16: 2. reprezentace by měla zachycovat
Page 17 and 18: nost pracovat se závislostními st
Page 19 and 20: (9) Návštěvy muzeí jsou únavn
Page 21 and 22: zkumu na VŠ, MŠMT ČR) na FI MU v
Page 23 and 24: - někteří pracovníci v Ústavu
Page 25 and 26: S rostoucím počtem korpusů vznik
Page 27 and 28: 3.4 Vnitřní struktura korpusu Vni
Page 29 and 30: vlastnosti cqp a gcqp, ale navíc m
Page 31 and 32: tiny se jako vhodnější jeví mor
Page 33 and 34: 3.9 Syntaktické značkování Zna
Page 35 and 36: - značkovače - gramatické, synta
Page 37 and 38: - slovotvorných hnízdech a čeled
Page 39 and 40: -qua1- květin-ov-ý -qua2- kve-t-o
Page 41 and 42: vlastnosti objektů označovaných
Page 43 and 44: Hajič (2000). k1, "subs", substant
Page 45 and 46: "mod"- modální=D, "proč" - pří
Page 47 and 48: c: 4,6 pád k8 spojka "že" k: 8 sp
Page 49 and 50: 2. krok: prohledávání kmenů, vy
Page 51 and 52: • samostatně pro gramatické zna
Page 53 and 54: - Požadavek přirozenosti vede lin
Page 55 and 56: např. práci Novotného (1988) a t
Page 57 and 58: kde γ a δ jsou libovolné řetěz
Page 59 and 60: 5.4.2 Typ 1 Gramatika typu 1 obsahu
Page 61 and 62: že jednotlivé neterminální symb
Page 63: 5.8 Valenční rámce a jejich zač
Page 67 and 68: pohybu, u nichž lokální modifik
Page 69 and 70: finice, můžeme vidět, že jednot
Page 71 and 72: ## vyrovnávat, činit rovným, pla
Page 73 and 74: 5.10 Východiska pro třídy sloves
Page 75 and 76: převažuje dativ přímý. Tabulka
Page 77 and 78: akuzativ přímý - předložkový
Page 79 and 80: 5.11 Desambiguace - metody 1. techn
Page 81 and 82: - stavy - události - nejčastěji
Page 83 and 84: - v prostoru: pohybovat se, cestova
Page 85 and 86: 24. Slovesa přání (wish, desire)
Page 87 and 88: typu slovníku obecně (instalace n
Page 89 and 90: - vícejazyčné, překladové (Č-
Page 91 and 92: vznikl v Evropě. Za zmínku stojí
Page 93 and 94: generuje hierarchickou (stromovou)
Page 95 and 96: 6.4.7 Slovesa Ve WordNetu je nyní
Page 97 and 98: takovými se neudržují žádné v
Page 99 and 100: 6.6 Budování české slovní sít
Page 101 and 102: (f) třídění synsetů podle slov
Page 103 and 104: 7.2 Formální aparát pro SR - cha
Page 105 and 106: (16’) Ml(Petr, Pavel), takže se
Page 107 and 108: 1. Mějme následující českou v
Page 109 and 110: Ať už zvolíme přístup rule-to-
Page 111 and 112: vřená. V tom případě lze celou
Page 113 and 114: 6. zájmena, resp. koncovky verba f
Page 115 and 116:
yla víceznačná, mělo by smysl z
Page 117 and 118:
Marie má dvě děti, kluka a holku
Page 119 and 120:
Můžeme tedy říci, že mimo to,
Page 121 and 122:
daná komunikace probíhá. Na rozd
Page 123 and 124:
texty (v aplikaci použitelný nap
Page 125 and 126:
Gazdar, G., Mellish, Ch., Natural L
Page 127 and 128:
Pala, K., Osolsobě, Franc, S., Če
Page 129:
Svozilová N. a kol. Valenční slo
show all

Počítačové zpracování přirozeného jazyka

Create successful ePaper yourself

Delete template?

Save as template?