Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
a na něj navazující korpus ALL obsahující nyní cca 650 mil. slovních tvarů<br />
, korpus FIT obsahující texty z oblasti informačních technologií a zejména<br />
nedávno vytvořený korpus s příznačným názvem all, jenž je se svými 650<br />
mil. slovních tvarů aktuálně největším českým korpusem vůbec. Díky této<br />
skutečnosti se podmínky pro práci s jazykovým materiálem podstatně a příznivě<br />
mění: potřebná zkoumání mohou být spolehlivější a hlavně dostáváme<br />
možnost zjišťovat fakta, která bychom při ručním <strong>zpracování</strong> nikdy získat<br />
nemohli. Důležité je i to, že práce na korpusu a zejména na jeho značkování<br />
(anotování, tagging) jsou spojeny s budováním programových nástrojů, které<br />
se v určitém ohledu překrývají s dosavadním základním výzkumem v oblasti<br />
morfologie a syntaxe, směřují však k jedinému cíli.<br />
U roviny sémantické jde především o nalezení co nejexpresívnějšího formálního<br />
(logického) aparátu, který by mohl sloužit jako spolehlivý nositel sémantických<br />
reprezentací vět <strong>přirozeného</strong> <strong>jazyka</strong> (češtiny). Opírajíce se o dřívější<br />
společné práce s P. Maternou a A. Svobodou, dáváme přednost aparátu<br />
transparentní intenzionální logiky (til, Tichý, 1989), ovšem právě zde stojí<br />
před námi ještě značná práce empirická. Její hlavní část podle našeho přesvědčení<br />
spočívá ve vytvoření vhodného sémantického slovníku, který bude<br />
moci vhodně integrovat slovníkové informace morfologické a syntaktické s logickými<br />
(o logických typech) a využívat jich v algoritmu pro budování sémantických<br />
reprezentací (českých) vět (Hadacz, 1998, Horák, 2001, Horák,<br />
2002dis). V této souvislosti můžeme již nyní počítat s českou elektronickou<br />
lexikální databází typu WordNet (Pala, Ševeček, 1999), jež je budována na<br />
synonymických řadách a systematicky zachycuje významové vztahy mezi lexikálními<br />
jednotkami, konkrétně vztahy synonymie, antonymie, hyponymie,<br />
hyperonymie, meronymie, holonymie a řadu dalších, tzv. vnitřně jazykových<br />
vztahů (Vossen et al., EuroWordNet 1,2, Final Report, 1999, Pala, Wong,<br />
2001).<br />
V této souvislosti bych rád vyjádřil dík K. Osolsobě, S. Francovi a řadě<br />
dalších za obětavou spolupráci, která nakonec vedla do značné míry k úplnému<br />
<strong>zpracování</strong> velkého množství empirických dat. Jde o nesčetné a nepočítané<br />
hodiny strávené před obrazovkou, bez nichž by nebylo možno uvedených<br />
výsledků dosáhnout. Za práci na budování korpusů instalovaných nyní<br />
na Fakultě informatiky MU je potřeba poděkovat P. Rychlému, P. Smržovi,<br />
M. Veberovi, A. Horákovi a E. Žáčkové a R. Sedláčkovi z Laboratoře <strong>zpracování</strong><br />
<strong>přirozeného</strong> <strong>jazyka</strong> na FI MU. Za četné připomínky k práci vděčím též<br />
prof. dr. P. Maternovi. Chyby a nepřesné formulace jsou moje.<br />
Děkuji také dřívějším pracovníkům Ústavu výpočetní techniky Masary-<br />
6