23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

a na něj navazující korpus ALL obsahující nyní cca 650 mil. slovních tvarů<br />

, korpus FIT obsahující texty z oblasti informačních technologií a zejména<br />

nedávno vytvořený korpus s příznačným názvem all, jenž je se svými 650<br />

mil. slovních tvarů aktuálně největším českým korpusem vůbec. Díky této<br />

skutečnosti se podmínky pro práci s jazykovým materiálem podstatně a příznivě<br />

mění: potřebná zkoumání mohou být spolehlivější a hlavně dostáváme<br />

možnost zjišťovat fakta, která bychom při ručním <strong>zpracování</strong> nikdy získat<br />

nemohli. Důležité je i to, že práce na korpusu a zejména na jeho značkování<br />

(anotování, tagging) jsou spojeny s budováním programových nástrojů, které<br />

se v určitém ohledu překrývají s dosavadním základním výzkumem v oblasti<br />

morfologie a syntaxe, směřují však k jedinému cíli.<br />

U roviny sémantické jde především o nalezení co nejexpresívnějšího formálního<br />

(logického) aparátu, který by mohl sloužit jako spolehlivý nositel sémantických<br />

reprezentací vět <strong>přirozeného</strong> <strong>jazyka</strong> (češtiny). Opírajíce se o dřívější<br />

společné práce s P. Maternou a A. Svobodou, dáváme přednost aparátu<br />

transparentní intenzionální logiky (til, Tichý, 1989), ovšem právě zde stojí<br />

před námi ještě značná práce empirická. Její hlavní část podle našeho přesvědčení<br />

spočívá ve vytvoření vhodného sémantického slovníku, který bude<br />

moci vhodně integrovat slovníkové informace morfologické a syntaktické s logickými<br />

(o logických typech) a využívat jich v algoritmu pro budování sémantických<br />

reprezentací (českých) vět (Hadacz, 1998, Horák, 2001, Horák,<br />

2002dis). V této souvislosti můžeme již nyní počítat s českou elektronickou<br />

lexikální databází typu WordNet (Pala, Ševeček, 1999), jež je budována na<br />

synonymických řadách a systematicky zachycuje významové vztahy mezi lexikálními<br />

jednotkami, konkrétně vztahy synonymie, antonymie, hyponymie,<br />

hyperonymie, meronymie, holonymie a řadu dalších, tzv. vnitřně jazykových<br />

vztahů (Vossen et al., EuroWordNet 1,2, Final Report, 1999, Pala, Wong,<br />

2001).<br />

V této souvislosti bych rád vyjádřil dík K. Osolsobě, S. Francovi a řadě<br />

dalších za obětavou spolupráci, která nakonec vedla do značné míry k úplnému<br />

<strong>zpracování</strong> velkého množství empirických dat. Jde o nesčetné a nepočítané<br />

hodiny strávené před obrazovkou, bez nichž by nebylo možno uvedených<br />

výsledků dosáhnout. Za práci na budování korpusů instalovaných nyní<br />

na Fakultě informatiky MU je potřeba poděkovat P. Rychlému, P. Smržovi,<br />

M. Veberovi, A. Horákovi a E. Žáčkové a R. Sedláčkovi z Laboratoře <strong>zpracování</strong><br />

<strong>přirozeného</strong> <strong>jazyka</strong> na FI MU. Za četné připomínky k práci vděčím též<br />

prof. dr. P. Maternovi. Chyby a nepřesné formulace jsou moje.<br />

Děkuji také dřívějším pracovníkům Ústavu výpočetní techniky Masary-<br />

6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!