Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
– značkovače – gramatické, syntaktické, sémantické<br />
– desambiguátory<br />
– třídicí, konkordanční a konverzní programy.<br />
5. přenést SSJČ na počítačová média (skenováním).<br />
6. rozpracovat přípravu elektronické lexikální datové báze pro češtinu,<br />
která se stane východiskem pro budování nového velkého slovníku češtiny<br />
(primárně elektronického).<br />
Struktura textů ukládaných do korpusu se vyznačuje analyzátorem SGML.<br />
Pro gramatické značkování je v LZPJ k dispozici analyzátor a lemmatizátor<br />
(značkovač, tagger) ajka vytvořený v LZPJ na FI MU (Sedláček, Veber,<br />
1999), který je dnes schopen pracovat se 150000 českých kmenů a dovede<br />
každému rozpoznanému slovnímu tvaru přiřadit jeho slovní druh(y) a odpovídající<br />
gramatické kategorie. Na rozdíl od pravděpodobnostně orientovaných<br />
analyzátorů pro angličtinu je ajka založena na úplné pravidlové morfologické<br />
analýze češtiny, proti které je podobná analýza angličtiny spíše dětskou hračkou.<br />
Podobné lemmatizující programy existují i pro slovenštinu a ruštinu a<br />
dále pro angličtinu, němčinu a francouzštinu (Osolsobě, Ševeček, 1995).<br />
Vedle již uvedených důvodů korpusy potřebujeme i s ohledem na náš budoucí<br />
vstup do EU: i když jednacím jazykem je zde do značné míry angličtina,<br />
překládání mezi jazyky uvnitř EU již teď je a hlavně v budoucnu bude nevyhnutelné.<br />
Vznikají proto paralelní korpusy využívané při budování systémů<br />
strojového překladu a tvorbě vícejazyčných a dnes už primárně elektronických<br />
slovníků. Už delší dobu je jasné, že EU počítá s Polskem, Maďarskem<br />
a Českou republikou jako prvními východoevropskými členy EU – odráží se<br />
to např. v tom, že se uskutečnily některé společné slovníkové projekty, jako<br />
např. CEGLEX (Central European Generic Lexicon) zahrnující primárně polštinu,<br />
maďarštinu a češtinu a také projekt, vněmž se budovala multilinguální<br />
lexikální databáze EuroWordNet 1 a 2, jež vedle šesti západoevropských jazyků<br />
obsahuje i češtinu a estonštinu. Český WordNet byl v rámci EuroWord-<br />
Netu 2 budován právě v LZPJ na půdě FI MU (Vossen et al, Final Report,<br />
CD ROM, 1999).<br />
34