23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

– značkovače – gramatické, syntaktické, sémantické<br />

– desambiguátory<br />

– třídicí, konkordanční a konverzní programy.<br />

5. přenést SSJČ na počítačová média (skenováním).<br />

6. rozpracovat přípravu elektronické lexikální datové báze pro češtinu,<br />

která se stane východiskem pro budování nového velkého slovníku češtiny<br />

(primárně elektronického).<br />

Struktura textů ukládaných do korpusu se vyznačuje analyzátorem SGML.<br />

Pro gramatické značkování je v LZPJ k dispozici analyzátor a lemmatizátor<br />

(značkovač, tagger) ajka vytvořený v LZPJ na FI MU (Sedláček, Veber,<br />

1999), který je dnes schopen pracovat se 150000 českých kmenů a dovede<br />

každému rozpoznanému slovnímu tvaru přiřadit jeho slovní druh(y) a odpovídající<br />

gramatické kategorie. Na rozdíl od pravděpodobnostně orientovaných<br />

analyzátorů pro angličtinu je ajka založena na úplné pravidlové morfologické<br />

analýze češtiny, proti které je podobná analýza angličtiny spíše dětskou hračkou.<br />

Podobné lemmatizující programy existují i pro slovenštinu a ruštinu a<br />

dále pro angličtinu, němčinu a francouzštinu (Osolsobě, Ševeček, 1995).<br />

Vedle již uvedených důvodů korpusy potřebujeme i s ohledem na náš budoucí<br />

vstup do EU: i když jednacím jazykem je zde do značné míry angličtina,<br />

překládání mezi jazyky uvnitř EU již teď je a hlavně v budoucnu bude nevyhnutelné.<br />

Vznikají proto paralelní korpusy využívané při budování systémů<br />

strojového překladu a tvorbě vícejazyčných a dnes už primárně elektronických<br />

slovníků. Už delší dobu je jasné, že EU počítá s Polskem, Maďarskem<br />

a Českou republikou jako prvními východoevropskými členy EU – odráží se<br />

to např. v tom, že se uskutečnily některé společné slovníkové projekty, jako<br />

např. CEGLEX (Central European Generic Lexicon) zahrnující primárně polštinu,<br />

maďarštinu a češtinu a také projekt, vněmž se budovala multilinguální<br />

lexikální databáze EuroWordNet 1 a 2, jež vedle šesti západoevropských jazyků<br />

obsahuje i češtinu a estonštinu. Český WordNet byl v rámci EuroWord-<br />

Netu 2 budován právě v LZPJ na půdě FI MU (Vossen et al, Final Report,<br />

CD ROM, 1999).<br />

34

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!