23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

zkumu na VŠ, MŠMT ČR) na FI MU vybudován další samostatný obecný<br />

korpus ESO, který před rokem obsahoval cca 160 mil. českých slovních tvarů<br />

a nedávno byl rozšířen na korpus čítající zhruba 650 mil. českých slovních<br />

tvarů – aktuálně je největším současným českým instalovaným korpusem.<br />

V tomto ohledu jde o jasně interdisciplinární záležitosti, neboť korpusová<br />

data jsou použitelná pro odborníky v řadě disciplin:<br />

• sociology a sociolingvisty,<br />

• psychology,<br />

• odborníky v oblasti masové komunikace a médií (reklama),<br />

• lexikografy a lingvisty, překladatele (strojový překlad),<br />

• výzkumné pracovníky v oblasti umělé inteligence (porozumění přirozenému<br />

jazyku, reprezentace znalostí, robotika aj.),<br />

• tvůrce učebnic a tzv. referenčních příruček (gramatiky, slovníky).<br />

V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený<br />

soubor textů daného <strong>jazyka</strong> elektronicky uložený a zpracovávaný (Čermák,<br />

1997). Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému<br />

cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí<br />

z následujících teoretických předpokladů:<br />

1. jazyková data jsou v korpusu uložena ve své přirozenbé textové podobě,<br />

proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné<br />

teoretické generalizace,<br />

2. velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít<br />

– třeba i náhodou – k převaze okrajových jevů nad základními a<br />

typickými,<br />

3. velký rozsah dat v korpusu je podmínkou dostatečné reprezentativnosti,<br />

což např. při budování slovníků vůbec nemusí být jednoduchá<br />

záležitost:to lze ukázat na vztazích mezi pojmy: token (výskyt), typ<br />

a lemma. Token chápeme jako výskyt slovního tvaru v korpusu, typ –<br />

slovní tvar jako takový a lemma je základní tvar pro nějakou skupinu tvarů<br />

(např. nominativ u substantiv nebo infinitiv u sloves). Uveďme proporce<br />

těchto entit v Britském národním korpusu (dále BNC pro psaný jazyk:<br />

20

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!