Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
pusu, v němž se nyní buduje Český národní korpus – ČNK. Ke konci roku<br />
1995 byl již k dispozici jeho základ, v němž bylo uloženo cca 30 000 000<br />
slovních tvarů, a na konci r. 1996 již ČNK obsahoval téměř 100 mil. českých<br />
slovních tvarů. V r.1999 to už bylo cca 140 mil. a ke konci r.2000 lze počítat<br />
s 200 mil. slovních tvarů. Vedle ÚČNK se na této práci podílejí další pracoviště<br />
na UK, a to Ústav teoretické a komputační lingvistiky FF UK (ÚTKL),<br />
Ústav formální a aplikované lingvistiky MFF UK (ÚFAL), dále Ústav pro jazyk<br />
český AV ČR (ÚJČ) a v neposlední řadě i Ústav českého <strong>jazyka</strong> FF MU<br />
a Katedra informačních technologií na Fakultě informatiky MU. Na posledně<br />
jmenovaném pracovišti vznikla v r.1997 Laboratoř <strong>zpracování</strong> <strong>přirozeného</strong><br />
<strong>jazyka</strong> (LZPJ), která paralelně buduje a udržuje korpusy českých textů, konkrétně<br />
korpus ESO, který v současnosti čítá kolem 160 mil. slovních tvarů, a<br />
dále plně gramaticky značkovaný korpus DESAM v rozsahu něco přes 1 mil.<br />
slovních tvarů. Tento korpus na rozdíl od pražských experimentů se stochastickým<br />
značkovačem J. Hajiče byl vytvořen převážně manuálně, ovšem míra<br />
úspěšnosti značkování v něm nyní dosahuje kolem 96%.<br />
3.11 Struktura ČNK<br />
Popis, přístup Korpusy na FI MU, přístup k nim: PUBL, FIT, DESAM<br />
Poznámka:<br />
V květnu 96 byl GA ČR schválen komplexní grantový projekt Čeština ve<br />
věku počítačů ve výši cca 30 mil. Kč a s dobou trvání 6 let. Nositelkou grantu<br />
je prof. E. Hajičová z Ústavu formální a aplikované lingvistiky MFF UK a<br />
jeho hlavním cílem je:<br />
1. dobudovat Český národní korpus tak, aby ke konci r. 2000 obsahoval<br />
cca 200 mil. českých slovních tvarů a byl přístupný pro lingvistickou i<br />
ostatní odbornou veřejnost (prostřednictvím Internetu).<br />
2. gramaticky (slovní druhy a gramatické kategorie) označkovat cca 10<br />
mil. slovních tvarů v rámci ČNK.<br />
3. vytvořit základ stromové banky pro češtinu – min. v rozsahu 1 mil. slovních<br />
tvarů (Pražský závislostní korpus, PDTB).<br />
4. vytvořit soubor potřebných korpusových nástrojů, tj.programové vybavení<br />
zahrnující:<br />
– manažery<br />
33