23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

pusu, v němž se nyní buduje Český národní korpus – ČNK. Ke konci roku<br />

1995 byl již k dispozici jeho základ, v němž bylo uloženo cca 30 000 000<br />

slovních tvarů, a na konci r. 1996 již ČNK obsahoval téměř 100 mil. českých<br />

slovních tvarů. V r.1999 to už bylo cca 140 mil. a ke konci r.2000 lze počítat<br />

s 200 mil. slovních tvarů. Vedle ÚČNK se na této práci podílejí další pracoviště<br />

na UK, a to Ústav teoretické a komputační lingvistiky FF UK (ÚTKL),<br />

Ústav formální a aplikované lingvistiky MFF UK (ÚFAL), dále Ústav pro jazyk<br />

český AV ČR (ÚJČ) a v neposlední řadě i Ústav českého <strong>jazyka</strong> FF MU<br />

a Katedra informačních technologií na Fakultě informatiky MU. Na posledně<br />

jmenovaném pracovišti vznikla v r.1997 Laboratoř <strong>zpracování</strong> <strong>přirozeného</strong><br />

<strong>jazyka</strong> (LZPJ), která paralelně buduje a udržuje korpusy českých textů, konkrétně<br />

korpus ESO, který v současnosti čítá kolem 160 mil. slovních tvarů, a<br />

dále plně gramaticky značkovaný korpus DESAM v rozsahu něco přes 1 mil.<br />

slovních tvarů. Tento korpus na rozdíl od pražských experimentů se stochastickým<br />

značkovačem J. Hajiče byl vytvořen převážně manuálně, ovšem míra<br />

úspěšnosti značkování v něm nyní dosahuje kolem 96%.<br />

3.11 Struktura ČNK<br />

Popis, přístup Korpusy na FI MU, přístup k nim: PUBL, FIT, DESAM<br />

Poznámka:<br />

V květnu 96 byl GA ČR schválen komplexní grantový projekt Čeština ve<br />

věku počítačů ve výši cca 30 mil. Kč a s dobou trvání 6 let. Nositelkou grantu<br />

je prof. E. Hajičová z Ústavu formální a aplikované lingvistiky MFF UK a<br />

jeho hlavním cílem je:<br />

1. dobudovat Český národní korpus tak, aby ke konci r. 2000 obsahoval<br />

cca 200 mil. českých slovních tvarů a byl přístupný pro lingvistickou i<br />

ostatní odbornou veřejnost (prostřednictvím Internetu).<br />

2. gramaticky (slovní druhy a gramatické kategorie) označkovat cca 10<br />

mil. slovních tvarů v rámci ČNK.<br />

3. vytvořit základ stromové banky pro češtinu – min. v rozsahu 1 mil. slovních<br />

tvarů (Pražský závislostní korpus, PDTB).<br />

4. vytvořit soubor potřebných korpusových nástrojů, tj.programové vybavení<br />

zahrnující:<br />

– manažery<br />

33

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!