23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

– někteří pracovníci v Ústavu českého <strong>jazyka</strong> FF MU (Osolsobě, Hladká,<br />

Hlaváčková).<br />

Na ostatních bohemistických pracovištích, mezi něž patří zejména katedry<br />

bohemistiky na dalších českých a moravských universitách (Universita Palackého<br />

v Olomouci, university v Ostravě a Opavě, v Českých Budějovicích,<br />

Plzni, Ústí n. Labem, Hradci Králové a Pardubicích), je metodologické pronikání<br />

paradigmatu korpusové lingvistiky spíše jen v plenkách, aspoň podle dostupné<br />

publikační činnosti soudě. Znamená to s velkou pravděpodobností, že<br />

ani studenti bohemistiky nemají na uvedených školách příliš velkou šanci seznámit<br />

se ve výuce s metodologií korpusové lingvistiky a zvládnout základní<br />

techniky práce s jazykovými korpusy, které nutně předpokládají zvládnutí<br />

principů práce s informačními technologiemi a počítači vůbec.<br />

Nepříznivým a nepříjemným důsledkem tohoto stavu je pak skutečnost, že<br />

úroveň znalostí absolventů v lingvistických disciplínách na uvedených školách<br />

evidentně zaostává za evropským standardem. Pokud jde o nové discipliny,<br />

jako např. jazykové inženýrství (language engineering), o těch se studenti<br />

na humanitně orientovaných (filosofických) fakultách nedovědí prakticky nic,<br />

což před vstupem do EU jistě není kdovíjak povzbudivá zpráva.<br />

3.1 Jak se budují korpusy?<br />

Zdrojem korpusových dat je jak jazyk psaný, tak i mluvený, u dosavadních<br />

korpusů to bývá zhusta v poměru 9:1, protože záznam mluveného <strong>jazyka</strong><br />

(magnetofonová nahrávka) a jeho převod (manuální přepis) do počítačově<br />

čitelné podoby je zatím velmi nákladný (až 15krát dražší než u psaných<br />

textů). Situace se podle našeho názoru může výrazněji zlepšit až s komerčními<br />

aplikacemi pro <strong>zpracování</strong> mluvené řeči.<br />

Z psaných textů se data získávají prakticky třemi způsoby:<br />

• konverzí ze sázecích disket a pásek, které lze získat od většiny nakladatelství<br />

vydávajících noviny, časopisy a knihy,<br />

• užitím technik OCR, jejíž úspěšnost je do značné míry závislá na kvalitě<br />

použitého scanneru a programového vybavení a na typografické složitosti<br />

textu – typech a velikostech písem,<br />

• klasickým manuálním opisováním textů do počítače.<br />

22

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!