23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Ve všech případech je nutná kontrola, opravy chyb, ev. konverze mezi použitými<br />

a typicky odlišnými kódy. Výsledek se zpravidla ukládá do mezinárodního<br />

ASCII formátu – ovšem v případě češtiny je třeba mít k dispozici vhodné<br />

konverzní programy, protože čeština je kódována řadou způsobů: (v kódech<br />

MJK, PCL2, IL2 a 1250 ve Windows). Vhodným řešením je v poslední době<br />

přechod k Unicode (nejčastěji UTF-8).<br />

V neposlední řadě se při tvorbě korpusů tvůrci musí vyrovnávat i s právními<br />

aspekty objevujícími se při získávání dat. Týká se to copyrightu a autorských<br />

práv a jejich uvolnění ze strany autora či vydavatele. Jednodušší bývá<br />

situace v případě nekomerčního využití, jinak je potřeba uzavírat vhodné<br />

typy smluv přesně stanovujících podmínky šíření korpusových dat a produktů,<br />

které na jejich základě vznikly. U mluvených záznamů je zpravidla<br />

potřeba zajistit zachování anonymity mluvčích.<br />

3.2 Typy korpusů a standardizace<br />

Textové soubory volně uložené v počítači ještě netvoří korpus. Obvykle se<br />

setkáváme s následujícími typy uložení jazykových dat:<br />

• elektronické archivy – volné kolekce celkově různorodých textů. Klasickým<br />

příkladem je Oxford Text Archive – OTA, který představuje rozsáhlou<br />

sbírku různých, většinou literárních textů, v různých formátech<br />

a různých jazycích: v OTA najdeme asi tisícovku literárních textů v 25<br />

jazycích a různých formátech,<br />

• vlastní korpusy tvořící relativně úplné celky, i tak ovšem značně různorodé<br />

a lišící se v řadě parametrů,<br />

• podle jazyků – dnes už jen málo jazyků v Evropě nemá svůj korpus,<br />

v r. 1990 existovaly korpusy pro:<br />

– angličtinu: . . . . . . . . . . . . . . 220 000 000 slovních tvarů (a 20 korpusů)<br />

– francouzštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . 190 000 000 slovních tvarů<br />

– němčinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 500 000 slovních tvarů<br />

– holandštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 000 000 slovních tvarů<br />

– italštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 000 000 slovních tvarů<br />

– srbochorvatštinu: . . . . . . . . . . . . . . . . . . . . . . . . 12 000 000 slovních tvarů<br />

– korpusy dvoujazyčné, paralelní: anglicko-francouzské, -italské, -dánské<br />

– korpusy obecné a specifické, velké obecné korpusy obsahují subkorpusy<br />

<strong>jazyka</strong> psaného, mluveného, nářečí, synchronní – diachronní aj.<br />

23

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!