Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Ve všech případech je nutná kontrola, opravy chyb, ev. konverze mezi použitými<br />
a typicky odlišnými kódy. Výsledek se zpravidla ukládá do mezinárodního<br />
ASCII formátu – ovšem v případě češtiny je třeba mít k dispozici vhodné<br />
konverzní programy, protože čeština je kódována řadou způsobů: (v kódech<br />
MJK, PCL2, IL2 a 1250 ve Windows). Vhodným řešením je v poslední době<br />
přechod k Unicode (nejčastěji UTF-8).<br />
V neposlední řadě se při tvorbě korpusů tvůrci musí vyrovnávat i s právními<br />
aspekty objevujícími se při získávání dat. Týká se to copyrightu a autorských<br />
práv a jejich uvolnění ze strany autora či vydavatele. Jednodušší bývá<br />
situace v případě nekomerčního využití, jinak je potřeba uzavírat vhodné<br />
typy smluv přesně stanovujících podmínky šíření korpusových dat a produktů,<br />
které na jejich základě vznikly. U mluvených záznamů je zpravidla<br />
potřeba zajistit zachování anonymity mluvčích.<br />
3.2 Typy korpusů a standardizace<br />
Textové soubory volně uložené v počítači ještě netvoří korpus. Obvykle se<br />
setkáváme s následujícími typy uložení jazykových dat:<br />
• elektronické archivy – volné kolekce celkově různorodých textů. Klasickým<br />
příkladem je Oxford Text Archive – OTA, který představuje rozsáhlou<br />
sbírku různých, většinou literárních textů, v různých formátech<br />
a různých jazycích: v OTA najdeme asi tisícovku literárních textů v 25<br />
jazycích a různých formátech,<br />
• vlastní korpusy tvořící relativně úplné celky, i tak ovšem značně různorodé<br />
a lišící se v řadě parametrů,<br />
• podle jazyků – dnes už jen málo jazyků v Evropě nemá svůj korpus,<br />
v r. 1990 existovaly korpusy pro:<br />
– angličtinu: . . . . . . . . . . . . . . 220 000 000 slovních tvarů (a 20 korpusů)<br />
– francouzštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . 190 000 000 slovních tvarů<br />
– němčinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 500 000 slovních tvarů<br />
– holandštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 000 000 slovních tvarů<br />
– italštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 000 000 slovních tvarů<br />
– srbochorvatštinu: . . . . . . . . . . . . . . . . . . . . . . . . 12 000 000 slovních tvarů<br />
– korpusy dvoujazyčné, paralelní: anglicko-francouzské, -italské, -dánské<br />
– korpusy obecné a specifické, velké obecné korpusy obsahují subkorpusy<br />
<strong>jazyka</strong> psaného, mluveného, nářečí, synchronní – diachronní aj.<br />
23