05.03.2013 Views

Varia XIX - Jazykovedný ústav Ľudovíta Štúra SAV

Varia XIX - Jazykovedný ústav Ľudovíta Štúra SAV

Varia XIX - Jazykovedný ústav Ľudovíta Štúra SAV

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Tvorba korpusu k lingvistické analýze humanistické češtiny<br />

František Martínek – Radek Ocelák<br />

Ústav českého jazyka a teorie komunikace, Filozofická fakulta,<br />

Univerzita Karlova, Praha<br />

1. Úvod<br />

Článek informuje o budování souboru elektronicky prohledavatelných českých<br />

textů z let 1500 – 1620. Tento korpus je dílčím cílem projektu uvedeného v poznámce 1 .<br />

O potřebě shromáždit větší množství českých humanistických textů v elektronické<br />

podobě a umožnit jejich jednotné, efektivní prohledávání pro účely lingvistických<br />

analýz jsme informovali v loňském příspěvku na kolokviu (Martínek 2009).<br />

2. Možnosti zpracování textů<br />

Snadno přístupné starší texty jsou důležitým zdrojem poznání pro různé vědy, např.<br />

paleografii, literární vědu a lingvistiku včetně textologie a editologie, historii, ale také<br />

kulturologii, gender studies 2 aj. Můžeme je shromažďovat a studovat např. v podobě<br />

reprodukcí (fotografií), paleografických opisů, transliterací či různých typů transkripcí,<br />

s různočteními sporných míst, s dodaným poznámkovým aparátem včetně lingvistických<br />

značek, případně komplexnější anotace (tagování), nebo i po jazykové úpravě<br />

autentického textu. 3 Jako optimum, umožněné dostupnými médii, se jeví kombinace<br />

reprodukce, transliterace a lingvisticky anotované transkripce s poznámkovým aparátem<br />

(různočteními, poznámkami, vysvětlivkami apod.). 4<br />

Vzhledem k možnostem uvedeného projektu a také k žádoucí kompatibilitě výstupů<br />

s texty zpracovávanými pro diachronní složku Českého národního korpusu (dále<br />

Diakorp) je realizován skromnější cíl: provádí se „pouze“ transkripce spolu s translite-<br />

rací sporných míst a dosazením značek přímo do textu 5 (viz dále; obrazové reproduk-<br />

ce tisků, resp. rukopisů, nebo alespoň internetové odkazy na ně budou při práci s texty<br />

k dispozici). Texty tedy budou přístupné ve formě jednoduchých textových dokumen-<br />

tů, bez paralelní anotace slov pomocí databázových programů (např. nástrojem XML,<br />

1<br />

Text vznikl v rámci doktorandského grantového projektu GA UK č. 16809 Lingvistická analýza<br />

českých humanistických textů.<br />

2<br />

Srov. edici textů Ratajová – Storchová (ed.) 2008.<br />

3<br />

Srov. Lehečka 1999, zvl. pasáž o paleografickém opisu na s. 137, komentáře k transkripci na<br />

s. 138 – 140 a tabulku „Zachování informační hodnoty originálu“ na s. 140.<br />

4<br />

Zcela maximalisticky pojaté paralelní anotace, vytvářené pomocí nástroje XML, se dostává<br />

německým textům zpracovávaným v rámci projektu Deutsch Diachron Digital (srov. Dipper et<br />

al. 2004). Řezenský korpus starých ruských textů RRuDi používá tentýž anotační nástroj, avšak<br />

množství dodávaných informací výrazně zredukoval (vzhledem k svým účelům a výši dustupných<br />

prostředků jistě ku prospěchu věci; o tomto korpusu srov. Meyer 2005).<br />

5<br />

Srov. shrnutí důvodů, proč transkribovat, v: Martínek 2009, s. 460n. (bod 2.2.1).<br />

219

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!