13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

dosahuje 43 miliónů slov. Jsou však předpoklady pro to, aby byl v blízké doběrozšířen na 50 miliónů slov. Základním vzorem pro tento korpus byl BritishNational Corpus (http://www.comp.lancs.ac.uklcomputinglresearch/ucrel!bnc.html), vzhledem k lingvistickým a kulturním odlBnostem v~ak bylyprovedeny některé změny ve struktuře korpusu, především v tematickém tříděnítextů . Korpus je sestaven z textů, které pocházejí především z 90. leť, odrážítedy jazykový úzus poslední doby. Vě~ina textů byla získána z otevřenýchzdrojů, nicméně zhruba 20 % textů bylo získáno pomoci scannování a následnéhonačitáni pomoci OCR programů . Korpus je zaměřen předevšim jakozákladní referenčni báze pro připrav u arabsko-<strong>českého</strong> a česko-arabskéhoslovníku, z čehož vyplývá také skladba textů - poměrně velká část textů pocháziz oblasti odborných publikaci, např. korpus obsahuje výběr ústav arabskýchstátů, text několika zákoníků, značné množství ekonomických textů, ale i textyz oblasti techniky a pfirodnich věd. Beletristické texty tvoří zhruba 10% celéhokorpusu a představují reprezentativní výběr z recentní egyptské a syrské literárníprodukce. Zhruba 50 % textů pochází z periodických tiskovin, kolem 35 %tvoři knihy, zbytek jsou příležitostné publikace.Dalším problémem, který je u arabštiny nutno řešit, je - podobně jakou angličtiny - velké geografické rozšiření arabštiny a z toho vyplývajíci jazykovározrůzněnost. V podstatě lze arabský svět rozdělit na dvě oblasti - tzv. arabskýVýchod (Mašriq) a arabský Západ (Maghrib). Druhá, západní oblast, je relativněs ilně oylivněna francouzštinou, prvni oblast je považována za původnějšíz hlediska formy <strong>jazyka</strong>. NM korpus se zaměřuje právě na arabský Východ, tj.především země Arabského poloostrova, Egypt a Sýrii. Podíl textů z ostatníchzemí neni příliš vysoký, celkově nepřesahuje 10 %.Všechny vý~ uvedené informace jsou přirozeně obsaženy také v korpususamotném, protože jsou důležité pro další analýzy užití různých forem arabštiny,syntaktických a morfologických jevů, lexikálni zásoby atp. Kromě toho, kdeII

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!