13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

yly informace dostupné, jsou zařazeny také údaje o autorech (pohlaví, věk).Konečným cílem je vybudování tzv. vyváženého korpusu, v němž jednotlivésložky <strong>jazyka</strong> budou odpovídat také skutečné produkci v tomto jazyce, v nakmpřípadě ve spisovné arabštině. To je důležité především z důvodu spolehlivostistatistických údajů, které hrají značnou roli například při určování důležitostijednotlivých významů a následně i při konstrukci slovníkového hesla.V současnosti je tento korpus v tzv. syrové formě, tzn. k samotným textůmnení dodána žádná další informace. To je však z mnoha důvodů nevýhodné.Vzhledem k výše zmíněným problémům arabského písma se při vyhledávánínapřiklad často stává, že vyhledávaný vzor zahrnuje jak jména, tak i slovesa,což přirozeně ztěžuje další analýzu dat excerpovaných z korpusu. Proto ježádoucí, aby korpus obsahoval i další, dodatečné lingvistické informace,především údaje o morfologických švech' a údaje o slovních druzích. To významněusnadní jak vyhledávání příslušných tvarů, tak i jejich další zpracování.Kromě toho tato forma korpusu umožní také další typy studíí, například studiumgramatíckých či syntaktických jevů.Z těchto důvodů byly zpracovány dva další pomocné korpusy - jeden,v rozsahu 100 000 slov, má vyznačeny morfologické hranice, další (v současnosticca 15 000 slov) obsahuje značky pro slovní druhy (spolu s určením dalšíchgramatických kategorií, jako např. rod, číslo atd.). Tyto dva korpusy budousloužit pro vývoj nástrojů, které budou schopny zpracovat neznačený , syrovýtext a dodat do něj tyto značky .'Všechny tyto nástroje jsou v současnosti přístupné pouze v <strong>Ústav</strong>u staréhoPředního východu a srovnávací jazykovědy Filozofické fakulty UnivenityKarlovy. Důvodem jsou především možné problémy s autorskými právyjednotlivých textů , ale i fakt, že projekt samotný je nadále zpracováván. Jevšak možno počítat s tím, že korpus bude zpřístupněn těm, kteří se na jehorozvoji budou dále podílet, a to jak dodáváním dalších textů, tak i dalšími pracemi(spolupráce na morfologickém značkování korpusu, vývoj nástrojů pro tytoúčely apod.). Již nyní se ukazuje, že o zapojení do tohoto projektu je značnýzájem i v zahraničí, a v brzké budoucnosti se do jeho dalšího rozvoje zapojíněkolik zahraničních pracoviš( .. Takovéto spojení sil je možno jen přivítat ,protože se bezpochyby promítne do urychlení dalších prací na vytváření korpusu.Dodatek:Některé internetové zdroje informací k tématu: Na internetu existuje celá lada serveru, kteréposkytuji iofonnace o arabských zcmkh, obsahují texty v arabštin! apod. Zájemce o tyto servery87

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!