13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Je však nutno konstatovat, že tato nejednoznačnost se projevuje předevšímna úrovni jednotlivých slov. Už v případě tzv. bigramů , tj . bezprostředněnásledujících dvojic slov ve větě, je tato ambiguita značně menšI. Právě tohotorysu se běžně užívá pro další automatické zpracování texlll.Přes zmíněné problémy je takovýto text - po patřičné průpravě - pro člověkačitelný a srozumitelný; z hlediska počítače , který pracuje s těmito řetězci bezdalších informací (znalost významu, gramatiky, možných dalších vztahů), ječitelný a srozumitelný jen ve velmi omezené míře. Praxe ukázala, že softwarovéprostředky, používané pro jiné jazyky, jsou pro arabštinu jen málo vhodné a žebude potřeba vyvinout programy specializované na arabštinu. Nejvíce pozornostitéto problematice věnují firmy zaměřující se na strojový překlad z arabštiny,např . americká firma Apptec (http://www.apptec.com) nebo francouzskáspolečnost CIMOS (htlp://www.cimos.com).Přesto v nedávné době začaly být naplňovány předpoklady pro počítačovézpracování arabštiny. Rozvoj užívání počítačů v arabských zemích, rozšířeníinternetu a i další faktory způsobily, že elektronických, strojem čitelnýcharabských textů začalo rychle přibývat. N~ několika místech se začalo pracovat- po vzoru elektronických korpusů angličtiny a dalších jazyků - na přípravěelektronického korpusu arabštiny. Jeden ucelený korpus, který je také plněgramaticky označkován, vznikl jako interní nástroj egyptské firmy Sakhr (rozsah10 mili ó nů slov). Tento korpus je však přístupný pouze expertům této firmya nezdá se, že by firma vůbec uvažovala o zpřístupnění tohoto korpusu dalšímzájemcům. Další korpusy začaly vznikat relativně živelně, obvykle jako souborytextů, dostupných z internetu či jiných komerčních zdrojů. V dnešní době jerelativně snadné shromáždittexty ve velkém množství - řada arabských periodikje dostupná na internetu, některé navíc prodávají své archívy, např. noviny al­Hayat vycházející v Londýně. Tyto korpusy jsou v naprosté většině dálenetříděné , tzn. neumožňují například stylistické analýzy. Podle našich informacíexistují v současnosti dva korpusy arabštiny, které kromě těchto otevřenýchzdrojů získávaly texty pomocí vlastních sil, tj. především za pomoci načítánítextů scannerem a následného rozpoznávání softwarovými prostředky (OCRprogramy). Jedná se o korpus textů na univerzitě v Nijmegen (Holandsko),připravený týmem pod vedením Jana Hooglanda (rozsah cca II miliónů slov,tříděný), a dále o elektronický korpus nazvaný CLARA (Corpus LinguaeArabicae), který byl zpracován na Karlově univerzitě v Praze'.Pražský korpus zpracovaný v <strong>Ústav</strong>u starého Předního východu a srovnávacíjazykovědy UK FF je ze všech tříděných korpusů nejrozsáhlejší, v současnosti85

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!