Podle posledních odhadů se v současných arabských textech používá zhruba5000 kořenů' a příbližně 400 odvozovacích vzorů J , z nichž většína jenejednoznačná. Na druhé straně neexistuje kořen, který by realizoval všechnymožnosti, v průměru bývá od každého kořene realizováno kolem sedmnácti ažos;mnácti vzorů. 4Téměř každý tvar, založený na kořeni, je obvykle nejednoznačný . Jen málovzorů je plně jednoznačných, u většiny tvarů existuje několik možnostívokalizace (předpony a přípony jsou v textu vyznačeny, jedná se vždy o souhláskovémorfémy). Počet těchto možností se obvykle pohybuje mezi dvěmaaž pěti, v některých extrémnich případech však počet možností dosahujepozoruhodně vysokého počtu. Například řetězec j'd může být interpretovánjako tvar odvozený od několika kořenů:- kořen Odd - "počítat"- kořen . wd - "vrátit se"- kořen w'd- .. slíbir'- kořen 'dw - .. běžet"Vzhledem k tomu, že arabština umožňuje vytvářet pasívum pomocívokalizace a jednotlivé tvary slovesa se mohou lišit jen koncovým vokálem,jecelkový počet morfologických tvarů odvoditelných od tohoto řetězce značněvysoký - dosahuje dohromady 29 možností. Jde však o extrémní případ, kterýchcelkově není mnoho. Navíc i v těchto připadech je z kontextu možné poznat,o které slovo se jedná..4
Je však nutno konstatovat, že tato nejednoznačnost se projevuje předevšímna úrovni jednotlivých slov. Už v případě tzv. bigramů , tj . bezprostředněnásledujících dvojic slov ve větě, je tato ambiguita značně menšI. Právě tohotorysu se běžně užívá pro další automatické zpracování texlll.Přes zmíněné problémy je takovýto text - po patřičné průpravě - pro člověkačitelný a srozumitelný; z hlediska počítače , který pracuje s těmito řetězci bezdalších informací (znalost významu, gramatiky, možných dalších vztahů), ječitelný a srozumitelný jen ve velmi omezené míře. Praxe ukázala, že softwarovéprostředky, používané pro jiné jazyky, jsou pro arabštinu jen málo vhodné a žebude potřeba vyvinout programy specializované na arabštinu. Nejvíce pozornostitéto problematice věnují firmy zaměřující se na strojový překlad z arabštiny,např . americká firma Apptec (http://www.apptec.com) nebo francouzskáspolečnost CIMOS (htlp://www.cimos.com).Přesto v nedávné době začaly být naplňovány předpoklady pro počítačovézpracování arabštiny. Rozvoj užívání počítačů v arabských zemích, rozšířeníinternetu a i další faktory způsobily, že elektronických, strojem čitelnýcharabských textů začalo rychle přibývat. N~ několika místech se začalo pracovat- po vzoru elektronických korpusů angličtiny a dalších jazyků - na přípravěelektronického korpusu arabštiny. Jeden ucelený korpus, který je také plněgramaticky označkován, vznikl jako interní nástroj egyptské firmy Sakhr (rozsah10 mili ó nů slov). Tento korpus je však přístupný pouze expertům této firmya nezdá se, že by firma vůbec uvažovala o zpřístupnění tohoto korpusu dalšímzájemcům. Další korpusy začaly vznikat relativně živelně, obvykle jako souborytextů, dostupných z internetu či jiných komerčních zdrojů. V dnešní době jerelativně snadné shromáždittexty ve velkém množství - řada arabských periodikje dostupná na internetu, některé navíc prodávají své archívy, např. noviny alHayat vycházející v Londýně. Tyto korpusy jsou v naprosté většině dálenetříděné , tzn. neumožňují například stylistické analýzy. Podle našich informacíexistují v současnosti dva korpusy arabštiny, které kromě těchto otevřenýchzdrojů získávaly texty pomocí vlastních sil, tj. především za pomoci načítánítextů scannerem a následného rozpoznávání softwarovými prostředky (OCRprogramy). Jedná se o korpus textů na univerzitě v Nijmegen (Holandsko),připravený týmem pod vedením Jana Hooglanda (rozsah cca II miliónů slov,tříděný), a dále o elektronický korpus nazvaný CLARA (Corpus LinguaeArabicae), který byl zpracován na Karlově univerzitě v Praze'.Pražský korpus zpracovaný v <strong>Ústav</strong>u starého Předního východu a srovnávacíjazykovědy UK FF je ze všech tříděných korpusů nejrozsáhlejší, v současnosti85