pdf ke stažení - Ústav českého jazyka a teorie komunikace

More documents

Recommendations

Info

Podle posledních odhadů se v současných arabských textech používá zhruba5000 kořenů' a příbližně 400 odvozovacích vzorů J , z nichž většína jenejednoznačná. Na druhé straně neexistuje kořen, který by realizoval všechnymožnosti, v průměru bývá od každého kořene realizováno kolem sedmnácti ažos;mnácti vzorů. 4Téměř každý tvar, založený na kořeni, je obvykle nejednoznačný . Jen málovzorů je plně jednoznačných, u většiny tvarů existuje několik možnostívokalizace (předpony a přípony jsou v textu vyznačeny, jedná se vždy o souhláskovémorfémy). Počet těchto možností se obvykle pohybuje mezi dvěmaaž pěti, v některých extrémnich případech však počet možností dosahujepozoruhodně vysokého počtu. Například řetězec j'd může být interpretovánjako tvar odvozený od několika kořenů:- kořen Odd - "počítat"- kořen . wd - "vrátit se"- kořen w'd- .. slíbir'- kořen 'dw - .. běžet"Vzhledem k tomu, že arabština umožňuje vytvářet pasívum pomocívokalizace a jednotlivé tvary slovesa se mohou lišit jen koncovým vokálem,jecelkový počet morfologických tvarů odvoditelných od tohoto řetězce značněvysoký - dosahuje dohromady 29 možností. Jde však o extrémní případ, kterýchcelkově není mnoho. Navíc i v těchto připadech je z kontextu možné poznat,o které slovo se jedná..4
Je však nutno konstatovat, že tato nejednoznačnost se projevuje předevšímna úrovni jednotlivých slov. Už v případě tzv. bigramů , tj . bezprostředněnásledujících dvojic slov ve větě, je tato ambiguita značně menšI. Právě tohotorysu se běžně užívá pro další automatické zpracování texlll.Přes zmíněné problémy je takovýto text - po patřičné průpravě - pro člověkačitelný a srozumitelný; z hlediska počítače , který pracuje s těmito řetězci bezdalších informací (znalost významu, gramatiky, možných dalších vztahů), ječitelný a srozumitelný jen ve velmi omezené míře. Praxe ukázala, že softwarovéprostředky, používané pro jiné jazyky, jsou pro arabštinu jen málo vhodné a žebude potřeba vyvinout programy specializované na arabštinu. Nejvíce pozornostitéto problematice věnují firmy zaměřující se na strojový překlad z arabštiny,např . americká firma Apptec (http://www.apptec.com) nebo francouzskáspolečnost CIMOS (htlp://www.cimos.com).Přesto v nedávné době začaly být naplňovány předpoklady pro počítačovézpracování arabštiny. Rozvoj užívání počítačů v arabských zemích, rozšířeníinternetu a i další faktory způsobily, že elektronických, strojem čitelnýcharabských textů začalo rychle přibývat. N~ několika místech se začalo pracovat- po vzoru elektronických korpusů angličtiny a dalších jazyků - na přípravěelektronického korpusu arabštiny. Jeden ucelený korpus, který je také plněgramaticky označkován, vznikl jako interní nástroj egyptské firmy Sakhr (rozsah10 mili ó nů slov). Tento korpus je však přístupný pouze expertům této firmya nezdá se, že by firma vůbec uvažovala o zpřístupnění tohoto korpusu dalšímzájemcům. Další korpusy začaly vznikat relativně živelně, obvykle jako souborytextů, dostupných z internetu či jiných komerčních zdrojů. V dnešní době jerelativně snadné shromáždittexty ve velkém množství - řada arabských periodikje dostupná na internetu, některé navíc prodávají své archívy, např. noviny alHayat vycházející v Londýně. Tyto korpusy jsou v naprosté většině dálenetříděné , tzn. neumožňují například stylistické analýzy. Podle našich informacíexistují v současnosti dva korpusy arabštiny, které kromě těchto otevřenýchzdrojů získávaly texty pomocí vlastních sil, tj. především za pomoci načítánítextů scannerem a následného rozpoznávání softwarovými prostředky (OCRprogramy). Jedná se o korpus textů na univerzitě v Nijmegen (Holandsko),připravený týmem pod vedením Jana Hooglanda (rozsah cca II miliónů slov,tříděný), a dále o elektronický korpus nazvaný CLARA (Corpus LinguaeArabicae), který byl zpracován na Karlově univerzitě v Praze'.Pražský korpus zpracovaný v <strong>Ústav</strong>u starého Předního východu a srovnávacíjazykovědy UK FF je ze všech tříděných korpusů nejrozsáhlejší, v současnosti85
Page 1 and 2:
čeština doma a ve světěROČNíK
Page 3 and 4:
ČEŠTINADOMA A VE SVĚTĚ .Téma C
Page 5 and 6:
POHLED DO KORPUSUIslandY prvním od
Page 7 and 8:
ulička (2164)holčička (1974)=ahr
Page 9 and 10:
sebou jakási pomyslná políčka a
Page 11 and 12:
pouze se odlišuje tvarově "jemnos
Page 13 and 14:
SLAVNI PŘEDCHŮDCI ČESKÉHO NÁRO
Page 15 and 16:
méně časlo) v roce 1991 speciál
Page 17 and 18:
jako jsem uvedla na začátku tohot
Page 19 and 20:
helma. Znamená 10, že helma a př
Page 21 and 22:
lidi, zemí fjordů (i když toto o
Page 23 and 24:
10. zajisté 8.432 1.727 0.2188 3II
Page 25 and 26:
použita pouze dvěma různými aut
Page 27 and 28:
POHLED NA JAZYKKonferenceStaré zn
Page 29 and 30:
km!!erence je slovo organizace nazn
Page 31 and 32:
jako jedinečn) ' softwarový produ
Page 33 and 34: kompromis a koupila si boloňského
Page 35 and 36: směřují vpravo, ale našinec si
Page 37 and 38: ,,rimejkaci" (ta je nám neústrojn
Page 39 and 40: napřed jít a vyměřit ho. A to b
Page 41 and 42: charakteru. Vytčený se téměř n
Page 43 and 44: o nesouhlas s ním. Kontexty nachá
Page 45 and 46: JazYková poradna. korpus a interne
Page 47 and 48: SLAVNI PŘEDCHŮDCI CESKÉHO NARODN
Page 49 and 50: Další skupínu tvoři slova zakon
Page 51 and 52: Následující ukázky studentskýc
Page 53 and 54: ~Id a dlbll na materiálu CNIČert
Page 55 and 56: V současných slovnících - SSČ
Page 57 and 58: do jedenáctiletkydo přednášekdo
Page 59 and 60: ukládání dat dodnes nepřekonan
Page 61 and 62: celistvá podoba se nazývá dokume
Page 63 and 64: spojitelnosti jsou velmi cenné. Ne
Page 65 and 66: ženy: tvar=ženy. lemma=žena, slo
Page 67 and 68: a angličtiny -jazyk s poměrně ve
Page 69 and 70: Tato předložka jednoznačně vyž
Page 71 and 72: důležitou složkou celé koncepce
Page 73 and 74: • identifikací větných členů
Page 75 and 76: teský národnl korpus a lexikáln
Page 77 and 78: 3. materiál - 1945-1964 - obsahuje
Page 79 and 80: SVN2000. Vzhledem k nutnosti manuá
Page 81 and 82: ámec prostého srovnávání pomě
Page 83: nevokalizovaného textu s textem pl
Page 87 and 88: yly informace dostupné, jsou zařa
Page 89 and 90: I V tomto článku použlváOle zje
Page 91 and 92: v textu o léčení v 18. století)
Page 93 and 94: c) podstatná jména, slovesa, př
Page 95 and 96: 19. Který měsíc má nejvíce vý
Page 97 and 98: Vyhodnocení:: A B C DI. O I 3 I2.
Page 99 and 100: a 2690157se 1997092v I 836848na I 5
Page 101 and 102: o 660813do 621814klke 523095pro 401
Page 103 and 104: a v jazyce se s nimi prakticky nese
Page 105 and 106: Slovensko 20353Francie 16591Polsko
Page 107 and 108: o třiaosmdesát let později. Podo
Page 109 and 110: které zahrnuje předev§ím příj
Page 111 and 112: 4 1038265 85077O 845777 6622610 633
Page 113 and 114: jeden 211 586dva 153 114tři86 III
Page 115 and 116: 22. Která denní hodina je v korpu
Page 117 and 118: Asi vám nebude známý posledni ti
Page 119 and 120: 27. Sefaďte následující adjekti
Page 121 and 122: Za Jakých podmlnek můžete pracov
Page 123: Chodit do. chodit na (Miroslava Kaz
show all

pdf ke stažení - Ústav českého jazyka a teorie komunikace

Create successful ePaper yourself

Delete template?

Save as template?