Kdo začal , má hotovou půlku .Horatius (Listy)CLARA: Corpus Linauae Arabicae a prOblém,poCítaCového zpracování arabitin,Arabština představuje pro počitačové zpracování textů zvláštní problém.Tento problém tkvi především ve způsobu záznamu arabštiny - arabské písmo(podobné jako některá další písma použivaná pro semitské jazyky, např.hebrejštinu) totiž v naprosté většině nevyznačuje krátké samohlásky, i kdyžpro jejich vyjádření existují příslušné symboly, a další značky užívané projednoznačné určení textu, jako značka pro zdvojení, pádové koncovky apod.,se v textu objevují jen zřídka. Tyto značky se obvykle objevují v případě , žeautor chce usnadnit čtení textu či chce zdůraznit některý gramatický jev. Plněvokalizovaný text (tj. text obsahující vyznačení samohlásek a všech dalšíchjevů, jako je zdvojení, neurčité členy, pádové koncovky apod.) se objevuje jenvelmi zřídka, především v případě kanonických textů (Korán, Bible) nebo knihpro děti (slabikáře, pohádky pro nejmenší). Pro čtení textu je tedy třeba znátjazyk, a to jak jeho gramatiku, tak i významy jednotlivých slov, která se ve větěvyskytuji.Příklad :Věta s plnou vokalizací:kataba 'l-mu 'allifa riwájatan'napsal (ten) spisovatel román(spisovatel napsal román)Tatáž věta bez vokalizace:krb 'lm '/f rwájtJe poměrně obtížné stanovit přesně poměr grafémů tzv. vokalizovaného textu(tj. textu s vyznačením samohlásek a dalších jevů, např. zdvojeni souhlásky),protože arabština, jejíž spisovná forma je značně odlišná od tzv. arabskýchdialektů, kterými se hovoří v jednotlivých zemích, připouští ještě i tzv.substandardní normu, kterou je možno charakterizovat jako jakousi zjednodušenouformu <strong>jazyka</strong>. Tato norma se vyznačuje především tím, že i v mluvenéformě často vypouští především pádové koncovky a neurčitý člen - totovypouštění pak bývá nahrazováno pevnějším pořád<strong>ke</strong>m slov, který jinak vespisovné arabštině může být relativně volný. Nicméně při konfrontaci čistě82
nevokalizovaného textu s textem plně vokalizovaným je možno konstatovat,že nevokalizovaný text představuje zhruba 63 % plně vokalizovaného textu.Jedná se však spíše o jakési vymezení hranic, protože jen málokdy v praxi narazímena plně vokalizovaný text. Texty, které označujeme za nevokalizované, mohouobsahovat - a obvykle také obsahuj í - alespoň některé vokalizační značky .Už samotný tento fakt výrazně zvyšuje nejednoznačnost čtení jednotlivýchslov. Například slovo ktb, použité v našem příkladu. lze čist například těmitozp ů soby :atd.ka/aba - on napsalku/iba - on byl napsán (to bylo napsáno)Icutubun - knihy (mn. č. )ka/taba - nechat napsatTato nejednoznačnost (ambiguita) je dále prohloubena typem arabskémorfologie. Taje založena na tzv. konsonantním (souhláskovém) kořeni, kterýtvoří sémantický základ slova a je "ak.tualizován" pomocí samohláskovýchsestava předpon a přípon . Např . kořen drs je spojen se studiem a vokalizovanétvary darasa - "studovat", da"asa - "vyučovat" , darsun - "lekce, přednáška" ,dirása/un - "studium", madrasatun - ,,škola" jsou příklady aktualizace tohotokořene .Kořen ové souhlásky však mohou být pozměněny - například asimilací k předponě,nebo mohou úplně vymizet (velmi často u souhlásek", aj, ale i u dalších),což dále ztěžuje identifikaci kořene . Kořen je přitom tradičně považován zazákladní tvar a v podstatě všechny evropské (ale i staré arabské) slovníky jejpouživaji jako položku, pod kterou řadí v!echny ostatní odvozeniny. Toznamená, že pokud chceme nalézt slovo madrasatun, je třeba zjistit, že se jednáo kořen drs, pod kterým ve slovniku najdeme příslušný tvar a jeho význam.83
- Page 1 and 2:
čeština doma a ve světěROČNíK
- Page 3 and 4:
ČEŠTINADOMA A VE SVĚTĚ .Téma C
- Page 5 and 6:
POHLED DO KORPUSUIslandY prvním od
- Page 7 and 8:
ulička (2164)holčička (1974)=ahr
- Page 9 and 10:
sebou jakási pomyslná políčka a
- Page 11 and 12:
pouze se odlišuje tvarově "jemnos
- Page 13 and 14:
SLAVNI PŘEDCHŮDCI ČESKÉHO NÁRO
- Page 15 and 16:
méně časlo) v roce 1991 speciál
- Page 17 and 18:
jako jsem uvedla na začátku tohot
- Page 19 and 20:
helma. Znamená 10, že helma a př
- Page 21 and 22:
lidi, zemí fjordů (i když toto o
- Page 23 and 24:
10. zajisté 8.432 1.727 0.2188 3II
- Page 25 and 26:
použita pouze dvěma různými aut
- Page 27 and 28:
POHLED NA JAZYKKonferenceStaré zn
- Page 29 and 30:
km!!erence je slovo organizace nazn
- Page 31 and 32: jako jedinečn) ' softwarový produ
- Page 33 and 34: kompromis a koupila si boloňského
- Page 35 and 36: směřují vpravo, ale našinec si
- Page 37 and 38: ,,rimejkaci" (ta je nám neústrojn
- Page 39 and 40: napřed jít a vyměřit ho. A to b
- Page 41 and 42: charakteru. Vytčený se téměř n
- Page 43 and 44: o nesouhlas s ním. Kontexty nachá
- Page 45 and 46: JazYková poradna. korpus a interne
- Page 47 and 48: SLAVNI PŘEDCHŮDCI CESKÉHO NARODN
- Page 49 and 50: Další skupínu tvoři slova zakon
- Page 51 and 52: Následující ukázky studentskýc
- Page 53 and 54: ~Id a dlbll na materiálu CNIČert
- Page 55 and 56: V současných slovnících - SSČ
- Page 57 and 58: do jedenáctiletkydo přednášekdo
- Page 59 and 60: ukládání dat dodnes nepřekonan
- Page 61 and 62: celistvá podoba se nazývá dokume
- Page 63 and 64: spojitelnosti jsou velmi cenné. Ne
- Page 65 and 66: ženy: tvar=ženy. lemma=žena, slo
- Page 67 and 68: a angličtiny -jazyk s poměrně ve
- Page 69 and 70: Tato předložka jednoznačně vyž
- Page 71 and 72: důležitou složkou celé koncepce
- Page 73 and 74: • identifikací větných členů
- Page 75 and 76: teský národnl korpus a lexikáln
- Page 77 and 78: 3. materiál - 1945-1964 - obsahuje
- Page 79 and 80: SVN2000. Vzhledem k nutnosti manuá
- Page 81: ámec prostého srovnávání pomě
- Page 85 and 86: Je však nutno konstatovat, že tat
- Page 87 and 88: yly informace dostupné, jsou zařa
- Page 89 and 90: I V tomto článku použlváOle zje
- Page 91 and 92: v textu o léčení v 18. století)
- Page 93 and 94: c) podstatná jména, slovesa, př
- Page 95 and 96: 19. Který měsíc má nejvíce vý
- Page 97 and 98: Vyhodnocení:: A B C DI. O I 3 I2.
- Page 99 and 100: a 2690157se 1997092v I 836848na I 5
- Page 101 and 102: o 660813do 621814klke 523095pro 401
- Page 103 and 104: a v jazyce se s nimi prakticky nese
- Page 105 and 106: Slovensko 20353Francie 16591Polsko
- Page 107 and 108: o třiaosmdesát let později. Podo
- Page 109 and 110: které zahrnuje předev§ím příj
- Page 111 and 112: 4 1038265 85077O 845777 6622610 633
- Page 113 and 114: jeden 211 586dva 153 114tři86 III
- Page 115 and 116: 22. Která denní hodina je v korpu
- Page 117 and 118: Asi vám nebude známý posledni ti
- Page 119 and 120: 27. Sefaďte následující adjekti
- Page 121 and 122: Za Jakých podmlnek můžete pracov
- Page 123: Chodit do. chodit na (Miroslava Kaz