KOLEGOVÉ A PŘíZNIVCICeskj něroni kl"'as a ieho iaZYka'í zlaCko,ěniI. ÚvodNa konci října roku 2000 došlo na české lingvistické scéně k důležité události:byla ukončena první dlouhá etapa vývoje největšího <strong>českého</strong> lingvistickyzpracovaného zdroje jazykových dat - Ceského národního korpusu (ČNK) .Tento korpus počítačově uložených textů obsahující dnesjiž okolo 100 miliónůslovních tvarů má sloužit jako rozsáhlá reprezentativní databáze. které lze využítpro nejrůznější účely. Korpus je totiž zejména:základním východis<strong>ke</strong>m pro budování nového velkého slovníku současnéčeštinyzákladem pro tvorbu nejrůznějších jazykových příruček, učebnic a vědeckopopulámíchpublikací o češtiněstudnicí lingvistických dat pro teoretické studium současné psané češtiny:pro studium její morfologie, syntaxe. sémantiky, pragmatiky a dalších úrovnía aspektů jejího jazykového popisu.V tomto příspěvku se zaměřím na CNK z hlediska morfologického a syntaktickéhoa budu se zabývat jeho jazykovým značkováním, zejména pakznačkováním morfologickým.2. Jazykové zDalkováDlkorpusuJazykovým značkováním v širším smyslu rozumím obecně přidání lingvistickéinformace k surovému nebo dosud jazykově nezpracovanému textu alneboformální, explicitní zachyceni lingvistické informace, která je již v textupřítomna - každé jazykové značkování je tedy jistnu lingvistickou interpretacítextu, výrazem našeho pohledu na příslušný text. Toto značkování formálněvyjádřené tzv. značkami (ragy) má řadu podob podle toho,jaké informace chcemev korpusu mít a co chceme na jejich základě zkoumat. Základním typemznačkování je segmentace surového textu, \j . rozčlenění nějakého textu, jehož10
celistvá podoba se nazývá dokument. na přirozené úseky. jako je slovo, věta .odstavec, kapitola, část atd. Předev§ím členění textu do slov (slovem tu rozumímei interpunkční znaménka, v tomto smyslu se také užívá pojmu pozicev korpusu) a vět je dáno jazykovými konvencemi a systémem <strong>jazyka</strong>. Na prvnipohled se zdá, že sotvaco může být jednodušší než rozčleněni textu na větya slova. Máme-Ii napf. na jednotlivá slova segmentovat větu(I) Jeden z klíčových poslanců parlamentu. Jan Zahradil, se domnívá, žeEvropská unie je pouze zbytnělou byrokratickou institucí.nebude to ani nám, ani počítači činit velké problémy, neboť jednotlivá slova tujsou jasně ohraničena a vymezena. Co si však počít s takovými slovy jako oč,má-Ii, abychom, tys? Slovo oč je stažená dvojice slovo co, spojení má-Ii jetvořeno dvěma zcela odlišnými částmi : má a -Ii, abychom je spojka vyjadřujíciI. osobu čísla množného, ač spojky systémově osobu nevyjadřuji, a tys je staženádvojice slov ty ajsi. Jakým způsobem segmentovat takováto slova? Má smysl"pitvat" např , víceslovné názvy měst typu Ceské Budějovice, kde obě dílčí slova,tj. České a Budějovice tvoří dohromady jediný celek? Není lepší takovýto názevnaopak chápat jako jeden nedělitelný celek a tak s ním pracovat? V češtině"bohužel" jednotlivé komponenty místních jmen nespojujeme spojovní<strong>ke</strong>m.jak to činí alespoň v některých případech pravopis francouzský (srov. např.Aix-en-Provence) - bylo by to pro automatické zpracování jednodušší. A zasenaopak: patrně není vhodné dělit např. slovo československo-sověts/cý na dvěčásti československo a sově/s/cý . Obecně je pro další zpracováni textu asivhodnější pokládat ustálená spojení za jeden celek (nikoli však výše uvedenéspojení typu má-Ii, které je naopaltonáležité rozdělit na dvě části) . Vidíme tedy,že už na úrovni segmentace textu do slov mohou nastat problémy souvisejícípochopitelně s tim, jak chceme vstupní text dále zpracovávat.Složitější problémy nastávají u segmentace textu do vět. Převážnou většinuvět lze segmentovat velmi snadno, jsou však věty, s nimiž jsou potíže. Uvažmenapř. větu(2) Ke katastrofě židovského národa došlo roku 70 po Kr. Titus, syn císařeVespasiana, tehdy dobyl Jeruzalém.Člověk takový úsek "ručně" segmentuje snadno: okamžitě vidí, že jej tvořídvě věty, z nichž prvni končí zkratkou Kr. včetně. Automatická počítačovásegmentace je však v takovýchto případech velmi nesnadná. Jelikož druhá větazačíná vlastnimjménem Ti/us, které začíná velkým písmenem, nemusí obecněřetězec Kr. znamenat konec věty, srov. např. větuII
- Page 1 and 2:
čeština doma a ve světěROČNíK
- Page 3 and 4:
ČEŠTINADOMA A VE SVĚTĚ .Téma C
- Page 5 and 6:
POHLED DO KORPUSUIslandY prvním od
- Page 7 and 8:
ulička (2164)holčička (1974)=ahr
- Page 9 and 10: sebou jakási pomyslná políčka a
- Page 11 and 12: pouze se odlišuje tvarově "jemnos
- Page 13 and 14: SLAVNI PŘEDCHŮDCI ČESKÉHO NÁRO
- Page 15 and 16: méně časlo) v roce 1991 speciál
- Page 17 and 18: jako jsem uvedla na začátku tohot
- Page 19 and 20: helma. Znamená 10, že helma a př
- Page 21 and 22: lidi, zemí fjordů (i když toto o
- Page 23 and 24: 10. zajisté 8.432 1.727 0.2188 3II
- Page 25 and 26: použita pouze dvěma různými aut
- Page 27 and 28: POHLED NA JAZYKKonferenceStaré zn
- Page 29 and 30: km!!erence je slovo organizace nazn
- Page 31 and 32: jako jedinečn) ' softwarový produ
- Page 33 and 34: kompromis a koupila si boloňského
- Page 35 and 36: směřují vpravo, ale našinec si
- Page 37 and 38: ,,rimejkaci" (ta je nám neústrojn
- Page 39 and 40: napřed jít a vyměřit ho. A to b
- Page 41 and 42: charakteru. Vytčený se téměř n
- Page 43 and 44: o nesouhlas s ním. Kontexty nachá
- Page 45 and 46: JazYková poradna. korpus a interne
- Page 47 and 48: SLAVNI PŘEDCHŮDCI CESKÉHO NARODN
- Page 49 and 50: Další skupínu tvoři slova zakon
- Page 51 and 52: Následující ukázky studentskýc
- Page 53 and 54: ~Id a dlbll na materiálu CNIČert
- Page 55 and 56: V současných slovnících - SSČ
- Page 57 and 58: do jedenáctiletkydo přednášekdo
- Page 59: ukládání dat dodnes nepřekonan
- Page 63 and 64: spojitelnosti jsou velmi cenné. Ne
- Page 65 and 66: ženy: tvar=ženy. lemma=žena, slo
- Page 67 and 68: a angličtiny -jazyk s poměrně ve
- Page 69 and 70: Tato předložka jednoznačně vyž
- Page 71 and 72: důležitou složkou celé koncepce
- Page 73 and 74: • identifikací větných členů
- Page 75 and 76: teský národnl korpus a lexikáln
- Page 77 and 78: 3. materiál - 1945-1964 - obsahuje
- Page 79 and 80: SVN2000. Vzhledem k nutnosti manuá
- Page 81 and 82: ámec prostého srovnávání pomě
- Page 83 and 84: nevokalizovaného textu s textem pl
- Page 85 and 86: Je však nutno konstatovat, že tat
- Page 87 and 88: yly informace dostupné, jsou zařa
- Page 89 and 90: I V tomto článku použlváOle zje
- Page 91 and 92: v textu o léčení v 18. století)
- Page 93 and 94: c) podstatná jména, slovesa, př
- Page 95 and 96: 19. Který měsíc má nejvíce vý
- Page 97 and 98: Vyhodnocení:: A B C DI. O I 3 I2.
- Page 99 and 100: a 2690157se 1997092v I 836848na I 5
- Page 101 and 102: o 660813do 621814klke 523095pro 401
- Page 103 and 104: a v jazyce se s nimi prakticky nese
- Page 105 and 106: Slovensko 20353Francie 16591Polsko
- Page 107 and 108: o třiaosmdesát let později. Podo
- Page 109 and 110: které zahrnuje předev§ím příj
- Page 111 and 112:
4 1038265 85077O 845777 6622610 633
- Page 113 and 114:
jeden 211 586dva 153 114tři86 III
- Page 115 and 116:
22. Která denní hodina je v korpu
- Page 117 and 118:
Asi vám nebude známý posledni ti
- Page 119 and 120:
27. Sefaďte následující adjekti
- Page 121 and 122:
Za Jakých podmlnek můžete pracov
- Page 123:
Chodit do. chodit na (Miroslava Kaz