pdf ke stažení - Ústav českého jazyka a teorie komunikace

More documents

Recommendations

Info

KOLEGOVÉ A PŘíZNIVCICeskj něroni kl"'as a ieho iaZYka'í zlaCko,ěniI. ÚvodNa konci října roku 2000 došlo na české lingvistické scéně k důležité události:byla ukončena první dlouhá etapa vývoje největšího českého lingvistickyzpracovaného zdroje jazykových dat - Ceského národního korpusu (ČNK) .Tento korpus počítačově uložených textů obsahující dnesjiž okolo 100 miliónůslovních tvarů má sloužit jako rozsáhlá reprezentativní databáze. které lze využítpro nejrůznější účely. Korpus je totiž zejména:základním východiskem pro budování nového velkého slovníku současnéčeštinyzákladem pro tvorbu nejrůznějších jazykových příruček, učebnic a vědeckopopulámíchpublikací o češtiněstudnicí lingvistických dat pro teoretické studium současné psané češtiny:pro studium její morfologie, syntaxe. sémantiky, pragmatiky a dalších úrovnía aspektů jejího jazykového popisu.V tomto příspěvku se zaměřím na CNK z hlediska morfologického a syntaktickéhoa budu se zabývat jeho jazykovým značkováním, zejména pakznačkováním morfologickým.2. Jazykové zDalkováDlkorpusuJazykovým značkováním v širším smyslu rozumím obecně přidání lingvistickéinformace k surovému nebo dosud jazykově nezpracovanému textu alneboformální, explicitní zachyceni lingvistické informace, která je již v textupřítomna - každé jazykové značkování je tedy jistnu lingvistickou interpretacítextu, výrazem našeho pohledu na příslušný text. Toto značkování formálněvyjádřené tzv. značkami (ragy) má řadu podob podle toho,jaké informace chcemev korpusu mít a co chceme na jejich základě zkoumat. Základním typemznačkování je segmentace surového textu, \j . rozčlenění nějakého textu, jehož10
celistvá podoba se nazývá dokument. na přirozené úseky. jako je slovo, věta .odstavec, kapitola, část atd. Předev§ím členění textu do slov (slovem tu rozumímei interpunkční znaménka, v tomto smyslu se také užívá pojmu pozicev korpusu) a vět je dáno jazykovými konvencemi a systémem jazyka. Na prvnipohled se zdá, že sotvaco může být jednodušší než rozčleněni textu na větya slova. Máme-Ii napf. na jednotlivá slova segmentovat větu(I) Jeden z klíčových poslanců parlamentu. Jan Zahradil, se domnívá, žeEvropská unie je pouze zbytnělou byrokratickou institucí.nebude to ani nám, ani počítači činit velké problémy, neboť jednotlivá slova tujsou jasně ohraničena a vymezena. Co si však počít s takovými slovy jako oč,má-Ii, abychom, tys? Slovo oč je stažená dvojice slovo co, spojení má-Ii jetvořeno dvěma zcela odlišnými částmi : má a -Ii, abychom je spojka vyjadřujíciI. osobu čísla množného, ač spojky systémově osobu nevyjadřuji, a tys je staženádvojice slov ty ajsi. Jakým způsobem segmentovat takováto slova? Má smysl"pitvat" např , víceslovné názvy měst typu Ceské Budějovice, kde obě dílčí slova,tj. České a Budějovice tvoří dohromady jediný celek? Není lepší takovýto názevnaopak chápat jako jeden nedělitelný celek a tak s ním pracovat? V češtině"bohužel" jednotlivé komponenty místních jmen nespojujeme spojovníkem.jak to činí alespoň v některých případech pravopis francouzský (srov. např.Aix-en-Provence) - bylo by to pro automatické zpracování jednodušší. A zasenaopak: patrně není vhodné dělit např. slovo československo-sověts/cý na dvěčásti československo a sově/s/cý . Obecně je pro další zpracováni textu asivhodnější pokládat ustálená spojení za jeden celek (nikoli však výše uvedenéspojení typu má-Ii, které je naopaltonáležité rozdělit na dvě části) . Vidíme tedy,že už na úrovni segmentace textu do slov mohou nastat problémy souvisejícípochopitelně s tim, jak chceme vstupní text dále zpracovávat.Složitější problémy nastávají u segmentace textu do vět. Převážnou většinuvět lze segmentovat velmi snadno, jsou však věty, s nimiž jsou potíže. Uvažmenapř. větu(2) Ke katastrofě židovského národa došlo roku 70 po Kr. Titus, syn císařeVespasiana, tehdy dobyl Jeruzalém.Člověk takový úsek "ručně" segmentuje snadno: okamžitě vidí, že jej tvořídvě věty, z nichž prvni končí zkratkou Kr. včetně. Automatická počítačovásegmentace je však v takovýchto případech velmi nesnadná. Jelikož druhá větazačíná vlastnimjménem Ti/us, které začíná velkým písmenem, nemusí obecněřetězec Kr. znamenat konec věty, srov. např. větuII
Page 1 and 2:
čeština doma a ve světěROČNíK
Page 3 and 4:
ČEŠTINADOMA A VE SVĚTĚ .Téma C
Page 5 and 6:
POHLED DO KORPUSUIslandY prvním od
Page 7 and 8:
ulička (2164)holčička (1974)=ahr
Page 9 and 10: sebou jakási pomyslná políčka a
Page 11 and 12: pouze se odlišuje tvarově "jemnos
Page 13 and 14: SLAVNI PŘEDCHŮDCI ČESKÉHO NÁRO
Page 15 and 16: méně časlo) v roce 1991 speciál
Page 17 and 18: jako jsem uvedla na začátku tohot
Page 19 and 20: helma. Znamená 10, že helma a př
Page 21 and 22: lidi, zemí fjordů (i když toto o
Page 23 and 24: 10. zajisté 8.432 1.727 0.2188 3II
Page 25 and 26: použita pouze dvěma různými aut
Page 27 and 28: POHLED NA JAZYKKonferenceStaré zn
Page 29 and 30: km!!erence je slovo organizace nazn
Page 31 and 32: jako jedinečn) ' softwarový produ
Page 33 and 34: kompromis a koupila si boloňského
Page 35 and 36: směřují vpravo, ale našinec si
Page 37 and 38: ,,rimejkaci" (ta je nám neústrojn
Page 39 and 40: napřed jít a vyměřit ho. A to b
Page 41 and 42: charakteru. Vytčený se téměř n
Page 43 and 44: o nesouhlas s ním. Kontexty nachá
Page 45 and 46: JazYková poradna. korpus a interne
Page 47 and 48: SLAVNI PŘEDCHŮDCI CESKÉHO NARODN
Page 49 and 50: Další skupínu tvoři slova zakon
Page 51 and 52: Následující ukázky studentskýc
Page 53 and 54: ~Id a dlbll na materiálu CNIČert
Page 55 and 56: V současných slovnících - SSČ
Page 57 and 58: do jedenáctiletkydo přednášekdo
Page 59: ukládání dat dodnes nepřekonan
Page 63 and 64: spojitelnosti jsou velmi cenné. Ne
Page 65 and 66: ženy: tvar=ženy. lemma=žena, slo
Page 67 and 68: a angličtiny -jazyk s poměrně ve
Page 69 and 70: Tato předložka jednoznačně vyž
Page 71 and 72: důležitou složkou celé koncepce
Page 73 and 74: • identifikací větných členů
Page 75 and 76: teský národnl korpus a lexikáln
Page 77 and 78: 3. materiál - 1945-1964 - obsahuje
Page 79 and 80: SVN2000. Vzhledem k nutnosti manuá
Page 81 and 82: ámec prostého srovnávání pomě
Page 83 and 84: nevokalizovaného textu s textem pl
Page 85 and 86: Je však nutno konstatovat, že tat
Page 87 and 88: yly informace dostupné, jsou zařa
Page 89 and 90: I V tomto článku použlváOle zje
Page 91 and 92: v textu o léčení v 18. století)
Page 93 and 94: c) podstatná jména, slovesa, př
Page 95 and 96: 19. Který měsíc má nejvíce vý
Page 97 and 98: Vyhodnocení:: A B C DI. O I 3 I2.
Page 99 and 100: a 2690157se 1997092v I 836848na I 5
Page 101 and 102: o 660813do 621814klke 523095pro 401
Page 103 and 104: a v jazyce se s nimi prakticky nese
Page 105 and 106: Slovensko 20353Francie 16591Polsko
Page 107 and 108: o třiaosmdesát let později. Podo
Page 109 and 110: které zahrnuje předev§ím příj
Page 111 and 112:
4 1038265 85077O 845777 6622610 633
Page 113 and 114:
jeden 211 586dva 153 114tři86 III
Page 115 and 116:
22. Která denní hodina je v korpu
Page 117 and 118:
Asi vám nebude známý posledni ti
Page 119 and 120:
27. Sefaďte následující adjekti
Page 121 and 122:
Za Jakých podmlnek můžete pracov
Page 123:
Chodit do. chodit na (Miroslava Kaz
show all

pdf ke stažení - Ústav českého jazyka a teorie komunikace

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?