13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

celistvá podoba se nazývá dokument. na přirozené úseky. jako je slovo, věta .odstavec, kapitola, část atd. Předev§ím členění textu do slov (slovem tu rozumímei interpunkční znaménka, v tomto smyslu se také užívá pojmu pozicev korpusu) a vět je dáno jazykovými konvencemi a systémem <strong>jazyka</strong>. Na prvnipohled se zdá, že sotvaco může být jednodušší než rozčleněni textu na větya slova. Máme-Ii napf. na jednotlivá slova segmentovat větu(I) Jeden z klíčových poslanců parlamentu. Jan Zahradil, se domnívá, žeEvropská unie je pouze zbytnělou byrokratickou institucí.nebude to ani nám, ani počítači činit velké problémy, neboť jednotlivá slova tujsou jasně ohraničena a vymezena. Co si však počít s takovými slovy jako oč,má-Ii, abychom, tys? Slovo oč je stažená dvojice slovo co, spojení má-Ii jetvořeno dvěma zcela odlišnými částmi : má a -Ii, abychom je spojka vyjadřujíciI. osobu čísla množného, ač spojky systémově osobu nevyjadřuji, a tys je staženádvojice slov ty ajsi. Jakým způsobem segmentovat takováto slova? Má smysl"pitvat" např , víceslovné názvy měst typu Ceské Budějovice, kde obě dílčí slova,tj. České a Budějovice tvoří dohromady jediný celek? Není lepší takovýto názevnaopak chápat jako jeden nedělitelný celek a tak s ním pracovat? V češtině"bohužel" jednotlivé komponenty místních jmen nespojujeme spojovní<strong>ke</strong>m.jak to činí alespoň v některých případech pravopis francouzský (srov. např.Aix-en-Provence) - bylo by to pro automatické zpracování jednodušší. A zasenaopak: patrně není vhodné dělit např. slovo československo-sověts/cý na dvěčásti československo a sově/s/cý . Obecně je pro další zpracováni textu asivhodnější pokládat ustálená spojení za jeden celek (nikoli však výše uvedenéspojení typu má-Ii, které je naopaltonáležité rozdělit na dvě části) . Vidíme tedy,že už na úrovni segmentace textu do slov mohou nastat problémy souvisejícípochopitelně s tim, jak chceme vstupní text dále zpracovávat.Složitější problémy nastávají u segmentace textu do vět. Převážnou většinuvět lze segmentovat velmi snadno, jsou však věty, s nimiž jsou potíže. Uvažmenapř. větu(2) Ke katastrofě židovského národa došlo roku 70 po Kr. Titus, syn císařeVespasiana, tehdy dobyl Jeruzalém.Člověk takový úsek "ručně" segmentuje snadno: okamžitě vidí, že jej tvořídvě věty, z nichž prvni končí zkratkou Kr. včetně. Automatická počítačovásegmentace je však v takovýchto případech velmi nesnadná. Jelikož druhá větazačíná vlastnimjménem Ti/us, které začíná velkým písmenem, nemusí obecněřetězec Kr. znamenat konec věty, srov. např. větuII

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!