13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

(3) Roku 70 po Kr. Titus, syn císaře Vespasiana, dobyl Jeruzalém.Potíže tu působí víceznačnost tečky ukončující zkratku Kr.: tato tečka jetotiž součástí zkratky (jejím posledním zna<strong>ke</strong>m) a zároveň může ukončovatvětu zakončenou touto zkratkou. Pro automatické počítačové zpracování bybylo ovšem ideální, kdyby pravopisná pravidla nařizovala důsledné psaní obouteček, tj. Kr.., tak tomu však není. Tento problém ovšem nenastává u všechzkratek zakončených tečkou, nýbrž jen u těch, které se mohou objevit na koncivěty. Je např. jasné, že v obsahově poměrně zajímavé větě(4) Je třeba klást vysoké nároky na všechny pracovníky, tj. na všechny, kdozajišťují výrobu.neukončuje zkratka tj. ukončená tečkou celou větu, neboť tato zkratka se nemůžeobjevit na konci věty.Uvedené příklady naznačují, v čem tkví hlavní problém větné segmentace:ve víceznačnosti jednotlivých řetězců a znaků a vůbec jazykových objektů .Tato vlastnost prostupuje celý jazykový systém. To samozřejmě není žádnýobjey, ale tento problém je jedním ze zásadních problémů počítačovéhozpracování pfírozeného <strong>jazyka</strong>, jak uvidíme ještě jasněji , postoupíme-Ii dále,a to <strong>ke</strong> slovnědruhové a morfologické charakteristice jednotlivých slov textu.Celý problémje navíc komplikován velmi obtížnou uchopitelností lingvistickýchproblémů -pro spletitou provázanost jazykových jevů nelze totiž metodologickypostupovat od jednoduššího <strong>ke</strong> složitějšímu. Chceme-Ii řešit nějaký problémna rovině k jazykového popisu, potřebujeme využívat údajů na niilich « k)rovinách popisu <strong>jazyka</strong>. Tyto údaje jsme však předtím získali na základěinfonnací z roviny k, takže se točíme v kruhu. K řešení snazšího problémučasto potřebujeme vyřešit problém obtížnějši, což je metodologicky absurdní.Např. správně segmentovat větu (2) můžeme teprve tehdy, máme-Ii k dispozicimorfologickou analýzu textu (viz níže). Tuto analýzu však můžeme provést ažpoté, co jsme se vypořádali se segmentací. Právě vzájemná provázanost systémupřirozeného <strong>jazyka</strong> představuje podstatný a specifický problém automatickéhozpracování pfírozenébo <strong>jazyka</strong>.2. I Morfologická analýzaPoněvadž jazykový korpus slouží především výzkumu jazykovědnému,nestačí, aby obsahoval jen údaje o struktuře jednotlivých textů segmentovanýchna úroveň jednotlivých vět, slova interpunkčních znamének. Samoztejmě jižúdaje o samotných slovních tvarech, jejich konfiguracích a jejich syntaktické12

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!