13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

z více teoreticky mOŽllých závisí na kontextu, v němž se dané slovo v textuvyskytuje, pfíčemž tu mohou hrát roli nejen faktory syntaktické, ale i sémantické.Zkušenosti - a to v celosvětovém měřítku pro různé jazyky - ukazuji, že je 10opravdu problém mimořádně komplikovaný: pro žádný jazyk (snad jen s výjimkoubrazilské portugalštiny - Bick, 1996 - a snad i angličtiny - Karlsson etal., 1994) nebyl dosud uspokojivě vyřešen (viz niže).Jak tedy tento úkol řešit? Existují obecně tři základní metody automatickédisambiguace textů :• stochastická (statistická. pravdépodobnostní)• pravidly řízená• kombinovaná (stochastická a pravidly řízená) .2_2.1 Stochastická disambíguaceV současné podobě jsou texty v ČNK automaticky disambiguoványprogramovým vybavením koncipovaným na základě stochastického (pravděpodobnostního)modelu, který je založen především na pravděpodobnostechpřechodu mezi jednotlivými značkami v morfologicky analyzovaném (tedydosud nedisambiguovaném) textu. Princip tohoto typu disambiguace spočíváv tom, že nejprve lingvista "ručně", tj. správně, označkuje jisté množství textů(o rozsahu řádově několika set tisíc slov, cožjeještě únosné), a tak vznikne tzv.trénovací korpus. Statisticky koncipovaný disambiguační program - tzv. tagger- se pOlé "naučí " toto správné značkování, tj. učíní si představ u o pravděpodobnostech přechodu mezi jednotlivými značkami a jejích četnostech ,kterou si uloží do svých vnitřních tabulek (,.natrénuje se"). Zjistí např., Žev textech se často vyskytuje dvojice (adjektivum, substantivum), přičemž obaelementy se shodují v rodě, čísle a pádě . Program, který se takto naučil správněoznačkovaný text, poté aplikuje své syntaktické (zejména slovosledné) ,.znalosti"vyvozené z trénovacího korpusu na dosud nedisambiguovaný korpusa tento korpus s vět!í či menší úspěšností disambiguuje.Nejlepší programy pro stochastickou disambiguaci korpusů angličtiny dosahujíaž 97% úspěšnosti, úspěšnost morfologické disambiguace českých textůstochastickou metodou je zhruba na úrovni 94 % (konkrétně: 94.35 %) - tj.zhruba každé 16. slovo je disambiguováno chybně (do uvedené úspěšnosti jsouovšem zahrnuty i slovní tvary, které mají jednoznačnou interpretaci bez ohleduna kontext; kdybychom brali v úvahu jen skutečně víceznačné slovní tvary,byla by úspěšnost stochastické dísambiguace podstatně nižší - jen okolo 75 %).Uvedený rozdíl vyplývá zejména z odlišných typologických vlastností češtinyII

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!