13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

a angličtiny -jazyk s poměrně velmi pevným slovosledem,jakým je angličtina ,se stochastickými metodami založenými na statistické distribuci četnostiposloupností značek značkuje samozřejmě mnohem úspěšněji . Na rozdíl odangličtiny, kde se typické posloupnosti značek dané pevným slovosledemvyskytují přesvědčivě často, tj. s velkou četností, není v češtině k dispoziciz hlediska slovosledu mnoho záchytných bodů , neboť čeština má slovosleddost volný. To tedy znamená, že slovosledných posloupností, které obsahují n7J1aček a mají přibližně stejnou četnost, je více, a příslušný výběr náležitýchznaček je tudíž méně jednoznačný . Např . ČNK se dosud disambiguoval pouzestochasticky, v současné době se pracuje na vývoji pravidly řízené disambiguace(viz níže).Hlavní problém, na který narážejí všechny stochasticky koncipovanédisambiguační programy (taggery), tkví v nedostatku tzv. trénovacích dat.Syntaktická variabilita textů je tak obrovská, že stochastícké taggery se prostěnemohou naučit všechny možné posloupnosti značek . Pokud je rozdíl v četnostechrůzných morfologických interpretací výrazný (např. slovo se se jakožtopředložka vyskytuje pouze v 9 % případů ajakožto reflexivní částice či reflexivnízájmeno se vyskytuje ve zbývajícím 91 % případů), je dísambiguace poměrněúspěšná . Pokud se však četnosti různých interpretací sobě blíží, dochází k výběrunesprávné interpretace mnohem častěji. Zvláštností stochastické disambiguacej. také to, že stochastické taggery na jedné straně jasnozřivě "uhodnou" správnouvariantu ve složitém kontextu a na straně druhé se dopustí hrubé chybyv kontextech, kde příslušný výběr správné morfologické interpretace jevýběr nomi­(relativně) jednoznačný. Příkladem takové hrubé chyby je např .nativní morfologické interpretace substantiva následujícího v textu korpusubezprostředně po předložce, což ovšem jazykový systém češtiny až na některépfedložky cizího původu zcela vylučuje.Úspěšnost disambiguace českých textů stochastickými metodami je tedyzatím dost nevalná. Jakým způsobem tedy morfologickou disambiguaci zlepšit- • to pokud možno výrazně?2,2.2 Pravidly řízená disambiguaceNa jaře roku 2000 se skupina počítačových lingvistů rozhodla slovnědruhovou• morfologickou disambiguaci radikálně zlepšit (srov. Oliva et al., 2000). Autoři(Karel Oliva, Milena Hnátková, Pavel Květoň a Vladimír pet<strong>ke</strong>vič) zvolili řešení,jež spočívá ve formulaci zcela exaktních kontextových syntaktických pravidel,která u daného slova buď určí správnou morfologickou interpretaci, popř . více17

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!