pdf ke stažení - Ústav českého jazyka a teorie komunikace
pdf ke stažení - Ústav českého jazyka a teorie komunikace
pdf ke stažení - Ústav českého jazyka a teorie komunikace
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
morfologických kategorii); pokud si nečinime nároky na přesnost . je možnék podobnému závěru dojit daleko dříve . Na druhou stranu v~ak není moudréihned zavrhovat značkování korpusu jenom proto, že jsou v něm chyby. V případěslov s mnoha různými tvary s nizkou homonymií (!l8příklad sloveso být). Te značkování korpusu neocenitelné. O tomto poměrně obtížném případu navícnelze říci. že v současnosti používaný statistický přístup k taggovánía lemmatizaci zcela selhal, chyby nebyly nijak zvláff významné. Co říci závěremtéto úvahy? Snad jen to, že korpus je pouhým (vice či méně dokonalým)nástrojem, který je nutné umět použivat; myslet a vyvozovat závěry musí zasejenom člověk , to za něj stroj (doulejme, že ani v budoucnu) neudělá .ll. Vyberte nejčastěji! ženské jméno:Pořadí Frekvence Pořadí FSOT FrekvenceSYN2000 SYN2000 FSOTMarie 9070 Blažena 492Jana 7679 Stázka 465Eva 5839 Marie 250Anna 4260 Jarmila 196Hana 3934 Ol~a 190Helena 3343 Marta 177Věra 3325 Markétka 174Petra 3307 Kateřina 126Katenna 3218 Jarka 113Zuzana 3121 Tonička 84Homonymie některých tvarů jmen Jana a Petra s jejich mužskými protějškyJan a Petr byla podrobně rozebrána u předchoziho bodu. Také skutečné pořad iženských jmen zhruba odpovídá pořadi v tabulce (určenému lemmatizací), naprvních mistech se nic nezmění, pouze jméno Petra se vytratí z první desítky,protože jeho skutečná frekvence je niHí, než udává tabulka. Pro srovnání~vádíme ve vedlejšl tabulce nejčastější ženská jména podle FSOT. Na prvnípphled je patrný vliv výběru belelrie (vysoká frekvence jmen Blažena a Stázka).12. O které zemi se v korpusu nejvíce píše?ČR 46607USA 45576Německo 28744Rusko 20694" .104