13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

morfologických kategorii); pokud si nečinime nároky na přesnost . je možnék podobnému závěru dojit daleko dříve . Na druhou stranu v~ak není moudréihned zavrhovat značkování korpusu jenom proto, že jsou v něm chyby. V případěslov s mnoha různými tvary s nizkou homonymií (!l8příklad sloveso být). Te značkování korpusu neocenitelné. O tomto poměrně obtížném případu navícnelze říci. že v současnosti používaný statistický přístup k taggovánía lemmatizaci zcela selhal, chyby nebyly nijak zvláff významné. Co říci závěremtéto úvahy? Snad jen to, že korpus je pouhým (vice či méně dokonalým)nástrojem, který je nutné umět použivat; myslet a vyvozovat závěry musí zasejenom člověk , to za něj stroj (doulejme, že ani v budoucnu) neudělá .ll. Vyberte nejčastěji! ženské jméno:Pořadí Frekvence Pořadí FSOT FrekvenceSYN2000 SYN2000 FSOTMarie 9070 Blažena 492Jana 7679 Stázka 465Eva 5839 Marie 250Anna 4260 Jarmila 196Hana 3934 Ol~a 190Helena 3343 Marta 177Věra 3325 Markétka 174Petra 3307 Kateřina 126Katenna 3218 Jarka 113Zuzana 3121 Tonička 84Homonymie některých tvarů jmen Jana a Petra s jejich mužskými protějškyJan a Petr byla podrobně rozebrána u předchoziho bodu. Také skutečné pořad iženských jmen zhruba odpovídá pořadi v tabulce (určenému lemmatizací), naprvních mistech se nic nezmění, pouze jméno Petra se vytratí z první desítky,protože jeho skutečná frekvence je niHí, než udává tabulka. Pro srovnání~vádíme ve vedlejšl tabulce nejčastější ženská jména podle FSOT. Na prvnípphled je patrný vliv výběru belelrie (vysoká frekvence jmen Blažena a Stázka).12. O které zemi se v korpusu nejvíce píše?ČR 46607USA 45576Německo 28744Rusko 20694" .104

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!