13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

a v jazyce se s nimi prakticky nesetkáme. Následujicí tabulka ukazuje v prvnímčíselném sloupci celkový počet výskytů každého tvaru (frekvence tvaru), druhýsloupec udává, kolika z nich bylo jako lemma přiřazeno slovo Jan (# lemmaJan), třetí sloupec vyjadřuje tento poměr v procentech (% lemma Jan) a konečněčtvrtý sloupec ukazuje, jaký by tento poměr m ě l být, pokud by bylo lemmapii řazeno správně (% skutečnost). Zatímco čisla v prvních tlech čiselnýchsloupcích jsou přesná (přesněji řečeno ve třetím jsou zaokrouhlená), k procentůmve čtvrtém sloupci dojdeme ruční kontrolou dostatečně velkého náhodnéhovzorku, který nám vybere korpusový manažer.Tvar Frekvence # lemma Jan % lemma Jan % s kutečnosttvaruI. Jan 25951 25833 100 % 100 %2. Jana 14345 9273 65% 64%3. Janu 1249 833 67% 80%4. Jani II II 100% 0%5. Jany 732 2 0% 0%6. Janů 216 216 100% 8%7. Jane 997 997 100% 6%Vidíme, že v ládcích I. 2 a 5 odpovídá očekávaný počet výskytů vý sledkůmlemmatizace a ve 4. ládkuje rozdíl v absolutních číslec h zanedbatelný. Zbývajítedy řádky číslo 3, 6 a 7. Ve 3. ládkuje rozdíl mezi očekávaným počtem výskytůa výsled<strong>ke</strong>m lemmatizace 13 % z I 249, tedy je tleba k celkovému počtu výskytůlemmatu Jan pličíst asi 160 výskytů , ozn ačených jako femininum. Naopak podle6. řádku odečteme 92 % z 216, čili asi 200, a podle 7. ládku dokonce 94 %z 997, tedy asi 940. Vidíme tedy, že skutečný počet výskytů lemmatu Jan jezhruba o 1000 nižší, ne,ž kolik ukazuje současná lemmati7.3ce. Rozdíl to alenení velký, jde plibližně o 2,5 %, a na celkovém pořadí se nic nezmění,"nedožene-Ii" ovšem lemma Jan nějaké jiné, s původně nižší frekvenci. Podlenašich propočtů se však pořadí lemmat mužských jmen nezmění, a proto jejmůžeme považovat za platné.Z výše uvedeného je patrné, že při práci s korpusem je třeba vědět něcoo způsobu, jak se korpus tvoři, sjakými problémy se jeho tvorba potýká a bráttyto věci v úvahu. Není vždy dobré pouze bezmyšlenkovitě přebírat čísla čikontexty bez jejich ověřování jinými metodami. Pro určení pořadijednotlivýchjmen podle frekvence neni samozřejmě nutné složitě provádět takovéto výpočty,které navíc znamenají v podstatě ignorování lemmatizace a taggováni (plilazení103

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!