13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

částice 0,55 %citoslovce 0,03 % 3391Pokud sečteme všechny frekvence výskytů v korpusu, dostaneme se k číslu97775014 (ti. 97,78 %). Zbytek do 100 miliónů, přesněji řečeno 2 286 371výskytů, tvoří slovní druhy, které z nejrůznějších důvodů (málo frekventovanáslova, vlastní jména, překlepy) nerozpoznal pro!\ram pro automatické přiřazovánílemmat a morfologických kategorii. K tomu je třeba ještě připočítat20 847 328 výskytů různých interpunkčních znamének, takže celkový početpozic v korpusu SYN2000 je 120908713. Pozicí zde rozumíme libovolnýřetězec znaků, který lze samostatně vyhledávat, tedy nejen všechna slova, alei čísla a interpunkční znaménka. Pokud jste někdy zkusili v našem korpusovémmanažeru C;CQP zadat v menu volbu Korpus> Souhrnné informace a zmátlvás udávaný počet pozic (120908 713), vězte, žeje všechno v nejlepším pořádku- skutečných slov je v korpusu SYN2000 skutečně "pouze" sto miliónů.6. Seřad'te interpunkční znaménka podle frekvence (od nejčastějšíhok nejméně častému):čárka 7647971tečka 7201 853uvozovky 1530 104pomlčka 1220801dvojtečka 841 067uzavírací závorka 800972otevírací závorka 769 185otazník 260904vykřičník 134301lomítko 127555Jak již bylo řečeno výše, všech interpunkčních znamének je v korpusuSYN2000 cel<strong>ke</strong>m něco přes 20 miliónů, dá se tedy říci, že zhruba za každýmpátým slovním tvarem následuje interpunkční znaménko.7. Určete pořadí nejčastějších předložek podle frekvence:v/ve 2525070na 1664860s/se 886521zlze 861027100

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!