Počítačové zpracování přirozeného jazyka

More documents

Recommendations

Info

$TeX a LaTeX$

2. periodika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20-30% 3. brožury, letáčky, příručky, reklamy . . . . . . . . . . . . . . . . . . . . . . . 5-10% 4. dopisy, memoranda, zprávy, eseje . . . . . . . . . . . . . . . . . . . . . . . . 5-10% 5. mluvené texty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-10% • je synchronní, tedy obsahuje výhradně texty ne starší než např. od r. 1987, a vždy se uvádí datum, kdy byl text publikován poprvé, • je obecný čili není specificky orientován na nějakou konkrétní oblast nebo žánr a zahrnuje vzorky od všech věkových skupin, viz výše, • je jednojazyčný – obsahuje jen vzorky pocházející od anglických (českých,...) mluvčích. • jsou zavedeny klasifikační rysy, které nesledují vyhraněné proporce a jsou orientovány na pozdější využití korpusu (lze podle nich třídit a vyhledávat v celém korpusu): 1. identifikátor vzorku 2. rozsah vzorku (počet slov), začátek a konec vzorku 3. rozsah textu příslušného typu (počet slov) 4. kompozice textu (hladký, složený, sbírka) 5. standardní bibliografický odkaz 6. datum vzniku 7. předmětná oblast 8. úroveň složitosti textu 9. autorství (individuální, společné, institucionální, neznámé) 10. pohlaví autora 11. věková skupina autora 12. etnická skupina autora 13. autorovo bydliště 14. věk cílové skupiny (na kterou je text orientován) 25
3.4 Vnitřní struktura korpusu Vnitřní struktura korpusu 1) atributy poziční 2) atributy strukturní (hranice vět, odstavců) slovo lemma gr.značky sém.značky ženu hnát/žena k5/k1gFnSc1 HUM+FEM/POHYB ovce ovce k1gFnPc4 ANIM na na k7c4 DIRECT pastvu pastva k1gFnSc4 LOC 3.5 Korpusové nástroje Problematika korpusových nástrojů je rozsáhlá a představuje pole, na kterém se setkávají požadavky uživatelů (hlavně lingvistů a lexikografů) s přístupy programátorů. Výsledkem je konkrétní programové vybavení umožňující získávat z korpusů ”poklady”, které jsou v nich skryty. Základem jsou obvykle konkordanční programy (např.MicroOCP), které třídí a počítají objekty nalezené v korpusu, což jsou v syrovém korpusu slovní tvary, interpunkce, případně další znaky (vyznačující třeba hranice vět, odstavců aj.) – ty jsou typicky součástí SGML. Pokud není do korpusu nějak zavedena další informace, konkordanční program nemůže rozlišit určité víceznačnosti (homonymie), např. v češtině mezi tvary ženu (ak. sg. substantiva žena) a ženu (1.os.sg.prés. slovesa hnát), nemluvě již o tom, že tvar hnát může být také tvarem substantiva mužského rodu. Proto ke korpusovým nástrojům patří i programy, které představují svého druhu gramatické analyzátory: orientují se na morfologii, syntax a v poslední době i na sémantiku. V současné teminologii se obvykle mluví o značkování (anotování, tagging) a o značkovacích programech (taggers) různé úrovně. Níže uvedené taggery obvykle pracují tak, že se snaží každému slovu či slovnímu tvaru v korpusu přiřadit jeho gramatickou značku, tj. jeho slovní druh včetně relevantních gramatických kategorií. Programy uvedené dále buď s těmito analyzátory spolupracují, nebo je přímo obsahují jako svou součást, nicméně pro přehlednost se o nich dále zmiňujeme zvlášť. Korpusové manažery Jako vhodný příklad může posloužit korpusový procesor manatee (viz též CQP), který se vyznačuje následujícími rysy (viz níže): 26
Page 1 and 2: Fakulta informatiky Masarykovy univ
Page 3 and 4: 5.7 Nekontextové gramatiky a DC gr
Page 5 and 6: 1 Předmluva Předkládaná práce
Page 7 and 8: a na něj navazující korpus ALL o
Page 9 and 10: • PJ je podstatnou složkou naše
Page 11 and 12: - vyhledávací (fulltextové) prog
Page 13 and 14: flektivních jazycích, jako je če
Page 15 and 16: 2. reprezentace by měla zachycovat
Page 17 and 18: nost pracovat se závislostními st
Page 19 and 20: (9) Návštěvy muzeí jsou únavn
Page 21 and 22: zkumu na VŠ, MŠMT ČR) na FI MU v
Page 23 and 24: - někteří pracovníci v Ústavu
Page 25: S rostoucím počtem korpusů vznik
Page 29 and 30: vlastnosti cqp a gcqp, ale navíc m
Page 31 and 32: tiny se jako vhodnější jeví mor
Page 33 and 34: 3.9 Syntaktické značkování Zna
Page 35 and 36: - značkovače - gramatické, synta
Page 37 and 38: - slovotvorných hnízdech a čeled
Page 39 and 40: -qua1- květin-ov-ý -qua2- kve-t-o
Page 41 and 42: vlastnosti objektů označovaných
Page 43 and 44: Hajič (2000). k1, "subs", substant
Page 45 and 46: "mod"- modální=D, "proč" - pří
Page 47 and 48: c: 4,6 pád k8 spojka "že" k: 8 sp
Page 49 and 50: 2. krok: prohledávání kmenů, vy
Page 51 and 52: • samostatně pro gramatické zna
Page 53 and 54: - Požadavek přirozenosti vede lin
Page 55 and 56: např. práci Novotného (1988) a t
Page 57 and 58: kde γ a δ jsou libovolné řetěz
Page 59 and 60: 5.4.2 Typ 1 Gramatika typu 1 obsahu
Page 61 and 62: že jednotlivé neterminální symb
Page 63 and 64: 5.8 Valenční rámce a jejich zač
Page 65 and 66: můžeme symbolicky reprezentovat v
Page 67 and 68: pohybu, u nichž lokální modifik
Page 69 and 70: finice, můžeme vidět, že jednot
Page 71 and 72: ## vyrovnávat, činit rovným, pla
Page 73 and 74: 5.10 Východiska pro třídy sloves
Page 75 and 76: převažuje dativ přímý. Tabulka
Page 77 and 78:
akuzativ přímý - předložkový
Page 79 and 80:
5.11 Desambiguace - metody 1. techn
Page 81 and 82:
- stavy - události - nejčastěji
Page 83 and 84:
- v prostoru: pohybovat se, cestova
Page 85 and 86:
24. Slovesa přání (wish, desire)
Page 87 and 88:
typu slovníku obecně (instalace n
Page 89 and 90:
- vícejazyčné, překladové (Č-
Page 91 and 92:
vznikl v Evropě. Za zmínku stojí
Page 93 and 94:
generuje hierarchickou (stromovou)
Page 95 and 96:
6.4.7 Slovesa Ve WordNetu je nyní
Page 97 and 98:
takovými se neudržují žádné v
Page 99 and 100:
6.6 Budování české slovní sít
Page 101 and 102:
(f) třídění synsetů podle slov
Page 103 and 104:
7.2 Formální aparát pro SR - cha
Page 105 and 106:
(16’) Ml(Petr, Pavel), takže se
Page 107 and 108:
1. Mějme následující českou v
Page 109 and 110:
Ať už zvolíme přístup rule-to-
Page 111 and 112:
vřená. V tom případě lze celou
Page 113 and 114:
6. zájmena, resp. koncovky verba f
Page 115 and 116:
yla víceznačná, mělo by smysl z
Page 117 and 118:
Marie má dvě děti, kluka a holku
Page 119 and 120:
Můžeme tedy říci, že mimo to,
Page 121 and 122:
daná komunikace probíhá. Na rozd
Page 123 and 124:
texty (v aplikaci použitelný nap
Page 125 and 126:
Gazdar, G., Mellish, Ch., Natural L
Page 127 and 128:
Pala, K., Osolsobě, Franc, S., Če
Page 129:
Svozilová N. a kol. Valenční slo
show all

Počítačové zpracování přirozeného jazyka

Create successful ePaper yourself

Delete template?

Save as template?