Počítačové zpracování přirozeného jazyka

More documents

Recommendations

Info

$TeX a LaTeX$

nezajímali a ani nezajímají o to, co již bylo vytvořeno a je nyní k dispozici v oblasti tvoření slov. Přitom výsledky již získané v oblasti tvoření slov jsou podle našeho názoru spolehlivější a méně arbitrární, protože se opírají o konkrétní slovotvorné procesy existující v jednotlivých přirozených jazycích. Jako příklad lze uvést zatím neexistující sémantickou síť, jejíž uzly budou tvořeny kořeny daného <strong>jazyka</strong>. Slovotvorba představuje v rámci morfologie samostatnou subdisciplinu a k jejímu algoritmickému popisu se teprve začíná přistupovat v základních obrysech. Jednou z prvních věcí potřebných v tomto ohledu pro češtinu je vytvoření tzv. derivačního slovníku, tj. slovníku, jehož základními položkami jsou kořeny českých slov plus morfémy, které se s kořeny mohou kombinovat. Předpokládaný počet slovních kořenů nebude pravděpodobně příliš velký, odhadem lze říci, že by se v češtině měl pohybovat kolem 12000 položek. Jakmile se podaří získat pokud možno úplný inventář českých kořenů, lze se pokusit o jejich seskupení do sémantické sítě, která může tvořit jádro lexikální databáze nového typu. V dalším se pokusíme naznačit, jak by mohla vypadat sémantická síť využívající přirozených sémantických vztahů existujících kolem jednotlivých kořenů a jejich derivátů tvořících útvary, jež jsou jinak známy pod termínem slovotvorná hnízda: boj- –act– boj-ova-t –loc– boj-iště –ag– boj-ov-ník –gen– boj-ovn-ice –ag2– boj-uj-ící –qua1– boj-ov-ný –qua2– boj-ovn-ost –qua3– boj-ov-ý prác/prac- –act– prac-ova-t –loc1– prac-ov-iště –loc2– prac-ov-na –ag1– prac-ov-ník –gen– prac-ovn-ice –ag2– prac-uj-ící –qua1– praco-ov-ní –qua2– prac-ov-i-t-ý –qua21 – prac-ov-i-t-ost kve/kvé/kvě- –act– kvé-s-t –ag– kvě-t květ-ina květin-ář –loc1– květin-áč –loc2– květin-ářství 37
–qua1– květin-ov-ý –qua2– kve-t-ouc-í květen-ství Dané příklady naznačují, že slovotvorná hnízda jsou dostatečně pravidelná a jejich vnitřní struktura je evidentně determinována sémantickými typy (třídy), k nimž jednotlivé kmeny/kořeny patří. Z příkladů vysvítá, že tyto typy mají úzký vztah ke slovním druhům a k poměrně obecně pojatým sémantickým kategoriím jako je činnost, děj, bytost, událost, proces, nástroj či entita. Podle našeho názoru lze pro stanovení těchto kategorií využít vrcholové ontologie (EWN TO), která je takovými kategoriemi tvořena, a její struktura umožňuje zmíněné sémantické typy/třídy automaticky získat z WN včetně seznamů lemmat, která pod tyto jednotlivé sémantické příznaky spadají. Jak lze dále vidět z uvedených příkladů, mezi sémantickou povahou kmenů/kořenů (resp. jejich typy/třídami danými naznačenými sémantickými příznaky) a jednotlivými typy hnízd existují poměrně pravidelné vztahy. tj. podle sémantického typu kmene/kořene lze celkem spolehlivě predikovat typ hnízda a jeho vnitřní strukturu. Vnitřní struktura hnízd je dobře signalizována i formálně pomocí sufixů a lze ji reprezentovat jako samostatné sémantické podsítě (grafy), v nichž uzly odpovídají jednotlivým derivovaným lemmatům a hrany jsou ohodnoceny sémantickými značkami jako act(ion), ag(ens), loc(us), qua(lity) a dalšími. Předběžně odhadujeme, že bychom mohli vystačit s inventářem značek čítajícím asi 10-12 jednotek podobných klasickým sémantickými rolím (ILR v EWN, viz též Fillmore, Sgall et al). Na rozdíl od ILR v EWN, které jsou definovány jako striktně binární, dostáváme zde bohatší síť vztahů, jež je spolehlivě signalizována především formálně. Dále je vidět, že jednotlivé prvky hnízd mohou být vhodně spojeny s jednotlivými synsety ve WN. Tak lze získat novou, bohatší a hierarchizovanou sémantickou síť, na níž lze založit lexikální databázi kvalitativně nového typu, která bude poskytovat úplnější a lépe strukturovaná data pro NLP. Lze pokusit i o zachycení hnízd tvořených prefixací, je však vidět, že v následujícím příkladě situace má struktura hnízda jinou povahu než v předchozích případech. U drž-e-t totiž nejde o kmen/kořen, nýbrž o konkrétní sloveso, u něhož je potřeba přihlížet k jeho jednotlivým dobře rozlišitelným významům. drž- –act– drž-e-t do-drž-e-t (slib) 38
Page 1 and 2: Fakulta informatiky Masarykovy univ
Page 3 and 4: 5.7 Nekontextové gramatiky a DC gr
Page 5 and 6: 1 Předmluva Předkládaná práce
Page 7 and 8: a na něj navazující korpus ALL o
Page 9 and 10: • PJ je podstatnou složkou naše
Page 11 and 12: - vyhledávací (fulltextové) prog
Page 13 and 14: flektivních jazycích, jako je če
Page 15 and 16: 2. reprezentace by měla zachycovat
Page 17 and 18: nost pracovat se závislostními st
Page 19 and 20: (9) Návštěvy muzeí jsou únavn
Page 21 and 22: zkumu na VŠ, MŠMT ČR) na FI MU v
Page 23 and 24: - někteří pracovníci v Ústavu
Page 25 and 26: S rostoucím počtem korpusů vznik
Page 27 and 28: 3.4 Vnitřní struktura korpusu Vni
Page 29 and 30: vlastnosti cqp a gcqp, ale navíc m
Page 31 and 32: tiny se jako vhodnější jeví mor
Page 33 and 34: 3.9 Syntaktické značkování Zna
Page 35 and 36: - značkovače - gramatické, synta
Page 37: - slovotvorných hnízdech a čeled
Page 41 and 42: vlastnosti objektů označovaných
Page 43 and 44: Hajič (2000). k1, "subs", substant
Page 45 and 46: "mod"- modální=D, "proč" - pří
Page 47 and 48: c: 4,6 pád k8 spojka "že" k: 8 sp
Page 49 and 50: 2. krok: prohledávání kmenů, vy
Page 51 and 52: • samostatně pro gramatické zna
Page 53 and 54: - Požadavek přirozenosti vede lin
Page 55 and 56: např. práci Novotného (1988) a t
Page 57 and 58: kde γ a δ jsou libovolné řetěz
Page 59 and 60: 5.4.2 Typ 1 Gramatika typu 1 obsahu
Page 61 and 62: že jednotlivé neterminální symb
Page 63 and 64: 5.8 Valenční rámce a jejich zač
Page 65 and 66: můžeme symbolicky reprezentovat v
Page 67 and 68: pohybu, u nichž lokální modifik
Page 69 and 70: finice, můžeme vidět, že jednot
Page 71 and 72: ## vyrovnávat, činit rovným, pla
Page 73 and 74: 5.10 Východiska pro třídy sloves
Page 75 and 76: převažuje dativ přímý. Tabulka
Page 77 and 78: akuzativ přímý - předložkový
Page 79 and 80: 5.11 Desambiguace - metody 1. techn
Page 81 and 82: - stavy - události - nejčastěji
Page 83 and 84: - v prostoru: pohybovat se, cestova
Page 85 and 86: 24. Slovesa přání (wish, desire)
Page 87 and 88: typu slovníku obecně (instalace n
Page 89 and 90:
- vícejazyčné, překladové (Č-
Page 91 and 92:
vznikl v Evropě. Za zmínku stojí
Page 93 and 94:
generuje hierarchickou (stromovou)
Page 95 and 96:
6.4.7 Slovesa Ve WordNetu je nyní
Page 97 and 98:
takovými se neudržují žádné v
Page 99 and 100:
6.6 Budování české slovní sít
Page 101 and 102:
(f) třídění synsetů podle slov
Page 103 and 104:
7.2 Formální aparát pro SR - cha
Page 105 and 106:
(16’) Ml(Petr, Pavel), takže se
Page 107 and 108:
1. Mějme následující českou v
Page 109 and 110:
Ať už zvolíme přístup rule-to-
Page 111 and 112:
vřená. V tom případě lze celou
Page 113 and 114:
6. zájmena, resp. koncovky verba f
Page 115 and 116:
yla víceznačná, mělo by smysl z
Page 117 and 118:
Marie má dvě děti, kluka a holku
Page 119 and 120:
Můžeme tedy říci, že mimo to,
Page 121 and 122:
daná komunikace probíhá. Na rozd
Page 123 and 124:
texty (v aplikaci použitelný nap
Page 125 and 126:
Gazdar, G., Mellish, Ch., Natural L
Page 127 and 128:
Pala, K., Osolsobě, Franc, S., Če
Page 129:
Svozilová N. a kol. Valenční slo
show all

Počítačové zpracování přirozeného jazyka

Create successful ePaper yourself

Delete template?

Save as template?