Počítačové zpracování přirozeného jazyka

More documents

Recommendations

Info

$TeX a LaTeX$

3.8 Morfologické (gramatické) značkování V jazycích, jako je čeština, představuje morfologická analýza samostatný a komplikovaný problém, který se řeší budováním samostatných morfologických analyzátorů (lemmatizátorů) – pro češtinu se v současnosti ve výzkumu používají dva: ajka (Osolsobě, 1996, Sedláček, 1999) a Hajičův (Hajič, 2000, viz WWW-stránky na MFF UK). Konkrétně v LZPJ na FI MU se pracuje s morfologickým analyzátorem a lemmatizátorem ajka, jenž se dále obohacuje a rozvíjí (Sedláček, teze DP, 2001). 1. popis ajky a její činnosti: ukázat interaktivní i dávkové použití Příklad standardního výstupu z programu ajka ve formě tzv. vertikálu (včetně víceznačných tagů): Václav Václav k1gMnSc1 Havel Havel k1gMnSc1 přišel přijít k5eApMnStMmPaP,k5eApInStMmPaP naopak naopak k6xMeA s s k7c7 vlastním vlastní k2eAgMnSc67d1,k2eAgXnPc3d1,k2eAgUnSc67d1 vlastnit k5eAp1nStPmIaI volebním volební k2eAgMnSc67d1,k2eAgXnPc3d1,k2eAgUnSc67d1 programem program k1gInSc7 , který který k3xQgMnSc15,k3xQgInSc145 nikomu nikdo k3xNnSc3 neubližuje ubližovat k5eNpMnStPmTaI,k5eNp3nStPmIaI . 2. morfologická analýza pro češtinu – její principy 3. soubor značek – jeho popis 4. úspěšnost ajky, typy chyb 5. problém víceznačnosti a desambiguace 31
3.9 Syntaktické značkování Značkování na úrovni vyšší než slovnědruhové, tj. na rovině syntaktické, lze najít např. v London-Lund Corpusu (Svartvik, 1990). Vznikly již syntakticky analyzované subkorpusy známé jako stromové banky (treebanks), byly však vytvořeny jen z podčástí korpusů. I tak jde o texty v rozsahu několika miliónů slov a o práci, která např. v UCREL zabrala kolem 5 let. Nedávný výzkum na LOB Corpusu však vedl k technice zjednodušené syntaktické analýzy známé jako skeletonová analýza, kterou lidští operátoři mohou provádět poměrně rychle (Leech and Garside, 1991). Pražský závislostní korpus byl celý vytvořen manuálně. Stručně o něm níže – viz CD publikované v r. 2001. Stromové banky (treebanks) Jsou to textové soubory tvořené větami, u nichž je vyznačena syntaktická struktura, např. ve tvaru syntaktického (složkového) stromu (ohodnoceného uzávorkování). (1) Věděl jsem, že přijde a že mi dá pusu. (1a) (Věděl jsem, (že (přijde)) a (že (mi (dá pusu)))). Způsob analýzy je dán nějakou předem danou gramatikou, nějakým schématem analýzy, které je návodem, jak analyzovat věty. Musí jít o schéma, které se postupně a inkrementálně doplňuje o případy, které se předtím nevyskytly. Proces je kontinuálně inkrementální a sotva kdy budeme moci tvrdit, že jsme dospěli k úplné gramatice daného <strong>jazyka</strong>. Je-li však stromová banka vytvořena, lze z ní automaticky odvodit např. frázovou (nekontextovou) gramatiku, v níž minimální podstromy interpretujeme jako nekontextová pravidla. Taková gramatika je zárodkem probabilistické frázové gramatiky, protože jednotlivá pravidla se ve výchozím korpusu vyskytují s určitými četnostmi, které lze považovat za první aproximaci pravděpodobností, s nimiž se taková pravidla mohou vyskytovat v budoucím textu podobného typu. Pražský závislostní stromový korpus Pro češtinu je nyní k dispozici pražský závislostní stromový korpus (Prague Dependency Tree Bank), vybudovaný skupinou prof. Hajičové na MFF UK a čítající cca 100 000 vět (viz PDTB CD ROM, 2001). 3.10 Situace v češtině Závěrem uveďme základní informace o tom, jak vypadá situace pro češtinu. Na podzim roku 1994 byl na FF UK založen Ústav českého národního kor- 32
Page 1 and 2: Fakulta informatiky Masarykovy univ
Page 3 and 4: 5.7 Nekontextové gramatiky a DC gr
Page 5 and 6: 1 Předmluva Předkládaná práce
Page 7 and 8: a na něj navazující korpus ALL o
Page 9 and 10: • PJ je podstatnou složkou naše
Page 11 and 12: - vyhledávací (fulltextové) prog
Page 13 and 14: flektivních jazycích, jako je če
Page 15 and 16: 2. reprezentace by měla zachycovat
Page 17 and 18: nost pracovat se závislostními st
Page 19 and 20: (9) Návštěvy muzeí jsou únavn
Page 21 and 22: zkumu na VŠ, MŠMT ČR) na FI MU v
Page 23 and 24: - někteří pracovníci v Ústavu
Page 25 and 26: S rostoucím počtem korpusů vznik
Page 27 and 28: 3.4 Vnitřní struktura korpusu Vni
Page 29 and 30: vlastnosti cqp a gcqp, ale navíc m
Page 31: tiny se jako vhodnější jeví mor
Page 35 and 36: - značkovače - gramatické, synta
Page 37 and 38: - slovotvorných hnízdech a čeled
Page 39 and 40: -qua1- květin-ov-ý -qua2- kve-t-o
Page 41 and 42: vlastnosti objektů označovaných
Page 43 and 44: Hajič (2000). k1, "subs", substant
Page 45 and 46: "mod"- modální=D, "proč" - pří
Page 47 and 48: c: 4,6 pád k8 spojka "že" k: 8 sp
Page 49 and 50: 2. krok: prohledávání kmenů, vy
Page 51 and 52: • samostatně pro gramatické zna
Page 53 and 54: - Požadavek přirozenosti vede lin
Page 55 and 56: např. práci Novotného (1988) a t
Page 57 and 58: kde γ a δ jsou libovolné řetěz
Page 59 and 60: 5.4.2 Typ 1 Gramatika typu 1 obsahu
Page 61 and 62: že jednotlivé neterminální symb
Page 63 and 64: 5.8 Valenční rámce a jejich zač
Page 65 and 66: můžeme symbolicky reprezentovat v
Page 67 and 68: pohybu, u nichž lokální modifik
Page 69 and 70: finice, můžeme vidět, že jednot
Page 71 and 72: ## vyrovnávat, činit rovným, pla
Page 73 and 74: 5.10 Východiska pro třídy sloves
Page 75 and 76: převažuje dativ přímý. Tabulka
Page 77 and 78: akuzativ přímý - předložkový
Page 79 and 80: 5.11 Desambiguace - metody 1. techn
Page 81 and 82: - stavy - události - nejčastěji
Page 83 and 84:
- v prostoru: pohybovat se, cestova
Page 85 and 86:
24. Slovesa přání (wish, desire)
Page 87 and 88:
typu slovníku obecně (instalace n
Page 89 and 90:
- vícejazyčné, překladové (Č-
Page 91 and 92:
vznikl v Evropě. Za zmínku stojí
Page 93 and 94:
generuje hierarchickou (stromovou)
Page 95 and 96:
6.4.7 Slovesa Ve WordNetu je nyní
Page 97 and 98:
takovými se neudržují žádné v
Page 99 and 100:
6.6 Budování české slovní sít
Page 101 and 102:
(f) třídění synsetů podle slov
Page 103 and 104:
7.2 Formální aparát pro SR - cha
Page 105 and 106:
(16’) Ml(Petr, Pavel), takže se
Page 107 and 108:
1. Mějme následující českou v
Page 109 and 110:
Ať už zvolíme přístup rule-to-
Page 111 and 112:
vřená. V tom případě lze celou
Page 113 and 114:
6. zájmena, resp. koncovky verba f
Page 115 and 116:
yla víceznačná, mělo by smysl z
Page 117 and 118:
Marie má dvě děti, kluka a holku
Page 119 and 120:
Můžeme tedy říci, že mimo to,
Page 121 and 122:
daná komunikace probíhá. Na rozd
Page 123 and 124:
texty (v aplikaci použitelný nap
Page 125 and 126:
Gazdar, G., Mellish, Ch., Natural L
Page 127 and 128:
Pala, K., Osolsobě, Franc, S., Če
Page 129:
Svozilová N. a kol. Valenční slo
show all

Počítačové zpracování přirozeného jazyka

Create successful ePaper yourself

Delete template?

Save as template?