Počítačové zpracování přirozeného jazyka

More documents

Recommendations

Info

$TeX a LaTeX$

pusu, v němž se nyní buduje Český národní korpus – ČNK. Ke konci roku 1995 byl již k dispozici jeho základ, v němž bylo uloženo cca 30 000 000 slovních tvarů, a na konci r. 1996 již ČNK obsahoval téměř 100 mil. českých slovních tvarů. V r.1999 to už bylo cca 140 mil. a ke konci r.2000 lze počítat s 200 mil. slovních tvarů. Vedle ÚČNK se na této práci podílejí další pracoviště na UK, a to Ústav teoretické a komputační lingvistiky FF UK (ÚTKL), Ústav formální a aplikované lingvistiky MFF UK (ÚFAL), dále Ústav pro jazyk český AV ČR (ÚJČ) a v neposlední řadě i Ústav českého jazyka FF MU a Katedra informačních technologií na Fakultě informatiky MU. Na posledně jmenovaném pracovišti vznikla v r.1997 Laboratoř zpracování přirozeného jazyka (LZPJ), která paralelně buduje a udržuje korpusy českých textů, konkrétně korpus ESO, který v současnosti čítá kolem 160 mil. slovních tvarů, a dále plně gramaticky značkovaný korpus DESAM v rozsahu něco přes 1 mil. slovních tvarů. Tento korpus na rozdíl od pražských experimentů se stochastickým značkovačem J. Hajiče byl vytvořen převážně manuálně, ovšem míra úspěšnosti značkování v něm nyní dosahuje kolem 96%. 3.11 Struktura ČNK Popis, přístup Korpusy na FI MU, přístup k nim: PUBL, FIT, DESAM Poznámka: V květnu 96 byl GA ČR schválen komplexní grantový projekt Čeština ve věku počítačů ve výši cca 30 mil. Kč a s dobou trvání 6 let. Nositelkou grantu je prof. E. Hajičová z Ústavu formální a aplikované lingvistiky MFF UK a jeho hlavním cílem je: 1. dobudovat Český národní korpus tak, aby ke konci r. 2000 obsahoval cca 200 mil. českých slovních tvarů a byl přístupný pro lingvistickou i ostatní odbornou veřejnost (prostřednictvím Internetu). 2. gramaticky (slovní druhy a gramatické kategorie) označkovat cca 10 mil. slovních tvarů v rámci ČNK. 3. vytvořit základ stromové banky pro češtinu – min. v rozsahu 1 mil. slovních tvarů (Pražský závislostní korpus, PDTB). 4. vytvořit soubor potřebných korpusových nástrojů, tj.programové vybavení zahrnující: – manažery 33
– značkovače – gramatické, syntaktické, sémantické – desambiguátory – třídicí, konkordanční a konverzní programy. 5. přenést SSJČ na počítačová média (skenováním). 6. rozpracovat přípravu elektronické lexikální datové báze pro češtinu, která se stane východiskem pro budování nového velkého slovníku češtiny (primárně elektronického). Struktura textů ukládaných do korpusu se vyznačuje analyzátorem SGML. Pro gramatické značkování je v LZPJ k dispozici analyzátor a lemmatizátor (značkovač, tagger) ajka vytvořený v LZPJ na FI MU (Sedláček, Veber, 1999), který je dnes schopen pracovat se 150000 českých kmenů a dovede každému rozpoznanému slovnímu tvaru přiřadit jeho slovní druh(y) a odpovídající gramatické kategorie. Na rozdíl od pravděpodobnostně orientovaných analyzátorů pro angličtinu je ajka založena na úplné pravidlové morfologické analýze češtiny, proti které je podobná analýza angličtiny spíše dětskou hračkou. Podobné lemmatizující programy existují i pro slovenštinu a ruštinu a dále pro angličtinu, němčinu a francouzštinu (Osolsobě, Ševeček, 1995). Vedle již uvedených důvodů korpusy potřebujeme i s ohledem na náš budoucí vstup do EU: i když jednacím jazykem je zde do značné míry angličtina, překládání mezi jazyky uvnitř EU již teď je a hlavně v budoucnu bude nevyhnutelné. Vznikají proto paralelní korpusy využívané při budování systémů strojového překladu a tvorbě vícejazyčných a dnes už primárně elektronických slovníků. Už delší dobu je jasné, že EU počítá s Polskem, Maďarskem a Českou republikou jako prvními východoevropskými členy EU – odráží se to např. v tom, že se uskutečnily některé společné slovníkové projekty, jako např. CEGLEX (Central European Generic Lexicon) zahrnující primárně polštinu, maďarštinu a češtinu a také projekt, vněmž se budovala multilinguální lexikální databáze EuroWordNet 1 a 2, jež vedle šesti západoevropských jazyků obsahuje i češtinu a estonštinu. Český WordNet byl v rámci EuroWord- Netu 2 budován právě v LZPJ na půdě FI MU (Vossen et al, Final Report, CD ROM, 1999). 34
Page 1 and 2: Fakulta informatiky Masarykovy univ
Page 3 and 4: 5.7 Nekontextové gramatiky a DC gr
Page 5 and 6: 1 Předmluva Předkládaná práce
Page 7 and 8: a na něj navazující korpus ALL o
Page 9 and 10: • PJ je podstatnou složkou naše
Page 11 and 12: - vyhledávací (fulltextové) prog
Page 13 and 14: flektivních jazycích, jako je če
Page 15 and 16: 2. reprezentace by měla zachycovat
Page 17 and 18: nost pracovat se závislostními st
Page 19 and 20: (9) Návštěvy muzeí jsou únavn
Page 21 and 22: zkumu na VŠ, MŠMT ČR) na FI MU v
Page 23 and 24: - někteří pracovníci v Ústavu
Page 25 and 26: S rostoucím počtem korpusů vznik
Page 27 and 28: 3.4 Vnitřní struktura korpusu Vni
Page 29 and 30: vlastnosti cqp a gcqp, ale navíc m
Page 31 and 32: tiny se jako vhodnější jeví mor
Page 33: 3.9 Syntaktické značkování Zna
Page 37 and 38: - slovotvorných hnízdech a čeled
Page 39 and 40: -qua1- květin-ov-ý -qua2- kve-t-o
Page 41 and 42: vlastnosti objektů označovaných
Page 43 and 44: Hajič (2000). k1, "subs", substant
Page 45 and 46: "mod"- modální=D, "proč" - pří
Page 47 and 48: c: 4,6 pád k8 spojka "že" k: 8 sp
Page 49 and 50: 2. krok: prohledávání kmenů, vy
Page 51 and 52: • samostatně pro gramatické zna
Page 53 and 54: - Požadavek přirozenosti vede lin
Page 55 and 56: např. práci Novotného (1988) a t
Page 57 and 58: kde γ a δ jsou libovolné řetěz
Page 59 and 60: 5.4.2 Typ 1 Gramatika typu 1 obsahu
Page 61 and 62: že jednotlivé neterminální symb
Page 63 and 64: 5.8 Valenční rámce a jejich zač
Page 65 and 66: můžeme symbolicky reprezentovat v
Page 67 and 68: pohybu, u nichž lokální modifik
Page 69 and 70: finice, můžeme vidět, že jednot
Page 71 and 72: ## vyrovnávat, činit rovným, pla
Page 73 and 74: 5.10 Východiska pro třídy sloves
Page 75 and 76: převažuje dativ přímý. Tabulka
Page 77 and 78: akuzativ přímý - předložkový
Page 79 and 80: 5.11 Desambiguace - metody 1. techn
Page 81 and 82: - stavy - události - nejčastěji
Page 83 and 84: - v prostoru: pohybovat se, cestova
Page 85 and 86:
24. Slovesa přání (wish, desire)
Page 87 and 88:
typu slovníku obecně (instalace n
Page 89 and 90:
- vícejazyčné, překladové (Č-
Page 91 and 92:
vznikl v Evropě. Za zmínku stojí
Page 93 and 94:
generuje hierarchickou (stromovou)
Page 95 and 96:
6.4.7 Slovesa Ve WordNetu je nyní
Page 97 and 98:
takovými se neudržují žádné v
Page 99 and 100:
6.6 Budování české slovní sít
Page 101 and 102:
(f) třídění synsetů podle slov
Page 103 and 104:
7.2 Formální aparát pro SR - cha
Page 105 and 106:
(16’) Ml(Petr, Pavel), takže se
Page 107 and 108:
1. Mějme následující českou v
Page 109 and 110:
Ať už zvolíme přístup rule-to-
Page 111 and 112:
vřená. V tom případě lze celou
Page 113 and 114:
6. zájmena, resp. koncovky verba f
Page 115 and 116:
yla víceznačná, mělo by smysl z
Page 117 and 118:
Marie má dvě děti, kluka a holku
Page 119 and 120:
Můžeme tedy říci, že mimo to,
Page 121 and 122:
daná komunikace probíhá. Na rozd
Page 123 and 124:
texty (v aplikaci použitelný nap
Page 125 and 126:
Gazdar, G., Mellish, Ch., Natural L
Page 127 and 128:
Pala, K., Osolsobě, Franc, S., Če
Page 129:
Svozilová N. a kol. Valenční slo
show all

Počítačové zpracování přirozeného jazyka

Create successful ePaper yourself

Delete template?

Save as template?