Počítačové zpracování přirozeného jazyka

More documents

Recommendations

Info

$TeX a LaTeX$

3 Data pro zpracování přirozeného jazyka – korpusy Jazyková data mají empirickou povahu, a proto je zjevné, že úspěšnost popisu přirozeného jazyka je do značné míry závislá na tom, jaký máme přístup k datům a v jaké podobě jsou nám jazyková data k dispozici. Protože většina dnes dostupných jazykových dat má podobu textů (psaných nebo písemně zachycených (transkribovaných) mluvených), je možnost mít je pohromadě v elektronické podobě – tato možnost je klíčová pro další rozvoj lingvistiky a zpracování přirozeného jazyka vůbec. Korpusová lingvistika v současnosti představuje novou větev lingvistiky, v níž se pracuje s korpusy uloženými v počítačích. To přirozeně znamená, že se v mnoha aspektech překrývá s počítačovou lingvistikou, z níž čerpá řadu postupů a technik. Výsledky získané těmito postupy brzy výrazně ovlivní nejen samu lingvistiku, v níž si jistě vynutí vznik nových, úplnějších a empiricky adekvátnějších gramatik (ve strojové i knižní podobě), ale i počítačové zpracování přirozeného jazyka jako celek – už dnes se na základě korpusových dat budují nové a přesnější elektronické slovníky a robustní počítačové gramatiky. Korpusy jsou dnes v jazykovém inženýrství východiskem pro realistický základní výzkum ve formě relativně blízké přírodním vědám. Není těžké vidět, že symbióza korpusové lingvistiky s počítačovou má i jasné metodologické důsledky: lingvista dnes může dělat věci, které byly dříve nepředstavitelné ať už pro svou časovou náročnost a pracnost (viz např. relativně jednoduchý úkol setřídit manuálně třeba 250 tisíc slovníkových hesel) nebo skutečnou složitost (např. nalezení všech výskytů předložky na spolu se substantivem v akuzativu v textech o rozsahu 100 mil. slovních tvarů – spojení jako na stůl, na týden). Jedním z důsledků je i to, že lze systematičtějí využívat statistických a pravděpodobnostních přístupů, které by se bez počítačů na velké soubory nedaly aplikovat. Korpusy nejsou určeny jen pro lingvisty – přirozený jazyk je prostředkem komunikace pro všechny: proto jejich budování není jen záležitostí lingvistů a jazykových inženýrů. V našich podmínkách lze konstatovat, že pochopení tohoto prostého faktu se pozitivně projevilo tím, že díky přispění GA ČR se v rámci komplexního grantového projektu K214 (Čeština ve věku počítačů začal budovat Český národní korpus čítající aktuálně cca 200 mil. českých slovních tvarů. Vedle toho byl v rámci projektu VS97028 (Program 250 – podpora vý- 19
zkumu na VŠ, MŠMT ČR) na FI MU vybudován další samostatný obecný korpus ESO, který před rokem obsahoval cca 160 mil. českých slovních tvarů a nedávno byl rozšířen na korpus čítající zhruba 650 mil. českých slovních tvarů – aktuálně je největším současným českým instalovaným korpusem. V tomto ohledu jde o jasně interdisciplinární záležitosti, neboť korpusová data jsou použitelná pro odborníky v řadě disciplin: • sociology a sociolingvisty, • psychology, • odborníky v oblasti masové komunikace a médií (reklama), • lexikografy a lingvisty, překladatele (strojový překlad), • výzkumné pracovníky v oblasti umělé inteligence (porozumění přirozenému jazyku, reprezentace znalostí, robotika aj.), • tvůrce učebnic a tzv. referenčních příruček (gramatiky, slovníky). V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný (Čermák, 1997). Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů: 1. jazyková data jsou v korpusu uložena ve své přirozenbé textové podobě, proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generalizace, 2. velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít – třeba i náhodou – k převaze okrajových jevů nad základními a typickými, 3. velký rozsah dat v korpusu je podmínkou dostatečné reprezentativnosti, což např. při budování slovníků vůbec nemusí být jednoduchá záležitost:to lze ukázat na vztazích mezi pojmy: token (výskyt), typ a lemma. Token chápeme jako výskyt slovního tvaru v korpusu, typ – slovní tvar jako takový a lemma je základní tvar pro nějakou skupinu tvarů (např. nominativ u substantiv nebo infinitiv u sloves). Uveďme proporce těchto entit v Britském národním korpusu (dále BNC pro psaný jazyk: 20
Page 1 and 2: Fakulta informatiky Masarykovy univ
Page 3 and 4: 5.7 Nekontextové gramatiky a DC gr
Page 5 and 6: 1 Předmluva Předkládaná práce
Page 7 and 8: a na něj navazující korpus ALL o
Page 9 and 10: • PJ je podstatnou složkou naše
Page 11 and 12: - vyhledávací (fulltextové) prog
Page 13 and 14: flektivních jazycích, jako je če
Page 15 and 16: 2. reprezentace by měla zachycovat
Page 17 and 18: nost pracovat se závislostními st
Page 19: (9) Návštěvy muzeí jsou únavn
Page 23 and 24: - někteří pracovníci v Ústavu
Page 25 and 26: S rostoucím počtem korpusů vznik
Page 27 and 28: 3.4 Vnitřní struktura korpusu Vni
Page 29 and 30: vlastnosti cqp a gcqp, ale navíc m
Page 31 and 32: tiny se jako vhodnější jeví mor
Page 33 and 34: 3.9 Syntaktické značkování Zna
Page 35 and 36: - značkovače - gramatické, synta
Page 37 and 38: - slovotvorných hnízdech a čeled
Page 39 and 40: -qua1- květin-ov-ý -qua2- kve-t-o
Page 41 and 42: vlastnosti objektů označovaných
Page 43 and 44: Hajič (2000). k1, "subs", substant
Page 45 and 46: "mod"- modální=D, "proč" - pří
Page 47 and 48: c: 4,6 pád k8 spojka "že" k: 8 sp
Page 49 and 50: 2. krok: prohledávání kmenů, vy
Page 51 and 52: • samostatně pro gramatické zna
Page 53 and 54: - Požadavek přirozenosti vede lin
Page 55 and 56: např. práci Novotného (1988) a t
Page 57 and 58: kde γ a δ jsou libovolné řetěz
Page 59 and 60: 5.4.2 Typ 1 Gramatika typu 1 obsahu
Page 61 and 62: že jednotlivé neterminální symb
Page 63 and 64: 5.8 Valenční rámce a jejich zač
Page 65 and 66: můžeme symbolicky reprezentovat v
Page 67 and 68: pohybu, u nichž lokální modifik
Page 69 and 70: finice, můžeme vidět, že jednot
Page 71 and 72:
## vyrovnávat, činit rovným, pla
Page 73 and 74:
5.10 Východiska pro třídy sloves
Page 75 and 76:
převažuje dativ přímý. Tabulka
Page 77 and 78:
akuzativ přímý - předložkový
Page 79 and 80:
5.11 Desambiguace - metody 1. techn
Page 81 and 82:
- stavy - události - nejčastěji
Page 83 and 84:
- v prostoru: pohybovat se, cestova
Page 85 and 86:
24. Slovesa přání (wish, desire)
Page 87 and 88:
typu slovníku obecně (instalace n
Page 89 and 90:
- vícejazyčné, překladové (Č-
Page 91 and 92:
vznikl v Evropě. Za zmínku stojí
Page 93 and 94:
generuje hierarchickou (stromovou)
Page 95 and 96:
6.4.7 Slovesa Ve WordNetu je nyní
Page 97 and 98:
takovými se neudržují žádné v
Page 99 and 100:
6.6 Budování české slovní sít
Page 101 and 102:
(f) třídění synsetů podle slov
Page 103 and 104:
7.2 Formální aparát pro SR - cha
Page 105 and 106:
(16’) Ml(Petr, Pavel), takže se
Page 107 and 108:
1. Mějme následující českou v
Page 109 and 110:
Ať už zvolíme přístup rule-to-
Page 111 and 112:
vřená. V tom případě lze celou
Page 113 and 114:
6. zájmena, resp. koncovky verba f
Page 115 and 116:
yla víceznačná, mělo by smysl z
Page 117 and 118:
Marie má dvě děti, kluka a holku
Page 119 and 120:
Můžeme tedy říci, že mimo to,
Page 121 and 122:
daná komunikace probíhá. Na rozd
Page 123 and 124:
texty (v aplikaci použitelný nap
Page 125 and 126:
Gazdar, G., Mellish, Ch., Natural L
Page 127 and 128:
Pala, K., Osolsobě, Franc, S., Če
Page 129:
Svozilová N. a kol. Valenční slo
show all

Počítačové zpracování přirozeného jazyka

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?