23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

adverbiích a slovesech, ale i o substantivech a třeba spojkách a částicích.<br />

Celkově však toto členění nelze pokládat za konečné, a to jak pokud jde o<br />

slovní druhy samotné, tak i jejich subklasifikace. Příkladem mohou být podstatná<br />

jména, uvnitř nichž v každém případě dále potřebujeme rozlišit vlastní<br />

jména a příjmení, geografické názvy a názvy institucí a další – to však v níže<br />

uvedené klasifikaci není ještě systematicky začleněno.<br />

4.1 Přehled notace pro českou morfologii a syntax<br />

Notace, s níž budeme dále pracovat, je prakticky ve shodě se současnými gramatikami<br />

a teoretickými hledisky, která se v nich uplatňují (MČ II, Grepl,<br />

Karlík, 199?, Jelínek et al., 1995). Snažili jsme se navrhnout ji tak, aby byla<br />

teoreticky co nejneutrálnější, tj. aby byla pokud možno společným průnikem<br />

existujících gramatických teorií. Zkušenost ukazuje, že takto koncipovaná<br />

klasifikace je otevřená vůči budoucím modifikacím a její úpravy mají méně<br />

nepříjemné důsledky při změnách, které se musejí provádět, jestliže klasifikace<br />

je zabudována do příslušných počítačových programů a testována na<br />

rozsáhlých korpusových datech: teprve pak se vyjeví inkonzistence, které nebyly<br />

na první pohled patrné.<br />

Celkově je notace vybudována tak, že jednotlivé gramatické kategorie<br />

jsou interpretovány jako atributy, které podle povahy příslušných gramatických<br />

kategorií nabývají odpovídajících hodnot. Výchozími atributy jsou pak<br />

slovní druhy, nabývající podle daného slovního druhu hodnot 0-9 (viz níže) a<br />

hodnoty X (zkratky). Následuje výčet slovních druhů včetně podtříd a jejich<br />

standardních gramatických kategorií. Celkově má notace otevřený charakter,<br />

tj. lze ji podle potřeby doplňovat a rozšiřovat a zachovat přitom kompatibilitu<br />

s předchozím stavem. Současné úpravy představují především zavedení<br />

dalších zjemnění a subklasifikací, např. v rámci substantiv je potřeba počítat<br />

se subklasifikací u proprií (jména osob, názvy geografické, jména institucí,<br />

organizací a výrobků).<br />

Přehled gramatických značek pro:<br />

a) slovní druhy,<br />

b) jejich odpovídající gramatické kategorie:<br />

Princip konstrukce gramatické značky je dán následující konvencí: atributy<br />

jsou značeny malými písmeny, hodnoty atributů velkými písmeny nebo číslicemi.<br />

Značky tedy nejsou atomické objekty, mají svou pravidelnou strukturu,<br />

jíž se dále využívá např.v syntaktické analýze. Jak patrno, podoba značek<br />

není závislá na pozici, – pozičního principu používá u svých značek např. J.<br />

41

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!