Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
3.9 Syntaktické značkování<br />
Značkování na úrovni vyšší než slovnědruhové, tj. na rovině syntaktické, lze<br />
najít např. v London-Lund Corpusu (Svartvik, 1990). Vznikly již syntakticky<br />
analyzované subkorpusy známé jako stromové banky (treebanks), byly však<br />
vytvořeny jen z podčástí korpusů. I tak jde o texty v rozsahu několika miliónů<br />
slov a o práci, která např. v UCREL zabrala kolem 5 let. Nedávný výzkum na<br />
LOB Corpusu však vedl k technice zjednodušené syntaktické analýzy známé<br />
jako skeletonová analýza, kterou lidští operátoři mohou provádět poměrně<br />
rychle (Leech and Garside, 1991). Pražský závislostní korpus byl celý vytvořen<br />
manuálně. Stručně o něm níže – viz CD publikované v r. 2001.<br />
Stromové banky (treebanks)<br />
Jsou to textové soubory tvořené větami, u nichž je vyznačena syntaktická<br />
struktura, např. ve tvaru syntaktického (složkového) stromu (ohodnoceného<br />
uzávorkování).<br />
(1) Věděl jsem, že přijde a že mi dá pusu.<br />
(1a) (Věděl jsem, (že (přijde)) a (že (mi (dá pusu)))).<br />
Způsob analýzy je dán nějakou předem danou gramatikou, nějakým schématem<br />
analýzy, které je návodem, jak analyzovat věty. Musí jít o schéma, které<br />
se postupně a inkrementálně doplňuje o případy, které se předtím nevyskytly.<br />
Proces je kontinuálně inkrementální a sotva kdy budeme moci tvrdit, že jsme<br />
dospěli k úplné gramatice daného <strong>jazyka</strong>.<br />
Je-li však stromová banka vytvořena, lze z ní automaticky odvodit např.<br />
frázovou (nekontextovou) gramatiku, v níž minimální podstromy interpretujeme<br />
jako nekontextová pravidla. Taková gramatika je zárodkem probabilistické<br />
frázové gramatiky, protože jednotlivá pravidla se ve výchozím korpusu<br />
vyskytují s určitými četnostmi, které lze považovat za první aproximaci pravděpodobností,<br />
s nimiž se taková pravidla mohou vyskytovat v budoucím textu<br />
podobného typu.<br />
Pražský závislostní stromový korpus Pro češtinu je nyní k dispozici pražský<br />
závislostní stromový korpus (Prague Dependency Tree Bank), vybudovaný<br />
skupinou prof. Hajičové na MFF UK a čítající cca 100 000 vět (viz PDTB<br />
CD ROM, 2001).<br />
3.10 Situace v češtině<br />
Závěrem uveďme základní informace o tom, jak vypadá situace pro češtinu.<br />
Na podzim roku 1994 byl na FF UK založen Ústav českého národního kor-<br />
32