23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.9 Syntaktické značkování<br />

Značkování na úrovni vyšší než slovnědruhové, tj. na rovině syntaktické, lze<br />

najít např. v London-Lund Corpusu (Svartvik, 1990). Vznikly již syntakticky<br />

analyzované subkorpusy známé jako stromové banky (treebanks), byly však<br />

vytvořeny jen z podčástí korpusů. I tak jde o texty v rozsahu několika miliónů<br />

slov a o práci, která např. v UCREL zabrala kolem 5 let. Nedávný výzkum na<br />

LOB Corpusu však vedl k technice zjednodušené syntaktické analýzy známé<br />

jako skeletonová analýza, kterou lidští operátoři mohou provádět poměrně<br />

rychle (Leech and Garside, 1991). Pražský závislostní korpus byl celý vytvořen<br />

manuálně. Stručně o něm níže – viz CD publikované v r. 2001.<br />

Stromové banky (treebanks)<br />

Jsou to textové soubory tvořené větami, u nichž je vyznačena syntaktická<br />

struktura, např. ve tvaru syntaktického (složkového) stromu (ohodnoceného<br />

uzávorkování).<br />

(1) Věděl jsem, že přijde a že mi dá pusu.<br />

(1a) (Věděl jsem, (že (přijde)) a (že (mi (dá pusu)))).<br />

Způsob analýzy je dán nějakou předem danou gramatikou, nějakým schématem<br />

analýzy, které je návodem, jak analyzovat věty. Musí jít o schéma, které<br />

se postupně a inkrementálně doplňuje o případy, které se předtím nevyskytly.<br />

Proces je kontinuálně inkrementální a sotva kdy budeme moci tvrdit, že jsme<br />

dospěli k úplné gramatice daného <strong>jazyka</strong>.<br />

Je-li však stromová banka vytvořena, lze z ní automaticky odvodit např.<br />

frázovou (nekontextovou) gramatiku, v níž minimální podstromy interpretujeme<br />

jako nekontextová pravidla. Taková gramatika je zárodkem probabilistické<br />

frázové gramatiky, protože jednotlivá pravidla se ve výchozím korpusu<br />

vyskytují s určitými četnostmi, které lze považovat za první aproximaci pravděpodobností,<br />

s nimiž se taková pravidla mohou vyskytovat v budoucím textu<br />

podobného typu.<br />

Pražský závislostní stromový korpus Pro češtinu je nyní k dispozici pražský<br />

závislostní stromový korpus (Prague Dependency Tree Bank), vybudovaný<br />

skupinou prof. Hajičové na MFF UK a čítající cca 100 000 vět (viz PDTB<br />

CD ROM, 2001).<br />

3.10 Situace v češtině<br />

Závěrem uveďme základní informace o tom, jak vypadá situace pro češtinu.<br />

Na podzim roku 1994 byl na FF UK založen Ústav českého národního kor-<br />

32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!