23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

• samostatně pro gramatické značkování korpusových dat v první fázi<br />

značkování, kdy je slovnímu tvaru z korpusu přiřazeno odpovídající<br />

lemma (případně více než jedno) a možná gramatická značka (ev. více<br />

než jedna).<br />

• v aplikacích typu korektorů překlepů a fulltextových vyhledávačích.<br />

5 Reprezentace syntaktických struktur – gramatiky<br />

5.1 Gramatiky pro popis PJ<br />

Soubor pravidel, který slouží jako základní součást syntaktického analyzátoru<br />

pro daný jazyk je v jistém smyslu popisem syntaxe tohoto <strong>jazyka</strong>, ovšem<br />

takový popis zapsaný ve vhodném programovacím jazyce nebývá obvykle pro<br />

lidi příliš transparentní a čitelný. Často je závislý na konkrétní implementaci<br />

a implementace, i když jsou psány v některém z hlavních programovacích<br />

jazyků, se mohou od sebe podstatně lišit.<br />

To byl mj. jeden z hlavních důvodů, který vedl badatele k tomu, že se postupně<br />

odvraceli od procedurálních definic sémantiky programovacích jazyků<br />

a svou pozornost obrátili k popisům deklarativním. Podobné úvahy jsou na<br />

místě i u programů pro nlp: to, co potřebujeme, je jak syntakticky, tak i<br />

sémanticky spolehlivý popis zpracovávaného <strong>přirozeného</strong> <strong>jazyka</strong> (nebo jeho<br />

aproximace), máme-li získat rozumnou představu o tom, jak se daný systém<br />

bude chovat v rozdílných podmínkách.<br />

Jazyk lze chápat jako množinu, členství v níž lze přesně specifikovat konečným<br />

souborem pravidel (Chomsky, 1956). Množina složených jazykových<br />

výrazů není v PJ konečná, takže nelze podat jejich plný výčet. Pokud je<br />

v současnosti známo, žádný PJ není konečným jazykem. Okruh konstrukcí,<br />

které činí PJ jako čeština nekonečným, je dosti velký. Např. spojka a připouští<br />

v češtině spojení neomezeného počtu vět a podobně tak i vztažné<br />

věty mohou obsahovat slovesné skupiny, které mohou obsahovat jmenné skupiny,<br />

které mohou obsahovat vztažné věty, které mohou obsahovat slovesné<br />

skupiny, které ...<br />

To, co potřebujeme, jsou tedy formální (tj. matematické) systémy, které<br />

umožňují definovat členství v nekonečné množině jazykových výrazů a každému<br />

členu této množiny přiřadit jeho strukturní popis, a to prostřednictvím<br />

50

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!