Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
1. a, b, c, d, ... – označují terminální symboly<br />
2. A, B, C, D, ... – označují neterminální symboly<br />
3. U, V, ..., Z – označují terminální nebo neterminální symboly<br />
4. α, β, ..., ω – označují řetězce terminálních a neterminálních symbolů<br />
5. u, v, ..., z – označují řetězce pouze terminálních symbolů<br />
Nyní jsme připraveni definovat formální gramatiku G1.<br />
Gramatika G1 je uspořádaná čtveřice<br />
g1 = {N, T, P, S},<br />
• kde N je konečná množina neterminálních symbolů, které interpretujeme<br />
jako syntaktické kategorie,<br />
• T je množina terminálních symbolů, jež interpretujeme jako konkrétní české<br />
slovní tvary, a platí, že N ∩ T = ∅,<br />
• P je konečná podmnožina kartézského součinu (N ∪ T ) ∗ N (N ∪ T ) ∗ x<br />
(N ∪ T ) ∗ ,<br />
• S ∈ N je tzv. vyznačený počáteční symbol gramatiky G,<br />
• prvek (α, β) množiny P nazýváme přepisovacím pravidlem a budeme jej<br />
zapisovat ve tvaru α → β. Řetězec α nazýváme levou stranou pravidla,<br />
řetězec β pravou stranou přepisovacího pravidla.<br />
Jádrem gramatiky tedy je konečná množina přepisovacích pravidel. Každé pravidlo<br />
má tvar uspořádané dvojice (α, β) řetězců a stanovuje možné nahrazení<br />
řetězce α řetězcem β. Řetězec α obsahuje alespoň jeden neterminální symbol,<br />
řetězec β je prvek sjednocení (N ∪ T ∗ ).<br />
Nechť λ a µ jsou řetězce z (N ∪ T ) ∗ . Pak mezi nimi platí relace G<br />
=⇒, která se<br />
nazývá přímá derivace, jestliže řetězce λ a µ můžeme zapsat ve tvaru<br />
λ = γαδ<br />
µ = γβδ,<br />
55