23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

1. a, b, c, d, ... – označují terminální symboly<br />

2. A, B, C, D, ... – označují neterminální symboly<br />

3. U, V, ..., Z – označují terminální nebo neterminální symboly<br />

4. α, β, ..., ω – označují řetězce terminálních a neterminálních symbolů<br />

5. u, v, ..., z – označují řetězce pouze terminálních symbolů<br />

Nyní jsme připraveni definovat formální gramatiku G1.<br />

Gramatika G1 je uspořádaná čtveřice<br />

g1 = {N, T, P, S},<br />

• kde N je konečná množina neterminálních symbolů, které interpretujeme<br />

jako syntaktické kategorie,<br />

• T je množina terminálních symbolů, jež interpretujeme jako konkrétní české<br />

slovní tvary, a platí, že N ∩ T = ∅,<br />

• P je konečná podmnožina kartézského součinu (N ∪ T ) ∗ N (N ∪ T ) ∗ x<br />

(N ∪ T ) ∗ ,<br />

• S ∈ N je tzv. vyznačený počáteční symbol gramatiky G,<br />

• prvek (α, β) množiny P nazýváme přepisovacím pravidlem a budeme jej<br />

zapisovat ve tvaru α → β. Řetězec α nazýváme levou stranou pravidla,<br />

řetězec β pravou stranou přepisovacího pravidla.<br />

Jádrem gramatiky tedy je konečná množina přepisovacích pravidel. Každé pravidlo<br />

má tvar uspořádané dvojice (α, β) řetězců a stanovuje možné nahrazení<br />

řetězce α řetězcem β. Řetězec α obsahuje alespoň jeden neterminální symbol,<br />

řetězec β je prvek sjednocení (N ∪ T ∗ ).<br />

Nechť λ a µ jsou řetězce z (N ∪ T ) ∗ . Pak mezi nimi platí relace G<br />

=⇒, která se<br />

nazývá přímá derivace, jestliže řetězce λ a µ můžeme zapsat ve tvaru<br />

λ = γαδ<br />

µ = γβδ,<br />

55

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!