23.07.2013 Views

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

Počítačové zpracování přirozeného jazyka

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2. reprezentace by měla zachycovat intuitivní strukturu vět (výrazů) <strong>přirozeného</strong><br />

<strong>jazyka</strong>. Věty podobné svou strukturou by měly být reprezentovány<br />

strukturně podobnými reprezentacemi.<br />

3. významy dvou vět, které jsou vzájemnými parafrázemi, tj. mezi nimiž<br />

existuje vztah synonymie (antonymie), by také měly být k sobě vztaženy<br />

prostřednictvím svých reprezentací.<br />

4. reprezentace významu by měla být pokud možno nezávislá na daném<br />

přirozeném jazyce.<br />

Na tomto místě je třeba zdůraznit, že pro jednotlivé výše uvedené úrovně<br />

je díky jejich odlišnosti počítat s různými reprezentacemi, jinými slovy, každá<br />

rovina má svou vlastní reprezentaci, tj. svou vlastní formální notaci pro zachycení<br />

příslušné reprezentace. Rozumný NLP systém musí být schopen tyto<br />

reprezentace propojit a navázat na sebe v jednom složitém formálním systému.<br />

V dalším se pokusíme naznačit, jak formálními prostředky reprezentovat:<br />

• morfologické struktury: jsou konstituovány slovy a jejich součástmi –<br />

morfémy, nejmenšími jednotkami <strong>jazyka</strong>, které jsou schopny nést význam.<br />

U systémů pro porozumění potřebujeme rozpoznat morfémovou<br />

strukturu slov(a) nebo, což je prakticky totéž, provádět morfologickou<br />

analýzu slov ve vstupním textu, ev. jejich syntézu, tj. generovat všechny<br />

přípustné slovní tvary. Lze to dobře ilustrovat na českém tvaru jako nejne-po-chop-i-t-eln-ějš-ího:<br />

rozpoznání (segmentace) jeho morfémové struktury<br />

spočívá v identifikování kořene, který obvykle definujeme jako<br />

morfém nesoucí lexikální význam, a dalších morfémů – prefixů a sufixů,<br />

které obvykle nesou významy gramatické – tvarotvorné, slovotvorné<br />

nebo některé modifikující významy lexikální, např. -eln- – ”ten, který<br />

je možno...”. V jazyce, jako je čeština, je kombinatorika morfémů do<br />

značné míry pravidelná, a proto i systematicky popsatelná souborem<br />

formálních pravidel, která z gramatik známe jako vzory, a to vzory deklinační<br />

postihující ohýbání substantiv, konjugační popisující ohýbání<br />

sloves a ostatní – zachycující třídy neohebných slov – i pro ně se s ohledem<br />

na zachování konzistence popisu vyplatí zavést jejich vlastní vzory.<br />

Hledáme-li formální prostředky, které umožňují vhodně (i z hlediska implementačního)<br />

reprezentovat morfémové struktury českých slov, ukazuje<br />

se, že k tomuto účelu mohou dobře složit některé typy konečných<br />

14

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!