13.07.2015 Views

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

pdf ke stažení - Ústav českého jazyka a teorie komunikace

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

spojitelnosti jsou velmi cenné. Nesmírné jazykové bohatství, jež korpusposkytuje, lze nicméně mnohem vydatněji vytěžit tím, že se jednotlivým slovnímtvarům (dále jen slova) v textech korpusu přiřadí lingvistické informace z různýchúrovní jazykovědného popisu. Dalši fází zpracováni textu segmentovanéhodo slov a v~tjsou tedy různé typy jazykov~dných analýz, zejména automatickámorfologická aoolýza, která každému slovnímu tvaru v korpusu automaticky(tedy počítačovým programem s pomocí slovníku) přifadl jeho slovnMruhovéa morfologické charakteristiky, a to v podobě tzv. morfologických značek;morfologickou analýzu zabezpečuje modul tzv. morfologického značkováni- morfologický analyzátor (Hajič, 2000; Sedláček , 2(00). Programový modulmorfologické analýzy (jazykové značkováni v užším slova smyslil) opatří každéslovo v textu automaticky lingvistickou informací dvojiho typu:• příslušným základním tvarem,• veš<strong>ke</strong>rými jeho potenciálními morfologickými interpretacemi.Tzv. lemmatizaci je danému slovu přiřazena informace o jeho základním,slovníkovém tvaru zvaném lemma, popř . o více takových základnlch tvarech.K více základním tvarům patří• slovo slovnědruhov~ víceznačné, tj. napf. slovo loučím, které je buď tvaremI. osoby jednotného čísla slovesa loučit se (loučit se je pak příslušné lemma),nebo dativ plurálu substantiva louč (to je příslušné lemma);• slovo, které náleží vice základnlm tvarům v rámci jednoho slovního druhu,ježjsou lexikálně vlceznačné : např. sloveso cenit-l [na někoho zuby], cenit-2 [o ceně - cenit si n~eho]. Lemmata jsou v dosavadní verzi značkovániČNK pojata poněkud šíře : n~které lexikální jednotky jsou sloučeny dojednoho lemmatu (např. pfechýlené podoby podstatných jmen maji lemmazákladniho podstatného jména, od něhož jsou odvozeny; záporná podobaslovesa (např. nekradu)je zahrnuta pod lemma jeho kladného protějšku (tj.krmt) apod.Mimo lemmata přiřazuje morfologický analyzátor každému slovu všechnyjeho potenciální morfologické interpretace, tj. informace o slovnědruhovépřislušnosti daného slova a o jeho morfologických vlastnostech -napf. informaceo rodu, čísle a pádu podstatných a přídavných jmen, zájmen a čfslovek, o stupnipřídavných jmen a příslovcí, o osob~, slovesném ajmenném rodě, člsle slovesnýchtvarů atd. Morrologická ioterpretace daného slovaje formáln~ vyjádlenamorrologickoM znaěkou tvolenou maximálně 15 údají, z nichž každý jereprezentován jedním zna<strong>ke</strong>m na dané pozici, přičemž význam jednotlivých13

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!