23.07.2013 Views

všechny slajdy

všechny slajdy

všechny slajdy

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Obsah korpusu<br />

Co je v korpusu uloˇzeno?<br />

◮ text<br />

Formáty korpus˚u Obsah korpusu<br />

◮ metainformace<br />

◮ struktura dokumentu<br />

• odstavce, nadpisy, verˇse, věty<br />

◮ značkování<br />

• informace o slovech<br />

• morfologie, základní tvary<br />

Vertikální text<br />

Úvod do počítačové lingvistiky 9/11 17 / 27<br />

Formáty korpus˚u Obsah korpusu<br />

◮ jednoduch´y formát i jeho zpracování<br />

• kaˇzd´y token na samostatném ˇrádku<br />

• struktury formou XML element˚u<br />

• značkování odděleno tabulátorem<br />

◮ podrobnosti<br />

• http://www.fi.muni.cz/nlp/<br />

• Informace pro současné a potenciální spolupracovníky<br />

• Textové korpusy<br />

• Popis vertikál˚u<br />

Úvod do počítačové lingvistiky 9/11 19 / 27<br />

Tokenizace<br />

Rozdělení textu do pozic<br />

Formáty korpus˚u Obsah korpusu<br />

◮ token (pozice) = základní prvek korpusu<br />

◮ větˇsinou slovo, číslo, interpunkce<br />

• bude-li, don’t<br />

◮ m˚uˇze silně ovlivnit v´ysledky<br />

Úvod do počítačové lingvistiky 9/11 18 / 27<br />

Formáty korpus˚u Obsah korpusu<br />

Zpracování text˚u na UNIXu<br />

◮ coreutils<br />

• cat, head, tail, wc, sort, uniq, comm<br />

• cut, paste join, tr<br />

◮ grep<br />

◮ awk<br />

◮ sed / perl<br />

Úvod do počítačové lingvistiky 9/11 20 / 27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!