Počítačové zpracování přirozeného jazyka

More documents

Recommendations

Info

$TeX a LaTeX$

Ve všech případech je nutná kontrola, opravy chyb, ev. konverze mezi použitými a typicky odlišnými kódy. Výsledek se zpravidla ukládá do mezinárodního ASCII formátu – ovšem v případě češtiny je třeba mít k dispozici vhodné konverzní programy, protože čeština je kódována řadou způsobů: (v kódech MJK, PCL2, IL2 a 1250 ve Windows). Vhodným řešením je v poslední době přechod k Unicode (nejčastěji UTF-8). V neposlední řadě se při tvorbě korpusů tvůrci musí vyrovnávat i s právními aspekty objevujícími se při získávání dat. Týká se to copyrightu a autorských práv a jejich uvolnění ze strany autora či vydavatele. Jednodušší bývá situace v případě nekomerčního využití, jinak je potřeba uzavírat vhodné typy smluv přesně stanovujících podmínky šíření korpusových dat a produktů, které na jejich základě vznikly. U mluvených záznamů je zpravidla potřeba zajistit zachování anonymity mluvčích. 3.2 Typy korpusů a standardizace Textové soubory volně uložené v počítači ještě netvoří korpus. Obvykle se setkáváme s následujícími typy uložení jazykových dat: • elektronické archivy – volné kolekce celkově různorodých textů. Klasickým příkladem je Oxford Text Archive – OTA, který představuje rozsáhlou sbírku různých, většinou literárních textů, v různých formátech a různých jazycích: v OTA najdeme asi tisícovku literárních textů v 25 jazycích a různých formátech, • vlastní korpusy tvořící relativně úplné celky, i tak ovšem značně různorodé a lišící se v řadě parametrů, • podle jazyků – dnes už jen málo jazyků v Evropě nemá svůj korpus, v r. 1990 existovaly korpusy pro: – angličtinu: . . . . . . . . . . . . . . 220 000 000 slovních tvarů (a 20 korpusů) – francouzštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . 190 000 000 slovních tvarů – němčinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 500 000 slovních tvarů – holandštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 000 000 slovních tvarů – italštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 000 000 slovních tvarů – srbochorvatštinu: . . . . . . . . . . . . . . . . . . . . . . . . 12 000 000 slovních tvarů – korpusy dvoujazyčné, paralelní: anglicko-francouzské, -italské, -dánské – korpusy obecné a specifické, velké obecné korpusy obsahují subkorpusy <strong>jazyka</strong> psaného, mluveného, nářečí, synchronní – diachronní aj. 23
S rostoucím počtem korpusů vzniká potřeba jejich standardizace a vícenásobného a sdíleného použití (jedna z důležitých podmínek v rámci EU). S tímto cílem vznikla Text Encoding Initiative – TEI sponzorovaná EU a americkou vládou: vydala již doporučení pro společný výměnný formát, zásady kódování, znakové sady a navrhla společný kódovací – značkovací metajazyk, jímž je Standard Generalized Markup Language – SGML, určitě známý některým uživatelům TeXu a od r. 1986 uznávaný jako mezinárodní standard (ISO 8879). Značný důraz se klade na polyfunkčnost a polyteoretičnost notace (nezávislost na dílčích teoriích), aby se v budoucnu nemusely dělat nákladné úpravy a změny. Nejnověji se začíná pracovat s jazykem XML (citát), který vychází ze SGML a je de facto jeho podmnožinou. 3.3 Budování korpusu – sběr dat Na příkladu BNC naznačíme jen zhruba základní vlastnosti, které je třeba uvážit při budování korpusu. Nebudeme se pouštět do podrobností, chceme poskytnout jen základní představu. Korpus typu BNC může vypadat zhruba takto: • je to výběrový korpus, tj. skládá se z vzorků ne delších než 40 000 slov, které jsou vybrány v následujících proporcích: 1. přírodní vědy a čistá věda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5% 2. aplikované vědy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5% 3. sociální vědy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15% 4. politická publicistika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15% 5. publicistika obchodní a finanční . . . . . . . . . . . . . . . . . . . . . . . . . . . .10% 6. publicistika umělecká (rock & pop, divadlo,...) . . . . . . . . . . . . . 10% 7. publicistika náboženská a filosofická . . . . . . . . . . . . . . . . . . . . . . . . . 5% 8. publicistika zábavná (sport, zahrádkáři, ...) . . . . . . . . . . . . . . . . 15% Podíl těchto textů se pohybuje v rozmezí 70-80%, podíl uměleckých textů činí 20-30%. Další rozlišení se týká toho, zda vzorky pocházejí z knih, deníků, časopisů, dopisů apod.: 1. knihy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55-65% 24
Page 1 and 2: Fakulta informatiky Masarykovy univ
Page 3 and 4: 5.7 Nekontextové gramatiky a DC gr
Page 5 and 6: 1 Předmluva Předkládaná práce
Page 7 and 8: a na něj navazující korpus ALL o
Page 9 and 10: • PJ je podstatnou složkou naše
Page 11 and 12: - vyhledávací (fulltextové) prog
Page 13 and 14: flektivních jazycích, jako je če
Page 15 and 16: 2. reprezentace by měla zachycovat
Page 17 and 18: nost pracovat se závislostními st
Page 19 and 20: (9) Návštěvy muzeí jsou únavn
Page 21 and 22: zkumu na VŠ, MŠMT ČR) na FI MU v
Page 23: - někteří pracovníci v Ústavu
Page 27 and 28: 3.4 Vnitřní struktura korpusu Vni
Page 29 and 30: vlastnosti cqp a gcqp, ale navíc m
Page 31 and 32: tiny se jako vhodnější jeví mor
Page 33 and 34: 3.9 Syntaktické značkování Zna
Page 35 and 36: - značkovače - gramatické, synta
Page 37 and 38: - slovotvorných hnízdech a čeled
Page 39 and 40: -qua1- květin-ov-ý -qua2- kve-t-o
Page 41 and 42: vlastnosti objektů označovaných
Page 43 and 44: Hajič (2000). k1, "subs", substant
Page 45 and 46: "mod"- modální=D, "proč" - pří
Page 47 and 48: c: 4,6 pád k8 spojka "že" k: 8 sp
Page 49 and 50: 2. krok: prohledávání kmenů, vy
Page 51 and 52: • samostatně pro gramatické zna
Page 53 and 54: - Požadavek přirozenosti vede lin
Page 55 and 56: např. práci Novotného (1988) a t
Page 57 and 58: kde γ a δ jsou libovolné řetěz
Page 59 and 60: 5.4.2 Typ 1 Gramatika typu 1 obsahu
Page 61 and 62: že jednotlivé neterminální symb
Page 63 and 64: 5.8 Valenční rámce a jejich zač
Page 65 and 66: můžeme symbolicky reprezentovat v
Page 67 and 68: pohybu, u nichž lokální modifik
Page 69 and 70: finice, můžeme vidět, že jednot
Page 71 and 72: ## vyrovnávat, činit rovným, pla
Page 73 and 74: 5.10 Východiska pro třídy sloves
Page 75 and 76:
převažuje dativ přímý. Tabulka
Page 77 and 78:
akuzativ přímý - předložkový
Page 79 and 80:
5.11 Desambiguace - metody 1. techn
Page 81 and 82:
- stavy - události - nejčastěji
Page 83 and 84:
- v prostoru: pohybovat se, cestova
Page 85 and 86:
24. Slovesa přání (wish, desire)
Page 87 and 88:
typu slovníku obecně (instalace n
Page 89 and 90:
- vícejazyčné, překladové (Č-
Page 91 and 92:
vznikl v Evropě. Za zmínku stojí
Page 93 and 94:
generuje hierarchickou (stromovou)
Page 95 and 96:
6.4.7 Slovesa Ve WordNetu je nyní
Page 97 and 98:
takovými se neudržují žádné v
Page 99 and 100:
6.6 Budování české slovní sít
Page 101 and 102:
(f) třídění synsetů podle slov
Page 103 and 104:
7.2 Formální aparát pro SR - cha
Page 105 and 106:
(16’) Ml(Petr, Pavel), takže se
Page 107 and 108:
1. Mějme následující českou v
Page 109 and 110:
Ať už zvolíme přístup rule-to-
Page 111 and 112:
vřená. V tom případě lze celou
Page 113 and 114:
6. zájmena, resp. koncovky verba f
Page 115 and 116:
yla víceznačná, mělo by smysl z
Page 117 and 118:
Marie má dvě děti, kluka a holku
Page 119 and 120:
Můžeme tedy říci, že mimo to,
Page 121 and 122:
daná komunikace probíhá. Na rozd
Page 123 and 124:
texty (v aplikaci použitelný nap
Page 125 and 126:
Gazdar, G., Mellish, Ch., Natural L
Page 127 and 128:
Pala, K., Osolsobě, Franc, S., Če
Page 129:
Svozilová N. a kol. Valenční slo
show all

Počítačové zpracování přirozeného jazyka

Create successful ePaper yourself

Delete template?

Save as template?