Download (9Mb) - E-Ait
Download (9Mb) - E-Ait
Download (9Mb) - E-Ait
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
TALLINNA ÜLIKOOL<br />
HUMANITAARTEADUSTE DISSERTATSIOONID<br />
TALLINN UNIVERSITY<br />
DISSERTATIONS ON HUMANITIES<br />
32<br />
1
JELENA KALLAS<br />
EESTI KEELE SISUSÕNADE SÜNTAGMAATILISED<br />
SUHTED KORPUS- JA ÕPPELEKSIKOGRAAFIAS<br />
Tallinn 2013<br />
3
TALLINNA ÜLIKOOL<br />
HUMANITAARTEADUSTE DISSERTATSIOONID<br />
TALLINN UNIVERSITY<br />
DISSERTATIONS ON HUMANITIES<br />
32<br />
Jelena Kallas<br />
EESTI KEELE SISUSÕNADE SÜNTAGMAATILISED SUHTED KORPUS- JA<br />
ÕPPELEKSIKOGRAAFIAS<br />
Eesti Keele ja Kultuuri Instituut, Tallinna Ülikool, Tallinn, Eesti<br />
Dissertatsioon on lubatud kaitsmisele filosoofiadoktori (lingvistika) kraadi taotlemiseks<br />
Tallinna Ülikooli humanitaarteaduste doktorinõukogu poolt 4. veebruaril 2013. aastal<br />
Juhendajad: Asta Õim, filosoofiadoktor, Eesti Kirjandusmuuseumi vanemteadur<br />
Margit Langemets, filosoofiadoktor, Eesti Keele Instituudi teadur<br />
Oponendid: Raili Pool, filosoofiadoktor, Tartu Ülikooli lektor<br />
Kadri Muischnek, filosoofiadoktor, Tartu Ülikooli dotsent<br />
Kaitsmine toimub 4. aprillil 2013. aastal algusega kell 12 Tallinna Ülikooli auditooriumis<br />
A-242, Narva mnt 29, Tallinn<br />
Doktoritöö valmimist on toetanud Euroopa Sotsiaalfondi projekt „Doktorikool: keeleteadus,<br />
filosoofia, semiootika” ning doktoriõppe ja rahvusvahelistumise programm „DoRa”<br />
Autoriõigus: Jelena Kallas, 2013<br />
Autoriõigus: Tallinna Ülikool, 2013<br />
ISSN 1736-3624 (trükis)<br />
ISBN 978-9949-29-078-9 (trükis)<br />
ISSN 1736-5031 (online, pdf)<br />
ISBN 978-9949-29-079-6 (online, pdf)<br />
Tallina Ülikool<br />
Narva mnt 25<br />
10120 Tallinn<br />
www.tlu.ee<br />
4
SISUKORD<br />
DISSERTANDI TEEMAKOHASED PUBLIKATSIOONID ................................................ 7<br />
EESSÕNA ............................................................................................................................... 8<br />
LÜHENDID ............................................................................................................................ 9<br />
1. SISSEJUHATUS ............................................................................................................... 10<br />
1.1. Töö eesmärgid ........................................................................................................... 13<br />
1.2. Analüüsimaterjal ja uurimismeetodid ........................................................................ 13<br />
1.3. Töö ülesehitus ............................................................................................................ 15<br />
2. SÜNTAGMAATILISED SUHTED KORPUSLEKSIKOGRAAFIAS ............................ 16<br />
2.1. Korpusleksikograafia areng ....................................................................................... 16<br />
2.2. Süntagmaatiliste suhete tuvastamise meetodid .......................................................... 18<br />
2.2.1. Statistilised meetodid ......................................................................................... 18<br />
2.2.2. Kombinatoorsed meetodid ................................................................................. 23<br />
2.3. Sõnavisandite grammatika meetod ............................................................................ 26<br />
3. EESTI KEELE SUBSTANTIIVIDE, ADJEKTIIVIDE, ADVERBIDE JA VERBIDE<br />
SÜNTAGMAATILISED SUHTED NING NENDE TUVASTAMINE<br />
KORPUSEPROGRAMMI SKETCH ENGINE EESTI MOODULI NÄITEL ..................... 31<br />
3.1. Eesti keele sõnavisandite grammatika koostamise põhimõtted .................................. 31<br />
3.2. Substantiivi süntagmaatilised suhted ......................................................................... 35<br />
3.2.1. Leksikogrammatilised konstruktsioonid ............................................................. 35<br />
3.2.2. Sõnavisandid ...................................................................................................... 37<br />
3.2.3. Kokkuvõtteks: substantiivid ............................................................................... 50<br />
3.3. Adjektiivi süntagmaatilised suhted ............................................................................ 52<br />
3.3.1. Leksikogrammatilised konstruktsioonid ............................................................. 52<br />
3.3.2. Sõnavisandid ...................................................................................................... 53<br />
3.3.3. Kokkuvõtteks: adjektiivid .................................................................................. 58<br />
3.4. Adverbi süntagmaatilised suhted ............................................................................... 59<br />
3.4.1. Leksikogrammatilised konstruktsioonid ............................................................. 59<br />
3.4.2. Sõnavisandid ...................................................................................................... 60<br />
3.4.3. Kokkuvõtteks: adverbid ..................................................................................... 63<br />
3.5. Verbi süntagmaatilised suhted ................................................................................... 64<br />
3.5.1. Lihtverbi leksikogrammatilised konstruktsioonid .............................................. 64<br />
3.5.2. Lihtverbi sõnavisandid ....................................................................................... 66<br />
3.5.3. Perifrastilised verbid ja nende tuvastamine ........................................................ 73<br />
3.5.4. Kokkuvõtteks: verbid ......................................................................................... 80<br />
3.6. Sõnavisandite hindamine ........................................................................................... 82<br />
3.6.1. Hindamise metoodika ......................................................................................... 82<br />
3.6.2. Tulemused .......................................................................................................... 85<br />
3.6.3. Tulemuste analüüs .............................................................................................. 85<br />
4. SÜNTAGMAATILISED SUHTED ÕPPELEKSIKOGRAAFIAS .................................. 88<br />
4.1. Traditsiooniline ja korpusleksikograafia .................................................................... 89<br />
4.2. Süntagmaatiliste suhete esitusviisid ........................................................................... 90<br />
4.3. Süntagmaatiliste üksuste valikukriteeriumid ............................................................. 97<br />
4.4. Kokkuvõtteks: süntagmaatiline info tänapäeva õppesõnastikes ja<br />
õppeleksikograafilistes andmebaasides ............................................................................. 99<br />
5
5. SÜNTAGMAATILISED SUHTED EESTI KEELE ÕPPESÕNASTIKES JA<br />
ANDMEBAASIDES ........................................................................................................... 100<br />
6<br />
5.1. Seni ilmunud eesti keele rektsioonisõnastikud......................................................... 101<br />
5.2. Eesti keele põhisõnavara sõnastik ............................................................................ 104<br />
5.2.1. Süntagmaatiliste üksuste valikukriteeriumid .................................................... 104<br />
5.2.2. Süntagmaatilised üksused andmebaasis ........................................................... 111<br />
5.2.3. Sõnavisandid kui leksikograafilise analüüsi lähtepunkt ................................... 117<br />
5.2.4. Näidisartiklid .................................................................................................... 124<br />
6. KOKKUVÕTE ................................................................................................................ 126<br />
6.1. Põhilised teadustulemused ....................................................................................... 126<br />
6.2. Uurimistöö edasised arengusuunad .......................................................................... 133<br />
VIITEALLIKAD ................................................................................................................. 136<br />
LISA 1. SÕNAVISANDITE GRAMMATIKA .................................................................. 145<br />
SUMMARY ........................................................................................................................ 170<br />
ELULOOKIRJELDUS ........................................................................................................ 179<br />
CURRICULUM VITAE ..................................................................................................... 180
DISSERTANDI TEEMAKOHASED<br />
PUBLIKATSIOONID<br />
I. Jelena Kallas, Margit Langemets 2012. Automatic generation of specialized<br />
dictionaries using the dictionary writing system EELex. – A. Tavast, K. Muischnek,<br />
M. Koit (eds.). Human language technologies – The Baltic perspective. Proceedings<br />
of the fifth international conference Baltic HLT 2012. Frontiers in artificial<br />
intelligence and applications 247. Amsterdam: IOS Press, 103–110.<br />
II. Jelena Kallas, Maria Tuulik, Madis Jürviste 2012. Leksikograafilise tarkvara Sketch<br />
Engine eesti keele moodul. – Eesti ja soome-ugri keeleteaduse ajakiri ESUKA /<br />
Journal of Estonian and Finno-Ugric Linguistics JEFUL, 3–2, 57–77.<br />
III. Madis Jürviste, Jelena Kallas, Margit Langemets, Maria Tuulik, Ülle Viks 2011.<br />
Extending the functions of the EELex dictionary writing system using the example of<br />
the Basic Estonian Dictionary. – I. Kosem, K. Kosem (eds.). Electronic lexicography<br />
in the 21st century: New applications for new users. Proceedings of eLex 2011, Bled,<br />
10-12 November 2011. Ljubljana: Trojina, Institute for Applied Slovenian Studies,<br />
106–112.<br />
IV. Jelena Kallas, Maria Tuulik 2011. Eesti keele põhisõnavara sõnastik: ajalooline<br />
kontekst ja koostamispõhimõtted. – Eesti Rakenduslingvistika Ühingu aastaraamat,<br />
7, 59–75.<br />
V. Jelena Kallas 2010. The development of scholary lexicography of the Estonian<br />
language as a second language in a historical and a theoretical perspective. –<br />
A. Dykstra, T. Schoonheim (eds.). Proceedings of the XIV EURALEX international<br />
congress. Leeuwarden/Ljouwent: Fryske Akademy, 648–651.<br />
VI. Елена Каллас 2009. Лексикографическая реализация средств выражения<br />
пространственных отношений функционально-семантического поля<br />
локативности в эстонском языке. – Функциональная семантика языка,<br />
семиотика знаковых систем и методы их изучения. Москва: Российский<br />
университет дружбы народов, 64–69.<br />
7
EESSÕNA<br />
Õppeleksikograafia on minu huviks olnud alates 2000ndate algusest, kui pärast<br />
TLÜ lõpetamist liitusin Eesti Keele Instituudi eesti-vene sõnaraamatu töörühmaga.<br />
Korpusleksikograafia valdkonnaga puutusin põhjalikumalt kokku, kui osalesin<br />
suvekoolis „The 2002 Lexicom International Workshop in Lexicography and<br />
Lexical Computing”, mis toimus Brightoni Ülikoolis Inglismaal. Vahepealsel ajal<br />
olen saanud jälgida korpusleksikograafia kiiret arengut olukorrani, kui<br />
keeletehnoloogiliste vahenditega on võimalik eri tüüpi sõnaraamatute automaatne<br />
korpuspõhine genereerimine (ja seda isegi tähendusjaotuste ja definitsioonide<br />
tasandil). Väitekiri tegeleb vaid korpuste kasutamise ühe aspektiga (sisusõnade<br />
süntagmaatiliste seoste automaattuvastamisega), aga usun, et sellele järgneb hulk<br />
põnevaid uurimistöid, mis muudavad eesti keele korpuste kasutuse veelgi<br />
mitmepalgelisemaks.<br />
Olen väga tänulik kõigile inimestele, kes on mind sel teel toetanud ja inspireerinud.<br />
Suur tänu juhendajatele, retsensentidele, toimetajatele, kolleegidele Eesti Keele<br />
Instituudis, Tallinna Ülikoolis ja Tartu Ülikoolis. Eriline tänu reedeklubi liikmetele.<br />
Suur aitäh ka minu perele ja sõpradele, kes on mulle kogu aeg kaasa elanud.<br />
Doktoritöö valmimist on toetanud Euroopa Sotsiaalfondi projekt „Doktorikool:<br />
keeleteadus, filosoofia, semiootika” ning doktoriõppe ja rahvusvahelistumise<br />
programm „DoRa”.<br />
Tallinnas<br />
21. jaanuaril 2013<br />
8
LÜHENDID<br />
A adverbiaal<br />
abe abessiiv<br />
abl ablatiiv<br />
ade adessiiv<br />
Adj adjektiiv<br />
Adv adverb<br />
all allatiiv<br />
com komitatiiv<br />
comp komparatiiv<br />
da da-infinitiiv<br />
des gerundiiv<br />
ela elatiiv<br />
ess essiiv<br />
g genitiiv<br />
ill illatiiv<br />
in inessiiv<br />
inf infinitiiv<br />
KL kõrvallause<br />
ma ma-infinitiiv<br />
maks maks-vorm<br />
mas mas-vorm<br />
mata mata-vorm<br />
N substantiiv<br />
nom nominatiiv<br />
Num numeraal<br />
O objekt<br />
p partitiiv<br />
pl pluural<br />
Post postpositsioon<br />
PP adpositsioonifraas<br />
Pr prooprium<br />
Pred predikatiiv<br />
Prep prepositsioon<br />
Pron pronoomen<br />
Ptcp partitsiip<br />
S subjekt<br />
sg singular<br />
sup superlatiiv<br />
ter terminatiiv<br />
trl translatiiv<br />
V verb<br />
vat vat-vorm<br />
9
1. SISSEJUHATUS<br />
Süntagmaatiliste suhete korpus- ja õppeleksikograafiline käsitlus on tänapäeva<br />
rakenduslingvistika üks aktuaalsemaid valdkondi. Siinne väitekiri on esimesi<br />
katseid analüüsida eesti keele leksikaalsemantilise sisuga sõnade ehk sisusõnade 1<br />
süntagmaatilisi suhteid korpusleksikograafiliste meetoditega ja rakendada saadud<br />
tulemusi eesti keele õppesõnastike koostamisel. Töös analüüsin eraldi<br />
substantiivide, adjektiivide, adverbide ja verbide klassi moodustavate sisusõnade<br />
süntagmaatilisi suhteid.<br />
„Longman Dictionary of Language Teaching & Applied Linguistics” (Richards,<br />
Schmidt 2002: 534) defineerib süntagmat (syntagm) 2 kui kahe või enama üksuse<br />
struktuuriliselt olulist kombinatsiooni ja süntagmaatilisi suhteid (syntagmatic<br />
relationships) kui ühe keelelise üksuse (nt sõna, klausi) suhet teise üksusega, mis<br />
põhineb sellel, et nad esinevad koos mingi järjendi sees.<br />
Siinses töös tähistan mõistega süntagmaatilised suhted sisusõnade tähenduslikke ja<br />
statistiliselt esilduvaid kombinatsioone teiste leksikaalsete ja grammatiliste<br />
üksustega, eelkõige seda, mis tüüpi laienditega ja milliste konkreetsete sõnadega<br />
teatud leksikaalne üksus koos esineb. Uurin eesti keele sisusõnade süntagmaatiliste<br />
suhete formaalse kirjeldamise võimalusi korpusanalüüsi jaoks ja nende suhete<br />
esitamist õppeleksikograafilistes andmebaasides ja sõnastikes. Korpusanalüüsi<br />
tarvis kirjeldan suhete tüüpe vormiklasside (sõnaliikide, fraasitüüpide) ja<br />
morfosüntaktiliste kategooriate (käänded) kaudu, kuna lähtekohaks on<br />
morfoloogiliselt märgendatud korpus. Selliseid kirjeldusi nimetan töös<br />
leksikogrammatilisteks konstruktsioonideks ja konstruktsiooni moodustajaid<br />
kaasmoodustajateks.<br />
Leksikograafia teoorias (Svensén 2009: 7) on süntagmaatilised suhted omaette<br />
leksikograafilise kirjelduse objekt. Sisusõnade süntagmaatiliste suhete eksplitsiitse<br />
esitamise eesmärk on toetada ja suunata keeleõppijat võõrkeelse teksti koostamisel<br />
ehk sünteesil. Kasutajale antakse infot iga konkreetse lekseemi leksikaalsetest ja<br />
grammatilistest kombinatoorsetest omadustest. Sõltuvalt sellest, kas tegemist on<br />
leksikaalse või grammatilise suhtega, eristatakse kaht süntagmaatilise suhte liiki:<br />
1) süntagmaatilised leksikaalsed suhted, mille hulka kuuluvad kollokatsioonid,<br />
püsiühendid ja idioomid; 2) süntagmaatilised grammatilised ehk semantilismorfosüntaktilised<br />
suhted, mille hulka kuuluvad täistähenduslike sõnaliikide<br />
valents (nii semantiline kui ka süntaktiline) ja eri tüüpi grammatilised<br />
konstruktsioonid.<br />
Leksikaalsete ja grammatiliste süntagmaatiliste suhete eristus kajastub ka<br />
süntagmaatiliste sõnastike üldtüpoloogias (vt nt Svensén 2009: 21–37), kus<br />
leksikograafilise kirjelduse objektiks olevate süntagmaatiliste seoste tüübi järgi<br />
1 EKGs (1995: 15, 18) kasutatakse terminit täistähenduslik ehk autosemantiline sõna.<br />
2 Siin ja edaspidi on sulgudes termini ingliskeelne vaste, kui ei ole osutatud teisiti.<br />
10
eristatakse kolme liiki süntagmaatilisi sõnastikke: 1) valentsisõnastik (kirjeldab<br />
lemmade süntaktiliselt võimalikke seotud ja vabade laiendite tüüpe ning nende<br />
laiendite esinemist reguleerivaid semantilisi piiranguid); 2) kollokatsioonisõnastik<br />
(kirjeldab lemmade semantiliselt läbipaistvaid koosesinemisi teiste sõnadega);<br />
3) idioomisõnastik.<br />
Teiselt poolt on tänapäeva leksikograafias teooriaid, mis väldivad leksika ja<br />
grammatika lahushoidmist ja käsitlevad leksikogrammatilisi üksusi tervikuna<br />
(nt Hunston, Francis 2000). Gill Francis (1995) rõhutab, et<br />
kommunikatsiooniprotsess ei toimu nii, et kõigepealt valitakse süntaktiline<br />
struktuur ja alles seejärel sellega sobiv leksikaalne üksus. Vastupidi, me valime<br />
leksikaalseid üksusi, millega kaasnevad süntaktilised struktuurid, kuhu nad<br />
loomulikult ja grammatiliselt korrektselt sobivad. Selliseid üksusi nimetatakse eri<br />
teooriates malliks (pattern) (nt Hunston, Francis 2000), konstruktsiooniks<br />
(construction) (Atkins, Rundell 2008), leksikogrammatiliseks malliks (lexicogrammatical<br />
pattern) (Coffey 2011) või kollokatsiooniks (collocation) (Bartsch<br />
2004; Siepmann 2005; Kilgarriff, Kosem 2012d). Sofia Bartsch (2004: 11)<br />
defineerib kollokatsioone kui kahe või enama sõna suhteliselt püsivaid, sageli<br />
korduvaid süntagmaatilisi kombinatsioone, mida reguleerivad süntaksi ja semantika<br />
kombinatoorsed reeglid. Dirk Siepmanni (2005: 438) järgi on kollokatsioon<br />
igasugune holistiline leksikaalne, leksikogrammatiline või semantiline üksus, mis<br />
reeglina koosneb kahest või enamast sõnast ja millele on omane minimaalne<br />
korduvus teatud kontekstis. Adam Kilgarriffi ja Iztok Kosemi (2012d: 40) käsitluses<br />
hõlmab kollokatsiooni mõiste teatud grammatilises seoses olevaid otsisõna (node<br />
word) ja selle kollokaatide statistiliselt esilduvaid koosesinemisi.<br />
Seega on teoreetilises ja praktilises leksikograafias mitu lähenemist, kuidas<br />
süntagmaatilisi suhteid kirjeldada ja milliste parameetrite järgi keelematerjali<br />
analüüsida. Leksikograafilist rakendust on leidnud sellised teooriad nagu<br />
grammatiliste ja leksikaalsete kollokatsioonide teooria (Benson 1986, 1989, 1990),<br />
valentsiteooria (Herbst jt 2007), freimisemantika (Atkins jt 2003), mallide<br />
grammatika (Hunston, Francis 2000; Hanks 2008). Nende teooriate põhimõtetest<br />
lähtudes on koostatud eri tüüpi süntagmaatilisi sõnastikke ja andmebaase, nagu<br />
„BBI Dictionary of English Word Combinations” (BBI 2010), FrameNet 3 , „Pattern<br />
Dictionary of English Verbs” (Hanks 2008), „A Valency Dictionary of English”<br />
(Herbst jt 2004).<br />
Teooriate põhiline erinevus seisneb eelkõige kirjeldusobjektis. Põhiküsimus on, kas<br />
leksikograafiline kirjeldus piirdub vaid süntaktilisel tasandil tuvastatavate üksustega<br />
või on analüüsi aluseks sõnade semantilised funktsioonid. Näiteks eeldab<br />
freimisemantiline lähenemine (Atkins 2002: 16–19) leksikograafilise analüüsi<br />
eeletapina iga verbi freimielementide tuvastamist ja nendele elementidele vastavate<br />
üksuste morfoloogilist ja süntaktilist analüüsi. Nii kujuneb lekseemile iseloomulik<br />
nn valentsivalem (valence formula), millest leksikograaf konkreetse kirje<br />
3 FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (20.01.12).<br />
11
koostamisel lähtub. Sellist leksikaalsete üksuste mitmetasandilist (semantika–<br />
süntaks–morfoloogia) analüüsi ja kirjeldust peetakse oluliseks igasuguse leksikaalse<br />
andmebaasi koostamisel (vt nt Langemets jt 2005: 94–95).<br />
Siinses töös arutlen, kuidas ja mil määral saaks morfoloogiliselt märgendatud<br />
korpuse andmeid kasutada sõnade semantika uurimisel ja süntagmaatiliste<br />
omaduste esitamisel eesti keele õppeleksikograafilistes andmebaasides ja<br />
õppesõnastikes.<br />
Tegemist on interdistsiplinaarse uurimusega, mis analüüsib süntagmaatiliste suhete<br />
käsitlust tänapäeva korpus- ja õppeleksikograafias ja uurib nende kahe distsipliini<br />
kokkupuutepunkte. Korpusleksikograafia (corpus lexicography, computational<br />
lexicography, computer-based lexicography) on arvuti- ja korpuslingvistikaga<br />
tihedalt seotud leksikograafia haru, mis uurib korpusmaterjalide kasutamise<br />
võimalusi sõnastike ja andmebaaside koostamisel. Õppeleksikograafia (pedagogical<br />
lexicography) on teise keele ja võõrkeele õpetamise didaktikaga seotud distsipliin,<br />
mis tegeleb õppesõnastike (pedagogical dictionary), sõnavaraloendite (vocabulary<br />
profile) ja sõnavara omandamisele suunatud õppematerjalide koostamise<br />
teoreetiliste ja praktiliste küsimustega (Dubitšinski 2009: 339).<br />
Reinhard R. K. Hartmann ja Gregory James (2002: 107) defineerivad<br />
õppesõnastikku kui teatmeteost, mis on koostatud spetsiaalselt keeleõpetajate<br />
ja -õppijate praktiliste didaktiliste vajaduste rahuldamiseks. Võrreldes<br />
mitteõppeotstarbelistel eesmärkidel koostatud sõnastikega, avaldub õppesõnastiku<br />
spetsiifika (Averina jt 1996: 312–313; Novikov 2002: 453–455) järgmises:<br />
1) märksõnastiku sihikindlas didaktiliselt põhjendatud valikus (õppesõnastike<br />
märksõnastiku aluseks peavad olema keeleoskustasemete ja sõnavarastatistikaga<br />
tegelevate spetsialistide koostöös valminud sõnavaraloendid);<br />
2) lekseemide seletusviisis ehk definitsioonis (eeltingimuseks on spetsiaalse ehk<br />
kontrollitud definitsioonisõnavara loendi koostamine);<br />
3) süntagmaatiliste ja paradigmaatiliste suhete esitusviisis [siinse töö autori<br />
rõhutus].<br />
Õppesõnastike valdkonnas peetakse ideaalseks saavutuseks õppesõnastike süsteemi<br />
(komplekti) loomist, mis võimaldab infot esitada mitmes eri keerukusastmes<br />
(Dubitšinski 2009: 341; vt ka Langemets 2003: 183). Selline ühtne leksikograafiline<br />
süsteem peab rajanema nn graduaalsuse printsiibil (algselt defineeris juba 1928.<br />
aastal ameerika pedagoog ja psühholoog Edward L. Thorndike (1991: 19)), mille<br />
kohaselt on õppeleksikograafia ülesanne koostada erinevatele keeleoskustasemetele<br />
orienteeritud õppesõnastike komplekt: iga järgnev sõnaraamat peab pakkuma<br />
märksõnade kohta eelmisest suuremat infomahtu, ka sõnaraamatute metakeel peab<br />
muutuma lihtsamast keerulisemaks.<br />
Seda tüüpi õppesõnastike komplekti koostatakse Eesti Keele Instituudis. Komplekti<br />
esimeseks sõnastikuks on A2- ja B1-keeleoskustasemega õppijatele mõeldud<br />
ükskeelne eesti keele põhisõnavara sõnastik (edaspidi PSV, ilmumas 2013), mille<br />
12
märksõnade hulk on ca 4500. Järgmise etapina on kavas koostada B2- ja C1tasemele<br />
mõeldud sõnastik. Siinses töös käsitlen lähemalt eesti keele sisusõnade<br />
süntagmaatiliste suhete süstemaatilise esitamise võimalusi PSV sõnastiku näitel.<br />
1.1. TÖÖ EESMÄRGID<br />
Töö ülesanded võib tinglikult jaotada teoreetilisteks (eesti keele substantiivide,<br />
adjektiivide, adverbide ning verbide (sh perifrastiliste verbide) süntagmaatiliste<br />
suhete korpus- ja õppeleksikograafilise käsitluse teoreetilise raamistiku loomine) ja<br />
rakenduslikeks (süntagmaatiliste suhete automaatne korpuspõhine tuvastamine ja<br />
nende esitus õppeotstarbelises eesti keele sõnastikus).<br />
Täpsemad eesmärgid on järgmised:<br />
koostada eesti keele substantiivide, adjektiivide, adverbide ja verbide<br />
leksikogrammatiliste konstruktsioonide nimestik, mis on aluseks nende<br />
sõnaliikide süntagmaatiliste suhete korpusest ekstraheerimise grammatika ja<br />
õppeleksikograafilise esituse põhimõtete väljatöötamisel;<br />
toetudes eesti keele morfoloogiaanalüsaatori ESTMORF (Kaalep 1998)<br />
märgendussüsteemile, koostada süntagmaatiliste suhete automaatseks<br />
analüüsiks ja tuvastuseks sobiv grammatika, käsitleda grammatika kirjutamise<br />
käigus tekkinud probleeme, testida grammatikat leksikograafilise tarkvara<br />
Sketch Engine baasil ja analüüsida saadud tulemusi;<br />
analüüsida süntagmaatiliste suhete õppeleksikograafilist käsitlust muude keelte<br />
(eeskätt inglise) ja seni ilmunud eesti keele süntagmaatilistes sõnastikes ja<br />
andmebaasides;<br />
töötada välja süntagmaatiliste suhete formaalne kirjeldus eesti keele<br />
õppeleksikograafiliste andmebaaside tarbeks ja rakendada seda sõnastike<br />
haldussüsteemis EELex eesti keele põhisõnavara sõnastiku andmebaasis;<br />
töötada välja süntagmaatiliste üksuste valiku põhimõtted eesti keele A2- ja B1keeleoskustasemega<br />
eesti keele kui teise ja/või võõrkeele õppijatele mõeldud<br />
sõnastikes (tagamaks lekseemi süntagmaatiliste omaduste eksplitsiitse esituse<br />
ning hõlbustamaks nende omandamist).<br />
1.2. ANALÜÜSIMATERJAL JA UURIMISMEETODID<br />
Sisusõnade süntagmaatiliste suhete automaattuvastamist katsetan siinses töös<br />
korpusleksikograafilise tarkvara Sketch Engine 4 abil. Sketch Engine’i<br />
4 Sketch Engine http://www.sketchengine.co.uk/ (15.09.12). Tänapäeval kasutavad sõnaraamatute<br />
loomisel seda programmi sellised kirjastused nagu Oxford University Press, Cambridge<br />
University Press, Collins, Le Robert ja Cornelsen Verlag ning seda rakendati ka inglise keele<br />
leksikaalse andmebaasi DANTE (Database of Analysed Texts of English; Atkins jt 2010)<br />
13
põhifunktsioonideks on konkordantsi koostamine ja selle mitmekülgne töötlemine,<br />
statistikapõhine kollokaatide leidmine, korpusest sagedusloendite koostamine,<br />
sõnavisandite (word sketch) genereerimine ja heade sõnastikunäidete (Good<br />
Dictionary Example, GDEX) valimine.<br />
Tarkvara valik on tingitud eelkõige sellest, et Sketch Engine’i sõnavisandite moodul<br />
võimaldab süntagmaatiliste suhete automaattuvastamist. Spetsiaalse nn<br />
sõnavisandite grammatika (sketch grammar) põhjal otsib programm koostaja poolt<br />
määratud grammatilises suhtes olevaid sõnapaare ja -kolmikuid, töötleb andmeid<br />
statistiliselt ja teeb leksikograafi jaoks sõna süntaktilisest ja kollokatiivsest<br />
käitumisest kompaktse kokkuvõtte, mida nimetatakse sõnavisandiks (Kilgarriff jt<br />
2004).<br />
Tarkvara eesti mooduli sisendiks on eesti keele koondkorpus 5 (u 250 mln sõnet),<br />
mille OÜ Filosoft on morfoloogiliselt märgendanud, osaliselt ühestanud ja<br />
osalausestanud. Koondkorpus sisaldab ajalehtede ja ajakirjade tekste, ilukirjandus-,<br />
seadus- ja teadustekste, riigikogu stenogramme ning uue meedia (jututubade,<br />
foorumite) tekste.<br />
Sisusõnade leksikogrammatiliste konstruktsioonide nimestiku ja nende<br />
automaattuvastamist võimaldavate reeglite väljatöötamisel lähtun eesti keele<br />
traditsioonilistest (Rätsep 1978; Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007)<br />
ja formaalsetest (Müürisep 2000; Roosmaa jt 2001; Puolakainen 2001)<br />
grammatikakirjeldustest. Sõnavisandite grammatika reeglid toetuvad<br />
morfoloogiaanalüsaatori ESTMORF (Kaalep 1998) märgenditele.<br />
Sõnavisandite evalveerimisel kasutan Kilgarriffi jt (2010a) väljatöötatud<br />
sõnavisandite kvantitatiivse evalveerimise meetodit. Tulemuste hindamiseks on<br />
kasutatud sellist näitajat nagu täpsus (precision), mis näitab õigesti tuvastatud<br />
kollokaatide osakaalu kõigist tuvastatud kollokaatidest. Meetodis palutakse<br />
leksikograafidel hinnata iga tuvastatud kollokaadi leksikograafilist väärtust<br />
kaheastmelisel skaalal hea–halb. Hea kollokaat peab vastama kriteeriumidele<br />
tähenduslikkus, terviklikkus ja kasulikkus sõna semantika ja grammatika uurimisel.<br />
Halb on kollokaat, mille puhul on ilmselgelt tegemist veaga, st tuvastatud sõnapaar<br />
või -kolmik ei ole tähenduslik ega terviklik või kasulik sõna semantika ja<br />
grammatika uurimisel.<br />
Õppeleksikograafia küsimusi käsitlevates peatükkides olen näitematerjalina<br />
kasutanud inglise ja eesti keele õppesõnastike, eelkõige rektsiooni- ja<br />
kollokatsioonisõnastike kirjeid.<br />
väljatöötamisel. Eestis kasutatakse Sketch Engine’it Eesti Keele Instituudis kahe sõnastiku<br />
koostamisel: need on „Eesti keele seletav sõnaraamat” (EKSS; vt Langemets jt 2010b) ja „Eesti<br />
keele põhisõnavara sõnastik” (PSV; vt Kallas, Tuulik 2011).<br />
5<br />
Eesti keele koondkorpus http://www.cl.ut.ee/korpused/segakorpus/index.php?lang=et<br />
(15.09.12).<br />
14
Töös väljatöötatud süntagmaatiliste seoste formaalset kirjeldust rakendan Eesti<br />
6<br />
Keele Instituudi sõnastike haldussüsteemis<br />
(edaspidi EELex; vt<br />
Langemets jt 2006, 2010c; Loopmann jt 2006; Loopmann 2007; Jürviste jt 2011) eesti<br />
keele põhisõnavara sõnastiku andmebaasis. EELex on veebipõhine leksikograafi<br />
töökeskkond, mis ühendab sõnastike koostajatele ja toimetajatele vajaliku tarkvara ja<br />
ressursid, toetab rühmatööd ja pakub eesti keele tuge. EELexi keskkonnas on<br />
valminud või tegemisel ligi 40 eri tüüpi ja mitmesuguse struktuuriga sõnastikku:<br />
ükskeelsed, tõlkesõnastikud, terminibaasid jne. Sõnastikuandmed paiknevad<br />
tsentraalses veebiserveris XML-vormingu kujul (vt lähemalt Loopmann 2007).<br />
1.3. TÖÖ ÜLESEHITUS<br />
Väitekiri koosneb sissejuhatusest, neljast osast ja kokkuvõttest. Sissejuhatuses<br />
määratlen töö peamised eesmärgid ja annan ülevaate töös kasutatud materjalist ja<br />
uurimismeetoditest. Teises osas käsitlen teoreetilisi küsimusi, mis on seotud<br />
süntagmaatiliste suhete käsitlusega korpusleksikograafias. Annan lühiülevaate<br />
korpusleksikograafia ajaloost, esitan tänapäeva korpusleksikograafilise tarkvara<br />
tüpoloogia ning analüüsin erinevaid lähenemisi, mida rakendatakse tänapäeva<br />
leksikograafias süntagmaatiliste suhete kirjeldamisel, ja meetodeid, mida<br />
kasutatakse nende automaattuvastamisel. Kolmandas osas kirjeldan<br />
leksikogrammatilisi konstruktsioone, mis on iseloomulikud eesti keele<br />
substantiividele, adjektiividele, adverbidele ja verbidele, käsitlen nende<br />
grammatiliste suhete automaattuvastamiseks kirjutatud reegleid (vt Lisa 1),<br />
illustreerin reeglite väljundit, esitan sõnavisandite kvantitatiivse evalveerimise<br />
tulemused ja annan ülevaate evalveerimise käigus esile kerkinud probleemidest.<br />
Neljandas osas on uurimisobjektiks eri tüüpi formaalsed kirjeldused, mida on<br />
kasutatud sõnastikes ja andmebaasides süntagmaatiliste suhete esitamiseks, ning<br />
süntagmaatiliste üksuste valikukriteeriumid. Viiendas osas analüüsin seni ilmunud<br />
eesti keele süntagmaatiliste sõnastike ülesehitust ja süntagmaatiliste suhete<br />
esitusviise. Eesti keele põhisõnavara sõnastiku andmebaasi näitel kirjeldan<br />
süntagmaatiliste üksuste valikukriteeriume A2- ja B1-keeleoskustasemega eesti<br />
keele kui teise ja/või võõrkeele õppijatele mõeldud sõnastikes, pakun välja nende<br />
üksuste süstemaatilist esitamist võimaldava andmebaasi ülesehituse, näitan<br />
sõnavisandite kasutusvõimalusi sisusõnade süntaksi ja semantika uurimisel ja esitan<br />
eesti keele põhisõnavara sõnastiku näidisartiklid. Kokkuvõtvas osas toon välja<br />
väitekirjas esitatud peamised teadustulemused, lahendamata jäänud probleemid ja<br />
arutlen uurimistöö edasiste arengusuundade üle.<br />
6<br />
EELex http://eelex.eki.ee/, dokumentatsiooni vt http://eelex.dyn.eki.ee/edoc/edoc.html<br />
(15.09.12).<br />
15
2. SÜNTAGMAATILISED SUHTED<br />
KORPUSLEKSIKOGRAAFIAS<br />
Korpusleksikograafia põhiülesanne on erinevat tüüpi leksikograafiliste üksuste<br />
korpuspõhine automaattuvastamine. Uurimisobjektiks on sõnade definitsioonid,<br />
grammatiline kasutusinfo, süntagmaatilised suhted, leksikaalsemantilised suhted,<br />
näitelausete valik, lausemallid (subkategorisatsioonimallid) jm.<br />
Perspektiivis on korpuse päringusüsteemid (Corpus Query System)<br />
sõnastikusüsteemide (Dictionary Writing System) lahutamatu osa. Näitena võib tuua<br />
ühe progressiivsema sõnastikusüsteemi TshwaneLex (De Schryver, De Pauw 2007).<br />
Artikli pealkirjast „Dictionary Writing System (DWS) + Corpus Query Package<br />
(CQP): The Case of TshwaneLex” selgub kohe ka selle sõnastikusüsteemi<br />
funktsionaalne eripära: sõnastikusüsteem ja korpuse päringusüsteem on ühendatud,<br />
leksikograafi tööks on valida sobiv näitematerjal ja see lisatakse automaatselt teatud<br />
kirje vastavasse kohta.<br />
2.1. KORPUSLEKSIKOGRAAFIA ARENG<br />
Kilgarriff jt (2004: 106–107) on eristanud korpusleksikograafia arengus 7 kolm<br />
põhilist etappi.<br />
Esimene on arvutieelne periood, kui leksikograafide allikmaterjaliks olid eelkõige<br />
sõnasedelid. Teine periood algas 1970ndate lõpus seoses COBUILD (Collins<br />
Birmingham University International Language Database) projektiga, mille<br />
eesmärk oli luua korpuspõhised leksikonid inglise keele kui võõrkeele õppijate<br />
jaoks. Alates sellest projektist on konkordantsist saanud põhiline leksikograafi<br />
tööriist. Seejärel hakati looma programme, mis kergendaksid konkordantsis<br />
sisalduva informatsiooni töötlemist, nt WordSmith Tools 8 , MonoConc Pro 9 , IMC<br />
Corpus Workbench 10 (vt kirjeldust McEnery, Wilson 2007: 209–213), AntConc 11 .<br />
Kolmas periood on seotud leksikaalse statistika meetodite kasutuselevõtuga.<br />
Lähtekohaks peetakse Ken Churchi ja Patrick Hanksi 1989. aastal ilmunud artiklit,<br />
milles autorid tegid ettepaneku kasutada sõnadevahelise seose tugevuse mõõtmiseks<br />
vastastikuse informatsiooni väärtuse MI statistikut. Churchi ja Hanksi (1989) järgi<br />
tuleb sõnapaare, millele on omane kõrge vastastikuse informatsiooni väärtuse<br />
indeks, käsitleda kollokatsioonidena. 2000ndate alguses toimus leksikograafilise<br />
tarkvara Sketch Engine (Kilgarriff jt 2004) loomisega järjekordne kvalitatiivne<br />
7<br />
Ülevaateid korpusleksikograafia ajaloost vt ka Kilgarriff, Grefenstette (2008b: 90–93); Rundell,<br />
Kilgarriff (2011: 1–5).<br />
8<br />
WordSmith Tools http://www.lexically.net/wordsmith/index.html (20.06.12).<br />
9<br />
MonoConc Pro http://www.athel.com/mono.html (20.06.12).<br />
10<br />
IMC Corpus Workbench http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/<br />
(20.06.12).<br />
11<br />
AntConc http://www.antlab.sci.waseda.ac.jp/software.html (20.06.12).<br />
16
hüpe: süntagmaatiliste seoste automaattuvastamisel võeti aluseks morfoloogilise<br />
analüsaatori tulemused (sõnaliik ja grammatilised tunnused) ning kombinatsioonis<br />
statistiliste meetoditega osutus selline lähenemine efektiivseks.<br />
Tänapäeval kasutatakse eri tüüpi korpusleksikograafilist tarkvara, mis hõlbustab<br />
keeleandmete töötlemist ja aitab leksikograafil materjali sorteerida ja analüüsida.<br />
Kilgarriff ja Kosem (2012: 34–35) on välja pakkunud selle valdkonna tarkvara<br />
tüpoloogia.<br />
1) Eristatakse n-ö arvutipõhiselt (computer-based) ja online-režiimis töötavaid<br />
programme. Arvutipõhine tarkvara on näiteks WordSmith Tools, MonoConc Pro,<br />
IMC Corpus Workbench, AntConc. Neid programme saab kas tasuta või teatud tasu<br />
eest arvutisse installeerida ja programmi funktsioonide abil tekste analüüsida.<br />
Online-programmid on nt Sketch Engine (Kilgarriff jt 2004), taani keele<br />
mitmekülgset analüüsi võimaldav KorpusDK 12 ja Brighami Ülikooli professori<br />
Mark Daviese loodud corpus.byu.edu 13 . Eesti keele korpusi saab online-režiimis<br />
analüüsida Keeleveebi 14 , Tartu Ülikooli koondkorpuse kollokatsioonide tuvastaja 15<br />
ja Sketch Engine’i eesti keele mooduli kaudu.<br />
2) Korpusepäringu tarkvara võib olla loodud mingi konkreetse korpuse töötlemiseks<br />
(corpus-related tool), nt XAIRA 16 või KorpusDK, või moodustada süsteemi,<br />
võimaldades integreerida erinevaid korpuseid (corpus-independent tools), nt Sketch<br />
Engine, IMC Corpus WorkBench, WordSmithTools, MonoConc Pro ja AntConc.<br />
3) Tarkvara, mis käsitleb korpusena veebis olevaid tekste töötlemata kujul, nt<br />
Google. Kuigi veeb ei ole loodud lingvistilise ja leksikograafilise analüüsi jaoks,<br />
võib selle analüüs siiski kasulikuks osutuda. Spetsiaalsed programmid võimaldavad<br />
analüüsida veebi konkordantsi kujul, näiteks võib tuua programmi Webcorp 17<br />
(Renouf 2003).<br />
4) Eristatakse lihtsat (simple) ja täiustatud (advanced) tarkvara. Lihtsa tarkvara<br />
põhifunktsioonideks on konkordantsi koostamine ja kollokatsioonide (otsitakse<br />
statistiliste meetoditega) ning võtmesõnade tuvastamine. Viimase arengujärgu<br />
programmide lisafunktsioonid on sõnavisandi genereerimine ja otsing CQLpäringukeele<br />
(Contextual Query Language) abil, aga ka näitelausete automaatne<br />
valik, tesauruste koostamine jm.<br />
Sõltuvalt uurimise eesmärgist kasutatakse eri tüüpi tarkvaras sõnade<br />
süntagmaatiliste suhete automaattuvastamiseks erinevaid meetodeid, mis võib<br />
jaotada kahte suurde gruppi: puhtstatistilised meetodid ja kombinatoorsed meetodid.<br />
Stefan Everti (2009: 1215, 1220–1223, vt ka Uiboaed 2010: 310–312) uurimuses on<br />
12 KorpusDK http://ordnet.dk/korpusdk_en/?set_language=en (20.06.12).<br />
13 corpus.byu.edu http://corpus.byu.edu/corpora.asp (20.06.12).<br />
14 Keeleveeb www.keeleveeb.ee (20.06.12).<br />
15 Kollokatsioonide tuvastaja http://www.rabauti.ee/clc (20.06.12).<br />
16 XAIRA http://xaira.sourceforge.net/ (20.06.12).<br />
17 Webcorp http://www.webcorp.org.uk/live/ (25.10.12). Tarkvara töötab ka eesti keele jaoks.<br />
17
kirjeldatud ja võrreldud kolme põhilist lähenemist, mida rakendatakse<br />
süntagmaatiliste suhete tuvastamisel.<br />
1) Kindlas naabruses koosesinevaks (surface co-occurrence) peetakse kahte sõna,<br />
kui nad esinevad sageli koos teatavas kauguses ehk samas aknas (collocational<br />
span), mida arvestatakse kahe sõna vahele jäävate sõnade järgi.<br />
2) Tekstiliselt koosesinevaks (textual co-occurrence) peetakse sõnu, kui nad<br />
esinevad koos samas tekstiüksuses, tavaliselt lauses, osalauses või lausungis.<br />
3) Süntaktiliselt koosesinevaks (syntactic co-occurrence) peetakse sõnu ainult<br />
juhul, kui nende vahel on kindel süntaktiline seos, näiteks verb koos subjekti või<br />
objektiga.<br />
Kaks esimest lähenemist eeldavad statistiliste meetodite rakendamist. Kolmas<br />
lähenemine eeldab kombinatoorsete meetodite väljatöötamist, lisaks statistilisele<br />
analüüsile kasutatakse siin süntagmaatiliste suhete tuvastamisel ka teisi filtreid, nt<br />
morfoloogilisi või süntaktilisi märgendeid.<br />
Võrreldes kolme lähenemist, osutab Evert (2009: 1223–1224), et kindlas naabruses<br />
koosesinemise otsing osutus väga kasulikuks eelkõige korpuslingvistikas ja<br />
leksikograafias. Selle lähenemise puhul on tegemist teatud kompromissiga<br />
kitsendatud (restricted) süntaktilise koosesinemise (eriti kui arvesse on võetud<br />
ainult üks konkreetne süntaktiline seos) ja väga laia tekstilise koosesinemise vahel.<br />
Sel meetodil saadud sõnapaaride loendeid on kergem hallata, võrreldes loenditega,<br />
mis on saadud tekstilise koosesinemise mõõtmise meetodiga. Tekstiliste<br />
koosesinemiste otsingu väljund on liiga mahukas ja väljakutseks isegi arvutile.<br />
Süntaktiline koosesinemine esitab eri tüüpi sagedasti esinevaid grammatilises<br />
seoses olevaid ühendeid eraldi ning selle väljund on palju puhtam. Evert märgib, et<br />
eriti kasulik on see meetod mitmesõnaliste püsiühendite (multiword expression)<br />
tuvastamisel ja möönab, et otsingu tulemus on vastavuses süntaktilise analüsaatori<br />
täpsusega (ibid.).<br />
Järgnevalt kirjeldan lähemalt statistiliste ja kombinatoorste meetodite põhimõtteid<br />
ja analüüsin nende rakendamisvõimalusi eesti keele sisusõnade süntagmaatiliste<br />
suhete tuvastamisel.<br />
2.2. SÜNTAGMAATILISTE SUHETE TUVASTAMISE MEETODID<br />
2.2.1. Statistilised meetodid<br />
Süntagmaatiliste suhete tuvastamiseks statistiliste meetoditega on välja töötatud ja<br />
testitud eri tüüpi statistikuid (association measures). Statistikud võimaldavad<br />
arvutada kahe sõna seose tugevuse väärtuse korpuses, mille põhjal võib otsustada,<br />
kas tegemist on püsiühendiga või mitte. Statistikute kasutamise eelis on, et arvesse<br />
ei võeta ainult sõnade koosesinemise, vaid ka ühendit moodustavate sõnade<br />
eraldiesinemise sagedusi (Uiboaed 2010: 307). Statistiliste kollokaatide leidmiseks<br />
18
kasutatakse leksikograafias selliseid statistikuid nagu t-skoor (T-score), vastastikuse<br />
informatsiooni väärtus (mutual information, MI), MI 3 -skoor (MI 3 -score), logtõepära<br />
funktsioon (log-likelihood), minimaalne tundlikkus (minimum sensitivity),<br />
Dice’i koefitsient (Dice coefficient) ja sellel põhinev esilduvuse statistik logDice<br />
(logDice score).<br />
Näiteks Dice arvutatakse järgmise valemi põhjal:<br />
,<br />
kus fA – otsisõna (node word) eraldiesinemise sagedus korpuses; fB − kollokaadi<br />
(collocate) eraldiesinemise sagedus korpuses; fAB – otsisõna ja kollokaadi<br />
koosesinemise sagedus 18 .<br />
Eesti keele analüüsiks on olemas kaks online-režiimis töötavat programmi, mille<br />
abil saab statistiliselt esilduvaid kollokatsioone otsida. Tartu Ülikoolis loodud<br />
kollokatsioonide tuvastaja 19 käsitleb kollokatsioonidena selliseid sõnapaare, mille<br />
liikmed esinevad üksteise naabruses sagedamini, kui võiks eeldada nende<br />
üksindaesinemise sageduse põhjal. Tüüpilised kollokatsioonid on püsiühendid,<br />
näiteks ühendverbid või idiomaatilised väljendid. Programmi sisendkorpused on<br />
Eesti keele koondkorpus ja Tasakaalus korpus 20 .<br />
TÜ kollokatsioonide tuvastaja kasutab kolme statistikut: log-tõepära funktsioon,<br />
vastastikuse informatsiooni väärtus (MI) ja minimaalne tundlikkus; võrdluseks saab<br />
otsida ka lihtsalt esinemissageduse järgi järjestatud sõnapaare. Programm<br />
võimaldab otsida lemmade või sõnavormide statistiliselt esilduvaid kollokaate,<br />
lisaks saab päringut täpsustada kollokaadi sõnaliigilise kuuluvuse määramisega.<br />
Joonisel 1 on illustreeritud päring, millega tuvastatakse substantiivi päike tasakaalus<br />
korpuses esinevaid adjektiivseid kollokaate. Kollokaadid on järjestatud log-tõepära<br />
funktsiooni väärtuse järgi.<br />
18 Teiste statistikute valemeid vt nt Rychlý (2008).<br />
19 Kollokatsioonide tuvastaja http://www.rabauti.ee/clc (11.01.13).<br />
20 Eesti keele koondkorpus, Tasakaalus korpus vt<br />
http://www.cl.ut.ee/korpused/grammatikakorpus/ (11.01.13).<br />
19
Joonis 1. TÜ kollokatsioonide tuvastaja kasutajaliides (substantiivi päike kõrgeima<br />
log-tõepära funktsiooni väärtusega adjektiivsed kollokaadid).<br />
Jooniselt 1 nähtub, et substantiivi päike tuvastatud kõrgeima log-tõepära<br />
funktsiooni väärtusega adjektiivsed kollokaadid on loojuv/loojunud/ere/tõusev/<br />
kuum jne.<br />
Teiseks saab statistilisi koosesinemisi tuvastada programmi Sketch Engine eesti<br />
keele mooduli collocations-funktsiooni abil. Kollokaatide otsingul kasutab Sketch<br />
Engine koosesinemise sagedust ja kuut statistikut: t-skoor, vastastikuse<br />
informatsiooni väärtus (MI), MI 3 -skoor, log-tõepära funktsioon, minimaalne<br />
tundlikkus ja esilduvus (logDice). Kollokaate saab otsida sõnavormi, lemma ja<br />
grammatiliste tunnuste järgi, määrates täpselt ka otsitavate kollokatsioonide akna<br />
ning järjestusaluseks oleva statistiku. Joonisel 2 on akna suuruseks viis sõna, st<br />
uuritava sõna vasakule ja paremale poole arvestatakse viis sõna.<br />
20
Joonis 2. Programmi Sketch Engine kollokatsioonide otsingu aken.<br />
Nt kui otsilemmaks on päike, siis esitab programm erinevaid statistikuid kasutades<br />
selle statistiliselt relevantsed kollokaadid. Joonisel 3 on lemma päike statistilised<br />
kollokaadid järjestatud esilduvuse statistiku logDice väärtuse järgi.<br />
Joonis 3. Substantiivi päike statistilised kollokaadid järjestatuna esilduvuse<br />
(logDice) väärtuse järgi.<br />
21
Jooniselt 3 nähtub, et logDice väärtuse järgi on sagedamad kollokaadid<br />
käes/paistma/loojuma/särama/tõusev/päike/pilv jt. Kollokaat päike on hea näide<br />
puhtstatistilise analüüsi puudusest. Kollokaatide tuvastamisel ei arvesta programm<br />
osalause piiridega ning võtab arvesse juhtumid, kus otsisõna ja kollokaat on küll<br />
ühes kollokatsiooni aknas, kuid on eri osalausete liikmed, nt lauses Seal on palju<br />
rohkem päikest, aga põhjamaal on päikest vähem ja ka mängureeglid on<br />
teistsugused loetakse sõnad päikest ja päikest kollokaatideks. Üsna sarnase<br />
tulemuse saab, reastades kollokatsiooni kandidaadid minimaalse tundlikkuse ja<br />
MI 3 -skoori statistiku alusel.<br />
Koosesinemise sageduse, MI, t-skoori ja log-tõepära funktsiooniga saadud<br />
tulemused on mürarikkamad, kuna väljundisse sattub palju kirjavahemärke ja<br />
sagedamaid sõnu, mis ei paku leksikograafilist huvi (vrd Joonis 4).<br />
Joonis 4. Substantiivi päike statistilised kollokaadid järjestatuna t-skoori väärtuse<br />
järgi.<br />
Joonisel 4 on väljundis kirjavahemärgid, mittetähenduslikud sõnad<br />
ja/kui/ei/et/ka/mis, asesõnad tema/mina. Leksikograafilist huvi pakuvad nendest<br />
vaid käes ja paistma.<br />
Seega kindlas naabruses koosesinemiste tuvastamisel saavutavad nendest seitsmest<br />
statistikust eesti keele jaoks paremad tulemused eelkõige MI 3 -skoori, minimaalse<br />
tundlikkuse ja esilduvuse (logDice) statistikud.<br />
22
2.2.2. Kombinatoorsed meetodid<br />
Hübriidmeetodis kombineeritakse statistilist ja reeglipõhist lähenemist. Nagu<br />
igasuguse reeglipõhise lähenemise puhul, iseloomustavad seda parem arusaadavus,<br />
ülevaatlikkus ja kohaldatavus ‒ uurijal on võimalik tulemusi otseselt mõjutada,<br />
kuna iga reegli efektiivsust saab eraldi hinnata ja seda vajadusel korrigeerida<br />
(vrd Roosmaa jt 2001: 11).<br />
Kombinatoorsete meetodite rakendamine korpuspäringu tarkvaras on seotud<br />
sisendkorpuse andmetüüpidega – lemmatiseerimine; morfoloogilised, süntaktilised<br />
märgendid; osalausestamine jm. Nendele üksustele toetutakse arvutigrammatika<br />
kirjutamisel. Meetod eeldab eeltööna tuvastatavate üksuste analüüsi, tuleb täpselt<br />
määrata, mis tüüpi suhteid hakkab programm tuvastama. Nimestiku loomisel saab<br />
rakendada kahte lähenemist: empiirilist ehk korpusainesest lähtuvat ja lingvistilist<br />
ehk traditsioonilisest grammatikakirjeldusest lähtuvat.<br />
1. Korpusandmete empiiriline analüüs aitab tuvastada leksikogrammatilisi<br />
konstruktsioone, mida ei saa indekseerida traditsioonilise sõnaliigimärgendiga ning<br />
mille konstruktsioonispetsiifilist tähendust ja grammatikat ei saa esitada märksõna<br />
leksikaalsete omadustena (vt nt Sahkai 2011).<br />
Empiirilise lähenemise metodoloogilisi aluseid on kirjeldatud nt mallide<br />
grammatika teoorias (Hunston, Francis 2000), kus süntagmaatiliste suhete tüüpe<br />
nimetatakse mallideks (pattern), neid kirjeldatakse vormiklasside (form class)<br />
kaudu ja tuvastatakse eelkõige konkordantsiridade analüüsile toetudes järgmiselt:<br />
1) valitakse juhuslik hulk konkordantsiridu, nt Hunston ja Francis (2000)<br />
analüüsivad iga sõna (substantiiv, verb, adjektiiv, adverb) ca 50 konkordantsirida;<br />
2) valik järjestatakse parema või vasaku naabri suhtes. Hunston ja Francis (2000: 37)<br />
ka põhjendavad sorteerimist, nt kui substantiive sorteerida parempoolsete naabrite<br />
suhtes, siis saab tuvastada tüüpilisi järellaiendeid, vasaku naabri suhtes sorteerides<br />
tulevad esile eeslaiendid;<br />
3) tuvastatud koosesinemisi kirjeldatakse formaalselt vormiklassi terminites.<br />
Põhilised vormiklassid on ‘verbi grupp’, ‘noomeni grupp’, ‘adjektiivi grupp’,<br />
‘adverbi grupp’.<br />
Beryl T. Sue Atkins ja Michael Rundell (2008: 330–359) käsitlevad Oxfordi<br />
leksikograafia käsiraamatus analoogse meetodiga tuvastatud üksusi<br />
leksikograafiliselt relevantsete konstruktsioonidena. Nende käsiraamatus kirjeldatud<br />
meetodi kohaselt tuvastatakse süntagmaatiliste suhete tüüpe konkordantsiridade<br />
analüüsi põhjal. Esiteks tuleb analüüsida konkordantsiridu, seejärel tuvastada<br />
konkreetsele sõnaliigile (eelkõige substantiivile, adjektiivile, verbile ja adverbile)<br />
omased konstruktsioonid ja lõpuks esitada nende konstruktsioonide nimestik.<br />
Kaasmoodustajad on defineeritud kas sõnaliigi või fraasitüübi kaudu, lisaks<br />
osutatakse vajadusel ka kaasmoodustaja süntaktilisele funktsioonile (subjekt,<br />
objekt, adverbiaal).<br />
23
Järgnevalt rakendan kirjeldatud empiirilist lähenemist eesti substantiivi diskussioon<br />
näitel. Joonisel 5 on selle substantiivi 20 esimest konkordantsirida (otsisõnaga<br />
seotud sõnad on alla joonitud).<br />
Joonis 5. Sõna diskussioon konkordantsiread programmis Sketch Engine (ridade<br />
üldarv on 5934).<br />
Konkordantsiridade analüüsist kooruvad välja sellele sõnale iseloomulikud<br />
konstruktsioonid. On näha, et 1) diskussiooni iseloomu ja tüüpi on täpsustatud<br />
adjektiivide suur, äge, laialdane, pingne, põhimõtteline, juriidiline abil; 2) laiendiks<br />
on postpositsioonifraas millegi üle, millegi ümber ja postpositsioonilaadne ühend<br />
mingitel teemadel; 3) laiendiks on komitatiivis substantiiv, st diskussioon kellegagi;<br />
4) otsisõna on verbide tekkima, toimuma (subjekti funktsioonis) ja jälgima (objekti<br />
funktsoonis) laiendiks.<br />
Neid tuvastatud konstruktsioone kirjeldades saab järgneva tabeli (näitelausete<br />
allikas on eesti keele koondkorpus).<br />
Tabel 1. Substantiivi diskussioon konstruktsioonid.<br />
1 KONSTRUKTSIOON ADJ<br />
NÄITELAUSE Kuid ka see on avaliku diskussiooni objekt.<br />
2 KONSTRUKTSIOON PP-üle<br />
NÄITELAUSE Jätkame diskussiooni muudatusettepanekute üle.<br />
3 KONSTRUKTSIOON PP-ümber<br />
NÄITELAUSE Diskussioon eelnõu ümber on viinud mind segadusse.<br />
....<br />
24
Kui võrrelda diskussiooni kirjet seni ilmunud eesti keele sõnastikes, siis on näha, et<br />
just need konstruktsioonid on sõnastikes fikseeritud. Võrdleme nt kirjet diskussioon<br />
EKSSis (vt Joonis 6) ja sõnastikus „Valik rektsioone” (Mäearu 2011) (vt Joonis 7).<br />
Joonis 6. Kirje diskussioon EKSSis.<br />
Joonis 7. Kirje diskussioon sõnastikus „Valik rektsioone” (Mäearu 2011).<br />
Mõlemas sõnastikus on esitatud konstruktsioon diskussioon + PP (diskussioon mille<br />
üle, mille ümber, ja postpositsioonilaadsed mis teemal, mis küsimuses), lisaks on<br />
EKSSis ka konstruktsioon Adj + diskussioon (elav, huvitav, poliitiline, teaduslik,<br />
äge diskussioon). Järelikult on olulisemad konstruktsioonid korpusest tuvastatavad<br />
küllalt väikese hulga konkordantsiridade põhjal.<br />
Sellel teel saadud konstruktsioonide nimestik on aluseks korpusandmete<br />
automaatanalüüsi võimaldava arvutigrammatika reeglite kirjutamisel.<br />
2. Lingvistiline meetod eeldab, et lingvistiliste nähtuste kirjeldamisel lähtutakse<br />
akadeemiliste ja süntaktiliste (eelkõige fraasisüntaksi) grammatikate<br />
põhiseisukohtadest ja seejärel uuritakse nende nähtuste esinemist korpuses<br />
(Khokhlova 2010). Eesmärk on traditsioonilistes grammatikates fikseeritud<br />
täistähenduslike sõnaliikide (substantiivide, adjektiivide, adverbide ja verbide)<br />
süntagmaatiliste suhete tüüpide süstemaatiline kirjeldamine.<br />
Traditsioonilised grammatikakirjeldused on suureks abiks arvutigrammatika<br />
algversioonide loomisel. Kirjeldustele toetumine aitab juba uuritud keelenähtuste<br />
(antud töö puhul sisusõnade süntagmaatiliste suhete tüüpide) käsitlemist<br />
arvutigrammatikas.<br />
Siinses töös rakendan eesti keele sisusõnade süntagmaatiliste suhete<br />
automaattuvastamisel kombinatoorset sõnavisandite grammatika meetodit, mida on<br />
25
edukalt rakendatud leksikograafilises tarkvaras Sketch Engine sõnavisandite<br />
genereerimisel (Kilgarriff jt 2004). Järgmises peatükis tutvustan valitud meetodi<br />
põhimõtteid.<br />
2.3. SÕNAVISANDITE GRAMMATIKA MEETOD<br />
Meetod seisneb selles, et spetsiaalse arvutigrammatika (nn sõnavisandite<br />
grammatika) põhjal otsib programm koostaja poolt määratud grammatilistes suhetes<br />
olevaid sõnapaare ja -kolmikuid, töötleb andmeid statistiliselt ja teeb leksikograafi<br />
jaoks sõna süntaktilisest ja kollokatiivsest käitumisest kompaktse kokkuvõtte, mida<br />
nimetatakse sõnavisandiks. Sõnadevahelise seose tugevuse mõõtmisel kasutab<br />
programm logDice statistikut, lisaks mõõdetakse sõnade koosesinemise sagedust<br />
(raw frequency).<br />
Sõnavisandite grammatika formalismi reeglid on regulaaravaldised, mille<br />
atribuudid on sõnavorm („word”), lemma („lemma”), sõnaliik („tag”) ja<br />
muutetunnused („features”) 21 .<br />
Sõnavisandite grammatikas on nelja liiki grammatilisi suhteid 22 : 1) üheliikmeline<br />
suhe (unary) on defineeritud ühe konkreetse morfoloogilise kategooria kaudu ning<br />
see suhe annab infot ühe kindla grammatilise vormi kohta, nt mis käändes esineb<br />
konkreetse noomeni lemma kõige sagedamini; 2) sümmeetriline suhe (symmetric)<br />
puudutab eelkõige rinnastusseoses olevaid sõnu; 3) kaheliikmelised suhted (dual)<br />
võimaldavad otsida kahe sõna seoseid; 4) kolmeliikmelised suhted (trinary)<br />
võimaldavad leida seoseid kolme erineva sõna vahel (nt verbiga koos esinevaid<br />
adpositsioonifraase). Lisaks on veel reegli tüüp colloc, mis võimaldab otsida<br />
mitmest, nt kolmest ja enamast sõnast koosnevaid grammatilises seoses olevaid<br />
üksusi.<br />
Symmetric-, dual-, trynary- ja colloc-tüüpi reeglid on mõeldud sõnavisandite<br />
grammatikas defineeritud sõnapaaride, -kolmikute ja -nelikute tuvastamiseks, mille<br />
komponendid paiknevad tekstis üksteise suhtes kindlalt defineeritud naabruses<br />
(üldiselt on kontekstina vaadeldud osalauset).<br />
Reegliga colloc saab tuvastada selliseid kolmeliikmelisi konstruktsioone, kus<br />
laiendil on omakorda laiend, näiteks eesti keele substantiivse põhjaga<br />
sõnakolmikuid ja -nelikuid nagu uue aja kombed, luteri usu kirik, saja meetri jooks,<br />
kahe päeva toit, kolme meetri pikkune, keskmist kasvu mees, esimest aastat õpetaja,<br />
pikemat aega meister, kõrge kontsaga kingad; kuni kümme meetrit lai tee, üle valla<br />
21 Eesti keeles on muutetunnusteks noomeni arvu- ja käändetunnused, võrdlusastmete tunnused,<br />
verbi arvu-, isiku-, aja-, kõneviisi-, tegumoe- ja kõneliigitunnused, samuti infiniitsete<br />
verbivormide tunnused.<br />
22 Vt täpsemat kirjeldust Sketch Engine Trac – Grammatical relation definitions<br />
http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying#wordsketchdefs (28.08.12).<br />
26
kuulus sepp 23 . Selliste sõnakolmikute ja -nelikute nimestiku koostamine on omaette<br />
uurimisteema ning antud töös seda tüüpi suhteid ei käsitleta.<br />
Järgnevalt toon näiteks sõnavisandite grammatika meetodiga tuvastatud substantiivi<br />
päike 20 kollokaati, mis on järjestatud koosesinemise sageduse (vt Joonis 8) ja<br />
esilduvuse (vt Joonis 9) järgi. Jooniste esimeses veerus on esitatud otsisõna<br />
kollokaadid, teises veerus on grammatilise suhte nimetus (vt lähemalt ptk 3.2–3.5.),<br />
kolmandas on koosesinemiste arv ja neljandas on esilduvuse väärtus.<br />
Joonis 8. Substantiivi päike kollokaadid järjestatuna koosesinemise sageduse järgi.<br />
23 Näidete allikas on Tauli (1980).<br />
27
Joonis 9. Substantiivi päike kollokaadid järjestatuna esilduvuse (logDice) väärtuse<br />
järgi.<br />
Jooniste 8 ja 9 võrdlusest nähtub, et koosesinemise sagedus toob esile need<br />
kollokaadid, mille üksindaesinemise sagedus on kõrge (paistma, tõusma, loojuma<br />
jm), suurem osa nendest kollokaatidest kuulub eesti keele sagedussõnastiku<br />
(Kaalep, Muischnek 2002) 3000 sagedama sõna hulka. Esilduvus toob nähtavale<br />
eelkõige need kollokaadid, mille üksindaesinemise sagedus on madal (nt lemmade<br />
seniit, taevavõlv, varjutama üksindaesinemise sagedus on korpuses madalam kui<br />
20), kuid mis on olulised otsisõna süntagmaatika uurimise seisukohalt. Esilduvus<br />
toob nähtavale sellised sõnaühendid nagu päike seniidis, päike taevavõlvil (nt lauses<br />
Elu on täiesti võimalik ka päikest taevavõlvil edasi lükkamata), päikest varjutama<br />
jmt.<br />
Joonistel 3, 4, 8 ja 9 esitatud andmete võrdlusest on näha, et kombineeritud<br />
meetodiga (antud uurimuses sõnavisandite grammatika meetodiga) saadud tulemus<br />
on puhtam ja leksikograafil ei ole vaja kulutada aega eri tüüpi müra (nt<br />
kirjavahemärkide, vt Joonis 4) filtreerimisele. Puhtstatistilise meetodiga tuvastatud<br />
koosesinemiste puhul saavutavad eesti keele jaoks paremad tulemused eelkõige<br />
MI 3 -skoori, minimaalse tundlikkuse ja esilduvuse (logDice) statistikud.<br />
Koosesinemise sageduse, MI, t-skoori ja log-tõepära funktsiooniga saadud<br />
tulemused on mürarikkamad, kuna väljundisse satub palju kirjavahemärke ja<br />
sagedamaid sõnu, mis ei paku leksikograafilist huvi. Sõnavisandite grammatika<br />
28
meetodiga tuvastatud grammatiliste suhete puhul on kasulik vaadata nii<br />
koosesinemise sageduse kui ka esilduvuse põhjal tuvastatud kollokaate. Esimene<br />
näitab, mis kollokatiivses ümbruses ja mis kontekstides kasutatakse sõna kõige<br />
sagedamini, teine aitab tuvastada harvem ette tulevaid koosesinemisi.<br />
Tarkvara Sketch Engine’i sõnavisandi moodulis on laiendatud päringuga (advanced<br />
options, vt Joonis 10) võimalik määrata grammatiliste suhete tuvastamise<br />
lisatingimusi:<br />
valida olemasoleva korpuse failidest need, mis hakkavad kuuluma allkorpusesse<br />
(subcorpus);<br />
määrata suhte minimaalne esinemissagedus (minimum frequency);<br />
määrata grammatilise suhte minimaalne esilduvuse väärtus (minimum salience)<br />
(vt lähemalt Rychlý 2008). Väärtuse tõlgendamise põhimõte on järgmine:<br />
kõrged väärtused osutavad sõnadevahelisele tugevale seosele, väiksed ja<br />
negatiivsed väärtused sellele, et sõnad pigem välistavad üksteisega<br />
koosesinemise (Evert 2009: 2016);<br />
määrata ühe kategooria kuvatavate üksuste hulk (maximum number of items in<br />
grammatical relations);<br />
järjestada kollokaate esilduvuse väärtuse või koosesinemiste arvu järgi (sort<br />
collocations according to salience/raw frequency);<br />
kasutada funktsiooni Tickbox Lexicography template, mis pakub eri<br />
kollokatsioonidele (GDEXi sätete kohaselt) teatud arvu nn parimaid näitelauseid<br />
(vt lähemalt Kilgarriff jt 2008a);<br />
klasterdada kollokatsioone (cluster collocations);<br />
määrata minimaalne sarnasus klasterdatavate üksuste vahel (minimal similarity<br />
between cluster collocations);<br />
järjestada kollokaate grammatilise suhte liigi järgi (structure word sketch by<br />
gramrels);<br />
genereerida mitmesõnalisi sõnavisandeid (show links to multiword sketches);<br />
valida grammatilise suhte tüüp (select gramrels).<br />
29
Joonis 10. Sõnavisandi kasutajaliides: laiendatud päring.<br />
30
3. EESTI KEELE SUBSTANTIIVIDE, ADJEKTIIVIDE,<br />
ADVERBIDE JA VERBIDE SÜNTAGMAATILISED<br />
SUHTED NING NENDE TUVASTAMINE<br />
KORPUSEPROGRAMMI SKETCH ENGINE EESTI<br />
MOODULI NÄITEL<br />
3.1. EESTI KEELE SÕNAVISANDITE GRAMMATIKA KOOSTAMISE<br />
PÕHIMÕTTED<br />
Korpusanalüüsi tarbeks kirjeldan eesti keele sisusõnade süntagmaatiliste suhete<br />
tüüpe vormiklasside (sõnaliikide, fraasitüüpide) ja morfosüntaktiliste kategooriate<br />
(käänete) kaudu. Selline lähenemine on tingitud asjaolust, et korpusanalüüsi<br />
lähtekohaks on morfoloogiliselt märgendatud korpus ja sõnavisandite grammatika<br />
atribuudid on korpuses märgendatud sõnavormid, lemmad, sõnaliigid ja<br />
muutetunnused (vt lähemalt ptk 2.3.). Selliseid kirjeldusi nimetan töös<br />
leksikogrammatilisteks konstruktsioonideks. Konstruktsiooni moodustajaid käsitlen<br />
kaasmoodustajatena.<br />
Kaasmoodustaja on otsisõnaga süntagmaatilises suhtes olev sõna, ta võib olla nii selle<br />
sõna laiend kui ka põhi, mida otsisõna laiendab. Näiteks otsides substantiivi<br />
diskussioon süntagmaatilisi suhteid, on leksikograafi jaoks oluline näha nii neid<br />
suhteid, kus diskussioon on laiendi funktsioonis (nt diskussiooni teema) kui ka neid,<br />
kus diskussioon on põhja funktsioonis (nt äge diskussioon). Seejuures on oluline<br />
märkida, et kirjeldatud konkreetsete sisusõnade leksikogrammatilised<br />
konstruktsioonid ei ole sama mis nende sisusõnade fraasitüübid. Eriti oluline on see<br />
märkus substantiivi leksikogrammatiliste konstruktsioonide juures (vt Tabel 3), kus<br />
on välja toodud konstruktsioon numeraal + substantiiv. Tegemist on arvsõnafraasiga.<br />
Kuid moodustusstruktuuri põhjal kirjeldamine võimaldab arvsõnafraase käsitleda ka<br />
substantiivi leksikogrammatiliste konstruktsioonide hulgas.<br />
Konstruktsioonide loendi koostamisel olen otsustanud lingvistilise meetodi kasuks.<br />
Edaspidi võib kaaluda ka korpusainesest lähtuvate empiiriliste meetodite<br />
rakendamist, mis täiendaks sõnavisandite grammatikat.<br />
Eesti keele sõnavisandite grammatika koostamiseks tuli lahendada järgmised<br />
küsimused.<br />
1) Koostada eesti keele traditsiooniliste (Rätsep 1978; Tauli 1980; EKG 1993;<br />
Kerge 2000; Erelt jt 2007) ja formaalsete (Müürisep 2000; Roosmaa jt 2001;<br />
Puolakainen 2001) grammatikakirjelduste põhjal eesti substantiivide, adjektiivide,<br />
adverbide ja verbide süntagmaatiliste suhete nimestik. Kokku olen välja toonud 32<br />
substantiivide, adjektiivide, adverbide ja verbide leksikogrammatilist<br />
konstruktsiooni (vt Tabel 3, Tabel 5, Tabel 6 ja Tabel 7).<br />
2) Analüüsida olemasolevate eesti keele morfoloogiliste analüsaatorite sõnaliikide<br />
ja morfoloogiliste tunnuste märgendussüsteemi.<br />
31
Siinse töö raames koostatud sõnavisandite grammatika põhineb<br />
morfoloogiaanalüsaatori ESTMORF (Kaalep 1998) märgendussüsteemil 24 , millega<br />
on märgendatud eesti keele koondkorpus. ESTMORFi märgendussüsteem erineb<br />
paljuski teistes eesti keele morfoloogilistes analüsaatorites kasutatud märgenditest,<br />
toon tabelis 2 näiteks sõnaliikide käsitluse ESTMORFis, eesti keele kitsenduste<br />
grammatikas (edaspidi ESTKG) (Roosmaa jt 2001) ja Eesti Keele Instituudi (EKI)<br />
morfoloogilises analüsaatoris 25 .<br />
Tabel 2. Sõnaliikide käsitlus ESTMORFi (Kaalep 1998), ESTKG (Roosmaa jt<br />
2001) ja EKI morfoloogilises analüsaatoris.<br />
ESTMORF ESTKG EKI<br />
_S_ nimisõna<br />
_H_ pärisnimi<br />
_A_ omadussõna –<br />
algvõrre<br />
_S_ nimisõna<br />
_S_ nimisõna<br />
_H_ pärisnimi<br />
_C_ omadussõna –<br />
keskvõrre<br />
_U_ omadussõna –<br />
ülivõrre<br />
_A_ omadussõna _A_ omadussõna<br />
_G_ genitiivatribuut _G_ genitiivatribuut _G_ genitiivatribuut e<br />
(käändumatu<br />
omastavaline<br />
omadussõna)<br />
(pärisnimekujuline)<br />
täiend<br />
_D_ määrsõna _D_ määrsõna _D_ määrsõna<br />
_I_ hüüdsõna _I_ hüüdsõna _I_ hüüdsõna<br />
_J_ sidesõna _J_ sidesõna _J_ sidesõna<br />
_K_ kaassõna _K_ kaassõna _K_ kaassõna<br />
_N_ põhiarvsõna<br />
_N_ põhiarvsõna<br />
_O_ järgarvsõna _N_ arvsõna<br />
_O_ järgarvsõna<br />
_P_ asesõna _P_ asesõna _P_ asesõna<br />
32<br />
_V_ tegusõna _V_ tegusõna _V_ tegusõna<br />
_X_ verbi juurde<br />
kuuluv sõna, millel<br />
eraldi sõnaliigi tähistus<br />
puudub, nt plehku<br />
– –<br />
_Y_ lühend, nt USA _Y_ lühend, nt USA –<br />
_Z_ lausemärk, nt -, /, _Z_ lausemärk, nt -, /, –<br />
24<br />
ESTMORFi kirjeldus http://www.filosoft.ee/html_morf_et/morfoutinfo.html (28.08.12).<br />
25<br />
Eesti Keele Instituudi morfoloogiline analüsaator http://www.eki.ee/tarkvara/morf_lisa.html<br />
(28.08.12).
ESTMORF märgendab omaette sõnaliikideks alg-, kesk- ja ülivõrdes adjektiivid,<br />
üld- ja pärisnimisõnad, põhi- ja järgarvsõnad ning ei erista selliseid sõnaliike nagu<br />
modaal-, afiksaal- ja proadverbid (vrd EKG 1993: 18). Roosmaa jt arvates oleks<br />
selgem selline märgendus, kus sõltumata sellest, kas adjektiiv on alg-, kesk- või<br />
ülivõrdes, on kasutusel ikkagi sama märgend, mis ütleb, et tegu on adjektiiviga, ja<br />
lisaks veel märgend, mis näitab võrdlusastet (2001: 25–27). Nii on ESTKGs kolme<br />
eri adjektiivi märgendi (A, C ja U) asemel kasutusele võetud üksainus märgend (A)<br />
ning võrdlusastet näitavad märgendid pos (algvõrre), comp (keskvõrre) ja super<br />
(ülivõrre). Samal põhjusel on võetud pärisnime (H) ja üldnime (S) märgendid<br />
kokku üheks nimisõna märgendiks (S); põhiarvsõna (N) ja järgarvsõna (O)<br />
märgendid aga üheks arvsõna märgendiks (N). Lisamärgenditeks on põhi- ja<br />
järgarvsõnade märgendid (card ja ord) ning põhi-, modaal- ja abiverbide märgendid<br />
(main, mod, aux). Lisaks on ESTKGs ka adpositsioonide lisamärgendid, mis täpselt<br />
määravad, kas tegu on pre- või postpositsiooniga (vt kirjeldust Roosmaa jt 2001:<br />
121–158). Kuna ESTMORF pre- ja postpositsioone ei erista, siis tuli sõnavisandite<br />
grammatika tarbeks koostada spetsiaalsed pre- ja postpositsioonide loendid.<br />
EKI morfoloogilise analüsaatori süsteem sarnaneb sõnaliikide märgendamisel<br />
ESTMORFi ja ESTKG omaga, eraldi sõnaliigina märgendatakse pärisnimesid;<br />
adjektiivi võrdlusastmeid omaette sõnaliikideks ei märgendata.<br />
Kõigi kolme analüsaatori puuduseks on perifrastiliste verbide ja teist tüüpi<br />
püsiühendite puudulik märgendamine (eelkõige afiksaaladverbide märgendamine<br />
iseseisvateks adverbideks ja väljendverbide nominaalsete komponentide<br />
märgendamine iseseisvateks substantiivideks), kuid see puudus korvatakse ilmselt<br />
juba lähiaastatel (vt Kaalep, Muischnek 2009: 157–173). Põhilised probleemid on<br />
piiritletud samuti formaalses grammatikas (Roosmaa jt 2001: 26): nii ESTMORFis<br />
kui ka ESTKGs analüüsitakse predikaadi koosseisu kuuluvaid substantiivseid ja<br />
adverbilisi komponente eraldi (Roosmaa jt 2001: 29) ning eeltöötluse ja<br />
morfoloogilise analüüsi käigus neid ära ei tunta. Nagu ESTKG loojad märgivad,<br />
nõuaks liitpredikaadi adverbiliste ja substantiivsete komponentide täpsem analüüs<br />
semantilise info olemasolu ning väga mahukat väljend- ja ühendverbide<br />
arvutisõnastikku. Teiseks probleemiks on adverbialiseerunud ja adjektiviseerunud<br />
üksuste sõnaliigi määramine, nt käes, tasuta jne. Need vormid lemmatiseeritakse ja<br />
märgendatakse üldjuhul iseseisva substantiivina.<br />
Lähtuvalt morfoloogiaanalüsaatori ESTMORF märgendite süsteemist on eesti keele<br />
sõnavisandite grammatikasse kirjutatud reeglid selliste sõnaliikide jaoks nagu S<br />
(substantiiv); A (ka C, U ja G, st tuli kirjutada eraldi reeglid kõikide nende<br />
adjektiivivormide jaoks); D (adverb) ja V (verb). Kuid analüüsi on kaasatud ka<br />
sellised sõnaliigid nagu K (adpositsioon), P (pronoomen), N (kardinaal), O<br />
(ordinaal) ja X (Xiga on märgendatud verbi juurde kuuluv sõna, millel eraldi<br />
sõnaliigi tähistus puudub). Koondkorpuses on Xiks märgendatud järgmised sõnad:<br />
pärit (32278) 26 , tähele (7878), andeks (2690), parata (2135), mahti (1310), kihla (807),<br />
26 Sulgudes on esitatud andmed nende sõnade eraldiesinemise sageduse kohta koondkorpuses.<br />
33
plehku (492), säru (145), vehkat (76), peksa (70), lulli (62), amokki (41), tuupi (35),<br />
putket (28), luuslanki (24), luuri (16), lakku (6) ja rooki (1).<br />
3) Koostada konkreetsed sõnavisandite grammatika reeglid.<br />
4) Seejärel reegleid korpuse päringukeelt kasutades testida ja vaadata, kas nad<br />
töötavad. Oluline vaheetapp on iga reegli kontekstitingimuste täpsustamine ja<br />
vajadusel reeglit täpsustava leksikoni koostamine. Eraldi loendid koostasin<br />
sidendite, afiksaaladverbide, substantiivsete kvantorite ja prepositsioonide jaoks.<br />
Kontekstitingimuste määramisel ja loendite koostamisel toetusin eesti keele<br />
traditsiooniliste (Rätsep 1978; Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007) ja<br />
formaalsete (Müürisep 2000; Roosmaa jt 2001; Puolakainen 2001) grammatikate ja<br />
tasakaalus- ning koondkorpuse andmetele. Afiksaaladverbide loendi koostamisel<br />
kasutasin EKSSi ja EE-VN ühendverbide loendeid. Korpusandmeid kasutasin kõige<br />
rohkem siis, kui oli vaja otsustada, kas teatud grammatilise suhte puhul on mõtet<br />
otsida konkreetse sisusõna neid laiendeid, mis asuvad otsisõna paremas kontekstis,<br />
vasakus kontekstis või mõlemas. Toon näite: otsisõnaks on adjektiiv ja<br />
tuvastamisobjektiks on selle infinitiivsed laiendid (ahne sööma). Infinitiivsed<br />
laiendid on reeglina järellaiendid. Samas korpusandmed 27 osutavad sellele, et<br />
mõnikord esineb ma-infinitiivis verb ka adjektiiviks märgendatud sõnade ees, nt<br />
konstruktsioonides mõtlema kutsuv, lagunema/ununema kippuv jmt. Siiski on<br />
selliste konstruktsioonide esinemissagedus üsna madal ning neid on otstarbekam<br />
otsida päringukeele abil. Reegli lisamisel satuksid väljundisse juhuslikud verbi ja<br />
adjektiivi koosesinemised (nt saama õiget, domineerima tühjad jmt). Sel põhjusel<br />
seda tüüpi konstruktsioone tuvastavat reeglit (*Vma_Adj) ei ole koostatud.<br />
Eesti keele sõnavisandite grammatika versioon 1.5 koosneb 85 reeglist, mille hulgas<br />
on 14 unary-tüüpi, 4 symmetric-tüüpi, 62 dual-tüüpi ja 5 trinary-tüüpi reeglit<br />
(vt Lisa 1).<br />
Unary-tüüpi reeglid tuvastavad, mis käändes esineb konkreetne substantiiv või<br />
adjektiiv kõige sagedamini. See info on kasulik grammatikaliseerunud ja<br />
leksikaliseerunud vormide uurimisel. Nt korpuse andmed näitavad, et substantiivi<br />
tasu on kasutatud ilmaütlevas käändes 28 933 korda, teistes käänetes aga tunduvalt<br />
vähem (osastavas 5152 korda, omastavas 5077 korda, nimetavas 2558 korda). Selle<br />
info põhjal võib järeldada, et sõnavorm tasuta on adverbialiseerumas. Teiseks<br />
osutub see info kasulikuks morfoloogiliste vormide kasutussageduse uurimisel.<br />
Näiteks adjektiivi võimalik andmed näitavad, et omastavat vormi võimalike on<br />
kasutatud 6433 korda, samas vorm võimalikkude esineb vaid kaks korda. See teave<br />
on eriti oluline vormimoodustusinfo esitamisel õppesõnastikes. Nendele andmetele<br />
toetudes saab teha valiku, mis morfoloogilisi vorme esitada, et mitte koormata<br />
õppijat grammatiliselt lubatavate, aga tegelikus keeles mitte kasutatavate<br />
vormidega.<br />
27<br />
Konstruktsioonid on leitud päringuga 2:[ tag="V"&features="ma"] 1: [tag="A"&<br />
features=".._n"].<br />
34
Symmetric-tüüpi reeglid on koostatud eelkõige substantiivide, adjektiivide,<br />
adverbide ja verbide rinnastus- ja võrdlustarindite tuvastamiseks (vt lähemalt ptk<br />
3.2.2.10., 3.3.2.7., 3.4.2.5. ja 3.5.2.9.).<br />
Kahe- ja kolmeliikmeliste leksikogrammatiliste konstruktsioonide tuvastamiseks olen<br />
koostanud 67 reeglit. Peatükkides 3.2.–3.5. käsitlen ja võimalusel lahendan nende<br />
reeglite koostamisel tekkinud probleeme ja analüüsin saadud tulemusi. Igas peatükis<br />
on kaks osa: sõnaliigi leksikogrammatiliste konstruktsioonide nimestik (vt Tabel 3,<br />
Tabel 5, Tabel 6, Tabel 7) ja nende konstruktsioonide käsitlus sõnavisandite<br />
grammatikas. Tabelites osutan konkreetset konstruktsiooni tuvastava reegli<br />
nimetusele. Grammatika praeguses versioonis 1.5 on reeglite nimetustes kasutatud<br />
mitmete teiste keelte jaoks (nt Khokhlova 2010) koostatud sõnavisandite<br />
grammatikate traditsioonilist terminiaparaati. Neist suurem osa on ingliskeelsed<br />
terminid, nt subject ʽsubjektʼ, object ʽobjektʼ, adverbial ʽadverbiaalʼ, predicate<br />
ʽpredikatiivʼ, participle ʽpartitsiipʼ jt. Sõltuvussuhteid on näidatud sõnade modifier<br />
ʽlaiendʼ, modifies ʽlaiendabʼ ja prepositsiooni of abil. Grammatika metakeele<br />
arendamine nõuab täiendavaid kasutajauuringuid ning edaspidi saab seda kohandada<br />
eri sihtgruppide (leksikograafide, lingvistide, keeleõppijate) soovidele vastavaks.<br />
Tabelites toodud näited on võetud kas grammatikatest (Tauli 1980; EKG 1993;<br />
Kerge 2000; Erelt jt 2007) või eesti keele koondkorpusest.<br />
3.2. SUBSTANTIIVI SÜNTAGMAATILISED SUHTED<br />
3.2.1. Leksikogrammatilised konstruktsioonid<br />
Substantiivi süntagmaatiliste suhete nimestiku koostamisel lähtusin järgmistest<br />
grammatilistest käsitlustest: Valter Tauli 1980: 156–188; EKG 1993: 114–129;<br />
Krista Kerge 2000: 27–31, 78–83; Mati Erelt 2003a: 112–116. Sõnavisandite<br />
grammatika kirjutamisel kasutasin ka Kaili Müürisepa (2000: 62–68) väitekirja<br />
täiendigrammatika peatükis kirjeldatud põhimõtteid.<br />
Eesti substantiivifraasi moodustusstruktuuri kirjeldades osutab Erelt (2003a: 112, vt<br />
ka Erelt jt 2007: 531), et eesti keeles on tüüpilise/prototüüpse substantiivifraasi<br />
laiendite positsioon fikseeritud fraasi peasõna suhtes. Suurem osa laienditest esineb<br />
substantiivile eelnevas positsioonis: 1) demonstratiivid, nt see mees, kõik kohad,<br />
oma inimene; 2) adjektiivid, nt vana mees; 3) kvantorid, nt kaks meest;<br />
4) partitsiibid ja mata-ühendid relatiivsete klausidena, nt jalutav mees, rabisev<br />
vihm, hinnatav saavutus, möödunud päev, kõigi poolt oodatud inimene, hommikust<br />
saadik pesemata käed; 5) genitiivis laiendid, nt venna raamat, eesti keel; 6) mõned<br />
obliikvakäändes substantiivsed laiendid, nt puust maja, nokaga müts;<br />
7) järgarvsõnad, nt kümnes klass; 8) ja-tegijanimed relatiivsete klausidena, nt<br />
mõtleja inimene, hauduja kana. Lisaks loetletule substantiivi-, adjektiivi- ja<br />
kavantori(fraasi)dele esinevad substantiivi laienditena ka adverb(ifraas)id (kikkis<br />
kõrvad, raagus puud), adpositsioonifraasid (uhkus kodumaa üle), infinitiiv(ifraas)id<br />
35
(soov õppida, kavatsus abielluda) ja kõrvallaused (nt Muidugi jääb küsimus, kas see<br />
isik on sotsiaalselt kindlustatud) (vt Kerge 2000: 78–81).<br />
Tabelis 3 on esitatud sõnavisandite grammatikas tuvastatavad substantiivi<br />
leksikogrammatilised konstruktsioonid.<br />
Tabel 3. Substantiivi leksikogrammatilised konstruktsioonid.<br />
Kaasmoodus<br />
36<br />
taja kood<br />
Kaasmoodustaja<br />
Näited Konstruktsiooni tuvastava<br />
reegli nimetus SkE eesti<br />
moodulis<br />
Adj adjektiiv väike poiss, punane roos Adj_modifier/modifies<br />
Adj_comp_modifier/modifies<br />
Adj_sup_modifier/modifies<br />
Adj_käändumatu_modifier/ modifies<br />
Ptcp partitsiip<br />
(v-kesksõna,<br />
tav-kesksõna,<br />
nud-kesksõna,<br />
tud-kesksõna)<br />
N obliikvakäändes<br />
substantiiv<br />
jalutav mees,<br />
möödunud päev<br />
venna raamat, sõbra<br />
pruut, panga juhataja,<br />
ülikooli nõukogu;<br />
meeter riiet, pudel vett,<br />
paanikas mees, abielus<br />
naine, rauast uks,<br />
lendurist abikaasa,<br />
rinnuni rohi, lasteta<br />
perekond, iseloomuga<br />
naine;<br />
usk jumalasse, osavõtt<br />
koosolekust, lootus<br />
vabadusele, kiri sõbralt,<br />
ettepanek lõunasöögiks,<br />
tee suhkruta, abielu<br />
pankuriga, ämber veega<br />
Num arvsõna<br />
Eesti Vabariik, Euroopa<br />
Liit<br />
esimene armastus, sada<br />
kilomeetrit<br />
Adv adverb raagus puud,<br />
gripis/sarlakites laps,<br />
alasti jõnglane, kummuli<br />
pann, kohevil tainas,<br />
omaette tuba; palju<br />
pahandust, vähe vigu,<br />
natuke aega<br />
Pron pronoomen need lilled, mõlemad<br />
lapsed<br />
participle_modifier<br />
omastav_modifier/omastav_<br />
modifies<br />
osastav_modifier/osastav_<br />
modifies<br />
sisseütlev_modifier<br />
seesütlev_modifier<br />
seestütlev_modifier<br />
alaleütlev_modifier<br />
alalütlev_modifier<br />
alaltütlev_modifier<br />
saav_modifier<br />
rajav_modifier<br />
olev_modifier<br />
ilmaütlev_modifier<br />
kaasaütlev_modifier<br />
Pr_modifier/Pr_modifies<br />
ordinal_modifies/modifier<br />
cardinal_modifies/modifier<br />
Adv_modifier/N_modifies<br />
Pron_modifier/modifies
Kaasmoodus-<br />
taja kood<br />
Kaasmoodustaja<br />
PP adpositsioonifraas<br />
Vinf verb ma- või<br />
da-infinitiivis<br />
KL kõrvallause<br />
(tuvastusobjekt<br />
on kõrvallause<br />
alguses olev<br />
sidend)<br />
N ja/või N<br />
N kui/nagu N<br />
rinnastustarind<br />
võrdlustarind<br />
(nagu-tarind,<br />
kui-tarind)<br />
Näited Konstruktsiooni tuvastava<br />
reegli nimetus SkE eesti<br />
ülespoole põlve kleit, üle<br />
küla mees, elu üle<br />
mõtleja; hirm vanemate<br />
ees, vastutus laste eest,<br />
saatekiri arsti juurde<br />
meister valetama, soov<br />
laulda, harjumus õppida<br />
Mees, kes valetas.<br />
Küsimus, mis eile kerkis.<br />
See on fakt, et ta valetas.<br />
Mul tekkis kahtlus, kas ta<br />
mitte ei valeta.<br />
Mul on tunne, nagu oleks<br />
mul energiakriis.<br />
päike ja tuul,<br />
elu kui kabaree,<br />
mees nagu orkaan<br />
moodulis<br />
N_PP<br />
N_Vma<br />
N_Vda<br />
kõrvallause<br />
ja/või<br />
kui/nagu<br />
Pred predikatiiv Naine on ilus. predicate_N/predicate_N_of<br />
predicate_Adj/predicate_Adj_of<br />
3.2.2. Sõnavisandid<br />
3.2.2.1. Adjektiiv kaasmoodustajana<br />
Sõnavisandite grammatika versioonis 1.5 (vt Lisa 1) on adjektiivsete atribuutide<br />
tuvastamiseks neli reeglit (vt Tabel 3): Adj_modifier/modifies,<br />
Adj_comp_modifier/modifies, Adj_sup_modifier/modifies,<br />
Adj_käändumatu_modifier/modifies. See on tingitud ESTMORFi eripärast, et<br />
adjektiivi alg-, kesk- ja ülivõrded ning käändumatud adjektiivid on märgendatud<br />
omaette sõnaliikideks (vt ka ptk 3.1.).<br />
Grammatikas on arvesse võetud ainult sellised struktuurid, kus täiend on põhja ees.<br />
Tingimuseks on seatud, et täiend ühildub põhjaga käändes (v.a neli viimast käänet)<br />
ja arvus ning asub substantiivi vasakus kontekstis. Adjektiivseid järeltäiendeid<br />
programm hetkel ei otsi. Nagu märgitakse Erelti jt (2007: 532) käsiraamatus,<br />
kasutatakse eesti keeles järelasendit täiendi esiletõstmiseks peamiselt<br />
ilukirjanduskeeles ja emotsionaalses kõnes (vrd nt Tauli (1980: 159) näidet: Juba<br />
lapsena igatsesin merd ääretut (Friedebert Tuglas)). Järeltäiendi tuvastamiseks<br />
oleks vaja esiteks järeltäiendi grammatika põhjalikumat uurimist, ja teiseks, kuna<br />
seda tüüpi täiend esineb sagedamini ilukirjanduskeeles ja emotsionaalses kõnes, on<br />
nende automaattuvastamiseks vajalikud piisavalt suured vastavate allkeelte<br />
märgendatud korpused, vastasel juhul ei ole väljund representatiivne.<br />
37
Toon näiteks substantiivide päike (vt Joonis 11) ja ühiskond (vt Joonis 12)<br />
sõnavisandites tuvastatud (algvõrdes esinevad) eestäiendid. Siin ja edaspidi on<br />
sõnavisandi jooniste ülemisel real nähtavad grammatilise suhte nimetus<br />
sõnavisandite grammatikas, tuvastatud sõnade üldine koosesinemiste arv (overall<br />
frequency) ja esilduvuse (logDice) üldväärtus (overall score). Jooniste esimeses<br />
veerus on nähtavad lemmale viiduna otsisõna kollokaadid, teises veerus on iga<br />
konkreetse sõnapaari- või kolmiku koosesinemiste arv (frequency), kolmandas<br />
veerus on esilduvuse väärtus (score). Väärtuse tõlgendamise põhimõte on järgmine:<br />
kõrged väärtused osutavad sõnadevahelisele tugevale seosele, väiksed ja<br />
negatiivsed väärtused sellele, et sõnad pigem välistavad üksteisega koosesinemise<br />
(Evert 2009: 2016) (vt arutelu ptk-is 2.2.1. ja 2.2.2.). Joonistel on lemmad<br />
järjestatud koosesinemise sageduse järgi. Nii tulevad esile sõnad, mille<br />
eraldiesinemise sagedus korpuses on kõrge. Selline materjali esitusviis toetab eriti<br />
alg- ja kesktasemele suunatud süntagmaatiliste õpikute koostamist (vt arutelu ptk-is<br />
5.2.1.3.).<br />
Joonis 11. Substantiivi päike Joonis 12. Substantiivi ühiskond<br />
adjektiivatribuudid. adjektiivatribuudid.<br />
Joonisel 11 olevast infost nähtub, et reegli Adj_modifier alusel tuvastas programm<br />
lemma päike 2240 adjektiivset laiendit, millest kõige sagedam kollokaat on tõusev<br />
(271 koosesinemist), järgnevad ere/loojuv/lõõskav jt. Sõnapaari tõusev päike<br />
esilduvuse väärtus on 10.7; sõnapaari loojuv päike esilduvuse väärtus on sellest<br />
kõrgem (10.93), mis osutab, et sõnade loojuv ja päike seos on statistiliselt tugevam.<br />
Seevastu substantiivi ühiskond kõige sagedam adjektiivne eestäiend demokraatlik<br />
(914 koosesinemist) on ühtlasi kõrgeima esilduvuse väärtusega (10.66) adjektiivne<br />
kollokaat.<br />
3.2.2.2. Partitsiip kaasmoodustajana<br />
Partitsiipsete kaasmoodustajate tuvastamiseks on sõnavisandite grammatikas reegel<br />
participle_modifier (vt Tabel 3). Otsitakse substantiivi vasakus kontekstis esinevaid<br />
v-, tav-, nud- ja tud-kesksõnu. Seega tuvastab programm substantiivi ja partitsiibi<br />
38
ühendeid, milles partitsiip esineb eestäiendi funktsioonis. Joonis 13 näitab sõna<br />
kohv ja Joonis 14 sõna artikkel partitsiipseid eestäiendeid.<br />
Joonis 13. Substantiivi kohv Joonis 14. Substantiivi artikkel<br />
atribuudid. atribuudid.<br />
Substantiivi kohv sõnavisandis on sellised ühendid nagu jahvatatud/röstitud/<br />
jahtunud jne. Substantiivi artikkel sagedamad kaasmoodustajad on nud-partitsiip<br />
ilmunud ja tud-partitsiibid avaldatud/nimetatud/kirjutatud jt.<br />
3.2.2.3. Substantiiv kaasmoodustajana<br />
Obliikvakäändeliste substantiivsete atribuutide tuvastamiseks on kirjutatud eraldi<br />
reeglid iga käände jaoks. Seega toob süsteem esile substantiivi genitiiv- (venna<br />
raamat), partitiiv- (kimp lilli) ja adverbiaalatribuudid (usk jumalasse).<br />
3.2.2.3.1. Genitiivatribuut<br />
Genitiivatribuudi reegel omastav_modifier/omastav_modifies (vt Tabel 3) tuvastab<br />
substantiive, mis asuvad vahetult otsitava substantiivi vasakus kontekstis ja on<br />
genitiivis. Ka selle suhte puhul otsitakse vaid eestäiendiga ühendeid. Tauli (1980:<br />
166) on osutanud, et sellised konstruktsioonid, kus genitiivatribuut järgneb<br />
substantiivile, on samuti eesti keeles võimalikud, nt Kes olen mees ma koidu?<br />
(Gustav Suits), kuid need on pigem erandlikud ja esinevad üldjuhul luules.<br />
Programm otsib nii neid juhtumeid, kus otsitava lemma laiendiks on teine genitiivis<br />
substantiiv, kui ka neid, kus otsitav lemma esineb ise genitiivatribuudi funktsioonis.<br />
Joonisel 15 on lemma eesmärk genitiivatribuudid (omastav_modifier):<br />
eelnõu/projekti/seaduse eesmärk; samuti need ühendid, kus eesmärk ise esineb<br />
genitiivatribuudi funktsioonis (omastav_modifies): eesmärgi saavutamine/täitmine/<br />
seadmine jne.<br />
39
Joonis 15. Substantiiv eesmärk fraasi põhja ja genitiivatribuudi funktsioonis.<br />
Lisaks tuvastab programm reegli Pr_modifier/Pr_modifies (vt Tabel 3) abil<br />
genitiivis pärisnimede ja üldnimede koosesinemisi. Nt substantiivi vabariik<br />
sõnavisandis tulevad esile atribuudid Eesti/Lõuna-Aafrika/Läti jmt.<br />
3.2.2.3.2. Partitiivatribuut<br />
Partitiivatribuudid esinevad eelkõige substantiivsetes kvantorifraasides (vt ka Kerge<br />
2000: 25–26), nt kari mullikaid. Seda tüüpi kaasmoodustajate tuvastamiseks on<br />
kirjutatud reegel osastav_modifier/osastav_modifies, vt Tabel 3.<br />
Reegliga saab tuvastada otsisõna ainsuse ja mitmuse partitiivis olevaid<br />
järeltäiendeid. Programm otsib ainult loendina etteantud sõnade järeltäiendeid.<br />
Põhjus on selles, et muidu tuvastaks programm kõik võimalikud substantiivi<br />
koosesinemised teise partitiivis esineva substantiiviga, nt lauses Teise tsitaadi<br />
autorit ma täpselt ei mäleta või Mis loogika see õieti on, mille alusel kodanikel<br />
vahet tehakse?<br />
Loendis on sõnad aasta, enamik, enamus, gramm, grupp, hektar, hetk, hulk, hunnik,<br />
jagu, jupp, kann, kari, kast, kiht, kilogramm, kilo, kimp, klaas, klaasike,<br />
kolmveerand, kott, kraad, kuhi, liiter, meeter, minut, nädal, osa, paar, pakk, parv,<br />
põlvkond, ports, pudel, punt, purk, päev, rida, rühm, sari, sekund, tass, tassike, tilk,<br />
tonn, tund, tükk, valik, veerand, viil, virn. 28<br />
Jooniselt 16 nähtub, et substantiivi tass sagedamad partitiivatribuudid<br />
(osastav_modifier) on kohv/tee/vesi.<br />
28 Loendi koostamisel lähtusin päringuga 1:[tag="S"] [tag="A"]{0,2} 2:[tag="S"&<br />
features=".._p"][tag!="V"] saadud konkordantside analüüsist.<br />
40
Joonis 16. Substantiivi tass partitiivatribuudid.<br />
3.2.2.3.3. Adverbiaalatribuut<br />
Eraldi reeglid on kirjutatud kõikide adverbiaalkäändeliste täiendite tuvastamiseks<br />
(vt Tabel 3): sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier,<br />
alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, saav_modifier,<br />
rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier.<br />
Tauli (1980: 158–173), Kerge (2000: 27–31) ja Erelti (2003a: 114–115) eesti keele<br />
süntaksi uurimused näitavad, et nii substantiivile eelnevad kui ka järgnevad<br />
adverbiaalatribuudid võivad esineda kõikides adverbiaalkäänetes (vt Tabel 4).<br />
Tabel 4. Adverbiaalatribuutide asukoht põhja suhtes.<br />
Moodustusstruktuur<br />
Eestäiend Järeltäiend<br />
N+Nill eeskotta minek, Austraaliasse<br />
sõit<br />
usk jumalasse, sõit linna, vaade õue<br />
N+Nin paanikas inimene, tiisikuses käänak jutuajamises, äike<br />
mees, abielus naine,<br />
veebruaris, seisukohad<br />
küünaldes kuusk<br />
keeleküsimustes<br />
N+Nela rauast uks, lambanahast<br />
kasukas, kunstnikust vend<br />
unistus armastusest, osa päevast<br />
N+Nall luurele minek, trepile tulek lootus õnnele, rünnak kindlusele<br />
N+Nade naerul suu, hüppel loom, kõnelus sel teemal, meister omal<br />
veskil käik<br />
alal, võistlus ajavahemikul<br />
N+Nabl rahvuselt soomlane, elukutselt<br />
õpetaja, kontserdilt kojuminek<br />
küsimus kolleegilt, kiri õelt<br />
N+Ntrl sõduriks minek, minutiks tagatis eduks, juhend esmaabiks,<br />
äraminek<br />
soov puhkuseks<br />
N+Nter laeni kuusk, rinnuni rohi,<br />
maani palitu<br />
tee mõistmiseni<br />
N+Ness turistina sõit üritus tervikuna, osavõtt külalisena<br />
N+Nabe lasteta perekond, nokata müts,<br />
tasuta tsirkus<br />
pidu temata<br />
41
Moodustusstruktuur<br />
Eestäiend Järeltäiend<br />
N+Ncom nokaga müts, habemega mees,<br />
prillidega naine<br />
vestlus sõbraga, ämber veega<br />
Ühendeid noomen + noomen adverbiaalkäändes põhjalikult analüüsinud Tauli<br />
(1980: 167–173) märgib, et seda tüüpi ühendite üldine sõnajärg on, et laiend<br />
järgneb põhisõnale. Laiend on põhisõna ees, kui põhisõnaks on sõnad käik, minek,<br />
olek, panek, tulek, osalt püük ja sõit. Ka korpuse andmed osutavad, et järeltäiend<br />
esineb palju sagedamini kui eestäiend. Sõnavisandite grammatika reeglid otsivad<br />
hetkel seestütlevas, alalütlevas, alaltütlevas, saavas, olevas, ilmaütlevas ja<br />
kaasaütlevas käändes esinevaid eestäiendeid ja kõikides käänetes järeltäiendeid.<br />
Adverbiaalatribuutide reeglite puhul on problemaatiline see, et süsteem otsib<br />
osalause piires kõiki võimalikke laiendeid paremas ja vasakus kontekstis ning üsna<br />
sageli sattuvad väljundisse laiendid, mis pole otsilemmaga seotud. Toon näiteks<br />
lemma kiri sõnavisandis esile tulnud adverbiaalatribuudid (vt Joonis 17).<br />
Joonis 17. Substantiivi kiri adverbiaalatribuudid.<br />
Sõnavisandite grammatika alusel tuvastas programm sellised ühendid nagu kiri<br />
peaministrile/valitsusele/presidendile (vt veergu alaleütlev_modifier); kiri<br />
aadressilt/rindelt (vt alaltütlev_modifier); kiri pudelis (vt seesütlev_modifier); kiri<br />
aadressil/teemal, kirja alusel/teel (vt alalütlev_modifier); kiri palvega/<br />
42
teatega/ettepanekuga (vt kaasaütlev_modifier); kiri postkastist/arvutist/pangast (vt<br />
seestütlev_modifier); kirja saatjaks/ajendiks, vastuseks kirjale (vt saav_modifier) jt.<br />
Loetletud üksused pakuvad leksikograafilist huvi (moodustavad tähenduslikke<br />
seoseid ja näitavad kollokatiivset ümbrust), kuid väljundis on ka palju vigast infot,<br />
nt kiri paremuselt (vt veergu alaltütlev_modifier). Lemma kiri puhul on see tingitud<br />
suures osas asjaolust, et väljundisse sattuvad iseseisva substantiivina sellised<br />
vormid, mis on tegelikult väljendverbide nominaalsed komponendid. Näiteks on<br />
suur hulk vigadest tingitud väljendverbidest kirja panema (nt lauses Muidu saab<br />
igaüks end kandidaadina kirja panna ja piinata rahvast lubadustega, ..), kirjas<br />
olema (nt lauses Nüüd olen tööotsijana kirjas ja käin heakorratöödel, ..), kirja<br />
minema (nt lauses Korraldajad andsid läbi mikrofoni käitumisjuhiseid et üritus<br />
rekordina kirja läheks, ..), kirja saama (nt lauses Viimase jooksu võitis Nazarov ja<br />
sai kirja paremuselt kolmanda aja ..) jt. Ühendid nagu kandidaadina/tööotsijana/<br />
rekordina kiri (vt veergu olev_modifier) on tingitud väljendverbi olemasolust<br />
lauses; vigane ühend kiri paremuselt (vt alaltütlev_modifier) on tingitud sellest, et<br />
programm otsib paremas kontekstis asuvat naabrit, paremuselt on aga<br />
väljendverbile järgneva substantiivifraasi osa (paremuselt kolmas aeg). Seega<br />
toodud näited pole mitte substantiivi kiri adverbiaalatribuudid, vaid vastavate<br />
väljendverbide komponendid või kõrval asuvate substantiivifraaside laiendid. Et<br />
seda tüüpi vigu vältida, oleks vaja otsingut mitte ainult osalausete piires, vaid fraasi<br />
piires. 29<br />
Adverbiaalatribuudi reeglid tuvastavad paremini eelkõige neid ühendeid, mille<br />
puhul on tegemist rektsioonistruktuuridega. Kuna programmi kasutajaliides<br />
võimaldab valida, mis tüüpi suhteid otsida, siis ei pea iga sõna kõikide esile tulnud<br />
veergude sisu üle vaatama. Kasutaja võib täpselt määrata, mis adverbiaalkäändes<br />
atribuudid teda huvitavad. Nt kui lemmaks on usk ja kasutajat huvitab, millesse või<br />
kellesse usutakse, siis saab otsida ainult sisseütlevas käändes esinevaid laiendeid ja<br />
väljundis kuvatakse ainult illatiivseid atribuute, st usk jumalasse/õiglusse/imesse jne<br />
(vt Joonis 18).<br />
29 Eesti keele nimisõnafraaside eristamiseks on loodud spetsiaalne programm Eestikeelsete<br />
nimisõnafraaside filtreerija (EstNPTool), vt kirjeldust<br />
http://www.eki.ee/keeletehnoloogia/projektid/EstNPTool/ (28.08.12).<br />
43
Joonis 18. Substantiivi usk illatiivsed adverbiaalatribuudid.<br />
3.2.2.4. Pronoomen kaasmoodustajana<br />
Pronoomenite ja substantiivide koosesinemisi tuvastav reegel<br />
Pron_modifier/modifies (vt Tabel 3) otsib, milliste substantiividega esineb<br />
konkreetne pronoomen kõige sagedamini. Korpuse andmetel on sagedamad ühendid<br />
järgmised (vt Joonis 19, väljund on viidud lemmadele).<br />
Joonis 19. Pronoomeni ja substantiivi sagedamad koosesinemised.<br />
Toon näiteks pronoomeni mitu sõnavisandi (vt Joonis 20), milles tulevad esile<br />
sellised substantiivid nagu kord/aasta/kuu jne.<br />
44
Joonis 20. Pronoomeni mitu substantiivsed kaasmoodustajad.<br />
3.2.2.5. Numeraal kaasmoodustajana<br />
EKG (1993: 140) järgi on kvantorifraas eksotsentriline nagu adpositsioonifraas:<br />
põhi tingib laiendi olemasolu. Reeglid ordinal_modifies/modifier,<br />
cardinal_modifies/modifier (vt Tabel 3) tuvastavad substantiivi ja numeraali<br />
ühendeid, seejuures otsib programm eraldi põhiarvsõna ja substantiivi ning<br />
järgarvsõna ja substantiivi ühendeid. Toon näiteks numeraalide kaks (vt Joonis 21)<br />
ja esimene (vt Joonis 22) sõnavisandid, kus on näha lemmade kaks ja esimene<br />
tuvastatud kaasmoodustajad, nt kaks aastat/korda/nädalat jne ning esimene<br />
kord/päev/kvartal jne.<br />
Joonis 21. Kardinaali kaks Joonis 22. Ordinaali esimene<br />
kaasmoodustajad. kaasmoodustajad.<br />
45
3.2.2.6. Adverb kaasmoodustajana<br />
Müürisep (2000: 66) märgib, et adverbilised täiendid esinevad väga harva ning neid<br />
on raske määrata. Sõnavisandite grammatika reegel Adv_modifier/N_modifies (vt<br />
Tabel 3) otsib selliseid konstruktsioone, kus substantiivi vasakus kontekstis esineb<br />
adverb. Eesmärk on tuvastada eelkõige viisi- ja seisundimäärsõnu.<br />
Kontekstipiiranguna on reeglisse kirjutatud sellised adverbiks märgendatud sõnad<br />
nagu ikka, kuigi, ja, ju, juba, just, ka, kas, kui, kuidas, kus, miks, millal, nagu, nii,<br />
nüüd, siis, siiski, vaid, veel, muidugi, palju, kust, kuhu, mil, aga ka sagedamad<br />
ajamäärsõnad alati, ammu, eile, harva, kaua, kauaks, sageli, tihti, täna, varsti,<br />
üleeile ja afiksaaladverbide funktsioonis esinevad adverbid (vt loendit ptk 3.5.3.2.).<br />
Näiteks adverbiga omaette moodustavad ühendi sellised substantiivid nagu<br />
küsimus/teema/eesmärk/probleem/väärtus jne (vt Joonis 23).<br />
Joonis 23. Adverbi omaette ja substantiivi sagedamad ühendid.<br />
3.2.2.7. Adpositsioonifraas kaasmoodustajana<br />
Reegli N_PP abil otsib süsteem sõnakolmikuid, milles substantiivi laiendiks on<br />
kahest komponendist koosnev adpositsioonifraas. Otsitakse nii selliseid<br />
konstruktsioone, kus otsisõnale järgneb adpositsioon ja sellele järgneb substantiiv<br />
(prepositsioonide puhul), nt löök allapoole vööd, kui ka neid, kus otsisõnale järgneb<br />
teine substantiiv ja sellele järgneb omakorda adpositsioon (postpositsioonide<br />
puhul), nt armastus ema vastu 30 .<br />
Joonisel 24 on näidatud substantiivi viha laienditena esinevad adpositsioonifraasid,<br />
nt viha kelle-mille vastu (211 lauset) / peale (20 lauset) / pärast (19 lauset) / suhtes<br />
(6 lauset).<br />
30 Neljast ja rohkemast komponendist koosnevate kaassõnafraaside otsing (nt vajadus uue korteri<br />
järele) eeldab colloc-tüüpi reeglite kirjutamist (vt ptk 2.3.).<br />
46
Joonis 24. Substantiivi viha laiendavad adpositsioonifraasid.<br />
Oluline on märkida, et süsteem otsib ainult substantiivile järgnevaid<br />
adpositsioonifraase ja ei arvesta juhtumeid, kus adpositsioonifraas eelneb<br />
substantiivile. Selliste konstruktsioonide sõnajärge analüüsinud Tauli toob näiteid<br />
juhtumitest, kus adpositsioonifraas on lauses substantiivi ees, nt .. mööda koridori<br />
mineku sammude kerge kaja .. (August Mälk), Aer vaatas talle korraks otsa ja nägi<br />
ilma hirmuta musti silmi (Juhan Smuul). Kuid samas märgib Tauli, et seda tüüpi<br />
konstruktsioonid esinevad teatud semantiliste piirangute korras, nt kui põhjaks on<br />
substantiivid minek, tulek või kui prepositsiooniks on ilma (1980: 178–181). Sel<br />
põhjusel piirdub reegel vaid nende juhtumite otsimisega, kus adpositsioonifraas<br />
esineb järellaiendi funktsioonis.<br />
Joonisel 25 on näidatud fraasi viha kelle-mille vastu konkordantsiread, millest on<br />
näha, et programm otsib adpositsioonifraase vaid substantiivi paremast kontekstist.<br />
Joonis 25. Konstruktsiooni viha kelle-mille vastu kasutust illustreerivad<br />
konkordantsiread.<br />
47
3.2.2.8. Infiniitne verb kaasmoodustajana<br />
Infiniitsetest verbidest võivad substantiivi laiendi funktsioonis esineda ma-infinitiiv,<br />
mas-vorm (nt lauses Pildi nimeks on „Poiss õngitsemas”), mast-vorm (nt lauses<br />
Suur tänu mind aitamast), mata-vorm (söömata roog, kirjutamata seadus), maksvorm<br />
(eeldused mõistmaks) ja da-infinitiiv (lust tantsida) (Tauli 1980: 188–193).<br />
Eeslaiendi funktsioonis esinevaid verbivorme otsitakse partitsiipe tuvastava reegli<br />
participle_modifier (vt Tabel 3) abil, kus partitsiipidest on sisse võetud v-, tav-,<br />
nud- ja tud-kesksõnad (vt ptk 3.2.2.2.).<br />
Reeglid N_Vma, N_Vda (vt Tabel 3) otsivad ainult ma- ja da-infinitiivis olevaid<br />
järellaiendeid. Joonisel 26 on tuvastatud substantiivi soov da-infinitiivsed laiendid:<br />
säilitada/vabaneda/vältida jne. Joonisel 27 on substantiivi meister ma-infinitiivsed<br />
laiendid: grillima/leiutama/vihjama jne.<br />
Joonis 26. Substantiivi soov Joonis 27. Substantiivi meister<br />
da-infinitiivis laiendid. ma-infinitiivis laiendid.<br />
3.2.2.9. Kõrvallause laiendina<br />
EKG kohaselt liigituvad kõrvallaused kolmeks põhitüübiks: komplementlause,<br />
adverbiaallause ja relatiivlause. Komplementlaused on pealause predikaadi vm<br />
liikme seotud laiendid, mis täiendavad sisuliselt vastavat sõna või sõnade ühendit.<br />
Relatiivlaused on kõrvallaused, mille pronoomenist või adverbist sidend on<br />
korrelaadi vahendusel või ilma selleta viiteseoses kas pealause substantiivi(fraasi)ga<br />
või erandjuhul pealause kui tervikuga. Adverbiaallaused on pealause predikaadi vm<br />
lauseelemendi vabad laiendid (1993: 281–282).<br />
Reegel kõrvallause (vt Tabel 3) tuvastab substantiivile järgneva kõrvallause alguses<br />
asuvaid sidendeid etteantud loendi alusel. Loend on koostatud Tauli (1980: 228–<br />
240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest ning loendis on<br />
sidendina toimivad sõnad ega, ehkki, et, justkui, kas, kes, kuhu, kui, kuidas, kuigi,<br />
48
kuivõrd, kumb, kuna, kuni, kus, kust, miks, mil, millal, milleks, milline, mis,<br />
mismoodi, missugune, mistarvis, mistõttu, nagu, otsekui ja sest.<br />
Joonisel 28 on näidatud sõna küsimus laiendavate kõrvallausete alguses olevad<br />
sidendid. Nendest sagedamad on küsimus, mis … (nt lauses Need on küsimused, mis<br />
tuleb seaduses reguleerida, ..), küsimus, kas … (nt lauses Nüüd tekib jälle küsimus,<br />
kas peaks kartma olla rikas), küsimus, et … (nt lauses Teine küsimus, et kui asi on<br />
lausa vastupidi) jt.<br />
Joonis 28. Substantiivi küsimus laiendavate kõrvallausete alguses asuvad sidendid.<br />
Ühesõnaliste sidendite tuvastamine õnnestub selle reegliga hästi, kuid probleeme<br />
tekib selliste ühenditega nagu mis ajal, mis ajani, mis põhjusel, mil(lisel) kombel,<br />
kui palju, kui pikk jne (vt lähemalt EKG 1993: 291). Hetkel tuvastab süsteem ainult<br />
ühest sõnast koosnevaid sidendeid. Ühenditena esinevate sidendite tuvastamine jääb<br />
sõnavisandite grammatika edasiarenduseks.<br />
3.2.2.10. Rinnastus- ja võrdlustarindid<br />
Reeglite ja/või, kui/nagu (vt Tabel 3) abil tuvastatakse koordinatsiooniseoses<br />
olevaid substantiive ning kui- ja nagu-võrdlustarindeid. Tegemist on sümmeetrilisel<br />
suhtel põhineva ehk symmetric-tüüpi reeglitega. Joonisel 29 on näidatud sõnaga<br />
päike rinnastusseoses olevad substantiivid: tuul ja päike (nt lauses Tuul ja päike on<br />
praeguseks põllumaa pea kõikjal kuivatanud), vihm ja päike (Juulis on aga vihma<br />
ja päikest parasjagu).<br />
49
Joonis 29. Substantiivi päike rinnastustarindid.<br />
3.2.2.11. Predikatiiv<br />
Eesti keeleteaduses eristatakse predikatiive ja predikatiivadverbiaale (vt lähemalt<br />
Erelt 2003b: 73; predikatiivadverbiaale on uurinud Pai 2001). Predikatiivideks<br />
peetakse nominatiivset või partitiivset noomenit (lisaks ka da-infinitiivi ja<br />
partitsiipi) verbi olema laiendina (nt EKG 1993: 10), mõnes käsitluses ka verbide<br />
saama, näima laiendina (nt Kask 1936). Siinse töö raames käsitlen predikatiivina<br />
verbi olema partitiivis või nominatiivis substantiivset või adjektiivset laiendit.<br />
Translatiivis ja essiivis adjektiivseid verbilaiendeid käsitletakse<br />
predikatiivadverbiaalidena (vt lähemalt ptk 3.5.2.4.).<br />
Sõnavisandite reeglitega predicate_N/predicate_N_of, predicate_Adj/<br />
predicate_Adj_of (vt Tabel 3) tuvastatakse konstruktsioone, kus predikatiivi<br />
funktsioonis on nominatiivis või partitiivis substantiiv või adjektiiv, nt Hunt on tark<br />
loom. Poiss on tubli jne. Näiteks tuvastab süsteem, et lemma hunt sagedam<br />
predikatiivi funktsioonis esinev substantiiv on loom. Joonisel 30 on näidatud<br />
vastavad konkordantsiread.<br />
Joonis 30. Substantiivi hunt ja tema predikatiivi loom illustreerivad<br />
konkordantsiread.<br />
3.2.3. Kokkuvõtteks: substantiivid<br />
Substantiivide sõnavisandites tulevad esile adjektiivsed, partitsiipsed,<br />
pronominaalsed, adverbiaalsed ja substantiivsed kaasmoodustajad, laiendi<br />
funktsioonis esinevad infiniitverbid ja adpositsioonifraasid, kõrvallausete alguses<br />
50
asuvad sagedamad sidendid, predikatiivid, rinnastus- ja võrdlustarindid, lisaks<br />
tuvastatakse, milliste verbidega esineb otsisõna subjekti, objekti ja adverbiaali<br />
funktsioonis (vt ptk 3.5.2.1.–3.5.2.3.). Seega koorub sõnavisanditest välja sõna<br />
esialgne leksikaalne profiil, mille alusel saab leksikograaf sõnaraamatu artikleid<br />
koostada. Toon näiteks sõna diskussioon sõnavisandi (vt Joonis 31).<br />
Joonis 31. Substantiivi diskussioon sõnavisand.<br />
Sõnavisandist saab vajaliku materjali sõnaartikli koostamiseks:<br />
avalik/poliitiline/elav .. diskussioon. Diskussioon käib/tekib/toimub .. Diskussiooni<br />
alustama/tekitama/algatama .. Diskussiooni objekt/teema/tulemus .. Diskussioon ja<br />
arutelu. Diskussioon teemal, diskussiooni tulemusel. Diskussioon<br />
ajakirjanduses/komisjonis/ühiskonnas. Diskussioon on elav/mõttetu/vajalik ..<br />
Diskussioon millegi ümber / millegi üle.<br />
51
3.3. ADJEKTIIVI SÜNTAGMAATILISED SUHTED<br />
3.3.1. Leksikogrammatilised konstruktsioonid<br />
Adjektiivikonstruktsioonide nimestiku koostamisel on aluseks Erelti (1979b, 1986),<br />
Tauli (1980: 158–193), EKG (1993: 129–136) ja Kerge (2000: 31–35) käsitlused.<br />
EKG järgi võib adjektiivifraasi laiendliikmeteks olla: 1) substantiiv(ifraas), nt<br />
kirjatarkuses osav; 2) adpositsioonifraas, nt poja üle uhke, külaliste vastu viisakas;<br />
3) infinitiiv(ifraas), nt ahne sööma; 4) adjektiiv(ifraas), nt põhjatu rikas, igavene<br />
suur; 5) kvantorifraas, nt viie päeva vanune; 6) adverb(ifraas), nt tõsiselt haige;<br />
7) kõrvallause, nt Ta tütar oli ilusam(,) kui ta ise (nooruses oli) (1993: 129–130).<br />
Tabelis 5 on esitatud sõnavisandite grammatikas tuvastatavad adjektiivi<br />
leksikogrammatilised konstruktsioonid.<br />
Tabel 5. Adjektiivi leksikogrammatilised konstruktsioonid.<br />
Kaasmoodustaja<br />
kood<br />
52<br />
Kaasmoodustaja<br />
Näited Konstruktsiooni<br />
tuvastava reegli<br />
nimetus SkE eesti<br />
moodulis<br />
Adj adjektiiv igavene suur Adj_modifier/Adj_modifies<br />
N obliikvakäändes<br />
substantiiv<br />
sõbratari sarnane;<br />
kõrvuni armunud,<br />
südamepõhjani<br />
solvunud; söögiks<br />
kõlbmatu;<br />
õpetajana hinnatud<br />
Adv adverb väga aeglane, eriti<br />
kiire, silmatorkavalt<br />
hea, parajasti<br />
rumal, iseloomult<br />
raske, seest toores<br />
omastav_modifier<br />
sisseütlev_modifier<br />
seesütlev_modifier<br />
seestütlev_modifier<br />
alaleütlev_modifier<br />
alalütlev_modifier<br />
alaltütlev_modifier<br />
saav_modifier<br />
rajav_modifier<br />
olev_modifier<br />
ilmaütlev_modifier<br />
kaasaütlev_modifier<br />
Adv_modifier/Adj_modifies
Kaasmoodustaja<br />
kood<br />
Kaasmoodustaja<br />
PP adpositsioonifraas<br />
Vinf verb ma- või dainfinitiivis<br />
KL kõrvallause<br />
(tuvastusobjekt<br />
on kõrvallause<br />
alguses olev<br />
Adj ja/või Adj<br />
Adj kui/nagu N<br />
sidend)<br />
rinnastustarind,<br />
võrdlustarind<br />
(nagu-tarind,<br />
kui-tarind)<br />
Näited Konstruktsiooni<br />
tuvastava reegli<br />
nimetus SkE eesti<br />
poja üle uhke,<br />
kingituste üle<br />
rõõmus, hull raha<br />
järele, maavarade<br />
poolest rikas,<br />
mantli kohta lühike,<br />
juristi jaoks liiga<br />
aeglane, iseloomu<br />
poolest hea,<br />
matkast saadik<br />
tõbine<br />
ahne sööma, ilus<br />
vaadata, raske<br />
mõista, sobilik<br />
asendama<br />
hea, kui ...<br />
huvitav, kas ...<br />
ilus ja noor,<br />
must kui öö,<br />
valge kui lumi,<br />
must nagu süsi<br />
moodulis<br />
Adj_PP<br />
Adj_Vma<br />
Adj_Vda<br />
kõrvallause<br />
ja/või<br />
kui/nagu<br />
3.3.2. Sõnavisandid<br />
Sõnavisandite grammatikas on adjektiivide süntagmaatiliste suhete tuvastamiseks<br />
kokku 20 reeglit. Nagu substantiivi kirjelduses, arvestab grammatika versioon 1.5<br />
adjektiivi substantiivsete, adjektiivsete ja adverbiliste laiendite puhul eelkõige<br />
eeslaiendeid, adpositsioonifraasi, infiniitse verbi ja kõrvallause korral aga ainult<br />
järelpositsioonis olevaid laiendeid.<br />
3.3.2.1. Adjektiiv kaasmoodustajana<br />
Reegel Adj_modifier/Adj_modifies (vt Tabel 5) otsib adjektiivi adjektiivseid<br />
laiendeid, mis asuvad vahetult selle vasakus kontekstis (nt igavene suur). Joonisel<br />
32 on näidatud sagedamad adjektiivid, mille laiendiks on lemma jube:<br />
raske/hea/kallis jne.<br />
53
Joonis 32. Sõna jube adjektiivse kaasmoodustajana.<br />
3.3.2.2. Substantiiv kaasmoodustajana<br />
Adjektiivifraasi substantiivne kaasmoodustaja võib esineda genitiivis (sõbratari<br />
sarnane) ja adverbiaalkäänetes. Sõnavisandite grammatika alusel (reeglid<br />
omastav_modifier, sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier,<br />
alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, saav_modifier,<br />
rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier, vt Tabel 5)<br />
otsib programm adjektiivi omastavas (jumala hea), sisseütlevas (eetrisse minev),<br />
seesütlevas (arvutivõrgus kättesaadav), seestütlevas (ametist lahkuv), alaleütlevas<br />
(nõuetele vastav), alalütlevas (välismaal elav), alaltütlevas (tähtsuselt järgmine),<br />
saavas (tööks sobiv), rajavas (kõrvuni armunud), olevas (õpetajana töötav),<br />
ilmaütlevas (tingimusteta vaba) ja kaasaütlevas (seadusega ettenähtud) käändes<br />
substantiivseid kaasmoodustajaid.<br />
Reeglid omastav_modifier, sisseütlev_modifier, seesütlev_modifier,<br />
seestütlev_modifier, laleütlev_modifier, alalütlev_modifier, alaltütlev_modifier,<br />
saav_modifier, rajav_modifier, olev_modifier, ilmaütlev_modifier,<br />
kaasaütlev_modifier tuvastavad kõige paremini rektsiooniliste laienditega suhteid,<br />
nt kellega-millega sarnane, kellele-millele lähedane jmt.<br />
3.3.2.3. Adverb kaasmoodustajana<br />
Reegel Adv_modifier/Adj_modifies (vt Tabel 5) tuvastab adverbe, mis esinevad<br />
otsisõna eeslaiendi funktsioonis. Kontekstipiiranguna on reeglisse kirjutatud<br />
sellised adverbiks märgendatud sõnad nagu ja, ka, nii, kui, kas, veel, kuidas, just,<br />
nagu, ju, ikka, vaid, siis, siiski, muidugi, palju, eks ja kuigi. Joonisel 33 on näha<br />
lemma hea adverbilised kaasmoodustajad: väga/päris/eriti/piisavalt.<br />
54
Joonis 33. Adjektiivi hea adverbilised laiendid.<br />
3.3.2.4. Adpositsioonifraas kaasmoodustajana<br />
Adpositsiooniliste laiendite tuvastamise reegli Adj_PP (vt Tabel 5) abil otsib<br />
programm hetkel vaid adjektiivi postpositsioonifraasina esinevaid järellaiendeid, nt<br />
jõle/range kelle vastu, tähelepanelik/nõudlik/tundlik mille suhtes jms. Otsitakse<br />
postpositsioonidega ees, eest, järele, peale, poolest, puhul, seas, suhtes, vastu ja üle<br />
fraase. 31 Reegel töötab kõige paremini rektsioonistruktuuride tuvastamisel. Näiteks<br />
tuvastab süsteem, et lemma vihane sagedamaks laiendiks on postpositsioonifraas<br />
kelle-mille peale (vt Joonis 34).<br />
Joonis 34. Adjektiivi vihane postpositsionifraasina esinev laiend.<br />
Joonisel 35 on seda grammatilist suhet illustreerivad konkordantsiread.<br />
31 Loendi koostamisel lähtusin päringuga 1:[tag="A"&features=".._n"] 2:[tag="S"] 3:[tag="K"]<br />
[tag!="S"] saadud konkordantside analüüsist. Loendis olevad postpositsioonid on sagedad<br />
rektsioonistruktuuride moodustamisel.<br />
55
Joonis 35. Konstruktsiooni vihane kelle-mille peale kasutust illustreerivad<br />
konkordantsiread.<br />
3.3.2.5. Infiniitne verb kaasmoodustajana<br />
Nagu ka substantiivi puhul (vt ptk 3.2.2.8.), tuvastavad reeglid Adj_Vma, Adj_Vda<br />
(vt Tabel 5) adjektiivi laiendiks olevaid ma- ja da-infinitiive, nt ilus vaadata, raske<br />
mõista jmt. Joonisel 36 on näha lemma ilus tuvastatud laiendeid: ilus<br />
vaadata/öelda/teha jne, nt lauses Lääneliku tava järgi on ilus elada väikeses<br />
rahulikus linnas.<br />
Joonis 36. Adjektiivi ilus da-infinitiivis kaasmoodustajad.<br />
3.3.2.6. Kõrvallause laiendina<br />
Reegel kõrvallause (vt Tabel 5) tuvastab adjektiivile järgnevate kõrvallausete<br />
alguses olevaid sidendeid etteantud loendi alusel. Loend on koostatud lähtuvalt<br />
Tauli (1980: 228–240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest<br />
ning loendis on sellised sidendina toimivad sõnad nagu ega, ehkki, et, justkui, kas,<br />
kes, kuhu, kui, kuidas, kuigi, kuivõrd, kumb, kuna, kuni, kus, kust, miks, mil, millal,<br />
milleks, milline, mis, mismoodi, missugune, mistarvis, mistõttu, nagu, otsekui ja<br />
sest.<br />
56
Joonisel 37 on näidatud adjektiivi selge laiendavate osalausete alguses asuvad<br />
sidendid. Nendest sagedamad on selge, et ... (nt lauses On täiesti selge, et<br />
konventsiooni põhieesmärgid tuleb täita .. ), selge, kas ... (nt lauses Arve puhul on<br />
selge, kas ta on pangast läbi käinud), selge, mis ... (nt lauses Päriselt ei ole siiski<br />
selge, mis see töötulu on) jt.<br />
Joonis 37. Adjektiivi selge laiendavate kõrvallausete alguses asuvad sidendid.<br />
3.3.2.7. Rinnastus- ja võrdlustarindid<br />
Reegli (ja/või, kui/nagu, vt Tabel 5) abil tuvastatakse koordinatsiooniseoses olevaid<br />
substantiive ning kui- ja nagu-võrdlustarindeid. Tegemist on sümmeetrilisel suhtel<br />
põhineva ehk symmetric-tüüpi reegliga. Joonisel 38 näidatakse lemmaga hele<br />
koordinatsiooniseoses olevaid adjektiive: hele ja/või tume (nt lauses Tegelikult ei<br />
olene ju sellest, kas tüdruk on tumeda või heleda peaga, mitte midagi), hele ja<br />
rõõmus (Ta soovitab rõõmsates ja heledates toonides kardinaid) jne.<br />
Joonis 38. Adjektiivi hele rinnastustarindid.<br />
57
3.3.3. Kokkuvõtteks: adjektiivid<br />
Adjektiivide sõnavisandites tulevad esile selle adjektiivsed, substantiivsed,<br />
adverbilised kaasmoodustajad, laiendi funktsioonis esinevad infiniitverbid ja<br />
postpositsioonifraasid, kõrvallausete alguses asuvad sagedamad sidendid ning<br />
rinnastus- ja võrdlustarindid. Lisaks tulevad esile ühendid, kus adjektiiv ise ei esine<br />
mitte põhja, vaid laiendi funktsioonis.<br />
Toon näiteks adjektiivi rikas sõnavisandi (vt Joonis 39).<br />
Joonis 39. Adjektiivi rikas sõnavisand.<br />
Siit saab vajaliku materjali sõnaartikli koostamiseks: rikas riik/inimene/mees/maa ..<br />
Rikas ja suur, rikas ja kuulus, rikas ja vaene .. Väga/piisavalt rikas. Predikatiivsed<br />
laused: ajalugu/keel/linn on rikas. Predikatiivadverbiaaliga ühendid: (ratsa) rikkaks<br />
saama, rikkana näima/surema/sündima. Postpositsioonifraas: rikas kelle-mille<br />
poolest, nt lauses See piirkond on rikas maavarade poolest.<br />
58
3.4. ADVERBI SÜNTAGMAATILISED SUHTED<br />
3.4.1. Leksikogrammatilised konstruktsioonid<br />
Sõnavisandite grammatikas on adverbide süntagmaatiliste suhete tuvastamiseks<br />
kokku 12 reeglit (vt Tabel 6). Nagu ka substantiivi ja adjektiivide kirjelduses,<br />
tuvastab sõnavisandite grammatika adverbi substantiivsete, adjektiivsete ja<br />
adverbiliste laiendite puhul ainult eeslaiendeid, adpositsioonifraasi, infiniitse verbi<br />
ja kõrvallause korral aga ainult järelpositsioonis olevaid laiendeid.<br />
Adverbikonstruktsioonide nimestiku koostamisel on aluseks Tauli (1980: 158–193),<br />
EKG (1993: 136–137) ja Kerge (2000: 31–34) käsitlused. Adverbifraasi<br />
laiendliikmeks võib olla: 1) adverb, nt väga hästi; 2) substantiivi käändevorm, nt<br />
uksest siinpool, teistest paremini; 3) adpositsioonifraas, nt selja pealt katki;<br />
4) kvantorifraas, nt paar päeva hiljem, mitu kilomeetrit kaugemal; 5) kõrvallause, nt<br />
Ta rääkis kauem, kui mina seda tegin (EKG 1993: 136).<br />
Tabelis 6 on esitatud sõnavisandite grammatikas tuvastatavad adverbi<br />
leksikogrammatilised konstruktsioonid.<br />
Tabel 6. Adverbi leksikogrammatilised konstruktsioonid.<br />
Kaasmoodustaja<br />
kood<br />
Kaasmoodustaja<br />
Adv adverb väga aeglaselt,<br />
silmatorkavalt hästi,<br />
harjumatult rumalalt,<br />
igavesti suurelt,<br />
parasjagu/parajasti<br />
N obliikvakäändes<br />
substantiiv<br />
PP adpositsioonifraas<br />
Näited Konstruktsiooni<br />
tuvastava reegli<br />
nimetus SkE eesti<br />
moodulis<br />
rumalalt<br />
kuradi kiiresti, jumala<br />
äkki, pagana kahju;<br />
ideid täis; uksest<br />
siinpool, teistest<br />
paremini; olenevalt<br />
tingimustest;<br />
partneriga<br />
vaheldumisi, rahadega<br />
kimpus; kõrvuni<br />
armunult, surmani<br />
solvunult; isa surmaga<br />
samaaegselt<br />
selja pealt lõhki,<br />
puusade ümbert pingul,<br />
kulmu kohalt marraskil<br />
Adv_modifier/Adv_modifies<br />
omastav_modifier<br />
osastav_modifier<br />
seestütlev_modifier<br />
saav_modifier<br />
rajav_modifier<br />
olev_modifier<br />
kaasaütlev_modifier<br />
Adv_PP<br />
59
Kaasmoodustaja<br />
kood<br />
60<br />
Kaasmoodustaja<br />
KL kõrvallause<br />
(tuvastusobjekt<br />
on<br />
kõrvallause<br />
alguses olev<br />
Adv ja/või Adv<br />
Adv kui/nagu N<br />
3.4.2. Sõnavisandid<br />
sidend)<br />
rinnastustarind<br />
võrdlustarind<br />
Näited Konstruktsiooni<br />
tuvastava reegli<br />
nimetus SkE eesti<br />
moodulis<br />
Ta rääkis kauem, kui<br />
mina seda tegin.<br />
See viib niikaugele,<br />
et ...<br />
hästi ja kiiresti,<br />
kergelt kui õhk,<br />
mustalt nagu süsi,<br />
valgelt kui lumi<br />
kõrvallause<br />
ja/või<br />
kui/nagu<br />
3.4.2.1. Adverb kaasmoodustajana<br />
Reegel Adv_modifier/Adv_modifies (vt Tabel 6) tuvastab neid adverbe, mis esinevad<br />
otsitava adverbi eeslaiendi funktsioonis. Kontekstipiiranguna on reeglisse kirjutatud<br />
sellised adverbiks märgendatud sõnad nagu ikka, ja, ju, just, ka, kas, kui, kuidas, kus,<br />
miks, millal, nagu, nii, nüüd, vaid, veel, juba, kuigi, kust, kuhu, muidugi, palju, siis,<br />
siiski, eks, aga ka sagedamad ajamäärsõnad nt alati, ammu, eile, harva, homme, kaua,<br />
kauaks, sageli, tihti, täna, varsti, üleeile ja afiksaaladverbide funktsioonis esinevad<br />
adverbid (vt loendit ptk 3.5.3.2.). Joonisel 40 on näha lemma hästi adverbilised<br />
kaasmoodustajad: väga/päris/eriti/üsna/ piisavalt.<br />
Joonis 40. Adverbi hästi adverbilised laiendid.
3.4.2.2. Substantiiv kaasmoodustajana<br />
Programm otsib omastavas (jumala äkki, pagana kahju), osastavas (ideid täis),<br />
seestütlevas (teisest paremini), saavas (esitamiseks valmis), rajavas (kõrvuni<br />
armunult) ja kaasaütlevas (isa) surmaga samaaegselt) käändes kaasmoodustajaid.<br />
Omastavas kaasmoodustajaid tuvastab programm etteantud loendi alusel. Loendis<br />
on sellised sõnad nagu jumal, pagan, kurat, sajand, lisaks ka kõikide kuude ja<br />
nädalapäevade nimetused.<br />
Adverbi substantiivse kaasmoodustaja reeglid omastav_modifier, osastav_modifier,<br />
seestütlev_modifier, rajav_modifier, saav_modifier, kaasaütlev_modifier (vt Tabel 6)<br />
tuvastavad kõige paremini neid suhteid, kus on tegemist rektsiooniliste laienditega,<br />
nt kellega-millega sarnaselt, kellele-millele omaselt, milleks valmis jt.<br />
Joonis 41. Adverbi valmis translatiivis Joonis 42. Adverbi vähe partitiivis<br />
laiendid. laiendid.<br />
Joonisel 41 on esitatud lemma valmis saavas käändes olevad laiendid: valmis<br />
vastuvõtmiseks/vastamiseks/ühinemiseks, lisaks ajafraasid valmis (mingiks) ajaks /<br />
tähtajaks / hetkeks. Joonisel 42 on näha lemma vähe partitiivis laiendid<br />
raha/aega/tähelepanu.<br />
3.4.2.3. Adpositsioonifraas kaasmoodustajana<br />
Kaassõnaliste laiendite tuvastamise reegli Adv_PP (vt Tabel 6) abil otsib programm<br />
adverbi kaassõnalisi eeslaiendeid, nt selja pealt lõhki. Selle reegli oluliseks<br />
probleemiks on, et enamasti on seda tüüpi konstruktsioonid neljaliikmelised.<br />
Sagedamate konstruktsioonide hulgas on nt (mitme) protsendi / krooni võrra<br />
rohkem / vähem, (mitme) sammu võrra ees, (millegi) lõppemise tõttu pooleli. Seega<br />
edaspidi tuleks see reegel muuta colloc-tüüpi reegliks.<br />
61
Joonis 43. Lemma lõhki laiendi funktsioonis esinevad postpositsioonifraasid.<br />
Joonisel 43 on näha lemma lõhki laiendi funktsioonis esinevaid adpositsioonifraase:<br />
rinna kohalt / selja pealt / külje pealt / selja taga / kubeme juurest.<br />
3.4.2.4. Kõrvallause laiendina<br />
Reegel (kõrvallause, vt Tabel 6) tuvastab adverbile järgnevate kõrvallausete alguses<br />
olevaid sidendeid etteantud loendi alusel. Loend on koostatud lähtuvalt Tauli<br />
(1980: 228–240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest ning<br />
loendis on sellised sidendina toimivad sõnad nagu et, justkui, kuhu, kui, kuivõrd,<br />
kuna, kuni, kus, kust, mil, millal, nagu, otsekui.<br />
Joonisel 44 on näidatud sõna niipalju laiendavate osalausete alguses asuvad<br />
sagedamad sidendid niipalju, et ... (nt lauses Kommentaariks niipalju, et ettepanek<br />
ei ole küll üdini halb, aga ..), niipalju, kui ... (nt lauses Raha on täpselt niipalju, kui<br />
seda on vaja).<br />
Joonis 44. Adverbi niipalju laiendavate kõrvallausete alguses asuvad sidendid.<br />
62
3.4.2.5. Rinnastus- ja võrdlustarindid<br />
Reegli (ja/või, kui/nagu, vt Tabel 6) abil tuvastatakse rinnastusseoses olevaid<br />
adverbe ning kui/nagu-võrdlustarindeid. Tegemist on symmetric-tüüpi reegliga.<br />
Joonisel 45 näidatakse lemmaga vähe rinnastusseoses olevaid substantiive: vähe või<br />
palju (nt lauses Teine analüüs näitab, kas raha on palju või vähe), mõõdukalt või<br />
vähe (.. s.o tööstuskaupade kollektsiooni, mille puhul impordipiiranguid<br />
tollitariifide näol kasutatakse maailmas mõõdukalt või vähe).<br />
Joonis 45. Adverbi vähe rinnastustarindid.<br />
3.4.3. Kokkuvõtteks: adverbid<br />
Kokkuvõtteks võib öelda, et adverbide sõnavisandites tulevad esile otsisõna<br />
adverbilised ja substantiivsed kaasmoodustajad, laiendi funktsioonis esinevad<br />
adpositsioonifraasid, laiendliikmeks olevate kõrvallausete alguses asuvad sidendid<br />
ning rinnastus- ja võrdlustarindid. Lisaks tulevad esile konstruktsioonid, kus adverb<br />
ise ei esine mitte põhja, vaid laiendi funktsioonis.<br />
Toon näiteks adverbi omaette sõnavisandi (vt Joonis 46).<br />
Joonis 46. Adverbi omaette sõnavisand.<br />
63
Lemma omaette sõnavisandis tulevad esile järgmised ühendid: omaette<br />
küsimus/teema/eesmärk. Omaette ja vaikselt .. Miski on omaette eesmärgiks/<br />
väärtuseks (nt lauses Raha on muutunud eesmärgiks omaette, pole enam ainult<br />
vahend).<br />
3.5. VERBI SÜNTAGMAATILISED SUHTED<br />
Verbide leksikogrammatiliste konstruktsioonide kirjeldamisel on lähtekohaks Tauli<br />
(1980: 41–158) ja Kerge (2000: 42–44) uurimused. Verbi laiendite kirjeldamisel<br />
järgin teoreetilist seisukohta, et verbi finiitvorm on lause struktuuriline keskus,<br />
põhielement, mis koondab enda ümber enamiku muudest lauseelementidest ja<br />
määrab paljudel juhtudel ka nende vormi (Rätsep 1978: 10–13). Eesti keele<br />
verbidele omaste lausemallide fikseerimine näitas, et verbid tingivad seotud<br />
laienditena kas noomenite või verbide kindlaid morfoloogilisi vorme või kindla<br />
üldise grammatilise tähendusega morfoloogiliste vormide rühmi (Rätsep<br />
1978: 212). Seejuures võivad eesti keeles vormiklassidena esineda kõik substantiivi<br />
käändevormid, mõned adjektiivi käänded ja teatud hulk kaassõnaühendeid (Rätsep<br />
1978: 214).<br />
Verbi laiendite süntaktilise kategooria määramisel lähtun põhimõttest, millega on<br />
arvestatud ka nt kitsenduste grammatika väljatöötamisel – süntaksi alustalaks on<br />
morfoloogia, eriti igale keelele ainuomane morfoloogiliste tunnuste süsteem, ning<br />
süntaktilised kategooriad on üldistused, mis näitavad, kuidas sõnavormid, mis on<br />
moodustatud kui morfoloogiliste tunnuste kompleksid, võivad teatud sõnajärje<br />
korral esineda ja milliseid loomulikke klasse, ‘süntaktilisi funktsioone’ saab<br />
eristada ja järeldada sellistest sõnajärgedest (vt Karlsson jt 1995: 37, viidatud<br />
Müürisep 2000: 23 kaudu).<br />
3.5.1. Lihtverbi leksikogrammatilised konstruktsioonid<br />
Tabelis 7 on esitatud sõnavisandite grammatikas tuvastatavad verbi<br />
leksikogrammatilised konstruktsioonid.<br />
Tabel 7. Verbi leksikogrammatilised konstruktsioonid.<br />
Kaasmoodustaja<br />
kood<br />
64<br />
Kaasmoodustaja<br />
(vajadusel<br />
fraasitüüp ja<br />
moodustaja<br />
grammatiline<br />
funktsioon)<br />
N(S) substantiiv<br />
nominatiivis subjekti<br />
funktsioonis<br />
(partsiaalsubjekti<br />
programm eraldi<br />
kategooriana ei<br />
tuvasta)<br />
Näited Konstruktsiooni<br />
tuvastava reegli<br />
nimetus SkE eesti<br />
moodulis<br />
Lapsed laulavad.<br />
subject/subject_of
Kaasmoodustaja<br />
kood<br />
Kaasmoodustaja<br />
(vajadusel<br />
fraasitüüp ja<br />
moodustaja<br />
grammatiline<br />
funktsioon)<br />
N(O) substantiiv<br />
nominatiivis,<br />
genitiivis ja<br />
partitiivis objekti<br />
funktsioonis<br />
N(A) substantiiv<br />
adverbiaalkäändes<br />
adverbiaali<br />
funktsioonis<br />
Adj adjektiiv<br />
predikatiivadverbiaali<br />
funktsioonis<br />
Adv adverb adverbiaali<br />
funktsioonis<br />
PP adpositsioonifraas<br />
adverbiaali<br />
funktsioonis<br />
Vinf infiniitverb ma-,<br />
mas-, mast-, mata-,<br />
vat- ja da-vormis<br />
Näited Konstruktsiooni<br />
tuvastava reegli<br />
nimetus SkE eesti<br />
moodulis<br />
Tehke otsus.<br />
Ma teen järgmise<br />
ettepaneku.<br />
Ta tahab jätkata tööd<br />
õpetajana.<br />
Ma lähen kooli.<br />
Ta käib poes iga päev.<br />
Ta rääkis tööst.<br />
Ma andsin sõbrale raha.<br />
Ta käskis lastel õue minna.<br />
Laenasin tuttavalt raha.<br />
Ta tahab saada lenduriks.<br />
Ta jõudis metsani.<br />
Ta töötab õpetajana.<br />
Ta töötas prillideta.<br />
Ta käib tööl jalgrattaga.<br />
Ta värvis seinad punaseks.<br />
Ta näis väsinuna.<br />
object/object_of<br />
adverbial_sisseütlev<br />
adverbial_seesütlev<br />
adverbial_seestütlev<br />
adverbial_alaleütlev<br />
adverbial_alalütlev<br />
adverbial_alaltütlev<br />
adverbial_saav<br />
adverbial_rajav<br />
adverbial_olev<br />
adverbial_ilmaütlev<br />
adverbial_kaasaütlev<br />
predicate_Adj_saav/<br />
predicate_ Adj_saav_of<br />
predicate_Adj_olev/<br />
predicate_ Adj_olev_of<br />
Ta jooksis kiiresti. Adv_modifier/V_modifies<br />
Ta tuli minu juurde. V_PP<br />
Ta läks ujuma.<br />
Ta käib ujumas.<br />
Ta tuli ujumast.<br />
Ta lahkus maksmata.<br />
Tahan juua.<br />
V_Vma<br />
V_Vmaks<br />
V_Vmast<br />
V_Vmas<br />
V_Vmata<br />
V_Vda<br />
Vdes gerundiiv Süües kasvab isu. V_Vdes<br />
KL kõrvallause<br />
Ma kuulsin, et sa oled kõrvallause<br />
(tuvastusobjekt on haige. Ta küsis, kas ma<br />
kõrvallause alguses<br />
olev sidend)<br />
olen nõus.<br />
V ja/või V rinnastustarind kirjutama ja lugema, ja/või<br />
V kui V võrdlustarind (parem) karta kui kahetseda kui<br />
65
3.5.2. Lihtverbi sõnavisandid<br />
Verbide sõnavisandite genereerimisel on suureks probleemiks asjaolu, et<br />
morfoloogiline analüsaator ei erista liht- ja perifrastilisi verbe. Et seda puudust<br />
korvata, koostasin käsitsi eesti keele sagedamate afiksaaladverbide loendi (vt<br />
lähemalt ptk 3.5.3.2.). Teiseks teoreetiliseks küsimuseks on vajadus eristada<br />
grammatikas finiit- ja infiniitverbe. Finiitverbi kontekstitingimuseks on, et tegemist<br />
ei tohi olla infinitiivi (da- ja vat-), supiini (ma-, mas-, mast-, maks- ja mata-),<br />
gerundiivi (des-) ega partitsiibi (v-, tav-, nud- ja tud-) vormidega. Programm otsib<br />
ainult finiitverbide subjekte, objekte, adverbiaale ja predikatiivadverbiaale.<br />
3.5.2.1. Subjekt<br />
Eesti keeles võib subjektiks olla substantiiv, pronoomen ja numeraal nominatiivis<br />
ning partitiivis, kvantorina talitlev adverb, da-infinitiiv (Müürisep 2000: 50) ning<br />
osalause, kui seda saab asendada substantiivse subjekti kombel käituva<br />
pronoomeniga (EKG 1993: 39). Sõnavisandite grammatikas loetakse verbi<br />
subjektiks nominatiivis substantiive, mis asuvad lauses vahetult enne või pärast<br />
verbi. Kontekstipiiranguteks on, et tegemist peab olema finiitverbiga ja verb ei tohi<br />
olla umbisikulise tegumoe vormis. Reegel subject/subject_of (vt Tabel 7) töötleb<br />
ainult normaallauseid (Mees ehitab maja).<br />
Huvitavaks siinse uurimise käigus lahendamata jäänud teoreetiliseks probleemiks<br />
on eksistentsiaallauses (Peenral kasvab lilli) partsiaalsubjekti funktsioonis esinevate<br />
substantiivide tuvastamine. Kuna partsiaalsubjektiga laused on võimalikud ainult<br />
intransitiivverbide puhul (EKG 1993: 42–45), saaks selle probleemi osaliselt<br />
lahendada, kui intransitiivsetel verbidel oleks intransitiivsust tähistav märgend.<br />
3.5.2.2. Objekt<br />
Eesti keeles võib objektiks olla substantiiv, pronoomen ja numeraal nominatiivis,<br />
genitiivis ja partitiivis, da-infinitiiv, vat-infinitiiv, adverb kvantorifraasi põhjana<br />
(Müürisep 2000: 53) ja osalause (EKG 1993: 46). Sõnavisandite grammatikas<br />
loetakse verbi objektiks 1) singulari ja pluurali nominatiivis substantiive.<br />
Kontekstitingimuseks on, et predikaat on käskiva kõneviisi või umbisikulise<br />
tegumoe vormis (nt lausetes Hääled loetakse avalikult kohe pärast hääletamise<br />
lõppemist, Unustagem hirmutamine). Kindlas kõneviisis verbiga esinevaid<br />
mitmuslikke totaalobjekte (Ostsin saapad, Kinkisin talle lilled) sõnavisandite<br />
grammatika praegune versioon 1.5 ei tuvasta, see kuulub edasiarenduste hulka.<br />
Seda tüüpi objektide tuvastamist toetaksid verbi intransitiivust/transitiivsust<br />
tähistavad märgendid; 2) singulari genitiivis substantiive (nt lauses Ma teen<br />
järgmise ettepaneku). Kontekstipiiranguteks on, et predikaat ei tohi olla eitavas<br />
kõnes, umbisikulises tegumoes ja infiniitses vormis; 3) singulari ja pluurali<br />
partitiivis substantiive, mis asuvad verbi paremas või vasakus kontekstis.<br />
66
Joonis 47 näitab, kuidas tuvastatakse partitiivis olevaid objekte.<br />
Joonis 47. Verbi ja selle objekti tuvastamist illustreerivad konkordantsiread.<br />
Joonisel 47 allajoonitud sõnad tuvastatakse vastava verbi objektina, nt jätkama<br />
tööd, saavutama edu, andma hinnangut jne.<br />
Objekte tuvastava reegli probleemiks on väljendverbide nominaalsed komponendid,<br />
mis on märgendatud iseseisvate substantiividena, nt aru saama. Joonisel 48 on näha<br />
(konkordantside esimene rida, allajoonitud), et sõna aru on märgendatud kui sg_p<br />
‘ainsuse partitiivi’ vormis olev substantiiv, järelikult käsitleb programm substantiivi<br />
aru verbi saama objektina. Seda probleemi saaks edaspidi lahendada vaid<br />
morfoloogilises analüsaatoris oleva väljendverbide leksikoni abil, nii et<br />
väljendverbide komponendid oleksid vastavalt märgendatud.<br />
Joonis 48. Väljendverbi aru saama komponentide morfoloogiline märgendamine<br />
Sketch Engine'i sisendkorpuses.<br />
3.5.2.3. Adverbiaal<br />
Nagu märgib Mati Erelt (2003b: 72–73), on adverbiaali küllaltki detailse kirjelduse<br />
esitanud Karl Mihkla jt (1974) ning EKG (1993), kuid süvauurimusi on tehtud<br />
vähe. Verbi laiendavad adverbiaalid võivad esineda kõigis käändeis. Sõnavisandite<br />
grammatikas loetakse adverbiaalideks kõiki neid verbilaiendeid, mis pole<br />
grammatilistes käänetes (nominatiivis, genitiivis või partitiivis) ja mis asuvad verbi<br />
paremas kontekstis ühe osalause piires. Adverbiaaliks olev substantiiv võib esineda:<br />
1) illatiivis (uskuma/armuma kellesse-millesse; nakatuma millesse); 2) inessiivis<br />
(kahtlema/eksima kelles-milles); 3) elatiivis (kuulma/rääkima kellest-millest);<br />
67
4) allatiivis (lootma kellele-millele); 5) adessiivis (peatuma/baseeruma/põhinema<br />
millel, vedama kellel); 6) ablatiivis (küsima kellelt); 7) translatiivis (tunnistama<br />
kelleks-milleks); 8) terminatiivis (jõudma kelleni-milleni); 9) essiivis (töötama<br />
kellena); 10) komitatiivis (abielluma kellega, uhkeldama millega); 11) abessiivis<br />
(toime tulema milleta).<br />
Reeglid sisseütlev_adverbial, seesütlev_adverbial, seestütlev_adverbial,<br />
alaleütlev_adverbial, alalütlev_adverbial, alaltütlev_adverbial, saav_adverbial,<br />
rajav_adverbial, olev_adverbial, ilmaütlev_adverbial, kaasaütlev_adverbial (vt<br />
Tabel 7) tuvastavad kõige paremini neid suhteid, kus on tegemist rektsiooniliste<br />
laienditega, nt armuma kellesse-millesse.<br />
Adverbiaali automaatse tuvastamise probleemiks on, et programm otsib ainult<br />
kaheliikmelisi suhteid, kuid sageli on verbikonstruktsioon mitme laiendiga, nt<br />
aitama kellelgi + mida teha, alustama mida + millega, süüdistama keda + milles jt.<br />
Selliste mitmelaiendiliste konstruktsioonide tuvastamine kuulub grammatika<br />
edasiarenduste hulka.<br />
Kui objekti puhul on probleemiks grammatilises käändes substantiivse<br />
komponendiga väljendverbid, nt aru saama, siis adverbiaalide tuvastamises on<br />
veaallikaks adverbiaalkäändes substantiivist ja verbist koosnevad väljendverbid, nt<br />
silmas pidama, meelde tuletama. Seda tüüpi noomenitest komponendid tulevad<br />
esile adverbiaalide hulgas.<br />
Omaette uurimisteemaks on ka kogeja- (Jaanile meeldib tantsida. Jaani huvitab<br />
muusika. Jaani haaras hirm. Jaanil hakkas halb), omaja- (Jaanil on auto) ja<br />
tulemuslause (Jaanist sai hea sportlane) adverbiaalide tuvastamine. Seda tüüpi<br />
partitiiv-, allatiiv-, adessiiv- ja elatiivadverbiaalide tuvastamine kuulub grammatika<br />
edasiarenduste hulka. Neid saaks tuvastada vastavate olemasolu-, kogeja-, omaja- ja<br />
tulemuslausete sagedamate predikaatverbide loendi alusel.<br />
3.5.2.4. Predikatiivadverbiaal<br />
Predikatiivadverbiaalina käsitleb programm verbi translatiivis ja essiivis esinevaid<br />
adjektiivseid laiendeid. Reeglid predicate_Adj_saav/predicate_Adj_saav_of,<br />
predicate_Adj_olev/predicate_ Adj_olev_of (vt Tabel 7) tuvastavad verbi laiendiks<br />
oleva essiivis ja translatiivis adjektiivi.<br />
Eesti keele koondkorpuse analüüs näitab (vt Joonist 49), et sagedamad<br />
translatiivadverbiaali ja verbi ühendid on vajalikuks/õigeks/võimalikuks/oluliseks<br />
pidama, kindlaks määrama, kindlaks/teatavaks tegema, selgeks/võimalikuks/<br />
saatuslikuks/tuntuks saama, kehtetuks tunnistama, erapooletuks/arusaamatuks/<br />
viimaseks jääma, heaks kiitma ja omaks võtma.<br />
68
Joonis 49. Sagedamad translatiivadverbiaali ja verbi ühendid.<br />
Sagedamad essiivadverbiaali ja verbi ühendid on püsima muutumatuna/stabiilsena/<br />
tugevana, seisma tühjana, tunduma uskumatuna/võimatuna/kummalisena.<br />
Käsitlemata on jäänud nominatiivis predikatiivadverbiaal, nt Ta nägi hea välja.<br />
Seda tüüpi predikatiivadverbiaale on vaja veel uurida, et selgitada, mis verbidega<br />
koos see võib esineda.<br />
3.5.2.5. Adverb kaasmoodustajana<br />
Reegel Adv_modifier/V_modifies (vt Tabel 7) tuvastab adverbe, mis esinevad<br />
otsitava verbi laiendi funktsioonis. Kontekstipiiranguna on reeglisse pandud sellised<br />
adverbiks märgendatud sõnad nagu ikka, ja, ju, just, ka, kas, kui, kuidas, kus, miks,<br />
millal, nagu, nii, nüüd, vaid, veel, kuigi, palju, muidugi, kust, kuhu, siis, siiski, eks,<br />
afiksaaladverbide funktsioonis esinevad adverbid (vt loendit ptk 3.5.3.2.) ja mõned<br />
ajamäärsõnad. Joonisel 50 on näha lemma sõitma adverbilised kaasmoodustajad:<br />
koha- kohale/sinna, aja- praegu/seejärel ja viisimäärsõnad kiiresti/hästi.<br />
69
Joonis 50. Verbi sõitma adverbilised laiendid.<br />
3.5.2.6. Adpositsioonifraas kaasmoodustajana<br />
Kaassõnaliste laiendite tuvastamise reegel V_PP (vt Tabel 7) otsib verbi<br />
laiendavaid adpositsioonifraase, nagu kelle-mille eest võitlema, põgenema,<br />
hoolitsema, kaitsma; mille järele haisema; kelle-mille hulka kuuluma; mille kallal<br />
nokitsema, töötama; kelle-mille kohta kehtima, teatama, teadma, kirjutama; kellemille<br />
peale haukuma, vihastama, kaebama; mille poole püüdlema, pürgima,<br />
püüdma; mille poolest erinema, sarnanema; mille puhul õnnitlema; mille pärast<br />
tülitsema; kelle-mille tõttu kannatama; kelle-mille vastu võitlema; kelle-mille vahel<br />
jagama; kelle-mille üle rõõmustama jmt (vt ka EKG 1993: 68–70).<br />
Reegel käsitleb prepositsioonidena adpositsioone allapoole, altpoolt, eespool, enne,<br />
hoolimata, ilma, keset, kesk, koos, kuni, läbi, mööda, piki, põiki, päri, risti,<br />
sealpool, sealtpoolt, seespool, siiapoole, siinpool, siitpoolt, sinnapoole, sissepoole,<br />
teispool, teispoole, tänu, tükkis, väljapoole, väljaspool, väljastpoolt, ühes, ülalpool,<br />
ülaltpoolt, üle, ülespoole, ülevalpool, ülevaltpoolt. Ülejäänud adpositsioonid on<br />
käsitletud postpositsioonidena.<br />
Joonisest 51 nähtuvad verbi hääletama laiendavad sagedamad adpositsioonifraasid:<br />
kelle-mille poolt (sagedamad on liitumise/eelnõu/umbusalduse/seaduse poolt), kellemille<br />
vastu (sagedamad on otsuse/eelarve/eelnõu/ettepaneku vastu) ja mille teel<br />
(sagedamad on kirja/posti/interneti/telefoni teel).<br />
70
Joonis 51. Verbi hääletama laiendavad sagedamad adpositsioonifraasid.<br />
3.5.2.7. Infiniitne verb kaasmoodustajana<br />
Sõnavisandite grammatikas on eraldi reeglid verbi infinitiivi, gerundiivi ja supiini<br />
vormis laiendite tuvastamiseks. Programm tuvastab (vt Tabel 7): 1) infinitiivis<br />
laiendeid (V_Vda, V_Vvat); 2) supiinis ja käändelistes vormides laiendeid (V_Vma,<br />
V_Vmas, V_Vmast, V_Vmaks, V_Vmata); 3) gerundiivis laiendeid (V_Vdes). Kõige<br />
suurem infiniitsete laiendite tuvastamise probleem on, et võimatu on eristada<br />
juhtumeid, kus infiniitne verbivorm talitleb subjekti, objekti, adverbiaali,<br />
predikatiivi või vaba laiendina (vt EKG 1993: 237–246), nendest juhtumitest, kus<br />
infiniitverb moodustab mingi finiitverbiga liitpredikaadi, st kui tegemist on mingit<br />
tüüpi perifrastilise verbiga (vt EKG 1993: 246–248). Hetkel kuvatakse infiniitsed<br />
verbivormid ühes veerus ning leksikograafil tuleb neid analüüsides eristada, kas<br />
tegemist on lihtverbi laiendite või perifrastiliste verbidega. Selle probleemi saab<br />
lahendada ainult morfoloogilise analüsaatori abil, eeldusel, et morfoloogiline<br />
analüsaator märgendab perifrastiliste verbide komponendid eraldi märgenditega.<br />
ma-, mas- ja mast-infinitiivi on eesti keeles põhjalikult käsitlenud Erelt (1985).<br />
Infinitiivirektsiooni puhul on raske otsustada, kas tegemist on regulaarse<br />
sõnamoodustusmalli või idiomaatilise püsiühendi, nt ahelverbiga. Traditsiooniliselt<br />
eristatakse järgmisi infinitiivirektsiooni tüüpe: finiitverb + 1) ma-infinitiiv (minema,<br />
saatma, jooksma mida tegema); 2) maks-vorm (kasutama mida tegemaks); 3) masvorm<br />
(käima mida tegemas); 4) mast-vorm (tulema mida tegemast); 5) mata-vorm<br />
(jätma mida tegemata); 6) da-infinitiiv (tahtma mida teha); 7) vat-vorm (paistma<br />
mida tegevat).<br />
Joonisel 52 on esitatud lemma ütlema kombinatsioonid gerundiivi ja matavormidega:<br />
ütlema naerdes/naeratades/muiates/naljatades/ohates/lahkudes ja<br />
ütlema keerutamata/häbenemata.<br />
71
Joonis 52. Verbi ütlema ühendid des- ja mata-vormis infiniitverbidega.<br />
3.5.2.8. Kõrvallause laiendina<br />
Sõnavisandite grammatika tuvastab kõrvallausete alguses olevaid sidendeid<br />
etteantud loendi alusel, mis on koostatud lähtuvalt Tauli (1980: 228–240), EKG<br />
(1993: 282–295), Erelti jt (2007: 506) kirjeldustest.<br />
Loendis on järgmised sidenditena toimivad sõnad: et, justkui, justnagu, kas, kes,<br />
kuhu, kui, kuidas, kuna, kuni, kus, kust, kustkaudu, miks, millal, milline, mis,<br />
misjaoks, mismoodi, mispärast, missugune, mistarvis, seepärast, sellepärast,<br />
mistõttu, nagu, otsekui, seetõttu, selletõttu, sest, siis, siiski.<br />
Joonisel 53 on näidatud verbi ütlema laiendavate osalausete alguses asuvad sidendid.<br />
Nendest sagedamad on ütlema, et ... (nt lauses Nüüd ma pean ütlema, et ma ei näe<br />
neid täiendusi), ütlema, kas ... (nt lauses Ma ei oska öelda, kas seda on liiga vähe või<br />
liiga palju), ütlema, mis ... (nt lauses Ma muidugi ei oska öelda, mis saab aastal 2200,<br />
aga me võime olla rahulikud, kellegi silmad meist seda aastat ei näe).<br />
Joonis 53. Verbi ütlema laiendavate kõrvallausete alguses asuvad sidendid.<br />
Nii nagu ka teiste sõnaliikide puhul, õnnestub ühesõnaliste sidendite tuvastamine<br />
selle reegliga hästi. Problemaatiline on ühendite tuvastamine, nt mis ajal, mis ajani,<br />
mis põhjusel, mil(lisel) kombel, kui palju, kui pikk jne (vt lähemalt EKG 1993: 291).<br />
72
Hetkel tuvastab süsteem ainult ühest sõnast koosnevaid sidendeid. Ühendina<br />
esinevate sidendite tuvastamine jääb grammatika edasiarenduste hulka.<br />
3.5.2.9. Rinnastus- ja võrdlustarindid<br />
Reegli ja/või ja kui (vt Tabel 7) abil tuvastatakse rinnastusseoses olevaid verbe ning<br />
kui-võrdlustarindeid. Tegemist on symmetric-tüüpi reegliga. Reegli toel tuvastab<br />
süsteem selliseid konstruktsioone nagu laulma ja tantsima, laulma ja mängima,<br />
laulma ja rääkima. Teiseks tuvastab süsteem võrdlustarindeid, nagu (parem/pigem)<br />
karta kui kahetseda, pigem nutta kui naerda jmt.<br />
3.5.3. Perifrastilised verbid ja nende tuvastamine<br />
Siinses peatükis käsitlen lühidalt eesti keele perifrastiliste verbide<br />
moodustusstruktuuri ja analüüsin, mis tüüpi komponente saab ESTMORFi<br />
märgendussüsteemile toetudes sõnavisandite grammatikas tuvastada. Nagu märgib<br />
Erelt (2003b: 70), on predikaadi puhul põhiküsimus olnud predikaadi ja vaba<br />
sõnaühendi piiri määramine. EKGs on leksikaal-analüütilised konstruktsioonid<br />
koondatud kategooriasse nimega „perifrastilised verbid”, mille alla kuuluvad:<br />
1) ühendverbid (finiitverbi ühendid afiksaaladverbiga), 2) väljendverbid (finiitverbi<br />
ühendid noomeniga) ja 3) ahelverbid (finiitverbi ühendid infiniidiga) (EKG 1993:<br />
18–22). Nendest on kõige rohkem uuritud verbi ja noomeni püsiühendeid, sh<br />
väljendverbe ja tugiverbiühendeid (Pai 2001; Muischnek 2005, 2006a, 2006b,<br />
2006c; Sahkai, Muischnek 2010), ühendverbe ja väljendverbe on käsitlenud Rätsep<br />
(1969, 1978), Pihlak (1985, 1991) ja Vanem (2004).<br />
Eesti leksikograafias ei ole välja kujunenud perifrastiliste verbide esitamise<br />
traditsiooni ning iga sõnaraamat käsitleb neid erinevalt vastavalt sellele, mis on<br />
sõnastiku profiil. Kui ühendverbe esitatakse enamasti (all)märksõnadena, siis<br />
väljend-, ahelverbe ja tugiverbiühendeid esitatakse üldjuhul kas märksõna<br />
tähendusploki näitelausetes või fraseologismidena. Selline lähenemine on kooskõlas<br />
EKG seisukohaga (1993: 19), et kuigi perifrastilised verbid moodustavad<br />
süntaktilise terviku, ei ole see siiski mitmeosaline sõna, vaid ikkagi sõnade ühend,<br />
mille komponendid kuuluvad eri sõnaliiki.<br />
Samas olen arvamusel, et leksikograafiliselt tuleb perifrastilist verbi pidada pigem<br />
mitmeosaliseks sõnaks kui sõnade ühendiks, kuna perifrastilisel verbil on iseseisev<br />
terviktähendus ja argumentstruktuur. Samasugust perifrastiliste verbide käsitlust<br />
rõhutavad ka arvutilingvistid Heiki-Jaan Kaalep ja Kadri Muischnek, kes käsitlevad<br />
seda tüüpi üksusi püsiühendina (multiword expression), st kahe või enama<br />
sõna(vormi) ühendina, mida mingi tähenduse väljendamiseks on tavaks koos<br />
kasutada. Uurijad märgivad, et kui morfoloogia tasandil ehk võibki käsitleda iga<br />
tühikutevahelist stringi omaette analüüsiüksusena, mis saab oma sõnaliigi ja<br />
grammatiliste kategooriate analüüsi, siis edasi, süntaktilise ja semantilise analüüsi<br />
jaoks, on oluline mitmesõnalise leksikaalse üksuse või mitmesõnalise minimaalse<br />
semantilise üksuse tunnistamine ja äratundmine (2009: 157–158).<br />
73
Korpusleksikograafilise analüüsi otstarbeks on oluline perifrastiliste verbide<br />
moodustusstruktuuri analüüs.<br />
3.5.3.1. Väljendverbid (noomen(ifraas) + verb)<br />
EKG (1993: 20) järgi on väljendverb selline perifrastiline verb, mille sisuliseks<br />
tuumaks on noomen(id).<br />
Väljendverbi võimalikud moodustusstruktuurid on:<br />
1) substantiiv (sise- ja väliskohakäändes) + verb, nt silma hakkama, korrale<br />
kutsuma, mõttesse langema; omaette rühmana võib tuua ka kolmikparadigmasid<br />
moodustavaid verbe: meelest (ära) minema – meeles olema – meelde tulema.<br />
Rudolf Karelson (2005) märgib, et nominaalse komponendi puhul pole alati kerge<br />
otsustada, kas tegu on uue sisuga (st mitte substantiivi käändevormi, vaid nt adverbi<br />
või adpositsiooniga) või siiski substantiivile omase erilise käändetähendusega.<br />
Sellised sõnakujud nagu lukkus, lokkis, sompus, tükkis, pilves; lukku (Pani ukse<br />
lukku), pilve (Ilm läks pilve), tükki (Suhkur on tükki sulanud), tompu (Padjasuled<br />
lähevad tompu) on ilma kahtluseta adverbid. Kuid traditsiooniliselt käsitletakse neid<br />
ikkagi väljendverbide käändsõnalise komponendina (2005: 62–63);<br />
2) substantiiv (grammatilises käändes) + verb, nt nägu tegema, aru saama, lugu<br />
pidama, muret tundma; seejuures võib noomenist komponendi kääne kasutuses<br />
varieeruda;<br />
3) adjektiiv (translatiivis, essiivis) + verb, nt araks lööma, pahaks panema;<br />
4) pronoomen (partitiivis, translatiivis) + verb, nt end tundma, end tundma andma,<br />
paljuks pidama;<br />
5) ainult ühendites esinev komponent + verb, nt tähele panema, peksa saama, pärit<br />
olema. Need on sõnad, mida ESTMORF analüüsib osaliselt X-ina, st verbi juurde<br />
kuuluva sõnana, millel eraldi sõnaliigi tähistus puudub (vt ptk 3.1.). Tänapäeva<br />
keele seisukohast on enamik nendest kivinenud sõnavormidest adverbid (nt andeks,<br />
plehku, pärit). Samas on sõnavorme, mis esinevad ainult ühendites ja mille<br />
sõnaliigilist kuuluvust on raske määrata, nt peksa, kihla. Sel põhjusel käsitlen<br />
siinses töös (ja ka sõnavisandite grammatikas) verbi ja X-iks märgendatud sõnade<br />
ühendeid väljendverbidena;<br />
6) adverbialiseerunud käändevorm + verb, nt nõus olema. Seda tüüpi ühendite<br />
noomenist komponent ei esine iseseisva märksõnana ning tavaliselt esitatakse<br />
ühend vastava substantiivi kirjes (nt EKSSis on nõus olema substantiivi nõu kirjes).<br />
7) Mõnikord on väljendverbi ja ahelverbi verbaalseks komponendiks ka ühendverb,<br />
nt arust ära olema, puust ette tegema.<br />
Sõnavisandite grammatika abil saab hetkel korpusest otsida omaette kategooriana<br />
vaid translatiivis ja essiivis esinevaid predikatiivadverbiaale (reeglid<br />
predicate_Adj_saav/predicate_Adj_saav_of, predicate_Adj_olev/<br />
predicate_Adj_olev_of, vt Tabel 7).<br />
74
Lisaks on eraldi reegel väljendverb, mis otsib korpusest verbi ja X-iks märgendatud<br />
sõna koosesinemisi. Sagedamad neist on pärit olema, tähele panema ja andeks<br />
andma.<br />
Ülejäänud väljendverbide noomenitest komponente süsteem eraldi ei otsi, vaid need<br />
tulevad esile verbi objekti (nt aru saama, juttu ajama) (vt ptk 3.5.2.2.) või<br />
adverbiaalina (nt silma paistma) (vt ptk 3.5.2.3.).<br />
3.5.3.2. Ühendverbid (afiksaaladverb + verb)<br />
EKG (1993: 20) järgi on ühendverbid perifrastilised verbid, mille sisuliseks<br />
tuumaks on verb, komplekteerivaks komponendiks on orientatsiooni, perfektiivsust<br />
või seisundit, üksikjuhtudel ka modaalsust väljendav afiksaaladverb. Seega võib<br />
ühendverbid moodustusstruktuuri järgi jaotada neljaks rühmaks (vt ka Rätsep 1978:<br />
29–39):<br />
1) verb + orientatsiooniadverb (alla, all, alt, ette, ees, eest jmt);<br />
2) verb + perfektiivsusadverb (maha, täis, valmis, ära jmt);<br />
3) verb + seisundiadverb (püsti, kokku, laiali, kinni, lahti, katki jmt);<br />
4) verb + modaalsust väljendav afiksaaladverb (tarvis jmt).<br />
Lisaks on juhtumeid, kus orientatsiooniadverb esineb koos perfektiivsusadverbiga,<br />
nt Mees võttis kala otsast ära, või mitu orientatsiooniadverbi esineb kõrvuti, nt<br />
Majad ajavad tuld seest välja.<br />
Orientatsiooniliste afiksaaladverbidega ühendverbid (Rätsep 1978: 28; EKG 1993:<br />
21; Kaalep, Muischnek 2009: 160) jaotuvad ainukordseteks (peale käima, üle<br />
ajama, maha võtma, üles lööma) ja korrapärasteks (alla/üles/sisse/välja<br />
tulema/minema/jooksma) ühendverbideks. Ainukordsed ühendverbid moodustavad<br />
süntaktilise terviku, millest sõltuvad seotud laiendid. Korrapärased ühendverbid ei<br />
ole valmis sõnastikuüksused nagu ainukordsed verbid. Mõlemad ühendi osised<br />
säilitavad tähendusliku iseseisvuse. Vaatamata sellele moodustavad ka korrapärased<br />
ühendverbid süntaktiliselt lahutamatu terviku. Lausemalli ei määra siin finiitverb,<br />
vaid verb koos afiksaaladverbiga.<br />
Traditsiooniliselt esitatakse eesti keele sõnastikes nii korrapärased kui ka ainukordsed<br />
ühendverbid kas alusverbi sõnaartiklis allmärksõnana (nt EKSS, EE-VN) või omaette<br />
märksõnana (nt EVÕS, vt joonis 54).<br />
75
Joonis 54. Ühendverbide esitus EVÕSis (2011).<br />
Afiksaaladverbe tuvastab sõnavisandite grammatika loendi alusel (reegel<br />
afiksaaladverb/afiksaaladverb_of). Loend on koostatud EKSSi ja EE-VN<br />
sagedamate eesti keele ühendverbide loendi põhjal. Loendis on järgmised<br />
afiksaaladverbid: alla, alt, edasi, eemale, esile, ette, juurde, järele, kaasa, katki,<br />
kinni, kokku, kõrvale, külge, lahku, lahti, laiali, ligi, läbi, maha, mööda, otsa, peale,<br />
pealt, püsti, ringi, sisse, taga, tagant, tagasi, tarvis, täis, vahele, valmis, vastu,<br />
välja, ära, üle, üles, üleval, ümber. Grammatika koostamispõhimõte on, et kui ühe<br />
osalause piires on verb ja selles loetelus olev afiksaaladverb, siis on tegemist<br />
ühendverbiga.<br />
Joonis 55 näitab sagedamaid verbi lööma ja abiksaaladverbide ühendeid: kaasa<br />
lööma, läbi lööma, välja lööma, maha lööma, kokku lööma ja lahku lööma.<br />
Joonis 55. Verbiga lööma esinevad afiksaaladverbid.<br />
3.5.3.3. Ahelverbid (infiniitverb + finiitverb)<br />
Ahelverbid on perifrastilised verbid, mille sisuliseks tuumaks on infiniit. Finiitverb<br />
väljendab infiniidiga tähistatud situatsiooni modaalsust, aspekti, kausatiivsust või<br />
viisi (EKG 1993: 19). EKGs on eristatud ahelverbide neli tüüpi:<br />
76
1) modaalverb + infiniitverb. Sellised ahelverbid on võima, tohtima, saama dainfinitiiviga,<br />
pidama supiiniga ning näima, paistma ja tunduma vat-infinitiiviga;<br />
2) tegevuse faasi (algust või lõppu) tähistav verb + supiinivorm. Sellised ahelverbid<br />
on hakkama, asuma, minema, tulema, jääma, kukkuma, lööma, kargama, süttima<br />
koos supiini illatiiviga; lakkama koos supiini elatiiviga;<br />
3) tegevuse põhjustamist tähistav kausatiivverb + infiniitverb. Näiteks panema,<br />
ajama, jätma, laskma, lööma, vajutama, keerama koos supiini illatiiviga;<br />
4) tegevuse viisi tähistav verb + infiniitverb. Näiteks paukuma, nähvama koos dainfinitiiviga.<br />
Nagu tugiverbid (vrd Muischnek 2006c), võib ka ahelverbid jaotada kahte rühma:<br />
1) produktiivselt ahelverbe moodustavad verbid; siia kuuluvad modaalverbid ja ka<br />
mõned faasi tähistavad verbid, nt hakkama, lakkama; 2) finiitverbid, mis<br />
kombineeruvad tegevust väljendavate infiniitverbidega, mida saab esitada teatud<br />
semantilisse välja kuuluvatena, nt ajama, panema, lööma jt. Esimese rühma verbid<br />
kombineeruvad piiramatu hulga tegevust väljendavate infiniitverbidega. Teise<br />
rühma finiitverbid moodustavad teatud kindlat tegevust väljendavate<br />
infiniitverbidega püsiühendeid, kus finiitverbi panus püsiühendi tähendusse on<br />
minimaalne. Sellistes ühendites osalevaid infiniitverbe saab tavaliselt esitada mingi<br />
semantilise välja liikmetena. Toon näiteks verbide ajama, panema, lööma ja<br />
minema mõningad infiniitverbidest komponentide rühmad (ahelverbide allikas on<br />
Pihlak 1991):<br />
1) (inimese) füsioloogilise ja psühholoogilise seisundi muutuse verbid:<br />
a) ajama haigutama, ~ iiveldama, ~ kipitama, ~ luksuma, ~ magama, ~ naerma,<br />
~ oksendama, ~ õhetama, ~ öökima;<br />
b) panema armuma, ~ ehmuma, ~ heldima, ~ häbenema, ~ hämmelduma,<br />
~ imestama, ~ imetlema, ~ itsitama, ~ jahmuma, ~ kiruma, ~ kisama, ~ kõhklema,<br />
~ naerma, ~ röökima;<br />
c) lööma kartma, ~ kihama, ~ kohkuma, ~ kõhklema, ~ särama;<br />
2) seisundi muutuse verbid:<br />
a) ajama hõõguma, ~ keema, ~ põlema, ~ vahutama;<br />
b) panema hapnema, ~ kollendama, ~ kütma, ~ põlema;<br />
c) lööma klirisema, ~ leekima, ~ põlema, ~ mädanema, ~ pulbitsema;<br />
d) minema haisema, ~ hallitama, ~ idanema, ~ kasvama, ~ käärima, ~ mädanema,<br />
~ paisuma, ~ õitsema;<br />
3) sotsiaalse interaktsiooni verbid:<br />
a) ajama kihama, ~ tülitsema;<br />
b) minema kaklema, ~ kiskuma, ~ vaidlema.<br />
Verbi minema tähenduses ‘alustama, hakkama’ uurinud Heete Sahkai (2011) on<br />
märganud, et nende ühendite puhul on tegemist kas püsiühenditega või osaliselt<br />
produktiivsete idiomaatiliste mallidega, mida ei saa esitada minema rektsioonina, nt<br />
kujul [minema + ma-infinitiiv], sest nad on piiratud kindlate tähendusrühmadega<br />
77
või verbi kindla vormiga. Seega esineb verb minema tähenduses ‘alustama, algama,<br />
hakkama’ ainult kindlates konstruktsioonides (2011: 180). See on väga oluline<br />
tähelepanek ahelverbide leksikograafilise, eelkõige õppeleksikograafilise esituse<br />
seisukohalt, mis osutab sellele, et ka ahelverbe tuleks sõnastikus esitada<br />
eksplitsiitselt omaette üksusena (võimalusel koos definitsiooni ja näitelausega),<br />
mitte näidete tasandil, sest keeleõppija jaoks ei pruugi nende tähendus olla<br />
läbipaistev.<br />
Sõnavisandite grammatika ei otsi ahelverbide komponente eraldi, vaid neid<br />
tuvastatakse reeglite V_Vma abil (vt Tabel 7). Joonisel 56 on sagedamad ahelverbid<br />
verbiga ajama: ajama naerma/iiveldama/minema/nutma/higistama.<br />
Joonis 56. Sagedamad ahelverbid verbiga ajama.<br />
3.5.3.4. Tugiverbiühendid<br />
Eesti keele tugiverbiühendite moodustusstruktuuri on põhjalikult uurinud Kadri<br />
Muischnek (2005, 2006a, 2006b: 18–22, 2006c).<br />
Tugiverbikonstruktsiooniks nimetatakse sellist verbist ja noomenist või<br />
noomenifraasist koosnevat struktuuri, mille tähenduse annab noomen(ifraas) ja<br />
verbi osaks on jäänud ainult grammatilised funktsioonid: väljendada aega, isikut,<br />
tegumoodi jms ning siduda tegevust väljendav noomen, mis semantiliselt on lauses<br />
predikaadiks, selle lause muude osalistega. Tüüpiliselt on tegevust väljendav<br />
noomen formaalselt objekti positsioonis (teeb tööd, annab tõuke, peab kõne),<br />
harvem muu argumendi positsioonis (jõuab järeldusele) (Muischnek 2006a: 82).<br />
Tugiverbid võib Muischneki (2006c) järgi jaotada kahte rühma:<br />
1) produktiivselt tugiverbiühendeid moodustavad verbid, nt tegema, tegelema,<br />
sooritama, käima, juhtuma, toimuma jt;<br />
2) tugiverbid, mis kombineeruvad tegevust väljendavate noomenitega, mida saab<br />
esitada teatud semantilisse välja kuuluvatena, nt ajama, pidama, laskma, lööma,<br />
andma.<br />
78
Esimese rühma verbid kombineeruvad piiramatu hulga tegevust väljendavate<br />
noomenitega, millele seatakse küll mõningaid süntaktilisi ja semantilisi piiranguid.<br />
Teise rühma verbid moodustavad teatud kindlate tegevust väljendavate<br />
noomenitega püsiühendeid, kus verbi panus püsiühendi tähendusse on minimaalne.<br />
Sellistes ühendites osalevaid noomeneid saab tavaliselt esitada mingi semantilise<br />
välja liikmetena, näiteks: ajab poliitikat/äri/asju jne; ajavad juttu/lora; ajab<br />
jonni/joru/kiusu jne; peab kõne/ettekande/loengu jne; peavad läbirääkimisi/kõnelusi<br />
jne; A peab B-ga sõda/diskussiooni jne; peavad pidu/sünnipäeva jne.<br />
Muischneki (2005, 2006a, 2006b: 18–22, 2006c) uurimuste põhjal võib teha<br />
üldistava järelduse, et eesti keele tugiverbiühendite moodustusstruktuur on<br />
järgmine:<br />
1) verb + noomen (grammatilises käändes, sagedamini partitiivis), nt kõnet pidama,<br />
asju ajama;<br />
2) verb + noomen (adverbiaalkäändes), nt järeldusele jõudma.<br />
Nagu ka väljendverbide noomenitest komponente, ei otsi süsteem hetkel<br />
tugiverbiühendite nominaalseid komponente eraldi. Grammatilistes käänetes<br />
noomenitest komponendid tulevad esile verbi objektina (vt pkt 3.5.2.2.),<br />
adverbiaalkäänetes esinevad komponendid adverbiaalidena (vt ptk 3.5.2.3.).<br />
Joonisel 57 on perifrastilised verbid, mille üheks komponendiks on finiitverb<br />
ajama. Jooniselt nähtub, et tugiverbiühendid ja väljendverbid (juttu/asju/korda/<br />
habet ajama) on tuvastatud objektidena, afiksaaladverbidega ühendverbid<br />
(taga/läbi/välja/ära/kokku ajama) on tuvastatud omaette, kuid seisundiadverbidega<br />
ühendverbid (segi/segamini/püsti/laiali/lõhki ajama) on tuvastatud kui tavalised<br />
adverbidest laiendid. Ahelverbid (ajama naerma/iiveldama/nutma/higistama) on<br />
tuvastatud reegliga V_Vma (vt Tabel 7). Lisaks on reegliga predicate_Adj_saav<br />
tuvastatud adjektiivse komponendiga väljendverbid (hulluks/suureks/pahaks ajama jt).<br />
79
Joonis 57. Verbi ajama sõnavisandis esinevad perifrastilised verbid.<br />
Nende probleemide ainukeseks lahendamisviisiks on perifrastiliste verbide<br />
märgendamine omaette leksikaalsete üksustena. Perifrastilisi verbe märgendatakse<br />
omaette sõnaliigina nt leksikograafilises andmebaasis DANTE. Sõnaliigi märgend<br />
‘phr_v’ on sellistel perifrastilistel verbidel, mille komponentideks on lisaks verbile<br />
1) afiksaaladverb (adverb particle), nt get up, point out; 2) prepositsioon<br />
(prepositional particle), nt see through (someone’s plans); 3) afiksaaladverb ja<br />
prepositsioon (verbs with both types of particle), nt make off with, refer back to<br />
(Rundell, Atkins 2011: 235).<br />
3.5.4. Kokkuvõtteks: verbid<br />
Verbide sõnavisandid näitavad konkreetse verbi substantiivseid, adjektiivseid ja<br />
adverbilisi kaasmoodustajaid, laiendi funktsioonis esinevaid adpositsioonifraase,<br />
infiniitverbe, laiendliikmeks olevate kõrvallausete alguses asuvaid sidendeid ning<br />
rinnastus- ja võrdlustarindeid. Verbi ja selle substantiivsete laiendite grammatilisi<br />
suhteid on nimetatud sõnavisandite grammatikas morfosüntaktiliste kategooriate<br />
terminites. Eristatud on subjekt, objekt ja adverbiaalkäänetes esinevad<br />
substantiivsed adverbiaalid.<br />
Sõnavisandite grammatika reeglite abil on võimalik tuvastada ka selliseid<br />
perifrastilisi verbe nagu väljend-, ühend-, ahelverbid ja tugiverbiühendid. Omaette<br />
kategooriana tuvastab programm translatiivis ja essiivis esinevate adjektiivide ja<br />
verbide ühendeid (nt hulluks minema) ning verbi ja X-iks märgendatud sõnade<br />
koosesinemisi (nt tähele panema). Väljendverbide ja tugiverbiühendite noomenitest<br />
komponendid tulevad esile verbi objekti (nt aru saama, juttu ajama, läbirääkimisi<br />
pidama) või adverbiaalina (nt silma paistma, järeldusele jõudma). Ahelverbide<br />
komponentidena esinevaid infiniitverbe tuvastab süsteem eraldi reegli V_Vma abil.<br />
Ühendverbe moodustavaid afiksaaladverbe tuvastab sõnavisandite grammatika<br />
loendi alusel. Loendis on järgmised afiksaaladverbid: alla, alt, edasi, eemale, esile,<br />
80
ette, juurde, järele, kaasa, katki, kinni, kokku, kõrvale, külge, lahku, lahti, laiali,<br />
ligi, läbi, maha, mööda, otsa, peale, pealt, püsti, ringi, sisse, taga, tagant, tagasi,<br />
tarvis, täis, vahele, valmis, vastu, välja, ära, üle, üles, üleval, ümber.<br />
Toon näiteks verbide hoolitsema (vt Joonis 58) 32 ja tooma (vt Joonis 59)<br />
sõnavisandid.<br />
Joonis 58. Verbi hoolitsema sõnavisand.<br />
Verbi hoolitsema sõnavisandist (vt Joonis 58) nähtub grammatiline klass subjekt<br />
(sagedamad on riik/valitsus, firma, mees/inimene/naine, ema/isa/vanaema), lisaks<br />
laiendi funktsioonis esinevad adpositsioonifraasid (hoolitsema kelle-mille eest, nt<br />
lapse/pere/perekonna, looma/hobuse/koera, maja eest) ja adverb (hästi/piisavalt<br />
jne). Visandis on samuti tuvastatud kõrvallause alguses asuvad sagedamad sidendid<br />
(nt lauses Maakler peab hoolitsema, et kogu tehing sujuks turvaliselt kõigile<br />
osalistele). Seega saab nendele sõnavisandi andmetele toetudes järeldada, et verbi<br />
hoolitsema sagedamad laiendid on substantiiv (subjekti funktsioonis),<br />
adpositsioonifraas ja adverb, ehk kes (riik/firma/valitsus) hoolitseb kelle-mille<br />
(laste/inimeste) eest ja kuidas (hästi/piisavalt).<br />
32 Sõnavisandi esitamisel on kasutatud klasterdamise funktsiooni (st programm rühmitab<br />
automaatselt samasse leksikaal-semantilisse gruppi kuuluvad leksikaalsed üksused).<br />
81
Joonis 59. Verbi tooma sõnavisand.<br />
Verbi tooma sõnavisandist (vt Joonis 59) nähtuvad sellised kategooriad nagu<br />
subjekt (aasta/tulevik/päev jne), objekt (tooma näidet/selgust/edu) ja adverbiaalid.<br />
Adverbiaalide morfoloogiline vormistus on alaleütlev (tooma turule/lavale/<br />
päevavalgele jt), saav (tooma näiteks/võrdluseks/põhjuseks jt), sisseütlev (tooma<br />
haiglasse/politseisse), harvemini ka alalütlev (tooma laupäeval/neljapäeval jt),<br />
seestütlev (tooma poest/köögist/kodunt jne), rajav (tooma vaatajateni/lugejateni/<br />
publikuni) ja seesütlev (tooma tulevikus). Sagedamate grammatiliste suhetena tulid<br />
esile adpositsioonifraas kelle-mille ette (tooma avalikkuse/vaatajate/ publiku ette) ja<br />
adverb (tooma kohale/lähemale). Perifrastilistest verbidest on tuvastatud sagedamad<br />
ühendverbid: kaasa tooma, välja tooma, esile tooma ja sisse tooma.<br />
Nendest kahest sõnavisandist nähtub, et ka verbide sõnavisanditest koorub välja<br />
selle leksikaalne profiil, millele leksikograaf saab toetuda verbi süntagmaatiliste<br />
omaduste eksplitsiitsel kirjeldamisel.<br />
Järgmises osas esitan sõnavisandite kvantitatiivse evalveerimise tulemused.<br />
3.6. SÕNAVISANDITE HINDAMINE<br />
Peatükis hindan sõnavisandite väljundi täpsust, kirjeldan hindamise kriteeriume ja<br />
annan ülevaate evalveerimise käigus esile kerkinud probleemidest.<br />
3.6.1. Hindamise metoodika<br />
Eesti keele sõnavisandite kvantitatiivsel evalveerimisel kasutan Kilgarriffi jt<br />
(2010a) meetodit, millega uuriti hollandi, inglise, jaapani ja sloveeni keele<br />
82
sõnavisandeid (märksõnastiku iga 42. sõna 20 kollokaati) 33 . Kilgarriff jt (2010a:<br />
372) rõhutavad, et evalveerimine on oluline nii Sketch Engine'i arendajatele kui ka<br />
selle potentsiaalsetele kasutajatele. Arendajate eesmärk on selgitada probleemsed<br />
kohad ja parandada süsteemi funktsionaalsust. Leksikograafidel aitab evalveerimine<br />
hinnata, kas sõnavisanditest on neile konkreetsete kirjete koostamisel abi.<br />
Evalveerimise tulemused peaksid näitama, kas tarkvara on piisavalt hea, mitme<br />
protsendi ulatuses on tuvastatud informatsioon kasulik ja kas seda tasub<br />
igapäevases töös kasutada.<br />
Siinses töös hinnatakse sõnavisandeid kasutaja, st tegeva leksikograafi seisukohalt.<br />
Tulemuste hindamiseks kasutatakse sellist näitajat nagu täpsus (precision). Täpsus<br />
näitab õigete tuvastatud kollokaatide osakaalu kõigist tuvastatud kollokaatidest.<br />
Üldjuhul hinnatakse ka taoliste programmide korrektsust (recall). Korrektsus näitab<br />
tuvastatud õigete kollokaatide suhet kõikide leksikograafilise analüüsi käigus leitud<br />
ja sõnaraamatus või andmebaasis fikseeritud konkreetse sõna kollokaatidega. Nt kui<br />
sõnavisandis on substantiivi jahu kollokaatideks vaid sõeluma ja jahvatama, siis on<br />
täpsus 100%, sest mõlemad on õiged, kuid korrektsus võib olla madal, kuna on<br />
olemas veel palju kollokaate, mida süsteem pole tuvastanud (Kilgarriff jt 2010a:<br />
380). Korpusleksikograafilise tarkvara korrektsuse mõõtmine eeldab vastava<br />
kollokatsioonisõnaraamatu või andmebaasi olemasolu ning on korrelatsioonis<br />
sisendkorpuse sisuga. Kuna eesti keele jaoks sellist andmebaasi ei ole, piirdun<br />
siinses uurimuses vaid programmi täpsuse mõõtmisega.<br />
Meetod seisneb selles, et leksikograafidel palutakse hinnata iga tuvastatud<br />
kollokaadi leksikograafilist väärtust kaheastmelisel skaalal hea–halb 34 . Hea ehk<br />
leksikograafiliselt relevantne kollokaat peab vastama sellistele kriteeriumidele nagu<br />
tähenduslikkus, terviklikkus ja kasulikkus sõna semantika ja grammatika uurimisel.<br />
Halb ehk leksikograafiliselt irrelevantne kollokaat on ilmselgelt vigane, st<br />
kollokatsioonil ei ole mingit tähendust või leksikograaf arvab, et selline<br />
kollokatsioon ei oma leksikograafilist väärtust.<br />
Kilgarriffi jt (2010a) uurimus näitas, et suurema osa valesti tuvastatud<br />
kollokaatidest põhjustasid sõnaliigi märgendamise ja lemmatiseerimise käigus<br />
tekkinud vead, duplikaadid ja korpustes sisalduv nn müra. Probleemne on ka<br />
mitmesõnaliste üksuste tuvastamine. Parimaks osutus jaapani keele sõnavisandite<br />
33<br />
Mõiste kollokaat tähistab siin kõiki programmi abil tuvastatud otsisõnaga grammatilises seoses<br />
olevaid statistiliselt esilduvaid sõnu.<br />
34<br />
Kilgarriff jt (2010a) kasutasid esialgu viieastmelist skaalat hea (good) ‒ hea, aga vale<br />
grammatiline suhe või sõnaliigi märgend (good but wrong grammatical relation or POS-tagging<br />
error) – võib olla, aga kollokaat ei ole asjakohane (maybe, not striking collocate) ‒ võib olla, aga<br />
erialakeel (specialized vocabulary) ‒ halb. Kuid hinnangute analüüsimisel selgus, et hindajad on<br />
üsna sageli ühel meelel, kas tuvastatud kollokaat on hea või halb. Sel põhjusel otsustati, et<br />
efektiivsem on pakkuda leksikograafidele kaheastmeline skaala hea–halb. Head on kollokaadid,<br />
millele leksikograafid andsid hinnangu hea või hea, aga vale grammatiline suhe või sõnaliigi<br />
märgend. Halvad on need, mille hinnang oli võib olla ja halb.<br />
83
väljund, kus 87% tuvastatud kollokaatidest oli hinnatud heaks. Inglise ja sloveeni<br />
sõnavisandite täpsus olid ca 70% ja taani keele oma 66,3%.<br />
Eesti sõnavisandite evalveerimise tarbeks lõin koostöös Sketch Engine’i<br />
programmeerijate Vojtech Kovari ja Milos Jakubicekiga spetsiaalse kasutajaliidese.<br />
Joonisel 60 on adverbi täis evalveerimise kasutajaliides.<br />
Joonis 60. Sketch Engine’i evalveerimise kasutajaliides (adverb täis).<br />
84
Evalveerimisel osales 7 Eesti Keele Instituudi leksikograafi, kes kasutavad tarkvara<br />
oma igapäevases töös. Evalveerida tuli 16 sõna (4 substantiivi: päike, abielu, leping,<br />
arvamus; 4 adjektiivi: ilus, uhke, sarnane, iseloomulik; 4 adverbi: omaette, täis, üle,<br />
sarnaselt ja 4 verbi: paistma, hääletama, ajama, tegema) 20 sagedamat kollokaati.<br />
Evalveerimiseks valisin enamasti polüseemilised sõnad. Esindatud olid nii<br />
konkreetsed kui ka abstraktsed substantiivid, adverbi, adpositsiooni ja<br />
afiksaaladverbina käituv sõna, võrdluse eesmärgil sama adjektiivi adverbiaalne<br />
derivaat, transitiivsed ja intransitiivsed verbid. Verbide valiku üheks kriteeriumiks<br />
oli nende aktiivsus perifrastiliste verbide moodustamisel. Kollokaatide arvu<br />
määramisel lähtusin Kilgarriffi jt uurimusest, mis osutas mh sellele, et kõrge<br />
esinemissagedusega sõnade puhul on otstarbekas esitada sõnaraamatus umbes 20<br />
kõrge esilduvusega kollokaati. Samas keskmise ja madala esinemissagedusega<br />
sõnade korral võib see arv olla tunduvalt väiksem (2010a: 375). Siinses uurimuses<br />
valisin evalveerimiseks eesti keele 3000 sagedama sõna hulka kuuluvad sõnad,<br />
kollokaadid sorteerisin koosesinemise sageduse järgi ja minimaalseks<br />
koosesinemise sageduseks määrasin 2. Kuna sõnavisandid töötavad praegu<br />
põhimõttel, et kollokaadid viiakse lemmadele, siis näidati kasutajaliideses<br />
leksikograafidele ka sagedamat koosesinemist (commonest match) sõnavormide<br />
tasandil, nt täies elujõus. Lisaks said leksikograafid vajadusel analüüsida<br />
konkordantsiridu.<br />
3.6.2. Tulemused<br />
Analüüsitud 320 kollokatsioonist pidas enamik leksikograafe heaks kokku 222<br />
kollokaati ehk 70% kollokaatide üldarvust. 27 kollokaadi ehk 8% puhul oli enamik<br />
leksikograafe ühel meelel, et tegemist on hea kollokaadiga, samas väiksem osa<br />
evalveerijatest pidas samu kollokaate halvaks. Negatiivse hinnangu halb sai 71<br />
kollokaati ehk 22% üldarvust.<br />
Järgnevalt analüüsin neid kollokaate, mille suhtes olid leksikograafid eriarvamusel,<br />
aga ka tuvastatud vigaste kollokaatide põhjusi.<br />
3.6.3. Tulemuste analüüs<br />
Eriarvamusel olid leksikograafid eelkõige nende kollokaatide suhtes, mille<br />
tekstiliigiline markeeritus oli väga tugev, st kollokaat illustreeris sõna kasutust<br />
mingis konkreetses valdkonnas. Näiteks substantiivi arvamus sõnavisandis tulid<br />
esile sellised genitiivatribuudid nagu komitee/sotsiaalkomitee/veterinaarkomitee<br />
arvamus. Alliktekstide analüüsist selgus, et enamasti on need kollokatsioonid pärit<br />
Eesti ja Euroopa seaduste tekstidest. Verbi hääletama sõnavisandis tuli esile objekti<br />
funktsioonis esinev kollokaat muudatusettepanek, nt lausetes Õige varsti hakkame<br />
me hääletama muudatusettepanekuid või Palun hääletada muudatusettepanekut 1.<br />
See kollokatsioon esineb eelkõige riigikogu stenogrammide 1995–2001 tekstides.<br />
Osa leksikograafe arvas, et sellised kollokaadid risustavad sõnavisandeid ja pidasid<br />
neid halbadeks, enamus arvas aga, et need näitavad, mis tüüpi tekstides kasutatakse<br />
seda sõna antud korpuses kõige rohkem ja pidasid seepärast kollokaati<br />
85
leksikograafiliselt relevantseks. See asjaolu osutab, et sõnavisandite evalveerimisel<br />
on otsustava tähtsusega ka selle korpuse sisu, mille põhjal on sõnavisandid<br />
genereeritud. Vastakad arvamused olid ka nt rindtarindi vapper ja ilus suhtes.<br />
Leksikograafid arvasid, et tuvastatud sõnaühend on tugevalt seotud<br />
televisioonisarjaga „Vaprad ja ilusad” ja pidasid seda halvaks. Samas alliktekstis on<br />
seda ühendit kasutatud ka sarjaga mitte seotud kontekstides (nt lauses Ilmselgelt on<br />
meie võrokeelsed tütarlapsed hulga ebakindlamad kui kõik need vaprad ja ilusad<br />
meessolistid, kes Eurovisioni lavadel üles astuvad) ja sel põhjusel pidas osa<br />
leksikograafe seda kollokaati ikkagi heaks.<br />
Teiseks põhjustas lahkarvamusi kollokaatide lemmadele viimine, mis mõnikord<br />
muudab tuvastatud kollokatsiooni arusaamatuks ühendiks, nt täis raud, mille taga<br />
on tegelikult püsiväljend täie rauaga ‘nagu vähegi võimalik’. See tähelepanek<br />
viitab sellele, et edaspidi tasub kaaluda eesti keele sõnavisandite genereerimist ka<br />
sõnavormide jaoks ja mitte viia tulemused alati lemmadele. Samale probleemile on<br />
osutanud Kaalep ja Muischnek (2009: 162) rõhutades, et ekslik oleks arvata, et<br />
morfoloogiliselt ühestatud korpust kasutades saab tekstisõnad kõrvale jätta ning<br />
tegelda ainult lemmade koosesinemistega. Ühendverbide kui muutumatu sõna ja<br />
tekstis muutuva verbi ühendite tuvastamiseks võib tõesti kõik tekstisõnad asendada<br />
lemmadega, st leidis → leidma, leidnud → leidma ja üles → üles. Kuid verbi ja<br />
noomeni kindla muutevormi püsivate ühendite, näiteks väljendverbide puhul on asi<br />
teisiti. Näiteks väljendverbi silmist kaotama leidmiseks tuleb tekstis esinev<br />
verbivorm asendada lemmaga, kuid kui käändevorm silmis asendatakse tema<br />
lemmaga silm, saab sõnapaari silm kaotama (ibid.). Siinne uurimus näitab, et seda<br />
tüüpi sõnaühendeid on eesti keeles palju, sh teatud tüüpi adverbifraasid. See teema<br />
kuulub vaieldamatult väitekirja aktuaalsemate edasiarenduste hulka.<br />
Hinnangu halb põhjused võib tinglikult jaotada kahte rühma.<br />
1) Üldtuntud probleemid nagu:<br />
a) lemmatiseerimisvead, mis on tingitud nt vormihomonüümiast: substantiiv villa<br />
on lemmatiseeritud kui vill. Siin on vea põhjuseks mh asjaolu, et Sketch Engine’i<br />
korpuse ettevalmistamise järgus jäi sisendkorpuses mitme tõlgendusega sõnadel<br />
sisse ainult esikohal olev tõlgendus. Näiteks kui esialgu oli substantiivil villa kaks<br />
tõlgendust: vill + O ja villa + O, siis Sketch Engine’i korpuses on neist vaid<br />
esimene;<br />
b) morfoloogilise märgendamise vead sõnaliigi tasandil. Probleemne on<br />
leksikaliseerunud ja grammatikaliseerunud vormide märgendamine. Näiteks sõna<br />
käes fraasis päikse käes on märgendatud kui substantiiv ning tuleb esile kui<br />
substantiivi päike seesütlevas järeltäiend. Adverbide ja verbide sõnavisandites on<br />
valesti tuvastatud kollokaatide põhjuseks adverbide ja adpositsioonide (lemma üle<br />
sõnavisandis) ning adverbide ja sidesõnade (lemma paistma sõnavisandis) vale<br />
märgendamine. Näiteks lauses Kuid selline olukord, nagu paistab, mõningaid ei<br />
rahuldanud on sidesõna nagu märgendatud adverbiks.<br />
86
2) Teise rühma moodustavad probleemid, mida võib edaspidi lahendada reeglite<br />
tasandil (kontekstitingimuste täpsustamine, täiendavate sõnaloendite (eelkõige<br />
stopp-sõnade loendite) koostamine, sõnadevahelise distantsi muutmine) ja<br />
sisendkorpuse täiendav märgendamine (eriti oluline on perifrastiliste verbide,<br />
fraasipiiride ning süntaktiline märgendamine).<br />
Evalveerimisel osutusid probleemseks:<br />
a) sõnapaaridena tuvastatud kolmest, neljast ja viiest komponendist koosnevad<br />
fraasid, mis mõjuvad poolikute ja mõnikord ka semantiliselt tühjadena. Näiteks<br />
substantiivi abielu sõnavisandis osutusid sagedaseks partitsiipsed kollokaadid<br />
kestnud ja sõlmitud. Konkordantsiridade analüüsist selgub aga, et tegemist on<br />
sõnanelikutega, nt 25 aastat kestnud abielu ja 1986. aastal sõlmitud abielu.<br />
Analoogsed on nt sellised kollokatsioonid nagu vaheline leping pro Eesti Vabariigi<br />
ja Poola Vabariigi vaheline leping, ajastule iseloomulik pro modernsele / ülemineku<br />
ajastule iseloomulik, arvamuse uuring pro avaliku arvamuse uuring jmt;<br />
b) teatud tüüpi laiendid, mida leksikograafid ei pidanud leksikograafiliselt<br />
relevantseks. Nendeks osutusid eelkõige põhiarvsõnad (üks abielu), aja- (nt praegu<br />
tegema), koha- (nt kaugelt paistma), hulga- ja määramäärsõnad (nt tõeliselt/liiga<br />
ilus; veidi üle) ning asemäärsõnad (nt siis tegema). Hinnangud osutasid vajadusele<br />
koostada adverbide stopp-sõnade loend. Samas rõhutas üks leksikograaf, et<br />
adverbid võivad mõnede sõnade juures olla olulised. Nt koha- ja ajamäärsõnade<br />
analüüs aitab rekonstrueerida verbi sündmusstruktuuri (vt lähemalt ka ptk 5.2.3.4.),<br />
ka hulga- ja määramäärsõnad toovad esile sõna kalduvuse esineda koos<br />
konkreetsete adverbidega.<br />
Kokkuvõtteks võib öelda, et suurema osa halvaks hinnatud tuvastatud üksustest<br />
põhjustasid sõnaliigi märgendamise ja lemmatiseerimise käigus tekkinud vead,<br />
mitmesõnaliste üksuste poolik tuvastamine ja reeglite seisukohalt õigesti tuvastatud,<br />
kuid leksikograafiliselt irrelevantseks hinnatud eri tüüpi adverbidest laiendid.<br />
Sõnavisandites tuvastatavad substantiivide, adjektiivide, adverbide ja verbide<br />
süntagmaatilised suhted on põhilised süntagmaatiliste sõnastike kirjeldusobjektid.<br />
Järgnevas peatükis analüüsin, kuidas ja milleks kasutatakse kombinatoorsete<br />
meetoditega (sealhulgas sõnavisandite põhjal) saadud andmeid süntagmaatiliste<br />
õppesõnastike ja andmebaaside koostamisel. Eraldi analüüsin süntagmaatiliste<br />
üksuste valikukriteeriume.<br />
87
4. SÜNTAGMAATILISED SUHTED<br />
ÕPPELEKSIKOGRAAFIAS<br />
Õppeleksikograafia kui üldleksikograafia haru omapära väljendub eelkõige selle<br />
tihedas seoses teise keele ja võõrkeele õpetamise metoodikaga. Ingliskeelses<br />
haridusruumis nimetatakse õppesõnastikku pedagoogiliseks sõnastikuks<br />
(pedagogical dictionary) ja õppijasõnastikuks (learners’ dictionary), vene<br />
haridusruumis õppesõnastikuks (vn учебные словари), saksakeelses haridusruumis<br />
õppijasõnastikuks (sks Lernerwörterbuch). Eesti keele õppeleksikograafias on<br />
käibel mitu terminit: õppesõnastik, koolisõnastik ja baassõnastik.<br />
Tüpoloogiliselt liigitatakse õppesõnastikud järgmiste tunnuste järgi (Hartmann<br />
2001: 76–79):<br />
1) sihtgrupp – täiskasvanute ja noorte/laste õppesõnastikud;<br />
2) kasutajate keel(ed) – emakeelena kõnelejatele mõeldud või võõrkeelena<br />
kõnelejatele mõeldud õppesõnastikud;<br />
3) sõnastiku keel(ed) – nt üks- ja kakskeelsed õppesõnastikud;<br />
4) kirjeldusobjekt – kutsekeele, entsüklopeedilised, sõnapõhised/temaatilised<br />
õppesõnastikud;<br />
5) funktsioon – aktiivne ehk kodeeriv vs. passiivne ehk dekodeeriv.<br />
Nendele tunnustele võib lisada sõnastike üldtüpoloogias kasutatavad kriteeriumid<br />
(vt täpsemalt Atkins, Rundell 2008: 24–25):<br />
6) maht – standardne (akadeemiline), väike (concise) või taskusõnaraamat;<br />
7) formaat – pabersõnastik, elektrooniline, veebipõhine sõnastik.<br />
Õppesõnastike tüpologiseerimisel on väga levinud akadeemik Lev V. Scherba<br />
(1974) töödest alguse saanud nn binaarsetel opositsioonidel põhinev meetod (vt ka<br />
Tarp 2008: 17). Olulisemad binaarsed opositsioonid tulenevad sõnastiku kasutaja<br />
profiilist, sõnastiku leksikograafilisest ja tehnoloogilisest profiilist ning<br />
funktsioonist (Averina jt 1996: 314). Eristatakse üldisi (kõigile keeleõppijatele) vs.<br />
teatud grupile (nt õpilastele) suunatud, üldkeele vs. entsüklopeedilisi,<br />
semasioloogilisi vs. onomasioloogilisi, süntagmaatilisi vs. paradigmaatilisi,<br />
kombineeritud vs. kombineerimata, aktiivseid vs. passiivseid, preskriptiivseid vs.<br />
deskriptiivseid ja paberkandjal vs. elektroonilisi sõnaraamatuid.<br />
Õppesõnastike puhul on oluline kasutaja profiili täpne määratlemine. Sellest<br />
sõltuvad üksuste valikukriteeriumid ja need allikad, millele leksikograafid<br />
koostamisel toetuvad. Atkins ja Rundell (2008: 28–30) analüüsivad kasutaja profiili<br />
järgmiste komponentide alusel: 1) kasutaja tüüp – kas kasutajad on täiskasvanud,<br />
lapsed, teismelised; emakeelsed kõnelejad või keeleõppijad; milline on nende<br />
keeleoskustase (algajad, edasijõudnud); kas nad on tavalised kasutajad või<br />
88
professionaalid; mis situatsioonis nad sõnastikku kasutavad (haridusasutuses,<br />
kodus, tööl); 2) kasutuse tüüp – sõnade tähendustest arusaamine, keeleõpe,<br />
tõlkimine, kirjutamine, suuliseks eksamiks ettevalmistamine; 3) kasutaja eelnevad<br />
oskused – nende lingvistiline kompetents, nt kas nad teavad, mis on substantiiv;<br />
oluline on ka nende metaleksikograafiline kompetents ehk kas nad saavad<br />
sõnastikus kasutatavatest koodidest aru jne. Mida täpsem on sõnastiku kasutajate<br />
profiili kirjeldus, seda kergem on edaspidi lahendada sõnastiku koostamise ja<br />
toimetamisega seotud probleeme.<br />
Süntagmaatilise õppesõnastiku mõistet kasutatakse leksikograafia teoorias<br />
katusterminina sõnastikele, milles on infoüksustena kollokatsioonid,<br />
konstruktsioonid, püsiväljendid, idioomid, fraasid või laused (Hartmann, James<br />
2002: 135). Süntagmaatiliste seoste eksplitsiitse esituse põhieesmärgiks on toetada<br />
kasutajat võõrkeelse teksti loomisel (rääkimisel, kirjutamisel). Nende osaoskuste<br />
arendamiseks läheb õppijal vaja sõnaraamatut, mis näitab eksplitsiitselt konkreetse<br />
sõna kombinatoorseid võimalusi ja annab juhtnööre selle sõna korrektseks<br />
kasutuseks eelkõige fraasi ja lause tasandil. Seda funktsiooni täidavadki<br />
süntagmaatilised erisõnastikud või süntagmaatilisi suhteid kirjeldavad plokid<br />
üldsõnaraamatute sees. Põhierinevus seisneb selles, et kui süntagmaatilistes<br />
erisõnastikes esitatakse suhteid eksplitsiitselt (esitusviise käsitlen peatükkides 4.2.<br />
ja 5.1.), siis üldsõnaraamatutes esitatakse neid enamasti implitsiitselt kasutusnäidete<br />
tasandil (vt nt Langemets jt 2005: 84).<br />
Selles peatükis uurin tänapäeva süntagmaatiliste andmebaaside ja sõnastike makroja<br />
mikrostruktuuri eripära, süntagmaatiliste üksuste valikukriteeriume ja esitamise<br />
strateegiaid. Eraldi käsitlen võimalusi, mis on tekkinud seoses korpusleksikograafia<br />
arenguga.<br />
4.1. TRADITSIOONILINE JA KORPUSLEKSIKOGRAAFIA<br />
Traditsiooniliselt eristatakse leksikograafia teoorias kaht süntagmaatilise suhte liiki:<br />
1) süntagmaatilised leksikaalsed suhted, mille hulka kuuluvad kollokatsioonid,<br />
püsiühendid ja idioomid; 2) süntagmaatilised grammatilised ehk semantilismorfosüntaktilised<br />
suhted, mille hulka kuuluvad täistähenduslike sõnaliikide<br />
valents (nii semantiline kui ka süntaktiline) ja eri tüüpi grammatilised<br />
konstruktsioonid. Selline lähenemine on teoreetiliselt kirjeldatud nt leksikaalsete ja<br />
grammatiliste kollokatsioonide teoorias (Benson 1986, 1989, 1990). Grammatilised<br />
kollokatsioonid koosnevad põhisõnast, milleks on substantiiv, adjektiiv/partitsiip<br />
või verb, ja adpositsioonifraasist või muust grammatilisest struktuurist (infinitiivist<br />
või klausist). Leksikaalsetel kollokatsioonidel põhisõna ei ole, nendele on omased<br />
sellised struktuurid nagu: verb + substantiiv, adjektiiv + substantiiv, substantiiv +<br />
verb, substantiiv + substantiiv, adverb + adjektiiv, adverb + verb (BBI 2010: ix).<br />
89
Tänapäeva korpuspõhiselt koostatud süntagmaatilistes sõnastikes (nt MCD 2010,<br />
OCDSE 2007 35 ) on leksikaalsete ja grammatiliste kollokatsioonide eristamisest<br />
loobutud, süntagmaatilisi suhteid kirjeldatakse leksikogrammatiliste mallidena,<br />
Coffey (2011: 333) nimetab neid samuti kollokatsiooni mallideks. Mallid on<br />
defineeritud eelkõige sõnaliigi terminites, nt adjective + noun, verb + preposition +<br />
noun. Kõiki neid struktuure nimetatakse kollokatsioonideks ja sõnastikke vastavalt<br />
kollokatsioonisõnaraamatuteks (collocation dictionary).<br />
4.2. SÜNTAGMAATILISTE SUHETE ESITUSVIISID<br />
Süntagmaatiliste suhete esitamisel kasutatakse erinevaid strateegiaid, mis sõltuvad<br />
sellest, kas süntagmaatilisi suhteid esitatakse eksplitsiitselt või implitsiitselt.<br />
Svenséni (2009) järgi on süntaktilise info esitamiseks ükskeelsetes sõnastikes<br />
levinumad strateegiad: kodeeritud metakeel (coded metalanguage), kodeerimata<br />
metakeel (uncoded metalanguage), näitekonstruktsioonide (dead example) 36 või<br />
loomulike näidete (live example) kasutus ja info esitamine definitsiooni tasandil.<br />
Lisaks esitatakse süntagmaatilist infot mitte sõnaartiklites, vaid sõnaraamatu lisana<br />
(nt tabelite vormis). Järnevalt kirjeldan neid strateegiaid Svenséni (2009: 144–151)<br />
vahendusel, kui ei ole osutatud teisiti.<br />
1) Kodeeritud metakeel kirjeldab süntagmaatilisi suhteid mitmesuguste süntaktiliste<br />
koodide abil. Süntaktilised koodid on inglise leksikograafias nt [U] ‘loendamatu<br />
nimisõna’, [C] ‘loendatav nimisõna’, [I] ‘intransitiivne verb’, [T] ‘transitiivne verb’.<br />
Kodeeritud metakeelt kasutatakse näiteks inglise keele substantiivide, adjektiivide<br />
ja verbide valentsisõnastikus (Herbst jt 2004) (vt Joonis 61). Autorite sõnul on<br />
sõnastiku eesmärk esitada akadeemiline, põhjalik ja võimalusel kõikehaarav inglise<br />
substantiivide, adjektiivide ja verbide valentsi kirjeldus. Tegemist on korpuspõhise<br />
sõnaraamatuga, mille aluseks on Birminghami Ülikoolis koostatud 320 mln sõna<br />
suurune korpus. Sõnastiku põhilised infoüksused on valentsi mall (valency pattern),<br />
sõna tähendus konkreetses mallis, sama või sarnase semantilise rolliga<br />
komplementide grupp ja malli sagedus (harva esinev (rare) /<br />
> 30% / sage (frequent) / väga sage (very frequent)). Valentsi mallid on kirjeldatud<br />
enamasti moodustusstruktuuri alusel, põhiliselt fraasitüübi terminites. Näiteks<br />
[N] – substantiivifraas, [ADJ] – adjektiivifraas, [+ about N] – prepositsioonifraas,<br />
mille põhjaks on prepositsioon about jne. (Herbst jt 2004: vii–xxii)<br />
35<br />
OCDSE materjali põhiallikaks on 100 mln sõna suurune British National Corpus ja ka Internet<br />
(OCDSE 2007: VII).<br />
36<br />
Siinses tööd kasutan Svenséni (2009: 147) termini dead example ‘surnud näited’ vastena<br />
terminit näitekonstruktsioon.<br />
90
Joonis 61. Herbsti jt (2004) valentsisõnastiku ülesehitus (verb argue).<br />
2) Kodeerimata metakeel esitab grammatilise informatsiooni omaette tekstilise<br />
üksusena, nt [only before noun] ‘ainult enne nimisõna’.<br />
3) Näitekonstruktsioonide korral kasutatakse grammatilise info esitamiseks<br />
sisusõnade asendus- ehk provorme (pro-form). Inglise leksikograafias asendatakse<br />
substantiivid ja substantiivifraasid umbmääraste asesõnadega sth ‘something’ ja sb<br />
‘somebody’, verbid asendatakse proverbi do eri vormidega jne (näide 1).<br />
(1) happy: ~ about/in/with sth/sb; ~ doing sth/to do sth<br />
4) Loomulikud kasutusnäited illustreerivad sõna kasutust mingis konkreetses fraasis<br />
või lauses.<br />
5) Definitsiooni tasandil näidatakse sõna grammatilist kasutust definitsiooni sees.<br />
Sellist strateegiat kasutatakse nt COBUILD sõnastikus (näide 2).<br />
(2) near: 1 If something is near or near to a place, thing, or person, it is a<br />
short distance from them<br />
91
Leksikaalseid süntagmaatilisi suheteid esitatakse Svenséni (2009: 170–204) järgi<br />
1) kasutusnäidete tasandil (näide 3); 2) definitsiooni osana (näide 4); 3) nii<br />
definitsiooni kui ka kasutusnäidete tasandil (näide 5). 37<br />
92<br />
(3) abate verb: to become less violent: the storm/rain has ~d<br />
(4) abate verb: (of a storm, rain etc.) to become less violent<br />
(5) abate verb: (of bad weather) to become less violent: the storm/rain has ~d<br />
Tänapäevastes korpuspõhiselt koostatud inglise kollokatsioonisõnastikes esitatakse<br />
infoüksused enamasti kodeeritud metakeeles. Suhteid defineeritakse morfoloogiliste<br />
(sõnaliikide) kategooriate kaudu ning kollokaadid esitakse kollokatsiooni põhja<br />
sõnaartiklis. Nii esitavad kollokatsioone nt OCDSE ja MCD. Tabelis 8 on loetletud<br />
MCDs esitatud kollokatsioonide leksikogrammatilised mallid.<br />
Tabel 8. Kollokatsioonide mallid MCDs (Coffey 2011: 333 järgi).<br />
Substantiivi mallid (noun-based patterns) Näited<br />
adjektiiv + substantiiv strong desire<br />
substantiiv + substantiiv city centre<br />
substantiiv + substantiiv design concept<br />
verb + substantiiv express a desire<br />
substantiiv + verb counsel argued<br />
substantiiv + prepositsioon + substantiiv advance in design,<br />
immunity against infection<br />
substantiiv + prepositsioon + substantiiv issue of gender,<br />
countries across the globe<br />
verb + prepositsioon + substantiiv arise from desire,<br />
collapse into giggles<br />
rinnastusseoses substantiivid alcohol and gambling,<br />
goods or services<br />
Verbi mallid (verb-based patterns) Näited<br />
adverb + verb fully deserve, peer about<br />
verb + substantiiv deserve applause<br />
substantiiv + verb injuries heal<br />
verb + adjektiiv gleam white<br />
verb + verb seek to illustrate<br />
verb + prepositsioon + substantiiv disagree with a conclusion,<br />
act on advice<br />
rinnastusseoses verbid relax and unwind,<br />
inspire and motivate<br />
Adjektiivi mallid (adjective-based patterns) Näited<br />
adverb + adjektiiv eminently desirable<br />
verb + adjektiiv become desirable<br />
adjektiiv + substantiiv desirable attribute<br />
37 Näidetes on alla joonitud kollokaat.
Adjektiivi mallid (adjective-based patterns) Näited<br />
adjektiiv + infinitiiv glad to hear<br />
adjektiiv + adjektiiv pale green<br />
adjektiiv + prepositsioon + substantiiv grateful for assistance,<br />
rinnastusseoses adjektiivid, koos kasutatavad<br />
adjektiivid<br />
generous with time<br />
desolate and lonely, cosy little,<br />
glossy black<br />
Selline MCD süntagmaatiliste suhete sõnaliigipõhine käsitlus sobib kokku<br />
kombinatoorsete korpusleksikograafiliste meetoditega (vt ptk 2.2.2.), kuna<br />
süntagmaatiliste suhete automaattuvastamine tugineb just morfoloogiliselt<br />
märgendatud korpusele ja seega ka sõnaliigi märgenditele.<br />
MCD on koostatud nn Tickbox Lexicography (TBL) (Kilgarriff jt 2010b)<br />
põhimõtete järgi. Tegemist on poolautomaatse sõnavisandite põhise sõnastiku<br />
koostamisega. Leksikograafi tööks on valida konkreetse lekseemi jaoks sobivad<br />
kollokaadid ja näitelaused. Seejärel kopeerib süsteem valitud üksused automaatselt<br />
sõnastikusüsteemi vastavasse kohta.<br />
Joonisel 62 on substantiivi impression sõnavisand. Jooniselt nähtub, et<br />
grammatiliste kategooriate nimetused (v+N (= verb + substantiiv), N+v<br />
(= substantiiv + verb), adj+N (= adjektiiv + substantiiv)) on ühtlasi ka sõnastikus<br />
esitatud kollokatsiooni mallide koodid (vrd Tabel 8). Selline lähenemine võimaldab<br />
paremini siduda sõnavisandeid koostatava sõnastikuga.<br />
Joonis 62. Kollokaatide valik MCD koostamisel (Rundell 2012).<br />
93
Toon näiteks sõnaartikli impression katkendi MCDs (2010: 387–388) (näide 6).<br />
(6) impression N<br />
an opinion or feeling about something or someone<br />
● adj+N good favourable, good, positive, the right The food and service<br />
all made favourable impressions. [---]<br />
● v+N create an impression convey, create, give, leave, make, produce<br />
His account is incomplete and gives the wrong impression. [---]<br />
Näitest (6) nähtub, et sõnaartiklis on kodeeritud metakeeles esitatud kollokatsiooni<br />
sõnaliigipõhine struktuur (adj+N, v+N), seejärel semantiliselt seotud kollokaatide<br />
alarühm ja kollokatsiooni kasutust illustreeriv lause.<br />
Neid esitusviise rakendatakse ka mahukate leksikograafiliste andmebaaside<br />
koostamisel: süntagmaatilised suhted defineeritakse vormiklasside (sõnaliikide,<br />
fraasitüüpide) kaudu, seejärel toimub korpusleksikograafilise tarkvara abil nende<br />
automaatne tuvastamine ja poolautomaatne andmebaasi talletamine. Näiteks võib<br />
tuua leksikograafiliseks etaloniks peetava inglise keele leksikaalse andmebaasi<br />
DANTE 38 (Atkins jt 2010; Rundell, Atkins 2011: 233–246). DANTE kirjeldab<br />
tänapäeva inglise keele 42 000 sõna semantilisi, grammatilisi, kombinatoorseid ja<br />
tekstilisi (text-type) omadusi. Andmebaasi koostamisel on kasutatud kahte tarkvara:<br />
Sketch Engine ja IDM 39 . Süntagmaatiliste suhete osas esitab DANTE<br />
substantiivide, adjektiivide ja verbide nn süntaktilised mallid ehk konstruktsioonid<br />
(syntax patterns or constructions). Joonis 63 illustreerib, mis tüüpi süntaktilised<br />
mallid on esitatud substantiivsete märksõnade jaoks. Rippmenüüs on näha<br />
substantiivi süntaktiliste kontekstide koodid (syntactic context codes), nt ‘N_mod’<br />
tähistab konstruktsioone, kus otsitava substantiivi eestäiendiks on teine substantiiv<br />
(nt sea view). Andmebaasis on substantiivi jaoks 16 koodi, adjektiivi jaoks 15 koodi<br />
ja verbi jaoks 42 koodi (vt lähemalt Rundell, Atkins 2011: 238–241).<br />
38 The Database of Analysed Texts of English www.webdante.com (28.08.12). Andmebaasi<br />
materjal on ekstraheeritud 1,7 miljardi sõna suurusest korpusest.<br />
39 Vt www.idm.fr (28.08.12).<br />
94
Joonis 63. Inglise keele leksikaalse andmebaasi DANTE kasutajaliides.<br />
Omaette suund on korpuspõhine kollokatsioonisõnaraamatute automaatne<br />
genereerimine (Kilgarriff jt 2008a; Hvelplund 2011). Kilgarriff jt (2008a) on<br />
kirjeldanud kollokatsioonide demosõnastiku Forbetterenglish.com 40 koostamise<br />
põhimõtteid. Sõnastik on automaatselt genereeritud sõnavisandite põhjal, ka<br />
näitelaused lisanduvad andmebaasi automaatselt. Joonis 64 näitab sõna breakfast<br />
esitust.<br />
40 Vt http://forbetterenglish.com (28.08.12).<br />
95
Joonis 64. Automaatselt genereeritud kirje breakfast demosõnastikus<br />
Forbetterenglish.com.<br />
Tuvastatud grammatilised kategooriad on object_of ‘objekt’ (cook/eat/skip/serve<br />
breakfast), a_modifier ‘adjektiivne laiend’ (continental/heartly/leisurely breakfast),<br />
modifies ‘põhi’ (breakfast cereal/buffet/bar) ja n_modifier ‘substantiivne laiend’<br />
(buffet/champagne/wholegrain breakfast).<br />
Siinses töös väljatöötatud sõnavisandite grammatika tarbeks koostatud<br />
leksikogrammatiliste konstruktsioonide klassifikatsiooni alusel (vt ptk 3.2–3.5.)<br />
saab edaspidi samuti genereerida analoogse süntagmaatiliste suhete andmebaasi.<br />
Üheks oluliseks vaheetapiks on aga hea sõnastikunäite valimise ehk GDEX (Good<br />
Dictionary Example; vt lähemalt Kilgarriff jt 2008a; Kosem jt 2012) funktsiooni<br />
väljatöötamine eesti keele jaoks.<br />
Korpusleksikograafiline tarkvara võimaldab tuvastada sagedamaid ja kõrge<br />
esilduvusega leksikogrammatilisi konstruktsioone. Kuid ainult sellest analüüsist ei<br />
piisa, et tagada valitud üksuste vastavus konkreetse keeleoskustasemega keeleõppija<br />
oskustele ja vajadustele. Järgmises peatükis analüüsin Yukio Tono (2011) inglise<br />
keele kollokatsioonisõnastiku koostamisel rakendatud meetodit, mille eesmärk on<br />
muuta süntagmaatiliste üksuste valikukriteeriumid läbipaistvamaks ja kergemini<br />
hoomatavamaks.<br />
96
4.3. SÜNTAGMAATILISTE ÜKSUSTE VALIKUKRITEERIUMID<br />
Tono (2011) soovitab süntagmaatiliste üksuste valimisel võtta arvesse statistilise<br />
analüüsi andmeid ning rõhutab, et need andmed on oluline siduda<br />
keeleoskustasemete sõnavaraloenditega. Nii saab võimalikuks süntagmaatiliste<br />
üksuste astmeline, õppijate konkreetsele keeleoskustasemele vastav esitus. Nt kui<br />
tegemist on inglise keele õppesõnastiku koostamisega, siis on otstarbekas lisada<br />
andmebaasi CEFR (Certification Standard for European Reference Framework)<br />
sõnavaraloendite 41 andmed ja näidata, kas kollokaat on esinenud keskkoolile<br />
mõeldud inglise keele õpikutes.<br />
Sõnavaraloendite koostamist peetakse õppeleksikograafia omaette haruks, neid<br />
kasutatakse eelkõige keeleoskuse mõõtmisel, testimisel ja hindamisel. Tänapäeval<br />
koostatakse sõnavaraloendeid korpusandmete põhjal (nt Londsale, Le Bras 2009;<br />
Kilgarriff jt 2012c). Kilgarriff jt (2012c) märgivad, et sõnavaraloendeid uurides<br />
saab vastuse, mis sõnu tuleb kasutada laste lugemisoskuse arendamiseks mõeldud<br />
raamatutes, mitte-emakeelsetele kõnelejatele mõeldud õpikutes ja sõnaraamatute<br />
koostamisel. Traditsiooniliselt on sõnavaraloendid orientiiriks eelkõige<br />
õppesõnastike märksõnastiku ja definitsioonisõnavara koostamisel. Kuid Tono<br />
(2011) järgi tuleks sõnavaraloendeid aktiivselt kasutada mitte ainult õppesõnastike<br />
märksõnastike koostamisel, vaid ka süntagmaatiliste suhete esitamisel. See on üks<br />
eeldusi tagamaks sõnastiku leksikaalse profiili vastavuse keeleõppijate vajadustele<br />
ja ootustele.<br />
Joonisel 65 on näidatud Tono (2011) andmebaasi infoühikud: kollokaatide<br />
koosesinemise sagedus (frq), esilduvuse väärtus (logDice), keeleoskustase (CEFR),<br />
kollokaadi esinemine keskkooli inglise keele õpikutes (textbook).<br />
41 Vt lähemalt http://www.englishprofile.org (28.12.12). Andmebaas võimaldab vaadata<br />
leksikaalsete üksuste (nii üksikute sõnade kui ka väljendite) kuuluvust teatud taseme sõnavarra,<br />
lisaks illustreeritakse kasutust näitelausete tasandil ja esitatakse ka sõnamoodustuslike seoste<br />
infot.<br />
97
Joonis 65. Verb take ja selle objekti funktsioonis esinevate kollokaatide märgendus<br />
kollokatsioonide andmebaasis (Tono 2011).<br />
Neid parameetreid on arvestatud verbi take ja selle objekti funktsioonis esinevate<br />
substantiivide kollokatsioonide esitamisel (vt Joonis 66).<br />
Joonis 66. Verbi take kollokatsioonide astmeline esitus kollokatsioonisõnastiku<br />
kasutajaliideses (Tono 2011).<br />
98
Korpuses olevad metaandmed võimaldavad järjestada kollokatsioone vastavalt<br />
erinevatele keeleoskustasemetele. A1-tasemel on esitatud sellised verbi take<br />
kollokatsioonid nagu take a picture, take a photo, take a look, A2-tasemel – take a<br />
course, take part; B1 – take a responsibility, take a measure jne.<br />
Selline lähenemine näitab, et süntagmaatiliste üksuste valikul on otstarbekas<br />
toetuda mitte ainult korpusandmete analüüsile, vaid tagamaks sõnastiku leksikaalse<br />
profiili vastavuse potentsiaalsete kasutajate oskustele ja vajadustele, tuleb võtta<br />
arvesse sõna esinemust keeleoskustasemete sõnavaraloendites ja õppetekstides.<br />
4.4. KOKKUVÕTTEKS: SÜNTAGMAATILINE INFO TÄNAPÄEVA<br />
ÕPPESÕNASTIKES JA ÕPPELEKSIKOGRAAFILISTES<br />
ANDMEBAASIDES<br />
Kokkuvõtteks võib öelda, et osaliselt mõjutatuna korpusleksikograafiliste meetodite<br />
arengust (kus suhteid ei jagata grammatilisteks ja leksikaalseteks, vaid käsitletakse<br />
arvuti jaoks sobivamate formaliseeritud leksikogrammatiliste konstruktsioonidena),<br />
käsitletakse tänapäeva õppeleksikograafias igat liiki süntagmaatilisi suhteid<br />
kollokatsioonidena, mida defineeritakse enamasti morfosüntaktiliste (sõnaliikide,<br />
fraasistruktuuride) kategooriate kaudu. Selline lähenemine võimaldab paremini<br />
kasutada korpusleksikograafilise analüüsi tulemusi. Kuna opereeritakse samade<br />
kategooriatega, on saanud võimalikuks tuvastatud üksuste automaatne talletamine<br />
õppeleksikograafilistesse andmebaasidesse. Seejuures on oluline märkida, et<br />
enamasti piirduvad süntagmaatilised sõnastikud eelkõige süntaksi tasandil<br />
tuvastatavate üksuste kirjeldamisega. Analüüsitud sõnastikest käsitletakse<br />
argumentide semantilisi rolle vaid Herbsti jt (2004) sõnaraamatus.<br />
Süntagmaatiliste üksuste valikul on uus tendents n-ö integratiivsete<br />
päringusüsteemide loomine (nt Tono 2011), kus üksuste valikul ei lähtuta ainult<br />
leksikograafilise tarkvara abil saadud andmetest, vaid analüüsi kaasatakse ka teisi<br />
allikaid, nt eri keeleoskustasemete sõnavaraloendeid ja õppetekste. See tagab<br />
sõnastike leksikaalse profiili vastavuse konkreetse keeleoskustasemega õppijate<br />
oskustele ja vajadustele.<br />
99
5. SÜNTAGMAATILISED SUHTED EESTI KEELE<br />
ÕPPESÕNASTIKES JA ANDMEBAASIDES<br />
Süntagmaatilise info esitamise uurimused eesti keele üld- ja õppesõnaraamatutes<br />
(vt Langemets jt 2005; Kallas, Tuulik 2011) on näidanud, et eesti leksikograafias ei<br />
ole välja kujunenud kollokatsioonisõnaraamatute koostamise traditsiooni, küll aga<br />
on välja kujunenud rektsioonisõnastike ja -valimike ning pikk<br />
fraseoloogiasõnaraamatute 42 (nt Reitsak 1975; Šanski jt 1983; Õim 2000, 2008)<br />
koostamise tava.<br />
Rektsioon ehk sõltumine on selline alistus, milles põhja leksikaalne tähendus, vahel<br />
ka grammatiline tähendus määrab laiendi grammatilise vormi (EKG 1993: 8). Eesti<br />
keele rektsioonistruktuuride liike on kirjeldanud Rätsep (1978: 64, 223), EKG<br />
(1993: 8), Kerge (2000: 18–19), Vaiss (2004: 5), Langemets jt (2005: 91–93).<br />
Üldiselt eristatakse järgmisi liike: 1) substantiiv → käände- (usk kellesse-millesse),<br />
kaassõna- (viha kelle-mille vastu) ja tegevusnimerektsioon (tahe mida teha);<br />
2) adjektiiv → käände- (kindel kelles-milles), kaassõna- (kade kelle-mille peale) ja<br />
tegevusnimerektsioon (julge mida tegema); 3) verb → objekti- (toetama kedamida),<br />
käände- (tutvuma kellega-millega), kaassõna- (võitlema kelle-mille vastu),<br />
tegevusnime- (tahtma mida teha, jätma mida tegemata), lausungirektsioon (ütlema,<br />
et) ja üldine asendusrektsioon (sõitma kust kuhu); 4) adverb → käänderektsioon<br />
(erinevalt kellest-millest); 5) kaassõna → käänderektsioon (peale kelle-mille, peale<br />
keda-mida); 6) kvantor → käänderektsioon (rühm keda-mida).<br />
Jelena Kallase ja Maria Tuuliku (2011) uurimus osutas vajadusele koostada uut<br />
tüüpi eesti keele õppesõnaraamat, mis kirjeldaks süstemaatiliselt eesti<br />
substantiivide, adjektiivide, adverbide ja verbide süntagmaatilisi suhteid, sh nii<br />
rektsioonistruktuure kui ka leksikaalseid kollokatsioone ja püsiühendeid. Siinses<br />
töös toon seda tüüpi õppesõnastiku näiteks eesti keele põhisõnavara sõnastiku<br />
(PSV, ilmumas 2013). PSV makro- ja mikrostruktuurist ja koostamispõhimõtetest<br />
annan ülevaate peatükis 5.2. Kirjeldatud põhimõtteid võib pidada prototüüpseteks,<br />
nii et neid saab edaspidi rakendada teiste õppeleksikograafiliste andmebaaside<br />
ülesehitamisel ja eesti keele kui teise keele õppesõnastike koostamisel.<br />
Esmalt aga analüüsin seni ilmunud eesti keele rektsioonisõnastike makro- ja<br />
mikrostruktuuri. Uurimisobjektiks on rektsioonistruktuuride esitamise viisid ja<br />
liigid.<br />
42 Fraseoloogiasõnaraamatu koostamise põhimõtteid käesolevas töös eraldi ei käsitleta. Ülevaadet<br />
eesti fraseoloogia leksikograafilisest arengust, sh tänapäeva veebirakendustest vt Õim, Õim (2011).<br />
100
5.1. SENI ILMUNUD EESTI KEELE REKTSIOONISÕNASTIKUD<br />
Rektsioonivalimike ja -sõnastike koostamise tava ulatub 20. sajandi algusesse, mil<br />
eri sõnaliikide rektsioone esitati sõnastike lisana (Käbin, Pekarsky 1923), omaette<br />
abiraamatutena (Rajamaa 1936) või õigekeelsuse õpikute ja grammatikate (Aavik<br />
1936) osana.<br />
Tiido Käbini ja Nikander Pekarsky (1923) sõnaraamatus on eksplitsiitselt esitatud<br />
kaassõnade rektsioon.<br />
Herman Rajamaa (1936) rõhutab, et tema koostatud abiraamat on eesti<br />
keeleteaduses esimene katse koostada eesti sõnade (käänd-, pöörd- ja<br />
muutumatute sõnade) muutelise sõltuvuse käsiraamat. Autor näitab, missuguse<br />
käändega ühenduses ühte või teist sõna tarvitada (näited 7–9) 43 .<br />
(7) allutama (midagi kellelegi) [---]<br />
(8) tutvus (millegagi, kellegagi) [---]<br />
(9) tulvil (midagi, millestki) [---]<br />
Johannes Aavik (1936: 358) nimetab rektsiooniks seda, millist käänet või<br />
kaassõnalist väljendit mingi sõna nõuab ning esitab rektsioonistruktuure järgmiselt<br />
(näited 10−13):<br />
(10) eelistama – midagi millestki või midagi millelegi<br />
(11) sarnane (identne) – millegagi<br />
Objektirektsioonis on Aavik eristanud täisobjekti ja osaobjekti, mida tähistatakse<br />
kui osaobj. ‘verb konstrueerib ainult osaobjektiga’ (näide 12) ja täisobj. v.<br />
‘täisobjekt võimalik’ (näide 13).<br />
(12) haldama − osaobj.<br />
(13) nakatama – kedagi (täisobj. v.) millessegi (näit. haigusesse); ka: kellelegi<br />
midagi<br />
Ka 20. sajandi teisel poolel on rektsioonivalimik traditsiooniline eesti keele õpikute<br />
ja grammatikate osa (vt nt Vääri 1969: 91–92; Tauli 1980: 330–339; Erelt 2006:<br />
35–40). Enamasti esitatakse rektsioone käändeküsimuste (näide 14) või<br />
kaassõnaühendi (näide 15) kaudu; mõned autorid kasutavad ka koode (näide 16).<br />
(14) samastama mida? millega? (Vääri 1969: 92)<br />
(15) info millegi kohta (harvem: millest) (Erelt 2006: 36)<br />
43 Sõltumisele lisaks on Rajamaa (1936) abiraamatus esitatud ka sõna definitsioon, põhilised<br />
morfoloogilised vormid (käändsõnadel on esitatud peale nimetava omastav ja osastav ainsuses ja<br />
mitmuses, pöördsõnadel on esitatud üldjuhul ma-infinitiivi kõrval da-infinitiiv, umbisikulise<br />
tegumoe olevik ja näitelause.<br />
101
(16) samastama O+Km 44 (Tauli 1980: 335)<br />
Näidetest (7–16) nähtub, et eesti keele grammatikates ja käsiraamatutes on<br />
sisusõnade rektsioonistruktuuride esitamisel rakendatud ja rakendatakse kahte<br />
esitusviisi: näitekonstruktsioone (eelkõige käändeküsimuste ja kaassõnaühendite<br />
abil) ja kodeerimist.<br />
Siinses peatükis analüüsin rektsioonistruktuuride esitusviise eraldi väljaandena<br />
ilmunud üks- ja kakskeelsetes rektsioonisõnastikes. Valikus on Pooli (1999), Vaissi<br />
(2004), UNG-EE (2010) ja Mäearu (2011) sõnastikud.<br />
UNG-EE (2010) sõnaraamatus kodeeritakse eesti verbide rektsioonistruktuure<br />
süntaktiliste (O = objekt) ja morfoloogiliste (nt käände nimetused G = genitiiv,<br />
All = allatiiv ja infinitiivitunnused -MA, -DA) kategooriate kaudu (näited 17–18).<br />
(17) andma O, All Annan sulle sada forintit.<br />
(18) hakkama -MA Laps hakkas käima.<br />
Natalia Vaissi aspektisõnastikus (2004) on kasutatud koode, näitamaks verbi<br />
objektikäände rektsiooni (näited 19–20). Eesti keele transitiivverbid on jagatud<br />
lähtuvalt nende objektikäände rektsioonist ja sellest sõltuvast aspektuaalsest<br />
tähendusest partitiivseteks (kood: PART), perfektiivseteks (kood: PERF) või<br />
aspektilisteks (kood: ASPEKT) verbideks. Ühendverb järele aitama (näide 19) on<br />
partitiivverb (objekt peab alati olema partitiivis), välja aitama (näide 20) on<br />
perfektiivne ühendverbi (objekt peab olema genitiivis).<br />
(19) järele aitama – PART (keda? mida?) 1. koolitöös, õppimises abistama, et<br />
õpilane jõuaks klassi üldisele tasemele Tugevam õpilane aitab nooremat<br />
järele. Üliõpilane aitas kuuenda klassi õpilast matemaatikas järele. 2. ühtteist<br />
pisut parandades, viimistledes sobivaks, parajaks, paremaks jne muuta<br />
Huvitavat looduslikku kiviskulptuuri on kunstniku käsi siin-seal kergelt<br />
järele aidanud.<br />
(20) välja aitama – PERF kuskil või mingist olukorrast pääseda aitama<br />
Lubasin endale, et aitan tüdruku siit välja. <strong>Ait</strong>asin mehe laukast välja.<br />
Raili Pooli (1999) raamat kirjeldab nii liht- kui ka väljend- ja ühendverbide<br />
rektsioone. Rektsioonistruktuuride esitamisel on kasutatud nii süntaktilisi kui ka<br />
morfoloogilisi kategooriaid. Kolmekäändeline objekt (võib esineda nii nominatiivis,<br />
genitiivis kui ka partitiivis) on tähistatud lühendiga O, ainult partitiivis esinevad<br />
objektid on rektsioonikirjeldustes tähistatud küsimusega keda? mida?. Teist tüüpi<br />
rektsioonistruktuure näidatakse morfoloogiliste kategooriate kaudu, milleks on<br />
kääne (tähised on mis, kellel-millel, kellele-millele, kellelt-millelt, kellesse-millesse,<br />
kelles-milles, kellest-millest, kelleks-milleks, kellena-millena, kellega-millega,<br />
kelleta-milleta), infiniitse verbi tunnus (vastavad lühendid ma-inf, da-inf), supiini<br />
käändevormid (vastavad lühendid on -ma, -mas, -mast ja -mata).<br />
44 O tähistab objekti, Km tähistab komitatiivis sõltlaiendit.<br />
102
Kaassõnarektsiooni näitamiseks on kasutatud kaassõnafraase (mille eest, kelle<br />
poolt) (Pool 1999: 5). Seega on esitatud verbide sihitiserektsioon (näide 21),<br />
käänderektsioon (näide 22), kaassõnarektsioon (näide 23), infinitiivirektsioon<br />
(näide 24), substitutsioonirektsioon (näide 25). Lisaks on esitatud mitmelaiendilisi<br />
konstruktsioone (näide 26).<br />
(21) armastama keda? mida? Mart armastab Tiiut.<br />
(22) armuma kellesse? Juhan armus Marisse. millesse? Ta armus mägedesse<br />
juba lapsena.<br />
(23) eksima mille vastu? Mart eksis eeskirjade vastu.<br />
(24) hakkama ma-inf Hakkasime sööma.<br />
(25) hilinema kuhu? Hilinesin teatrisse/tööle.<br />
(26) eelistama keda? mida? (+ kellele? millele?) Eelistan teed (kohvile).<br />
Sirje Mäearu rektsioonisõnastik (2011) on esimene (eelkäijaks on Mäearu 1996),<br />
mis vaatleb süstemaatiliselt mitte ainult verbide, vaid ka substantiivide, adjektiivide<br />
ja adverbide rektsioone (2011: 3). Verbidel on esitatud sihitise- (näide 27), käände-<br />
(näide 28), kaassõna- (näide 29), infinitiivi- (näide 30) ja substitutsioonirektsioon<br />
(näide 31).<br />
(27) allkirjastama ▷ mis/mille/mida: Müüja ja ostja allkirjastasid ostu-müügi<br />
lepingu. Direktor peab arved allkirjastama. Ei allkirjastanud lepingut.<br />
(28) alla kirjutama ▷ millele: Kirjutab lepingule alla.<br />
(29) diskuteerima ▷ mille üle: Diskuteeriti kütteprobleemide üle.<br />
(30) ajendama ▷ mida mida tegema: Madal hoiuintressimäär ajendab<br />
investeerima.<br />
(31) apelleerima ‘edasi kaebama’ ▷ kuhu: Apelleerib ringkonnakohtusse,<br />
üldkoosolekule.<br />
Substantiividel on näidatud käände- (näide 32), kaassõna- (näide 33), tegevusnime-<br />
(näide 34) ja substitutsioonirektsioon (näide 35).<br />
(32) vastavus ▷ millele: Joogivee kvaliteedi vastavus nõuetele.<br />
(33) karistus ▷ mille eest: Karistus illegaalide töölevõtmise eest.<br />
(34) valmisolek ▷ mida teha: Valmisolek minna.<br />
(35) kutse ▷ kuhu: Kutse õhtusöögile restoranis Gloria.<br />
Adjektiividel – käände- (näide 36), kaassõna- (näide 37) ja tegevusnimerektsioon<br />
(näide 38).<br />
(36) lojaalne ▷ millele: Lojaalne tööandjale.<br />
103
104<br />
(37) neutraalne ‘erapooletu’ ▷ mille suhtes: Vaidluse suhtes neutraalne<br />
vahekohus.<br />
(38) kompetentne ▷ mida tegema: Üldkoosolek on kompetentne otsustama kõiki<br />
seltsitegevusega seotud küsimusi.<br />
Adverbidel ja adpositsioonidel – käänderektsioon (näited 39, 40).<br />
(39) olenevalt ▷ millest: Töö keerukusest olenevalt on tunnihind 16–32 eurot.<br />
(40) hoolimata ▷ millest: Kõrgest east hoolimata nägi ta hea välja.<br />
Seega on seni ilmunud eesti keele rektsioonisõnastikes kasutatud kahte erinevat<br />
süntagmaatiliste suhete esitusviisi: kodeeritud metakeelt (Vaiss 2004; UNG-EE<br />
2010) ja näitekonstruktsioone (Pool 1999; Mäearu 2011). Näitekonstruktsioonid<br />
moodustatakse käändeküsimuste, infinitiivide, supiini käändevormide ja<br />
kaassõnaühendite abil. Lisaks illustreerivad mõlemad lähenemised<br />
rektsioonistruktuuride kasutust näitelausete tasandil.<br />
Vaissi (2004) sõnastiku kirjeldusobjekt on vaid objektirektsioon, UNG-EE (2010),<br />
Pooli (1999) ja Mäearu (2011) sõnastikes kirjeldatakse verbide objekti-, käände-,<br />
kaassõna-, tegevusnime ja üldist asendusrektsiooni. Mäearu (2011) sõnastikus on<br />
esitatud lisaks substantiivide, adjektiivide, adverbide ja adpositsioonide<br />
rektsioonistruktuurid.<br />
5.2. EESTI KEELE PÕHISÕNAVARA SÕNASTIK<br />
Eesti keele põhisõnavara sõnastiku (PSV) sihtgrupp on nii need A1-tasemel<br />
keeleõppijad, kes soovivad areneda A2- ja B1-tasemele, kui ka need, kes on juba<br />
A2-B1-taseme saavutanud ja kellele annaks sõnastik tuge omandatud materjali<br />
kinnistamiseks.<br />
Toetudes tänapäeva inglise (ptk 4.2. ja 4.3.) ja eesti (ptk 5.1.) õppeleksikograafias<br />
juurdunud süntagmaatiliste sõnastike koostamispõhimõtetele, pakun siinses<br />
peatükis kriteeriumid, millest peaks lähtuma konkreetsetele keeleoskustasemetele<br />
suunatud eesti keele õppesõnastike ja õppeleksikograafiliste andmebaaside<br />
süntagmaatiliste infoüksuste valikul ja koostamisel ning kuidas tagada<br />
süntagmaatiliste suhete süstemaatiline esitamine andmebaasis.<br />
5.2.1. Süntagmaatiliste üksuste valikukriteeriumid<br />
Arvestades olemasolevaid eesti keele ressursse, tuleb eesti keele süntagmaatiliste<br />
andmebaaside ja sõnastike korpuspõhisel koostamisel lähtuda järgmistest<br />
kriteeriumidest: 1) ametlike keeleoskustasemete formaalsetes kirjeldustes esitatud<br />
nõudmised (eelkõige süntagmaatiliste suhete liikide osas); 2) suhet moodustavate<br />
sõnade esinemus keeleoskustasemete sõnavaraloendites; 3) statistilise töötluse<br />
andmed. Vaatlen neid kriteeriume ükshaaval PSV näitel.
5.2.1.1. Ametlike keeleoskustasemete nõuded<br />
Ametlike keeleoskustasemete nõudmiste analüüsil lähtun siinses töös eelkõige<br />
Euroopa Liidu keeleoskustasemete kirjeldusest „Euroopa keeleõppe<br />
raamdokumendis” (2007; edaspidi raamdokument) ja selle üldsätetele vastavate<br />
eesti keele A2- (Ilves 2008) ja B1-tasemete (Hausenberg jt 2008) kirjeldustest.<br />
Nagu märgivad Eslon jt: „ei raamdokumendis ega algaja, iseseisva või vilunud<br />
keelekasutaja kirjeldustes pole tasemeoskuste lingvistilist sisu tegelikult avatud, sest<br />
puuduvad täpsed teadmised, missugused keelestruktuurid ja sõnavara missugusele<br />
tasemele tegelikult omased on.” (Eslon jt 2010: 12) „Siiani ei ole päris selge, kas<br />
suhtluses aktiivselt kasutatavad leksikaalsed üksused ja morfosüntaktilised<br />
konstruktsioonid muutuvad keeleõppija tasemeoskuste edenedes järjest<br />
keerulisemaks ja mitmekesisemaks või mitte, kas nimetatud üksuste hulk suureneb,<br />
stabiliseerub või väheneb, kas väljendusvõimalused avarduvad või ei pruugi<br />
täiskasvanu keelekasutus oluliselt erineda teismelise omast.” (Eslon jt 2010: 14)<br />
Tallinna Ülikooli eesti keele ja kultuuri instituudi teadlastel on kavas analüüsida,<br />
missugused keeleüksused (morfosüntaktilised konstruktsioonid, kollokatsioonid,<br />
idiomaatika jm) iseloomustavad keeleoskustasemeid, selgitades seejuures,<br />
missugustest teoreetilistest ja metodoloogilistest alustest oleks mõttekas lähtuda,<br />
missuguseid analüüsimeetodeid kasutada. Kavandatava uurimuse eesmärk on<br />
võrrelda esimese ja teise keele arengut kahes suunas: ühelt poolt vanuserühmade<br />
kaupa ehk etapiti (väikelaps – kooli eelik– põhikooliõpilane –<br />
gümnaasiumiõpilane – täiskasvanu) ja teisalt keeleoskustasemeti (A1 – A2 – B1 –<br />
B2 – C1 – C2). Uurimuse rakenduslikuks väljundiks peab saama teaduslikult<br />
põhjendatud alus tasemeõppe korraldamiseks ja keeleoskuse mõõtmiseks,<br />
tasemeoskuste saavutamisele suunatud õppesõnastike ja õpikute komplekt (Eslon jt<br />
2010).<br />
Kuna selle uurimuse tulemusi ei ole veel avaldatud, 45 siis piirdun vaid A2- ja B1keelepädevuste<br />
komponentide analüüsiga. Eesmärgiks on valida<br />
keeleoskustasemete kirjeldustest kriteeriumid, millega tuleks kindlasti arvestada<br />
A2- ja B1-tasemele suunatud sõnastiku koostamisel. Siinse uurimuse<br />
problemaatikat arvestades on eriti olulised sellised keelepädevuse liigid nagu<br />
sõnavara- ja grammatikapädevus.<br />
5.2.1.1.1. Sõnavarapädevus<br />
Raamdokumendi (2007: 128) kohaselt „sõnavarapädevus tähendab mõne keele<br />
sõnavara tundmist ja oskust seda kasutada.” A2-tasemel keelt oskav õppija „valdab<br />
igapäevavajadustega piirnevat nappi sõnavara”, B1-tasemel keelt oskav õppija<br />
„valdab põhisõnavara, kuid teeb märkimisväärseid vigu, kui on vaja väljendada<br />
keerukamat mõtet või kui kõneaine ja olukord on võõras.” (Raamdokument 2007:<br />
130)<br />
„Sõnavarapädevus puudutab leksikaalseid ja grammatilisi üksusi.<br />
45 Seisuga 27.01.13.<br />
105
Leksikaalsete üksuste hulka kuuluvad<br />
a) väljendid, mis koosnevad mitmest sõnast ning mida õpitakse ja kasutatakse kui<br />
tervikut. Püsiväljendid hõlmavad:<br />
lausetarindeid, sealhulgas otseseid keelefunktsioonide väljendusi [---], nagu<br />
tervitused, nt Kuidas läheb? Tere hommikust!, vanasõnu jms keelelisi arhaisme [---],<br />
nt Käi kus tont!;<br />
idioome, mis on tihti semantiliselt läbipaistmatud ja kivistunud metafoorid, nt<br />
pani kõrvad pea alla ‘suri’, aia taha minema ‘ebaõnnestuma’, nagu õlitatud välk<br />
‘väga kiiresti’; [või] intensiivsussõnad [---];<br />
fraaslauseid, mida õpitakse ja kasutatakse kui liigendumatuid tervikuid, kuhu<br />
muid sõnu ja fraase saab lauseid moodustades sisestada, nt ega te ei ... või kas<br />
ma saaksin ...;<br />
muid kinnistunud fraase, nt ühend- ja väljendverbid, [---] liit- või<br />
ühendkaassõnad [---];<br />
püsiühendeid, mis koosnevad tihti koos esinevatest sõnadest, nt tuld kustutama<br />
või uinuv kaunitar;<br />
b) üksiksõnad [---] kuuluvad kindlat tüüpi vormimoodustusega avatud sõnaliikide<br />
hulka (nimisõna, tegusõna, omadussõna, määrsõna), kuigi viimased võivad<br />
sisaldada ka suletud sõnarühmi (nt nädalapäevade, kuude nimetused, kaalu- ja<br />
mõõtühikud jms). Mõned sõnarühmad võivad täita grammatilisi ja suhtlus- ehk<br />
pragmaatilisi ülesandeid”. (Raamdokument 2007: 128–129)<br />
Ilvese (2008: 35) järgi lubab A2-taseme sõnavara (selle orienteeruvaks suuruseks<br />
võiks olla ligi 2000 sõna) keeleõppijal igapäevastes olukordades endale olulistel<br />
teemadel ja eesmärkidel lihtsalt suhelda, lühemat suulist monoloogi esitada,<br />
vestluspartnerit ja kirjalikke tekste mõista ning loetu ja kuuldu võtmesõnu<br />
vahendada. B1-taseme sõnavara on piisav igapäevaste teemade jaoks (perekond,<br />
huvialad, töö, reisimine, päevasündmused), kuigi vahel võib ette tulla kaudset<br />
väljendust (Hausenberg jt 2008: 40).<br />
5.2.1.1.2. Grammatikapädevus<br />
„Grammatikapädevus tähendab keele grammatiliste vahendite tundmist koos<br />
oskusega neid kasutada. [---] Grammatikapädevus on võime luua ja edastada<br />
tähendust korrektsete fraaside ja lausete moodustamise teel või leida nende<br />
tähendus kooskõlas eelnimetatud põhimõtetega (see ei ole kinnistunud vormide või<br />
fraaside päheõppimine ja taasesitus). [---] Grammatika kirjeldamisel osutatakse<br />
järgmisi komponente:<br />
üksused, nt morfeemid, tüved ja liited, sõnad;<br />
kategooriad, nt arv, kääne, sugu, konkreetne/abstraktne, loendatav/loendamatu,<br />
sihiline/sihitu verb, isikuline/umbisikuline tegumood [---];<br />
106
klassid, nt pöördtüübid, käändtüübid, avatud sõnaliigid (nt nimisõnad,<br />
tegusõnad, omadussõnad, määrsõnad), suletud sõnaliigid (nt grammatilised<br />
sõnad);<br />
tarindid, nt komplekssõnad, fraasid (nimisõnafraas, tegusõnafraas jms),<br />
osalaused (pealause, kõrvallause, rindosalause) ja lauselühendid, laused, nt liht-,<br />
rind-, põimlause;<br />
protsessid, nt nominalisatsioon, liidete lisamine, vormimoodustus või eritüvelise<br />
vormi valik, võrdlemine, sõnajärje muutmine, asendus, sidendus vms;<br />
seosed, nt rinnastus, sõltumine, ühildumine, valents, rektsioon.”<br />
(Raamdokument 2007: 129–130)<br />
A2-tasemel keeleõppijal on ülevaade eesti keele põhilistest grammatilistest<br />
struktuuridest, sh tunneb ma- ja da-infinitiivi kasutamise reegleid, oskab<br />
sagedamatest verbidest moodustada ma-tegevusnime käändelisi mas-, mast-, ja<br />
mata-vorme ning da-infinitiivi des-vormi (Ilves 2008: 69–70).<br />
A2-taseme õppesõnastikes on süntagmaatiliste üksuste valiku ja esituse seisukohalt<br />
oluline arvestada järgmiste A2-tasemel keelekasutajale esitatavate nõuetega (Ilves<br />
2008: 73–74):<br />
„Tunneb sagedamaid sihilisi verbe [---].<br />
Sihiliste verbide seas tunneb sagedamaid partitiivverbe ehk verbe, millega<br />
kasutatakse alati osastavat käänet, nt nägema, aitama, armastama, õpetama,<br />
uskuma, kasutama.<br />
Ühendverbe ja väljendverbe saab liigitada kas sama abisõna järgi (nt ära<br />
minema, ära sööma; andeks andma, andeks saama) või sama põhisõna järgi (nt<br />
sünnipäeva pidama, kõnet pidama; alla kirjutama, üles kirjutama). Juba<br />
algtasemel on oluline õppida selliseid rühmi süstemaatiliselt mõistma ja<br />
kasutama. [---]<br />
Oskab tegusõnu laiendada lihtsate aja-, koha-, põhjus- ja viisimäärustega, nt<br />
tuleb homme, tehti Tallinnas, hilines minu pärast, on alati kirjutanud väga<br />
viisakalt. [---]<br />
Oskab ma- ja da-infinitiivi moodustada, kuid eksib infinitiivi valikul sageli veel<br />
ka B-tasemel.<br />
Oskab tegevusi ja protsesse eitada, kasutades selleks eitavat kõnet, nt Ma ei ole<br />
veel kohvi joonud, või mata-vormi, nt Mul on kohv veel joomata. [---]<br />
Tunneb sagedate verbide rektsioone, nt töötan kelnerina, õpin kokaks, käin tööl,<br />
aitan sind [---]<br />
Puudumise ja kohaloleku väljendamiseks oskab kasutada olemasolu ja kogejaomaja<br />
lauset. Ma olen siin. Teda pole siin. Mul pole bussipiletit.<br />
107
Oskab kasutada et- ja sest-sidendiga põimlauseid, nt Ta ütles, et Anne tuleb<br />
homme [---].”<br />
Sellest kirjeldusest võib järeldada, et A2-tasemel õppesõnastikes tuleks erilist<br />
tähelepanu pöörata eelkõige verbi objekti (eriti partitiivverbide), infinitiivi-,<br />
käände-, kaassõna- ja sidendirektsiooni esitamisele, leksikaalsetest üksustest peaks<br />
eraldi käsitlema kollokatsioone ja perifrastilisi verbe (eelkõige väljend- ja<br />
ühendverbe). Verbide kirjes tuleks õppijale võimalusel näidata eksplitsiitselt<br />
verbide laiendusvõimalusi, mida saab teha käände-, kaassõna- ja üldrektsiooni<br />
vahendusel.<br />
B1-taseme kirjelduses (Hausenberg jt 2008: 83) on öeldud, et B1-tasemel on isik<br />
omandanud põhilised grammatilised struktuurid ja lausetüübid arusaamise tasemel<br />
ning kasutab osa neist produktiivselt, kuid kasutuses esineb veel palju vigu.<br />
Süntagmaatiliste üksuste valiku ja esituse seisukohalt on oluline arvestada, et B1tasemel<br />
esitatakse õppijale järgmised nõudmised (Hausenberg jt 2008: 90–93):<br />
„[---] on verbiga koos vaja omandada ka tema kohustuslikud laiendid (nt<br />
hoolitsema kelle eest?) või nende puudumine (nt *käituma ennast). Laiendite<br />
puhul on oluline tunda eestipäraseid kollokatsioone (sõnu, mis esinevad sageli<br />
koos), nt käitub omamoodi, käitub nagu väike laps. Laiendite olemasolu korral<br />
on vaja omandada ka nende vorm, nt käima kus? mida tegemas?; jääma kuhu?;<br />
aitama keda?; aitama kellel mida teha?, seda eriti juhtudel, kui see erineb<br />
emakeele omast. [---]<br />
Mõistab samasse mõistepesasse kuuluvate sagedamate verbide tähendus- ja<br />
kasutuserinevust. liht- ja ühendverbid (minema – ära minema; tegema – ära<br />
tegema); ühendid tuumverbidega (hiljaks jääma, haigeks jääma, ära jääma;<br />
nõu pidama, pidu pidama, loomi pidama); refleksiiv/automatiiv- ja<br />
kausatiivverbid (õppima – õpetama, arenema – arendama) [---].<br />
Kasutab koos verbiga käändsõnu põhilistes käändevormides ja<br />
kaassõnafraasides. [---]”<br />
Seega rõhutatakse ka B1-taseme kirjelduses eelkõige rektsioonistruktuuride<br />
kasutusega seotud kompetentsi ja kollokatsioonide ning perifrastiliste verbide<br />
tundmist.<br />
5.2.1.1.3. Kokkuvõtteks: süntagmaatilised suhted A2- ja B1-tasemel<br />
A2- ja B1-keeleoskustasemete nõudmiste analüüs osutab sellele, et süntagmaatiliste<br />
suhete esitamisel õppesõnastikus peaks tähelepanu pöörama eelkõige<br />
rektsioonistruktuuride (st verbi objekti-, infinitiivi-, käände-, kaassõna- ja<br />
sidendirektsioonile) ning selliste leksikaalsete üksuste nagu kollokatsioonide ja<br />
perifrastiliste verbide (väljend- ja ühendverbide) esitamisele.<br />
Oluline järeldus on, et A2- ja B1-tasemel peab keeleõppijal olema kujunenud teatud<br />
metalingvistiline kompetents, mis on omakorda leksikograafilise kompetentsi<br />
108
(oskus sõnaraamatuid kasutada) aluseks. Õppijal on ülevaade põhilistest<br />
grammatilistest struktuuridest, ta tunneb ma- ja da-infinitiivi kasutamise reegleid<br />
jne. Järelikult saab neid kategooriaid õppesõnastikes metakeelena kasutada.<br />
Kuid järgmisena tekib küsimus, mis parameetrite alusel valib leksikograaf üksusi<br />
konkreetse keeleoskustasemega õppijatele suunatud sõnastikku. Mis<br />
keeleoskustasemel peab õppija oskama kasutada väljendverbe silmas pidama ja<br />
meelde jätma või rektsioonistruktuuri lakkama mida tegemast. Siin saab toetuda<br />
esiteks keeleoskustasemete sõnavaraloenditele ja teiseks süntagmaatiliste suhete<br />
korpusleksikograafilise töötluse käigus saadud statistilistele andmetele.<br />
5.2.1.2. Esinemus keeleoskustasemete sõnavaraloendites<br />
Eestis on praeguseks ilmunud nii õppeotstarbelisi sagedussõnastikke kui ka mitu<br />
sõnavaraloendit, mida tavapäraselt nimetatakse baassõnastikuks, sõnaindeksiks või<br />
esimeseks ehk esmaseks sõnastikuks. Paraku puudub uurimus, mis esitaks<br />
korpusandmetele toetudes kõikidele keeleoskustasemetele vastavad<br />
sõnavaraloendid. Sellised loendid võiksid olla nii leksikograafiliste väljaannete kui<br />
ka keeleõpiku komplektide, õppekirjanduse ja testide koostamise aluseks.<br />
Esimene õppeotstarbeline sagedussõnastik on Raimo Raagi koostatud eesti keele<br />
517 sagedamat sõna sisaldav „Eesti keele baassõnastik” (Raag 1987), mille alusel<br />
koostasid Hele Pärn ja Leeni Simm eesti keelt algtasemel valdavate õppijate jaoks<br />
kakskeelsete baassõnastike sarja (nt Pärn, Simm 1989). Pärna ja Simmi koostatud<br />
sõnastikes on 734 sõna, autorid on täiendanud Raagi loendit, lähtudes temaatilistest<br />
kriteeriumidest (lisandunud on kuude, kehaosade nimetused jms). Lisaks ilmusid<br />
2010. aastal algajale eesti keele õppijale suunatud Kullo Vende koostatud<br />
kakskeelsed sõnastikud, mis sisaldavad eesti keele tuhat esimest sõna (nt Vende<br />
2010).<br />
Õppeotstarbelise sõnavarastatistikaga seotud praktilisele tööle andis 1990. aastate<br />
teisel poolel hoogu vajadus töötada välja eesti keele oskuse tasemekirjeldused.<br />
Mitmete asjatundjate ja töörühmade töö tulemusena saab praegu kasutada järgmisi<br />
sõnavaraloendeid: 1) Mall Lauri algtaseme keeleoskuskirjelduses esitatud<br />
tuumiksõnade loend (Laur 1998: 89–118); 2) 2272 sõnast koosnev esimene sõnastik<br />
(Kerge jt 2008: 142–160); 3) kesktaseme keeleoskuskirjelduses esitatud umbes<br />
2000 sõnast koosnev sõnaindeks (Ehala jt 1997: 256–284).<br />
Sõnavaraloendite sõnade arvu määramisel on lähtekohaks „Eesti keele<br />
funktsionaalse keeleoskuse määratlemises” esitatud andmed (Kerge 1996: 7–8),<br />
mille kohaselt ulatub eesti keelt algtasemel valdava inimese sõnavara 1500–2000<br />
sõnani, keelt kesktasemel valdava inimese oma aga umbes 5000 sõnani.<br />
Seega peaksid Kerge jt (2008) ning Ehala jt (1997) koostatud sõnavaraloendid<br />
katma A2-taseme keeleõppija sõnavara. B1- ja B2-tasemete jaoks ei ole seni eraldi<br />
loendit koostatud. Sellise loendina võib käsitleda põhisõnavara sõnastiku projekti<br />
tarbeks koostatud märksõnade loendit (ca 4500 sõna) (vt lähemalt Kallas, Tuulik<br />
2011). PSV märksõnastiku koostamisel on lähtutud eelkõige olemasolevate<br />
109
sagedussõnastike andmetest (Kaalep, Muischnek 2002) ja sõnavaraloenditest (Ehala jt<br />
1997: 256–284; Laur 1998: 89–18; Kerge jt 2008: 142–160). Samuti on lähtekohaks<br />
sellised kriteeriumid nagu tuumsus (Pajusalu jt 2004), kasutatavus suulises ja<br />
kirjalikus tekstiloomes (Pajupuu jt 2009) ja vajalikkus igapäevaelu valdkondades.<br />
PSV märksõnastikku saab kasutada kesktasemele suunatud sõnastikes teatud<br />
filtrina. Juhul, kui sõna ei kuulu PSV märksõnastikku, ei sobi seda kasutada<br />
definitsiooni ja näitelausete ega süntagmaatiliste suhete esitamise tasandil. Selline<br />
lähenemine tagab, et sõnastiku sõnavara vastab sihtgrupi leksikaalsele profiilile.<br />
5.2.1.3. Statistilise töötluse andmed<br />
Peatükis 2.3. näitasin, et kombinatoorsete meetoditega tuvastatud süntagmaatiliste<br />
suhete tuvastamisel on kasulik analüüsida otsisõna kollokaate nii koosesinemise<br />
sageduse kui ka esilduvuse väärtuse põhjal. Esimene näitab, millises kollokatiivses<br />
ümbruses ja mis kontekstides kasutatakse sõna kõige sagedamini, teine aitab<br />
tuvastada harvemaid koosesinemisi. Samas on õppesõnastiku koostamisel oluline<br />
arvestada ka süntagmaatilises suhtes olevate sõnade esinemust keeleoskustaseme<br />
sõnavaraloendites.<br />
Eksperimendi korras võrdlen sõna diskussioon sõnavisandeid (grammatilised suhted<br />
on tuvastatud reeglitega subject_of, object_of ja Adj_modifier). Joonisel 67 on<br />
kollokaadid järjestatud esilduvuse (logDice) väärtuse järgi, joonisel 68 aga<br />
koosesinemise sageduse järgi.<br />
Joonis 67. Substantiivi diskussioon kollokaadid järjestatuna esilduvuse (logDice)<br />
väärtuse järgi.<br />
Jooniselt 67 nähtuvad sellised kollokatsioonid nagu<br />
äge/selleteemaline/laialdane/tuline diskussioon; diskussioon puhkeb/jätkub/järgneb/<br />
keskendub/käivitub; diskussiooni ärgitama/vallandama/edendama/algatama.<br />
110
Joonis 68. Substantiivi diskussioon kollokaadid järjestatuna koosesinemise<br />
sageduse järgi.<br />
Jooniselt 68 nähtuvad sellised ühendid nagu avalik/poliitiline/elav/tõsine/pikk<br />
diskussioon; diskussioon käib/tekib/toimub/jätkub/algab; diskussiooni<br />
alustama/tekitama/algatama/jätkama.<br />
Kui võrrelda neid tulemusi PSV märksõnastikuga, siis selgub, et sellised<br />
esilduvusega esile tulnud sõnad nagu laialdane, ärgitama ei kuulu eesti keele<br />
põhisõnavara hulka ning sellised ühendid sobiksid pigem C-tasemele suunatud<br />
sõnastikku. Koosesinemise sagedusega esile tulnud ühendid (vt Joonis 68) sobivad<br />
pigem algajale keeleõppijale mõeldud sõnastikes esitamiseks.<br />
Seega tundub otstarbekana lähtuda A2- ja B1-tasemetele mõeldud sõnastike<br />
koostamisel koosesinemise sageduse põhjal saadud andmetest. Samas B2- ja C1tasemetel<br />
tuleks tähelepanu pöörata eelkõige kõrge esilduvusega ühenditele.<br />
5.2.2. Süntagmaatilised üksused andmebaasis<br />
Süntagmaatiliste üksuste esitamiseks on PSV XML-skeemis kollokatsiooni-,<br />
rektsiooni- ja ühendite plokid. Andmebaasi loomisel tundus selline jaotus<br />
otstarbekana, kuna võimaldas käsitleda leksikaalseid kollokatsioone,<br />
rektsioonistruktuure ja ühendeid eraldi üksustena. Edaspidi võib kaaluda PSV<br />
andmebaasi restruktureerimist, nii et kõik suhted oleksid kirjeldatud<br />
moodustusstruktuuri alusel sõnaliigi terminites, nagu on tehtud töös analüüsitud<br />
korpuspõhiste inglise keele kollokatsioonisõnastike koostamisel (nt MCD 2010).<br />
Joonis 69 näitab PSV rektsiooni- ja kollokatsiooniplokkide XML-skeemi. Aknas<br />
kirjeldatakse sõnastikus kasutusel olevaid atribuute, elemente, sõnaartikli<br />
hierarhilist struktuuri ning sõnastikus kasutusel olevaid andmetüüpe (vt lähemalt<br />
Loopmann 2007).<br />
111
Joonis 69. Lõik eesti keele põhisõnavara sõnastiku XML-skeemist.<br />
5.2.2.1. Rektsiooniplokk<br />
Rektsiooniploki põhielemendid on rektsioonigrupp, rektsioon ja kasutusnäited<br />
(näide ja selle seletus) (vt Joonis 69).<br />
Rektsioonigrupil on atribuut @c:koht ‘eel/järelrektsioon’, mis võimaldab määrata<br />
rektsiooni asukoha põhja suhtes. Vaikimisi on rektsioonid määratud<br />
järelrektsioonideks (koos kellega-millega, minema mida tegema jne), kuid mõnede<br />
sõnade, nt postpositsioonide puhul (kelle-mille jaoks) on nende laiend alati<br />
eespositsioonis. Sel juhul märgendatakse andmebaasis, et tegemist on<br />
eelrektsiooniga.<br />
Rektsioonil on kolm atribuuti:<br />
1) atribuut @c:fak ‘fakultatiivne laiend’ võimaldab määrata, kas tegemist on<br />
obligatoorse või fakultatiivse laiendiga. Seda atribuuti kasutatakse vaid<br />
mitmelaiendiliste konstruktsioonide kirjeldamisel, nt eelistama keda-mida +<br />
kellele-millele. Kui leksikograaf märgendab teise komponendi fakultatiivseks, siis<br />
sõnastikus esitatakse see sulgudes, st eelistama keda-mida (+ kellele-millele);<br />
2) atribuut @c:var ‘variant’ võimaldab esitada üht semantilist funktsiooni täitvaid<br />
rektsioonistruktuure koos, nt esitatakse verbi kleepima rektsioonid kleepima<br />
millele / mille peale;<br />
3) atribuut @c:rliik ‘rektsiooniliik’ (vt Joonis 70) võimaldab määrata iga<br />
rektsioonistruktuuri liigi. Rektsiooniliikidena on esitatud objektirektsioon (toetama<br />
keda-mida), käänderektsioon (usk kellesse-millesse, kindel kelles-milles, erinevalt<br />
kellest-millest, tutvuma kellega-millega, peale kelle-mille, peale keda-mida),<br />
kaassõnarektsioon (viha kelle-mille vastu, kade kelle-mille peale, võitlema kelle-<br />
112
mille vastu), tegevusnimerektsioon (tahe mida teha, julge mida tegema, tahtma<br />
mida teha), lausungirektsioon (ütlema, et) ja üldine asendusrektsioon (sõitma kust<br />
kuhu, alates mis ajast). Rektsiooniliik on PSV andmebaasi üks olulisemaid<br />
komponente.<br />
Joonis 70. PSV andmebaasi rektsiooniliigid.<br />
Selline andmebaasi ülesehitus võimaldab rektsioonistruktuure esitada<br />
süstemaatiliselt, määrates nende asukoha põhja suhtes, fakultatiivsuse ja tüübi. Kui<br />
andmebaasi tasandil kodeeritakse rektsioonistruktuurid vastavate koodidega (obj,<br />
kn, ks, yld, inf ja kla), siis sõnastiku vaates esitatakse need<br />
näitekonstruktsioonidena: välja kirjutatakse objekti- ja käänderektsiooni<br />
käändeküsimused (kelle-mille, keda-mida, kellesse-millesse, kelles-milles jne),<br />
kaassõnafraas (nt kelle-mille peale), infinitiivide ja infinitiivi käändeliste vormide<br />
puhul vastavalt mida tegema, mida teha, mida tegemas, mida tegemast, mida<br />
tegemata, mida tegemaks. Lisaks järgneb igale rektsioonistruktuurile selle kasutust<br />
illustreeriv näitelause.<br />
Üheks teoreetiliseks küsimuseks rektsiooniploki väljatöötamisel oli küsimus, kas<br />
oleks otstarbekas käsitleda omaette rektsiooniliigina nn subjektirektsiooni 46 (nt<br />
hobune hirnub, konn krooksub). Kuid arvestades eesti leksikograafias<br />
väljakujunenud traditsiooni esitada subjektirektsioon leksikaalse info osana,<br />
esitatakse seda tüüpi suhteid kollokatsiooniplokis koodi N(S)+V ‘substantiiv<br />
subjekti funktsioonis + verb’ all (vt lähemalt ptk 5.2.2.2.).<br />
Joonis 71 illustreerib verbi eelistama esitust PSV andmebaasis ja küljendusvaates.<br />
Verbil on eksplitsiitselt esitatud objekti-, käände- ja infinitiivirektsioon, mis<br />
andmebaasis on vastavalt kodeeritud ja näitelausetega illustreeritud.<br />
46 Subjektirektsiooni omaette esitamisel on pikk traditsioon vene keele süntagmaatilistes<br />
sõnastikes, vt nt Tihhonov (2001).<br />
113
Joonis 71. Verb eelistama PSV andmebaasis: toimetamisala ja küljendusvaade.<br />
5.2.2.2. Kollokatsiooniplokk<br />
Kollokatsiooniploki põhielemendid on kollokatsioonigrupp, kollokatsiooni rühm,<br />
kollokatsioon, kollokatsiooni rektsioon (saab määrata fakultatiivsuse ja tüübi) ja<br />
kasutusnäited (näide ja selle seletus) (vt Joonis 69).<br />
Kollokatsioonigrupil on vaid üks atribuut, milleks on @c:kliik ‘kollokatsiooniliik’.<br />
PSV andmebaasis on järgmised kollokatsiooniliigid, mis on defineeritud sõnaliikide<br />
ja morfoloogiliste ning süntaktiliste kategooriate kaudu:<br />
N(S)+V substantiiv (subjekti funktsioonis) + verb, nt hobune hirnub, palavik<br />
tõuseb/langeb;<br />
N(O)+V substantiiv (objekti funktsioonis) + verb, nt arvutit sisse lülitama /<br />
välja lülitama;<br />
N(A)+V substantiiv (adverbiaali funktsioonis) + verb, nt aktsiatesse<br />
investeerima;<br />
Adj+V adjektiiv + verb, nt määravaks saama/osutuma;<br />
Adv+V adverb + verb, nt kiiresti jooksma;<br />
N+N substantiiv + substantiiv, nt ekspertide hinnang/arvamus;<br />
kullast/hõbedast ehted;<br />
Adj+N adjektiiv + substantiiv, nt hea/halb eeskuju; magusa/soolase maitsega;<br />
Num+N numeraal + substantiiv, nt sada protsenti/meetrit/kilo;<br />
Adv+N adverb + substantiiv, nt eile hommikul/õhtul;<br />
Adv+Adj adverb + adjektiiv, nt kergesti süttiv;<br />
Adv+Adv adverb + adverb, nt väga aeglaselt;<br />
Prep+N prepositsioon + substantiiv, nt enne/pärast/peale jõule;<br />
N+Post substantiiv + postpositsioon, nt interneti/raadio/ajalehe kaudu.<br />
114
Joonis 72. Substantiiv kohv PSV andmebaasis: toimetamisala ja küljendusvaade.<br />
5.2.2.3. Ühendite plokk<br />
Ühendite ploki põhielemendid on ühendigrupp, ühend ja kasutusnäited (näide ja<br />
selle seletus). Ühendil on vaid üks atribuut, milleks on @c:yk ‘ühendi kood’ (vt<br />
Joonis 73). PSV andmebaasis esitatakse selles plokis perifrastilised verbid, st<br />
ühend-, väljend-, ahelverbid ja tugiverbiühendid (vt ptk 3.5.3.).<br />
Joonis 73. PSV andmebaasi ühendite liigid.<br />
Joonis 74 näitab ahelverbide seisma jääma ja seisma jätma esitust PSV<br />
andmebaasis ja küljendusvaates.<br />
115
Joonis 74. Ahelverbid seisma jääma ja seisma jätma eesti keele põhisõnavara PSV<br />
andmebaasis: toimetamisala ja küljendusvaade.<br />
Perifrastiliste verbide esitamisel rakendatakse kolme erinevat strateegiat, esitades<br />
neid 1) ühendite plokis, 2) allmärksõna või 3) rektsioonistruktuurina.<br />
Ühendite plokis esitatakse eelkõige semantiliselt läbipaistvaid ühendeid, nt verbi ja<br />
seisundiadverbi / modaalsust väljendava adverbi ühendeid (katki minema, lahti<br />
tegema, tarvis minema, valmis saama). Ühendverbid, mille moodustusstruktuur on<br />
verb + orientatsiooniadverb või verb + perfektiivsusadverb, nt läbi astuma, sisse<br />
astuma, tagasi astuma, maha kirjutama, esitatakse vastavate verbide<br />
allmärksõnadena. Peamine põhjus seisneb selles, et tihti on seda tüüpi ühendverbid<br />
polüseemsed ja nende argumentstruktuur erineb põhiverbist. Võtame näiteks<br />
ühendverbi tagasi astuma tähenduses ‘mingist ametist loobuma’, mille puhul on<br />
vaja keeleõppijale eraldi näidata valikukitsendusi (kes võib tagasi astuda, nt<br />
valitsus, peaminister, president, valitsusjuht), samuti vabu laiendeid seoses millega,<br />
mille pärast. Verbi astuma süntagmaatika on sellest erinev.<br />
Ahel- ja tugiverbiühendite esitamisel võetakse arvesse, kas tegemist on<br />
produktiivselt tugiverbiühendeid ja ahelverbe (vt ptk 3.5.3.3. ja 3.5.3.4.)<br />
moodustava verbiga või verbiga, mis ei kombineeru piiramatu hulga tegevust<br />
väljendavate noomenite ja infiniitverbidega, vaid teatud semantilisse rühma<br />
kuuluvate noomenite ja infiniitverbidega. Produktiivselt ahel- ja tugiverbiühendeid<br />
moodustava verbi ühendid esitatakse rektsioonistruktuurina, nt võima mida teha;<br />
pidama mida tegema; näima mida tegevat; asuma mida tegema. Nende verbide, mis<br />
kombineeruvad vaid teatud semantilisse välja kuuluvate noomenite või<br />
infiniitverbidega, ühendid esitatakse eksplitsiitselt ühendite plokis, nt juttu ajama,<br />
habet (ära) ajama, asju ajama (vt Joonis 75).<br />
116
Joonis 75. Verbi ajama tugiverbiühendite esitus PSV andmebaasis: toimetamisala<br />
ja küljendusvaade.<br />
Andmebaasi selline ülesehitus avab võimalused sõnastiku materjali<br />
taaskasutamiseks. Nii saab andmebaasi alusel genereerida nt eraldi rektsiooni-,<br />
kollokatsiooni- ja perifrastiliste verbide sõnastikud (vt lähemalt Kallas, Langemets<br />
2012). Teiselt poolt võimaldab see teha erinevaid liht- ja komplekspäringuid,<br />
näiteks saab korraga valida kõik verbid, millele on omane infinitiivirektsioon, või<br />
substantiivid, mis kollokeeruvad adjektiividega jne. Neid andmeid saab kasutada eri<br />
tüüpi lingvistilise suunitlusega uurimistöös.<br />
5.2.3. Sõnavisandid kui leksikograafilise analüüsi lähtepunkt<br />
Selles peatükis näitan sõnavisandite kasutusvõimalusi PSV koostamisel. Käsitlen<br />
PSV kirjeldusobjektiks olevate rektsioonistruktuuride, kollokatsioonide ja<br />
püsiühendite tuvastamisega seotud küsimusi ning analüüsin sõnavisandite<br />
potentsiaali sisusõnade semantika, nimelt tähendusjaotuse ja laiendite semantiliste<br />
rollide uurimisel.<br />
5.2.3.1. Rektsioonistruktuurid<br />
PSV andmebaasis esitatakse objekti-, käände-, kaassõna-, tegevusnime-, lausungija<br />
üldine asendusrektsioon.<br />
Objektirektsiooni struktuuride valikul saab lähtuda sõnavisandi grammatika reegli<br />
object/object_of (vt Tabel 7) abil tuvastatud andmetest.<br />
Käänderektsiooni kirjeldamisel saab toetuda järgmiste reeglitega tuvastatud<br />
üksustele:<br />
1) substantiivi reeglid (vt Tabel 3) – osastav_modifier (kimp mida),<br />
sisseütlev_modifier (usk kellesse-millesse), seestütlev_modifier (unistus kellestmillest),<br />
alaleütlev_modifier (lootus kellele-millele), alaltütlev_modifier (kiri<br />
kellelt-millelt), saav_modifier (ettepanek milleks), rajav_modifier (tee milleni),<br />
kaasaütlev_modifier (abielu kellega);<br />
117
2) adjektiivi reeglid (vt Tabel 5) – sisseütlev_modifier (armunud kellesse-millesse),<br />
seesütlev_modifier (kindel kelles-milles), seestütlev_modifier (rikas millest),<br />
alaleütlev_modifier (iseloomulik kellele-millele), saav_modifier (sobiv milleks),<br />
kaasaütlev_modifier (sarnane kellega-millega);<br />
3) adverbi reeglid (vt Tabel 6) – osastav_modifier (palju keda-mida),<br />
seestütlev_modifier (sõltuvalt kellest-millest), kaasaütlev_modifier (kimpus<br />
millega), saav_modifier (valmis milleks), kaasaütlev_modifier (samaaegselt<br />
millega).<br />
4) verbi reeglid (vt Tabel 7) – adverbial_sisseütlev (armuma kellesse-millesse),<br />
adverbial_seesütlev (osalema milles), adverbial_seestütlev (unistama kellestmillest),<br />
adverbial_alaleütlev (lootma kellele-millele), adverbial_alalütlev<br />
(põhinema millel), adverbial_alaltütlev (küsima kellelt-millelt), adverbial_saav<br />
(valmistuma milleks), adverbial_rajav (jõudma kelleni-milleni), adverbial_olev<br />
(töötama kellena), adverbial_ilmaütlev (toime tulema milleta),<br />
adverbial_kaasaütlev (sõitma millega), predicate_Adj_saav/predicate_Adj_saav_of<br />
(värvima milliseks), predicate_Adj_olev/predicate_Adj_olev_of (surema millisena).<br />
Kaassõnarektsiooni kirjeldamisel (vt Tabel 3, Tabel 5, Tabel 6, Tabel 7) saab<br />
toetuda reeglitega N_PP, Adj_PP, Adv_PP ja V_PP tuvastatud üksustele.<br />
Infinitiivirektsiooni kirjeldamisel (vt Tabel 3, Tabel 5, Tabel 7) on olulised<br />
reeglitega N_Vma (meister mida tegema), N_Vda (soov mida teha), Adj_Vma (aldis<br />
mida tegema), Adj_Vda (tore mida teha), V_Vma (minema mida tegema), V_Vmaks<br />
(riskima mida tegemaks), V_Vmast (tulema mida tegemast), V_Vmas (käima mida<br />
tegemas), V_Vmata (jätma mida tegemata) ja V_Vda (tahtma mida teha) tuvastatud<br />
üksused.<br />
Sidendirektsiooni kirjeldamisel on abi kõrvallauset tuvastavatest reeglitest<br />
kõrvallause (vt Tabel 3, Tabel 5, Tabel 6, Tabel 7).<br />
Leksikograafilise analüüsi üheks probleemiks on mitmelaiendiliste<br />
konstruktsioonide tuvastamine, nt aitama kellel + mida teha. Hetkel on see<br />
võimalik vaid konkordantsiridade analüüsile toetudes. Joonis 76 näitab verbi aitama<br />
konkordantsiridu, kus verbi laiendiks on alalütlevas käändes substantiiv organism.<br />
Konkordantsiread osutavad selgelt, et üldjuhul järgneb alalütlevas substantiivile ka<br />
da-infinitiivis verb. Seega on tegemist mitmelaiendilise konstruktsiooniga. Seda<br />
tüüpi konstruktsioonide automaatne tuvastamine kuulub töö edasiarenduste hulka.<br />
118
Joonis 76. Konkordantsipõhine aitama kellel + mida teha konstruktsiooni<br />
tuvastamine.<br />
5.2.3.2. Kollokatsioonistruktuurid<br />
Kollokatsioonistruktuuride valikul saab samuti toetuda sõnavisanditele, kuna kõik<br />
PSV andmebaasis fikseeritavad kollokatsioonitüübid on sõnavisandite grammatika<br />
toel tuvastatavad.<br />
Substantiivse põhjaga kollokatsioonid on tuvastatavad reeglite<br />
Adj_modifier/modifies, Adj_comp_modifier/modifies, Adj_sup_modifier/modifies,<br />
Adj_käändumatu_modifier/modifies, participle_modifier, omastav_modifier/<br />
omastav_modifies, osastav_modifier/osastav_modifies toel (vt Tabel 3).<br />
Adjektiivse põhjaga kollokatsioonid on tuvastatavad reeglite Adj_modifier/<br />
Adj_modifies ja Adv_modifier/Adj_modifies toel (vt Tabel 5).<br />
Koodidega N(S)+V, N(O)+V, N(A)+V, Adj+V, Adv+V kollokatsioonid on<br />
tuvastatavad reeglite subject/subject_of, object/object_of, adverbial_sisseütlev,<br />
adverbial_seesütlev, adverbial_seestütlev, adverbial_alaleütlev,<br />
adverbial_alalütlev, adverbial_alaltütlev, adverbial_saav, adverbial_rajav,<br />
adverbial_olev, adverbial_ilmaütlev, adverbial_kaasaütlev, predicate_Adj_saav/<br />
predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of toel (vt Tabel 7).<br />
Adpositsiooni ja substantiivi ning numeraali ja substantiivi kollokatsioonid on<br />
tuvastatavad reeglite ordinal_modifies/modifier, cardinal_modifies/modifier ja<br />
N_PP toel (vt Tabel 3).<br />
5.2.3.3. Perifrastilised verbid<br />
Afiksaaladverbe ja väljendverbide komponente tuvastatakse järgmiste reeglitega:<br />
afiksaaladverb/afiksaaladverb_of (vt ptk 3.5.3.2.), predicate_Adj_saav/<br />
predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of (vt ptk 3.5.2.4.),<br />
väljendverb (vt ptk 3.5.3.1.).<br />
Teist tüüpi komponendid tulevad enamasti esile verbi objekti (läbirääkimisi<br />
pidama) (vt ptk 3.5.2.2.) või adverbiaali (hoogu sattuma) (vt ptk 3.5.2.3.)<br />
funktsioonis.<br />
119
5.2.3.4. Tähendusjaotus ja laiendite semantilised rollid<br />
Selle alapeatüki problemaatika kuulub pigem süntaksipõhise morfosemantika<br />
valdkonda. 47 Eesmärgiks on näidata võimalusi, mida pakuvad sõnavisandites<br />
tuvastatud grammatilised suhted sõna ja selle laiendite uurimisel.<br />
Korpuspõhise kirjelduse alusel on võimalik järeldada, et sõna ja mallid ehk<br />
tähendus ja süntaks on omavahel seotud (Hunston, Francis 2000: 80). Hunston ja<br />
Francis toovad esile kaks seaduspära: 1) sõna eri tähendusi on võimalik eristada,<br />
lähtudes erinevatest mallidest, milles sõna osaleb, ja 2) teatud mallid on<br />
iseloomulikud teatud tähendusega leksikaalsetele üksustele (2000: 80–107). Siin<br />
arendan seda mõtet edasi, näidates, et korpuspõhiselt tuvastatud verbide<br />
süntagmaatiliste suhete põhjal saab teha esialgseid järeldusi mitte ainult verbi<br />
tähendus(jaotus)te kohta üldiselt, vaid argumentide morfoloogilisele vormile<br />
tuginedes ka argumentide semantiliste rollide kohta.<br />
Tähendusjaotuste ja laiendite semantiliste rollide sõnavisandipõhisel uurimisel<br />
eristan kaht põhilist etappi: esiteks tuleb semantilised rollid identifitseerida<br />
(sõnavisandites esile tulnud grammatiliste kategooriate põhjal), seejärel analüüsida<br />
ja kategoriseerida nende leksikaalsed realisatsioonid, st sõnavisandis esitatud<br />
konkreetsed sõnad.<br />
Nii nagu süntaktilised funktsioonid, on ka semantilised rollid vaid üldistused, mida<br />
saab järeldada, toetudes konkreetse verbi argumentide morfoloogilisele<br />
vormistusele. Eesti keele argumentide semantilistest funktsioonidest ja nende<br />
morfoloogilisest vormistusest on kirjutanud Erelt (1979a, 2003a) ning Langemets jt<br />
(2005: 93). Erelti eesti keele süntaksi käsitluses on esitatud kompaktne ülevaade<br />
semantiliste rollide realiseerumisest morfoloogiliste käänete ja kaassõnade kujul<br />
(2003a: 98–101). Sõnavisandite interpreteerimiseks oleks aga vajalik põhjalik eesti<br />
keele funktsionaalne grammatika, kus oleksid lahti kirjutatud kõikide käänete<br />
semantilised funktsioonid. Tabel 9 illustreerib mõningate adverbiaalide semantiliste<br />
rollide morfoloogilist vormistust.<br />
Tabel 9. Adverbiaalide semantilised rollid (Erelt 2003a: 99–100 järgi).<br />
Vorm Semantiline roll Näited<br />
Nin/Nade KOHT Ta on toas. Ta on maal.<br />
Nill/Nall SIHTKOHT Ta läks tuppa. Ta läks maale.<br />
Nela/Nabl LÄHTEKOHT Ta tuli toast. Ta tuli maalt.<br />
(kuni +) Nter PIIR Ta jalutas (kuni) metsani.<br />
Ng + kaudu TEE Ta tuli Helsingi kaudu.<br />
läbi + Ng<br />
(koos +) Ncom<br />
ilma + Nabe<br />
120<br />
Ta tuli läbi metsa.<br />
KAASNEJA Ta saabus siia (koos) naisega.<br />
Ta oli teatris ilma naiseta.<br />
47 Süntaksipõhine morfosemantika ei ole välja kujunenud termin, vaid Haldur Õimuga suulises<br />
arutluses kasutatud esialgne töötermin, mis peaks vahendama analüüsi põhinemist eelkõige<br />
morfoloogilisel vormistusel.
Vorm Semantiline roll Näited<br />
Ntrl<br />
EESMÄRK Raha oli mõeldud ehituseks.<br />
Ng + jaoks/tarvis<br />
Raha oli mõeldud ehituse jaoks.<br />
Nade<br />
AEG Ta tuli õhtul / 5. jaanuaril.<br />
Nin<br />
Tema sünnipäev on jaanuaris.<br />
(kuni +) Nter<br />
Nad töötasid (kuni) hommikuni.<br />
Nela (+ saadik)<br />
Koosolek algab kella kolmest. Eilsest<br />
saadik pole siin elektrit.<br />
Sõnavisandipõhise uurimiskäigu illustreerimiseks analüüsin liikumisverbi 48<br />
saabuma laiendite semantilisi rolle (vt Joonis 77). Analüüs piirdub üksnes<br />
koondkorpusest tuvastatud üksustega ning kahe- ja kolmeliikmeliste suhetega, mitte<br />
kogu lausega, mistõttu sõnavisandite empiiriliste andmete analüüs võimaldab teha<br />
järeldusi üksikute laiendite kohta, aga sedakaudu kuigivõrd ka tähendusjaotuste<br />
kohta.<br />
Joonis 77. Verbi saabuma sõnavisand (minimaalne koosesinemise sagedus on 5).<br />
48 Leksikaalse semantika klassikalistes uurimustes (Talmy 1975; Miller, Johnson-Laird<br />
1976: 409–410; Apresjan 1995; vt ka Maisak, Rahhilina 1999: 53) käsitletakse liikumisverbidena<br />
lekseeme, mis tähistavad situatsiooni, milles subjekt ühel teatud hetkel asub punktis L1 ning<br />
teatud järgmisel hetkel punktis L2. L1 on seejuures liikumise lähte- ehk algpunkt, L2 on siht- ehk<br />
lõpppunkt.<br />
121
Esmalt analüüsin verbi saabuma subjekti ja adverbiaali funktsioonis tuvastatud<br />
sagedamaid substantiive, seejärel ka laienditena esinevaid adverbe ja<br />
kaassõnafraase.<br />
Sõnavisandist nähtub, et verbi saabuma sagedamaks laiendiks on subjekt (8041<br />
esinemisjuhtu), mille semantiline roll on TEEMA. Kõige sagedamad TEEMA rollis<br />
esinevad argumendid on aeg, teade, hetk ja surm. TEEMA rollis esinevad<br />
substantiivid moodustavad järgmised semantilised rühmad: 49 1) AEG (aeg, hetk,<br />
aasta, päev, tähtpäev); 2) ESITUS (teade, kiri, uudis); 3) ABSTRAKTNE ENTITEET<br />
(selgus, lahendus, vastus); 4) SEISUND (surm); 5) INIMENE (mees, naine, politsei,<br />
president); 6) ESE_INSTRUMENT (auto, laev). Selline statistiline jaotus osutab, et<br />
kõige sagedamini esineb verb saabuma koondkorpuses eelkõige tähenduses ‘kätte<br />
jõudma’, kus grammatiline subjekt on AEG. Sellele järgneb ülekandeline<br />
liikumistähendus 50 , kus grammatiliseks subjektiks on ESITUS või mingi<br />
ABSTRAKTNE ENTITEET. Lisaks nendele kahele tähendusele eristub selgelt tähendus,<br />
kus verb esineb otseses liikumistähenduses (INIMESE või TRANSPORDIVAHENDI<br />
asukohavahetus ruumis). Seda tüüpi analüüsist kooruvad välja verbi saabuma kaks<br />
põhilist tähendust: 1) ‘(ajaliselt) kätte jõudma’; 2) ‘(füüsiliselt) kohale jõudma’,<br />
mille all on nii ülekandelise kui ka otsese liikumise esinemisjuhud.<br />
Verbi saabuma adverbiaalidena reeglite adverbial_sisseütlev, adverbial_alaleütlev,<br />
adverbial_seestütlev, adverbial_alaltütlev, adverbial_seesütlev, adverbial_alalütlev<br />
(vt Tabel 7) abil tuvastatud üksuste käsitlemisel lähtun adverbiaalide semantiliste<br />
rollide morfoloogilisest vormistusest (vt Tabel 9). 1) AJA rollis esinevad<br />
nädalapäevad (367 koosesinemist 596st), samuti ka päeva osad (õhtu, hommik).<br />
2) SIHTKOHA leksikaalseteks realisatsioonideks on a) KOHT (kohale,<br />
sündmuskohale, tööle, kohtusse, politseisse, sadamasse, haiglasse, kirikusse,<br />
tehasesse, vanglasse); b) KOHT_SÜNDMUS (müügile, turule, finišisse); c) SÜNDMUS<br />
(visiidile, peole, pressikonverentsile). 3) VAHENDI semantilise rolli leksikaalsed<br />
realiseeringud on lennukiga/autoga/bussiga/laevaga/postiga. 4) Samas LÄHTEKOHT<br />
realiseerub süntaktiliselt üsna harva: välismaalt (9 esinemisjuhtu), komandeeringust<br />
(5 esinemisjuhtu).<br />
Järgmise etapina analüüsin verbi saabuma laiendavaid adverbi- ja kaassõnafraase.<br />
Jooniselt 78 nähtub, et adverbide hulgas eristub selgelt kaks semantilist rühma:<br />
KOHT (kohale) ja AEG (eile/täna/hiljem). Ka kaassõnafraaside analüüs näitab, et<br />
enamasti täidavad kaassõnafraasid semantilist funktsiooni AEG (septembri keskel /<br />
vastu ööd / ööpäeva jooksul / kesköö paiku / nädala pärast jm). Lisaks sagedusega<br />
49 Rühmad on järjestatud sageduse järgi, tuginedes sõnavisandite andmetele. Rühmade<br />
selgitamisel kasutan klasterdamise funktsiooni. Semantiliste rühmade määramisel lähtun<br />
Langemetsa (2010a) liigitusest.<br />
50 Ülekandelisest liikumistähendusest vt lähemalt Penjam (2005: 820). Penjami uurimuses on<br />
ülekandeliseks liikumistähenduseks peetud neid tarvitusi, kus seos liikumistähendusega on veel<br />
nii ilmne, et iseseisvat tähendust pole põhjust postuleerida, ent füüsilisest liikumisest siiski enam<br />
rääkida ei saa.<br />
122
esile tulnud semantilistele rollidele eristub verbi sündmusstruktuuri analüüsist ka<br />
KAASNEJA roll (saabuma kellegagi-millegagi koos / kellegi-millegi saatel).<br />
Joonis 78. Verbi saabuma laiendi funktsioonis esinevad adverbid ja<br />
kaassõnafraasid.<br />
Mida saab nendest andmetest järeldada sõna tähendusjaotuste kohta? TEEMA rollis<br />
esinevad leksikaalsed üksused osutavad selgelt sellele, mis tähendustes kasutatakse<br />
verbi kõige sagedamini. Adverbiaalide semantiline analüüs aitab rekonstrueerida<br />
verbi taga oleva sündmusstruktuuri komponente. Sõnavisand tuvastab vaid kahe- ja<br />
kolmeliikmelisi suhteid, mis ei võimalda näha lause semantilist freimi tervikuna.<br />
Küll aga saab statistilistele andmetele toetudes järeldada, et verbi saabuma<br />
sagedamad laiendite semantilised rollid on SIHTKOHT, AEG, VAHEND, KAASNEJA ja<br />
LÄHTEKOHT.<br />
Seda tüüpi analüüsi tulemustele toetudes saab leksikograaf kirjeldada verbi<br />
argumentüksuste semantilisi ja süntaktilisi funktsioone ning morfoloogilist<br />
vormistust. Teiseks aitab see oluliselt kaasa verbi tähendusjaotuste eristamisele.<br />
Peab aga kordama, et pakutud meetod sobib vaid esialgsete järelduste tegemiseks<br />
(statistilisele töötlusele tuginedes saab andmeid eelkõige sagedamini esinevate<br />
üksuste kohta). Statistilise analüüsi tulemusi mõjutavad oluliselt nn<br />
vaikimisargumendid (vt lähemalt Õim jt 2009: 494). Nt osutasid Maisaki (1999)<br />
uurimuse statistilised andmed sellele, et vene verbi уходить ‘ära minema’<br />
valentsidest oli LÄHTEKOHA valents eksplitsiitselt esitatud 18,6% kõikidest<br />
juhtumitest, sihtkoha valents 13,95% kõikidest juhtumitest ja 67,4% juhtumites jäid<br />
mõlemad valentsid eksplitsiitselt esitamata. Samas on teada, et sellel verbil on nt<br />
LÄHTEKOHT üldjuhul kohustuslik valents. Maisaki (1999) uurimus näitas, et<br />
123
korpuspõhise analüüsi tulemus peegeldab vaid süntaktilisel tasandil realiseerunud<br />
sisusõnade distributiivseid omadusi.<br />
Teiseks tuleb korpusandmete analüüsi tulemuste interpreteerimisel alati silmas<br />
pidada, et tulemus on korrelatsioonis sisendteksti sisuga. Näiteks ajakirjanduslike<br />
tekstide korpuse analüüsi tulemus on vältimatult kallutatud ja statistiline analüüs<br />
peegeldab verbide distributiivseid omadusi just seda tüüpi tekstides.<br />
5.2.4. Näidisartiklid<br />
Peatükkides 5.2.1.–5.2.3. esitatud süntagmaatiliste suhete valiku printsiipide ja<br />
esitamise põhimõtete näiteks toon kaks sõnaartiklit, milleks on substantiiv abielu<br />
(vt Joonis 79) ja verb aitama (vt Joonis 80).<br />
Joonistelt 79 ja 80 on näha, et iga kollokatsiooni juures on esitatud selle kasutust<br />
illustreeriv lause. Lisaks süntagmaatilisele infole pakub PSV teavet selle sõna<br />
morfoloogia, tähenduse ja sõnamoodustuse kohta. Eksplitsiitselt on näidatud, et<br />
substantiiviga abielu saab moodustada selliseid liitsõnu nagu vabaabielu ja<br />
abielupaar.<br />
Joonis 79. Substantiivi abielu sõnaartikkel PSVs.<br />
Jooniselt 80 nähtub, et verbi aitama sõnaartiklis on eraldi välja toodud lekseemidele<br />
omased rektsioonistruktuurid. Rektsioon on esitatud kasutaja jaoks võimalikult<br />
lihtsal kujul: käändeküsimused, kaassõnad ja infinitiiv on eksplitsiitselt välja<br />
kirjutatud ning igale rektsioonistruktuurile järgneb selle kasutust illustreeriv lause.<br />
124
Joonis 80. Verbi aitama sõnaartikkel PSVs.<br />
Selline süntagmaatiliste suhete esitus peab aitama kasutajat eestikeelse teksti<br />
koostamisel, illustreerides sõna kasutuse erinevaid kontekste ja näidates<br />
eksplitsiitselt selle verbiga moodustatavate leksikogrammatiliste konstruktsioonide<br />
struktuuri. Kõikide süntagmaatiliste suhete esitamisel on võetud arvesse, et sõnad<br />
kuuluksid PSV märksõnastikku ja oleksid kõrge koosesinemise sagedusega<br />
üksused.<br />
125
6. KOKKUVÕTE<br />
Tekstikorpusi kasutatakse tänapäeval mitmetes teoreetilise ja rakenduslingvistika<br />
valdkondades. Leksikograafias tagab korpuste kasutuselevõtt materjali allikana<br />
selle, et sõnastikes ja andmebaasides registreeritud üksused ei ole oma olemuselt eri<br />
tüüpi tekstidest pärit juhunäited või leksikograafi introspektsiooni teel saadud<br />
üksused, vaid on autentne, keele tegelikku kasutust illustreeriv materjal.<br />
Korpusleksikograafiliste meetoditega on võimalik muuta korpuste andmetöötlust<br />
kiiremaks ja efektiivsemaks, aitamaks leksikograafe eri tüüpi üksuste<br />
(definitsioonide, grammatilise kasutusinfo, süntagmaatiliste suhete,<br />
leksikaalsemantiliste seoste, näitelausete) valikul.<br />
Siinse töö eesmärk on luua teoreetiline raamistik eesti keele sisusõnade<br />
süntagmaatiliste suhete korpus- ja õppeleksikograafiliseks käsitluseks. Selleks olen<br />
analüüsinud eesti keele substantiivide, adjektiivide, verbide ja adverbide –<br />
sisusõnade – süntagmaatiliste suhete automaattuvastamise võimalusi korpuspäringu<br />
tarkvara toel ja nende eksplitsiitse süstemaatilise esitamise võimalusi eesti keele<br />
õppesõnastikes. Töö rakenduslikeks tulemusteks on esiteks süntagmaatiliste suhete<br />
automaattuvastamist võimaldav arvutigrammatika (vt Lisa1). Eesti keele jaoks pole<br />
seda tüüpi grammatikat varem koostatud. Teiseks olen välja töötanud<br />
süntagmaatiliste suhete süstemaatilist esitust toetava õppeleksikograafilise<br />
andmebaasi mudeli ja määratlenud süntagmaatiliste üksuste valikukriteeriumid<br />
konkreetse keeleoskustasemega õppijale suunatud õppesõnastikes. Need rakendused<br />
on olulised eesti keele õppeleksikograafia, aga ka eesti keele kui teise ja võõrkeele<br />
metoodika arendamise seisukohalt.<br />
Mõistega süntagmaatilised suhted tähistan töös sõnade tähenduslikke ja statistiliselt<br />
esilduvaid kombinatsioone teiste leksikaalsete ja grammatiliste üksustega.<br />
Õppesõnastikes on süntagmaatiliste suhete eksplitsiitse esitamise eesmärk toetada ja<br />
suunata keeleõppijat võõrkeelse teksti koostamisel ehk sünteesil.<br />
Järgnevalt esitan väitekirja põhilised teadustulemused ja arutlen lahendamata<br />
jäänud probleemide ning uurimistöö edasiste arengusuundade üle.<br />
6.1. PÕHILISED TEADUSTULEMUSED<br />
Tänapäeva korpusleksikograafias kasutatakse süntagmaatiliste suhete tuvastamisel<br />
statistilisi ja kombinatoorseid meetodeid.<br />
Süntagmaatiliste suhete tuvastamiseks puhtstatistiliste meetoditega on välja töötatud<br />
ja testitud eri tüüpi statistikuid. Töös katsetasin t-skoori, vastastikuse informatsiooni<br />
väärtuse (MI), MI 3 -skoori, log-tõepära funktsiooni, minimaalse tundlikkuse ja<br />
esilduvuse (logDice) statistikute sobivust eesti keele sisusõnade süntagmaatiliste<br />
suhete tuvastamiseks. Katsed näitasid, et eesti keele jaoks saavutavad paremad<br />
tulemused eelkõige MI 3 -skoori, minimaalse tundlikkuse ja esilduvuse (logDice)<br />
126
statistikud ning halvemad tulemused on MI, t-skoori ja log-tõepära funktsiooni<br />
statistikutel.<br />
Sisusõnade süntagmaatiliste suhete süstemaatilisemat analüüsi võimaldavad<br />
meetodid, mis kombineerivad statistilist ja reeglipõhist lähenemist. Väitekirjas olen<br />
seda tüüpi meetodina rakendanud sõnavisandite grammatika meetodit (Kilgarriff jt<br />
2004). Selle meetodi järgi otsib arvutiprogramm spetsiaalse grammatika abil eri<br />
sõnaliikide süntagmaatilisi suhteid, töötleb neid statistiliselt ja teeb kasutaja jaoks<br />
kompaktse kokkuvõtte sõna kollokatiivsest ja süntaktilisest käitumisest.<br />
Grammatika formalismi reeglid on regulaaravaldised, mille atribuudid on<br />
sõnavorm, lemma, sõnaliik ja muutetunnused.<br />
Väitekirjas esitan morfoloogilise analüsaatori ESTMORF (Kaalep 1998)<br />
märgendussüsteemi põhjal koostatud eesti keele sõnavisandite grammatika ja<br />
katsetan seda leksikograafilise tarkvara Sketch Engine toel.<br />
Sõnavisandite grammatika aluseks on eesti keele traditsiooniliste (Rätsep 1978;<br />
Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007) ja formaalsete (Müürisep 2000;<br />
Puolakainen 2001; Roosmaa jt 2001) grammatikakirjelduste põhjal koostatud eesti<br />
substantiivide, adjektiivide, adverbide ja verbide süntagmaatiliste suhete tüüpide<br />
nimestik. Korpusanalüüsi tarvis olen suhete tüüpe kirjeldanud vormiklasside<br />
(sõnaliikide, fraasitüüpide) ja morfosüntaktiliste kategooriate kaudu. Selliseid<br />
kirjeldusi nimetan töös leksikogrammatilisteks konstruktsioonideks. Kokku olen<br />
välja toonud 32 substantiivi, adjektiivi, adverbi ja verbi leksikogrammatilist<br />
konstruktsiooni, mille tuvastamiseks olen koostanud 71 reeglit, mille hulgas on 4<br />
symmetric-tüüpi, 62 dual-tüüpi ja 5 trinary-tüüpi reeglit (vt Lisa 1).<br />
Substantiivide sõnavisandites tulevad reeglite Adj_modifier/modifies,<br />
Adj_comp_modifier/modifies, Adj_sup_modifier/modifies, Adj_käändumatu_modifier/<br />
modifies; participle_modifier; omastav_modifier/omastav_modifies,<br />
osastav_modifier/osastav_modifies, sisseütlev_modifier, seesütlev_modifier,<br />
seestütlev_modifier, alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier,<br />
saav_modifier, rajav_modifier, olev_modifier, ilmaütlev_modifier,<br />
kaasaütlev_modifier; ordinal_modifies/modifier, cardinal_modifies/modifier;<br />
Adv_modifier/N_modifies; Pron_modifier/modifies; N_PP; N_Vma, N_Vda;<br />
kõrvallause; predicate_N/predicate_N_of, predicate_Adj/predicate_Adj_of; ja/või,<br />
kui/nagu toel esile otsisõna adjektiivsed, partitsiipsed, substantiivsed, adverbilised,<br />
pronominaalsed kaasmoodustajad, laiendi funktsioonis esinevad<br />
adpositsioonifraasid ja infiniitverbid, laiendliikmeks olevate kõrvallausete alguses<br />
asuvad sidendid, predikatiivid ning rinnastus- ja võrdlustarindid. Lisaks<br />
tuvastatakse, milliste verbidega esineb otsisõna subjekti, objekti ja adverbiaali<br />
funktsioonis.<br />
Adjektiivide sõnavisandites tulevad reeglite Adj_modifier/Adj_modifies;<br />
omastav_modifier, sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier,<br />
alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, saav_modifier,<br />
rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier;<br />
127
Adv_modifier/Adj_modifies; Adj_PP; Adj_Vma, Adj_Vda; kõrvallause; ja/või,<br />
kui/nagu toel esile otsisõna adjektiivsed, substantiivsed, adverbilised<br />
kaasmoodustajad, laiendi funktsioonis esinevad adpositsioonifraasid ja<br />
infiniitverbid, laiendliikmeks olevate kõrvallausete alguses asuvad sidendid ning<br />
rinnastus- ja võrdlustarindid.<br />
Adverbide sõnavisandites tulevad reeglite Adv_modifier/ Adv_modifies;<br />
omastav_modifier, osastav_modifier, seestütlev_modifier, saav_modifier,<br />
rajav_modifier, olev_modifier, kaasaütlev_modifier; Adv_PP; kõrvallause; ja/või,<br />
kui/nagu toel esile otsisõna adverbilised ja substantiivsed kaasmoodustajad, laiendi<br />
funktsioonis esinevad kaassõnafraasid, laiendliikmeks olevate kõrvallausete alguses<br />
asuvad sidendid ning rinnastus- ja võrdlustarindid.<br />
Verbide sõnavisandites tulevad reeglite subject/subject_of, object/object_of;<br />
adverbial_sisseütlev, adverbial_seesütlev, adverbial_seestütlev, adverbial_alaleütlev,<br />
adverbial_alalütlev, adverbial_alaltütlev, adverbial_saav, adverbial_rajav,<br />
adverbial_olev, adverbial_ilmaütlev, adverbial_kaasaütlev; predicate_Adj_saav/<br />
predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of; Adv_modifier/<br />
V_modifies; V_PP; V_Vma, V_Vmaks, V_Vmast, V_Vmas, V_Vmata, V_Vda,<br />
V_Vdes; kõrvallause; ja/või, kui toel esile konkreetse verbi substantiivsed,<br />
adjektiivsed ja adverbilised kaasmoodustajad, laiendi funktsioonis esinevad<br />
adpositsioonifraasid ja infiniitverbid, laiendliikmeks olevate kõrvallausete alguses<br />
asuvad sidendid ning rinnastus- ja võrdlustarindid. Verbi ja selle substantiivsete<br />
laiendite grammatilisi suhteid on nimetatud sõnavisandite grammatikas<br />
morfosüntaktiliste kategooriate terminites. Eristatud on subjekt, objekt ja<br />
adverbiaal.<br />
Sõnavisandite grammatika reeglite afiksaaladverb/afiksaaladverb_of, ühendverb ja<br />
väljendverb abil on võimalik tuvastada ka väljend-, ühend-, ahelverbe ja<br />
tugiverbiühendeid. Omaette kategooriana tuvastab programm translatiivis ja essiivis<br />
esineva adjektiivi ja verbi (nt hulluks minema) ning verbi ja X-iks märgendatud sõna<br />
ühendeid (nt tähele panema). Väljendverbide ja tugiverbiühendite noomenitest<br />
komponendid tulevad esile verbi objekti (nt juttu ajama, läbirääkimisi pidama) või<br />
adverbiaalina (nt kokkuleppele jõudma, järeldusele jõudma). Ahelverbide<br />
komponentidena esinevaid infiniitverbe tuvastab süsteem reegli V_Vma abil.<br />
Ühendverbe moodustavaid afiksaaladverbe tuvastatakse etteantud loendi alusel.<br />
Loendis on sellised afiksaaladverbi funktsioonis esinevad sõnad nagu alla, alt, edasi,<br />
eemale, esile, ette, juurde, järele, kaasa, katki, kinni, kokku, kõrvale, külge, lahku,<br />
lahti, laiali, ligi, läbi, maha, mööda, otsa, peale, pealt, püsti, ringi, sisse, taga, tagant,<br />
tagasi, tarvis, täis, vahele, valmis, vastu, välja, ära, üle, üles, üleval, ümber.<br />
Lisaks sisaldab sõnavisandite grammatika 14 unary-tüüpi reeglit, mis võimaldavad<br />
analüüsida substantiivide ja adjektiivide morfoloogiliste vormide kasutussagedust.<br />
See info on abiks grammatikaliseerunud ja leksikaliseerunud sõnavormide<br />
uurimisel, aga ka vormimoodustusinfo esitamisel õppesõnastikes. Nendele<br />
andmetele toetudes saab teha valiku, mis morfoloogilisi vorme esitada, et mitte<br />
128
õpetada kasutajale grammatiliselt korrektseid, aga tegelikus keeles mitte<br />
kasutatavaid vorme.<br />
Sõnavisanditest koorub välja sõna esialgne leksikaalne profiil, mille alusel saab<br />
leksikograaf sõnaraamatu artikleid koostada. Tarkvarasüsteem Sketch Engine<br />
võimaldab sorteerida tulemusi nii koosesinemise sageduse kui ka esilduvuse<br />
(logDice) järgi. Koosesinemise sagedus toob ootuspäraselt esile kollokaadid,<br />
millele on iseloomulik kõrge eraldiesinemise sagedus. Esilduvus eelistab selliseid<br />
ühendeid, mille kollokaatide eraldiesinemise sagedus on korpuses üsna madal.<br />
Seega võimaldab esilduvus esile tuua harvemad konstruktsioonid.<br />
Eesti keele sõnavisandite kvantitatiivsel evalveerimisel kasutasin Kilgarriffi jt<br />
(2010a) väljatöötatud meetodit, milles palutakse leksikograafidel hinnata<br />
sõnavisandi iga tuvastatud kollokaadi leksikograafilist väärtust kaheastmelisel<br />
skaalal hea–halb. Hea ehk leksikograafiliselt relevantne kollokaat peab vastama<br />
sellistele kriteeriumidele nagu tähenduslikkus, terviklikkus ja kasulikkus sõna<br />
semantika ja grammatika uurimisel. Halb ehk leksikograafiliselt irrelevantne<br />
kollokaat on ilmselgelt vigane, st kollokatsioonil ei ole mingit tähendust või<br />
leksikograaf arvab, et tuvastatud kollokatsioon ei oma leksikograafilist väärtust.<br />
Evalveerimises osales 7 leksikograafi, kes hindasid 16 sõna 20 sagedamat<br />
kollokaati. Tulemuste hindamiseks kasutasin sellist näitajat nagu täpsus.<br />
Programmi evalveerimise käigus hindas enamik leksikograafe heaks 70% (kokku<br />
222 kollokaati) 320 kollokaadist. 8% kollokaatide puhul oli enamik leksikograafe<br />
ühel meelel, et tegemist on hea kollokaadiga, kuid väiksem osa evalveerijatest pidas<br />
samu kollokaate halvaks. Negatiivse hinnangu halb sai 71 kollokaati ehk 22%<br />
üldarvust.<br />
Evalveerimise tulemuste analüüs osutas, et eriarvamusel olid leksikograafid<br />
eelkõige nende kollokaatide suhtes, mille tekstiliigiline markeeritus oli väga tugev,<br />
st kollokaat illustreeris sõna kasutust mingis konkreetses allkorpuses (nt riigikogu<br />
stenogrammide 1995–2001. a tekstides). Sellest võib järeldada, et sõnavisandite<br />
evalveerimisel on otsustava tähtsusega ka selle korpuse sisu, mille põhjal on<br />
sõnavisandid genereeritud. Teine lahkarvamusi tekitav põhjus oli kollokaatide<br />
lemmale viimine, mis mõnikord muudab tuvastatud kollokatsiooni arusaamatuks<br />
ühendiks, nt täis raud, mille taga on tegelikult püsiväljend täie rauaga ‘nagu vähegi<br />
võimalik’. Need tähelepanekud osutavad, et edaspidi tasub eesti keele puhul<br />
kaaluda sõnavisandite sõnavormipõhist, mitte ainult lemmapõhist genereerimist.<br />
Suurema osa halvaks hinnatud tuvastatud üksustest põhjustasid sõnaliigi<br />
märgendamise ja lemmatiseerimise käigus tekkinud vead, mitmesõnaliste üksuste<br />
poolik tuvastamine ja reeglite seisukohalt õigesti tuvastatud, kuid leksikograafiliselt<br />
irrelevantseteks hinnatud eri tüüpi (ase)määrsõnalised laiendid.<br />
Programmi 70% täpsus osutab, et töös kasutatud meetod, mis kombineerib<br />
süntagmaatiliste suhete tuvastamisel statistilist ja reeglipõhist lähenemist, toimib.<br />
Edaspidi võimaldab sisendkorpuse täiendav märgendamine, eelkõige perifrastiliste<br />
129
verbide, fraasipiiride ning süntaktiline märgendamine, seda tulemust oluliselt<br />
parandada.<br />
Töös olen analüüsinud sisusõnade süntagmaatiliste suhete esitust tänapäeva<br />
leksikograafilistes andmebaasides ja õppesõnastikes, eraldi olen uurinud, kuidas ja<br />
milleks kasutatakse kombinatoorsete meetoditega (eelkõige sõnavisandite põhjal)<br />
saadud andmeid süntagmaatiliste õppesõnastike ja andmebaaside koostamisel.<br />
Tänapäeva inglise keele süntagmaatiliste sõnastike (MCD, OCDSE) analüüs osutas<br />
tendentsile loobuda leksikaalsete kollokatsioonide ja grammatiliste suhete<br />
eristamisest. Süntagmaatilisi suhteid kirjeldatakse õppesõnastikes teatud<br />
leksikogrammatiliste mallidena ja defineeritakse eelkõige sõnaliigi terminites, nt<br />
adj+N ‘adjektiiv + substantiiv’, verb+prep+noun ‘verb + prepositsioon +<br />
substantiiv’. Selline lähenemine võimaldab paremini kasutada<br />
korpusleksikograafilise analüüsi tulemusi. Kuna opereeritakse ühtede<br />
kategooriatega, on saanud võimalikuks tuvastatud üksuste poolautomaatne<br />
talletamine õppeleksikograafilistesse andmebaasidesse ja kollokatsioonisõnastikesse.<br />
Uued suunad süntagmaatiliste sõnastike koostamisel on sõnastike<br />
korpuspõhine automaatne genereerimine ja integratiivsete päringusüsteemide<br />
loomine (nt Tono 2011), kus üksuste valikul ei lähtuta ainult leksikograafilise<br />
tarkvara abil saadud andmetest, vaid analüüsi kaasatakse ka teisi allikaid, nt<br />
keeleoskustasemete sõnavaraloendeid ja õppetekste.<br />
Eesti leksikograafias ei ole eraldi kollokatsioonisõnaraamatute koostamise<br />
traditsiooni, leksikaalseid koosesinemisi esitatakse eesti keele üks- ja<br />
mitmekeelsetes sõnastikes üldjuhul kasutusnäidete tasandil, mitte süstemaatilise<br />
info osana. Teiselt poolt on pikk rektsioonisõnastike ja -valimike koostamise<br />
traditsioon, ulatudes 20. sajandi algusesse, mil eri sõnaliikide rektsioone esitati<br />
sõnastike lisana (Käbin, Pekarsky 1923), omaette abiraamatuna (Rajamaa 1936) või<br />
õigekeelsuse õpiku ja grammatika (Aavik 1936) osana. Ka 20. sajandi teisel poolel<br />
on rektsioonivalimik traditsiooniline eesti keele õpikute ja grammatikate osa (vt nt<br />
Vääri 1969: 91–92; Tauli 1980: 330–339; Erelt 2006: 35–40). Väitekirjas olen<br />
analüüsinud rektsioonistruktuuride valikut ja esitusviise Pooli (1999), Vaissi<br />
(2004), UNG-EE (2010) ja Mäearu (2011) sõnastikes. Rektsioonistruktuure<br />
esitatakse sõnastikes kas kodeeritud metakeeles (Vaiss 2004; UNG-EE 2010) või<br />
näitekonstruktsioonide vahendusel (Pool 1999; Mäearu 2011). Näitekonstruktsioone<br />
moodustatakse käändeküsimuste (armuma kellesse-millesse, kompetentne milles,<br />
hoolimata millest), infinitiivide (minema mida tegema, õigus mida teha), supiini<br />
käändevormide (käima mida tegemas) ja kaassõnaühendite (hoolitsema kelle-mille<br />
eest, vajadus mille järele) abil. Vaissi (2004) sõnastiku kirjeldusobjektiks on verbi<br />
objektirektsioon, UNG-EE (2010), Pooli (1999) ja Mäearu (2011) sõnastikes<br />
kirjeldatakse verbi objekti-, käände-, kaassõna-, tegevusnime- ja üldist<br />
asendusrektsiooni. Mäearu (2011) sõnastikus on esitatud lisaks substantiivide,<br />
adjektiivide, adverbide ja adpositsioonide rektsioonistruktuurid: substantiividel on<br />
näidatud käände-, kaassõna-, tegevusnime- ja substitutsioonirektsioon;<br />
130
adjektiividel – käände-, kaassõna- ja tegevusnimerektsioon; adverbidel ja<br />
adpositsioonidel – käänderektsioon.<br />
Väitekirja raames olen välja töötanud uut tüüpi eesti keele süntagmaatilise<br />
õppesõnastiku kontseptsiooni, mille eesmärk on mitte ainult rektsioonistruktuuride<br />
eksplitsiitne esitamine, vaid ka leksikaalsete kollokatsioonide ja eri tüüpi<br />
püsiühendite süstemaatiline esitamine. Seda tüüpi õppesõnastiku näiteks on eesti<br />
keele põhisõnavara sõnastik (PSV, ilmumas 2013). PSV sihtgrupp on A2- ja B1tasemete<br />
keeleõppijad ja märksõnade arv on ca 4500. Sõnastiku koostamise<br />
põhimõtteid võib pidada prototüüpseteks, nii et neid saab rakendada edaspidi ka<br />
teiste õppeleksikograafiliste andmebaaside ülesehitamisel ja eesti keele kui teise<br />
keele õppesõnastike koostamisel.<br />
Põhisõnavara sõnastiku XML-skeemis on eraldi rektsiooni-, kollokatsiooni- ja<br />
ühendite plokk.<br />
Rektsiooniploki põhielemendid on rektsioonigrupp, rektsioon ja kasutusnäited<br />
(näide ja selle seletus). Rektsioonigrupil on atribuut @c:koht ‘eel/järelrektsioon’,<br />
mis võimaldab määrata rektsiooni asukoha põhja suhtes. Rektsioonil endal on kolm<br />
atribuuti: @c:fak ‘fakultatiivne laiend’ – võimaldab määrata, kas tegemist on<br />
obligatoorse või fakultatiivse laiendiga; atribuut @c:var ‘variant’ – võimaldab<br />
esitada koos üht semantilist funktsiooni täitvaid rektsioonistruktuure; atribuut<br />
@c:rliik ‘rektsiooniliik’ – võimaldab määrata iga rektsioonistruktuuri liigi.<br />
Rektsiooniliikidena on esitatud objektirektsioon, käänderektsioon,<br />
kaassõnarektsioon, tegevusnimerektsioon, lausungirektsioon ja üldine<br />
asendusrektsioon. Selline PSV andmebaasi ülesehitus võimaldab<br />
rektsioonistruktuure esitada süstemaatiliselt, määrates nende asukoha põhja suhtes,<br />
fakultatiivsuse ja tüübi. Lisaks järgneb igale rektsioonistruktuurile selle<br />
kasutusnäide.<br />
Kollokatsiooniploki põhielemendid on kollokatsioonigrupp, kollokatsioonirühm,<br />
kollokatsioon ja kasutusnäited (näide ja selle seletus). Kollokatsioonigrupil on vaid<br />
üks atribuut @c:kliik ‘kollokatsiooniliik’. PSV andmebaasis on kolmteist<br />
kollokatsiooniliiki, mis on kirjeldatud vormiklasside ja morfosüntaktiliste<br />
kategooriate kaudu, nt Adv+V ‘adverb + verb’.<br />
Ühendite ploki põhielemendid on ühendigrupp, ühend ja kasutusnäited (näide ja<br />
selle seletus). Ühendil on vaid üks atribuut @c:yk ‘ühendi kood’. PSV andmebaasis<br />
esitatakse selles plokis perifrastilisi verbe, st ühend-, väljend-, ahelverbe ja<br />
tugiverbiühendeid.<br />
Andmebaasi selline ülesehitus tagab süntagmaatiliste üksuste süstemaatilise<br />
esitamise ja avab võimalusi sõnastiku materjali taaskasutamiseks. Nii saab<br />
andmebaasi alusel genereerida nt eraldi rektsiooni-, kollokatsiooni- ja perifrastiliste<br />
verbide sõnastikud (vt lähemalt Kallas, Langemets 2012). Teiselt poolt võimaldab<br />
see teha erinevaid liht- ja komplekspäringuid, näiteks saab korraga valida kõik<br />
verbid, millele on omane infinitiivirektsioon, või substantiivid, mis kollokeeruvad<br />
131
adverbidega jne. Neid andmeid saab kasutada eri tüüpi lingvistilise suunitlusega<br />
uurimistöös.<br />
Väitekirjas analüüsin eesti keele sõnavisandite kasutamise võimalusi PSV<br />
koostamisel. Toon välja, mis reeglite toel saab konkreetseid rektsioonistruktuure,<br />
kollokatsioonitüüpe ja püsiühendite liike tuvastada. Lisaks analüüsin sõnavisandite<br />
kasutust sisusõnade semantika, täpsemalt tähendusjaotuse ja laiendite semantiliste<br />
rollide uurimisel. Tähendusjaotuste ja laiendite semantiliste rollide<br />
sõnavisandipõhisel uurimisel eristan kaht põhilist etappi: esiteks tuleb semantilised<br />
rollid identifitseerida (sõnavisandites esile tulnud grammatiliste kategooriate<br />
põhjal), seejärel analüüsida ja kategoriseerida nende leksikaalsed realisatsioonid, st<br />
sõnavisandis esitatud konkreetsed sõnad. Uurimiskäiku illustreerin liikumisverbi<br />
saabuma sõnavisandi põhjal. Uurimus näitas, et verbi saabuma sagedamad laiendite<br />
semantilised rollid on SIHTKOHT, AEG, VAHEND, KAASNEJA ja LÄHTEKOHT.<br />
Seejuures on oluline märkida, et pakutud meetod sobib vaid esialgsete järelduste<br />
tegemiseks (statistilisele töötlusele tuginedes saab andmeid eelkõige sagedamini<br />
esinevate üksuste kohta). Teiseks tuleb korpusandmete analüüsi tulemuste<br />
interpreteerimisel alati silmas pidada, et tulemus on korrelatsioonis sisendteksti<br />
sisuga. Näiteks, kui tegemist on ajakirjandustekstide korpusega, siis on tulemus<br />
vältimatult kallutatud ja statistiline analüüs peegeldab verbide distributiivseid<br />
omadusi just selles allkeeles.<br />
Peale PSV andmebaasi mudeli olen välja töötanud ka süntagmaatiliste üksuste<br />
valikukriteeriumid konkreetsetele keeleoskustasemetele suunatud eesti keele<br />
õppesõnastike jaoks. Süntagmaatiliste üksuste valikul on aluseks 1) ametlikes<br />
keeleoskustasemete formaalsetes kirjeldustes esitatud nõuded (eelkõige sõnavara- ja<br />
grammatikapädevuse osas); 2) andmed süntagmaatilist üksust moodustavate sõnade<br />
esinemusest keeleoskustasemete sõnavaraloendites; 3) statistilise töötluse andmed<br />
(eelkõige koosesinemise sagedus ja esilduvuse väärtus). Töös olen neid kriteeriume<br />
rakendanud eesti keele põhisõnavara sõnastiku näitel.<br />
A2- ja B1-keeleoskustasemete formaalsetes kirjeldustes esitatud nõudmiste analüüs<br />
näitas, et süntagmaatiliste suhete esitamisel õppesõnastikus peaks tähelepanu<br />
pöörama eelkõige rektsioonistruktuuride (st verbi objekti-, infinitiivi-, käände-,<br />
kaassõna- ja sidendirektsioonile), kollokatsioonide ja perifrastiliste verbide<br />
(eelkõige väljend- ja ühendverbide) esitamisele. Lähtudes „Eesti keele<br />
funktsionaalse keeleoskuse määratlemises” esitatud andmetest, mille kohaselt<br />
ulatub eesti keelt algtasemel valdava inimese sõnavara 1500–2000 sõnani, keelt<br />
kesktasemel valdava inimese oma aga umbes 5000 sõnani (Kerge 1996), saab<br />
A2-tasemega keeleõppijatele suunatud sõnastike koostamisel toetuda Kerge jt<br />
(2008) ning Ehala jt (1997) koostatud sõnavaraloenditele. B1- ja B2-taseme jaoks ei<br />
ole seni eraldi loendit koostatud. Selle taseme sõnavaraloendina on võimalik<br />
käsitleda PSV märksõnade loendit (ca 4500 sõna) (vt lähemalt Kallas, Tuulik<br />
2011). Juhul, kui sõna ei kuulu PSV märksõnade loendisse, ei kasutata seda<br />
definitsiooni ja näitelausete ega süntagmaatiliste suhete esitamise tasandil. Selline<br />
filter aitab vältida harvem esinevate sõnade sattumist sõnastiku artiklitesse. Kui<br />
132
keeleõppija peaks puutuma kokku tema jaoks võõra sõnaga, on võimalus selle sõna<br />
tähendust samast sõnastikust järele vaadata. Statistiliste andmete (koosesinemise<br />
sageduse ja esilduvuse) võrdlus näitas, et koosesinemise sagedusega esile tulnud<br />
ühendid sobivad algajale keeleõppijale mõeldud sõnastikus esitamiseks. Samas B2-<br />
ja C1-tasemel tuleks tähelepanu pöörata eelkõige kõrge esilduvusega ühenditele.<br />
Nende kriteeriumide jälgimine süntagmaatiliste üksuste valikul tagab sõnastiku<br />
leksikaalse profiili vastavuse konkreetse keeleoskustasemega õppijate vajadusele ja<br />
võimaldab esitada süntagmaatilisi üksusi astmeliselt vastavalt sõnastiku sihtgrupi<br />
keeleoskustasemele.<br />
6.2. UURIMISTÖÖ EDASISED ARENGUSUUNAD<br />
Töö arengusuunad on seotud eesti keele keeletehnoloogilise arenguga üldiselt.<br />
Eelkõige puudutab see korpuslingvistiliste analüsaatorite (sh süntaksi ja semantika<br />
parserite) arengut ja uute korpuste loomist. Ideaalis peaks leksikograafidel olema<br />
võimalik toetuda materjali valikul nii kirjalike tekstide kui ka suulise kõne<br />
korpustele. Vajalikud on representatiivsed ja balansseeritud korpused, milles<br />
oleksid esindatud eri tüüpi tekstiklassid, millega keeleõppija tõenäoliselt<br />
igapäevaselt kokku puutub. Algtasemel on nendeks eelkõige erinevat tüüpi<br />
tarbetekstid, kesk- ja kõrgtasemel suureneb oluliselt ajakirjanduslike ning<br />
ilukirjanduslike tekstide osakaal. Selliste korpuste koostamisel võib toetuda nt<br />
prantsuse keele õppeotstarbelise sagedussõnastiku (Londsale, Le Bras 2009) jaoks<br />
koostatud korpuse kontseptsioonile. Selle korpuse suurus on 23 miljonit sõna,<br />
millest poole moodustavad suulise kõne ja poole kirjaliku kõne korpused. Suulise<br />
kõne korpuse tekstiklassid on vestlused, parlamendikõned, telefonikõned,<br />
intervjuud, dialoogid, monoloogid ja filmide pealelugemised. Kirjaliku kõne<br />
korpuses on esindatud ajakirjanduslikud, ilukirjanduslikud, populaarteaduslikud<br />
tekstid ja eri tüüpi tarbetekstid (manuaalid, kuulutused jm). Õppesõnastike<br />
koostamisel tuleks analüüsi kaasata ka õppijakorpuse andmestik. Suurte<br />
sõnaraamatute koostamiseks, nagu nt üheköiteline eesti keele sõnaraamat<br />
(Langemets jt 2010), oleks vaja suurt ilukirjandustekstide korpust.<br />
Vastavate parserite olemasolul saaks sõnavisandeid genereerida nii morfoloogiliste<br />
märgendite kui ka süntaktiliste ja semantiliste märgendite alusel. Inglise keele<br />
baasil on selliseid katseid juba tehtud ja meetodi efektiivsus on ilmne (McCarthy,<br />
Reddy 2011b; Reddy jt 2012; Kilgarriff jt 2012b). Süntaktiliste (eelkõige<br />
süvasüntaktiliste) ja semantiliste parserite kasutus korpusandmete automaattöötlusel<br />
avab korpusleksikograafia jaoks uusi perspektiive, võimaldades korpusandmete<br />
kompaktsemat kirjeldamist. Semantiline parser aitaks lahendada polüseemia<br />
probleemi, nt genereerides sõna hiir sõnavisandit, otsiks arvuti eraldi kollokaate<br />
sõna hiir tähenduses ‘loom’ ja hiir tähenduses ‘instrument’ jaoks.<br />
Oluline arengusuund on sõnavisandite grammatika täiendamine ja selle metakeele<br />
(näiteks grammatiliste kategooriate nimetuste) lihtsustamine. Tuleb täpsustada<br />
kontekstitingimusi, koostada täiendavaid leksikone ja uurida eri grammatiliste<br />
133
suhete jaoks optimaalset sõnadevahelist distantsi. Sõnavisandites välja toodud<br />
leksikogrammatiliste konstruktsioonide loendi koostamisel lähtusin eelkõige<br />
traditsioonilise grammatika substantiivi-, adjektiivi-, adverbi- ja verbisüntaksi<br />
kirjeldustest. Seega on tähelepanu keskmes sellised struktuurid, mis on määratud<br />
sõnade sõnaliigilise kuuluvusega. Edaspidi tuleks uurida konkordantsiridade alusel,<br />
mis tüüpi ebareeglipäraseid produktiivseid konstruktsioone saaks korpustest otsida.<br />
Kindlasti tuleb täiendada konstruktsioonide nimestikku ja lisada kolmeliikmelisi<br />
konstruktsioone. Näiteks Hunstoni ja Francise mallide grammatikas on verbide,<br />
substantiivide ja adjektiivide jaoks tuvastatud kokku 83 malli, mis sisaldavad väga<br />
palju just kolmeliikmelisi konstruktsioone, nt selliseid, kus verbile järgneb<br />
noomenifraas ja sellele omakorda substantiivi-, adjektiivi-, adpositsiooni- või<br />
adverbifraas, kõrvallause või infiniittarind, nt ‘V n n’ (I wrote him a letter),<br />
‘V n inf’ (She heard the man laugh), ‘V n prep/adv’ (Andrew chained the boat to<br />
the bridge), lisaks on terve hulk malle, mis algavad sõnaga it ‘see’, nt ‘it V clause’<br />
(It doesn’t matter what you think) jt (2000: 51–58). Erinevaid kolme- ja<br />
neljaliikmelisi konstruktsioone oleks võimalik tuvastada sõnavisandite grammatikas<br />
colloc-tüüpi reeglitega. Tuvastada saaks selliseid substantiivse põhjaga<br />
sõnakolmikuid ja -nelikuid nagu uue aja kombed, luteri usu kirik; saja meetri jooks,<br />
kahe päeva toit; kolme meetri pikkune; keskmist kasvu mees, esimest aastat õpetaja,<br />
pikemat aega meister; kõrge kontsaga kingad, kuni kümme meetrit lai tee, üle valla<br />
kuulus sepp. Seda tüüpi ühendeid ja nende moodustusstruktuuri on põhjalikult<br />
analüüsinud Tauli (1980). Edaspidi tuleks Tauli grammatika sellest vaatenurgast<br />
läbi vaadata, ja selgitada kõik võimalikud kolmest ja neljast sõnast koosnevad<br />
moodustusstruktuurid.<br />
Sõnavisandite põhjal saab edaspidi demosõnastiku Forbetterenglish.com eeskujul<br />
genereerida korpuspõhiselt ka eesti keele süntagmaatilisi andmebaase, kus oleksid<br />
esitatud kollokatsioonid ja rektsioonistruktuurid koos näitelausetega. Selline<br />
rakendus eeldab aga Good Dictionary Example (GDEX) (Kilgarriff jt 2008a)<br />
funktsiooni edasiarendamist. See on kindlasti üks huvitavamaid valdkondi, kuna on<br />
vaja välja selgitada parameetrid, mille järgi saaks arvuti hinnata korpuslausete<br />
sobivust sõnastiku näitelauseteks.<br />
Üheks huvitavaks väljakutseks on eesti leksikograafia jaoks ka lausepõhiste<br />
sõnastike ja andmebaaside koostamine. Eeskujuks on nt Hanksi (2008) ja Babenko<br />
jt (2002) sõnaraamatud, samuti verbide argumentstruktuuri kirjeldavad<br />
andmebaasid LexIt 51 ja VALEX 52 .<br />
Kuna tänapäeva leksikograafias on üheks tendentsiks leksikograafilist tööd<br />
toetavate eri tüüpi programmide integreerimine (Kilgarriff, Kosem 2012d), siis<br />
tulevikus võiks kaaluda sõnastikusüsteemi EELex ja Sketch Engine’i taoliste<br />
programmide integreerimist.<br />
51 LexIt http://sesia.humnet.unipi.it/lexit/ (15.09.12).<br />
52 VALEX http://www.cl.cam.ac.uk/~alk23/subcat/lexicon.html (15.09.12).<br />
134
Sõnavisanditel on suur potentsiaal ka kõrvutavas ja kontrastiivses leksikograafias.<br />
Kakskeelsete ja mitmekeelsete sõnastike koostamisel saab Sketch Engine’i<br />
vahendusel lähtuda tähendusjaotuste piiritlemisel ja infoüksuste valikul eri keelte<br />
sõnavisanditest, võrreldes neid ja selgitades erinevusi ning sarnasusi sõnade<br />
kollokatiivses ja süntaktilises käitumises. See arengusuund haakub otseselt ka<br />
õppesõnastike koostamiseks sobivate suulise ja kirjaliku keele (paralleel)korpuste<br />
puudumise probleemiga.<br />
Oluliseks arengusuunaks on täiuslikumate leksikograafiliste andmebaaside<br />
koostamise põhimõtete väljatöötamine. Nii et analüüsitud ja kirjeldatud saaksid<br />
mitte ainult leksikogrammatilised konstruktsioonid, aga ka sõnade semantilised<br />
funktsioonid. Töö raames välja töötatud eesti keele süntagmaatiliste suhete<br />
süstemaatilist õppeleksikograafilist kirjeldamist võimaldav eesti keele põhisõnavara<br />
sõnastiku XML-põhise andmebaasi ülesehitus toetab vaid morfosüntaktilisel<br />
tasandil tuvastatavate leksikogrammatiliste konstruktsioonide esitamist. Edaspidi<br />
tuleb luua täiendavaid võimalusi ka semantilise info esitamiseks. Seda infot saaks<br />
tulevikus rakendada eri tüüpi leksikaalsemantiliste andmebaaside loomisel, nagu on<br />
nt PropBank (Palmer jt 2005), VerbNet (Kipper Schuler 2005) ja FrameNet<br />
(Ruppenhofer jt 2010). Lisaks saab programmi väljundit kasutada nt korpuspõhise<br />
grammatika koostamisel (vrd nt Biber jt 2002).<br />
Uurimistöö olulisimaks rakenduseks on töös esitatud põhimõtete järgi koostatud<br />
õppesõnastike sari. A2-, B1-tasemele suunatud „Eesti keele põhisõnavara sõnastik”<br />
ilmub 2013. aastal, järgmisena on plaanis koostada B2- ja C1-tasemele mõeldud<br />
õppesõnastik. Tulemuseks peaks olema õppesõnastike komplekt, mis, esitades<br />
eksplitsiitselt sõnade süntagmaatilisi ja leksikaalsemantilisi suhteid, aitaks<br />
keeleõppijal korrektseid eestikeelseid tekste produtseerida. Siinne töö analüüsib<br />
sõnastike potentsiaali keeleõppijate sõnavara- ja grammatikapädevuse arendamisel.<br />
Üks huvitavamaid valdkondi, millega tuleks edaspidi tegelda, on aga teiste<br />
suhtluspädevuse komponentide (eelkõige sotsiolingvistilise ja pragmaatilise<br />
pädevuse) ja ka üldpädevuse (sotsiokultuurilised teadmised, kultuuriteadlikkus jne)<br />
arendamine õppesõnastike infoüksuste kaudu. Üks võimalikke uurimistöö<br />
arengusuundi on elektroonilise õppekeskkonna loomine, milles oleksid koondatud<br />
eri tasemetele mõeldud omavahel lingitud leksikograafilised ressursid, nii et<br />
kasutaja saaks tuge nii eestikeelse teksti mõistmisel kui ka loomisel.<br />
135
VIITEALLIKAD<br />
AAVIK, J. 1936. Eesti õigekeelsuse õpik ja grammatika. Tartu: Noor-Eesti.<br />
APRESJAN 1995 = Апресян, Ю. Д. Избранные труды, том I. Лексическая семантика:<br />
синонимические средства языка. 2-е изд., испр. и доп. Москва.<br />
ATKINS, B. T. S. 2002. Bilingual dictionaries – Past, present and future. – M-H. Corréard<br />
(ed.). Lexicography and natural language processing: A festschrift in honour of<br />
B. T. S. Atkins. Euralex, 2–29.<br />
ATKINS, B. T. S., RUNDELL, M., SATO, H. 2003. The contribution of FrameNet to<br />
practical lexicography. – International Journal of Lexicography, 3, 333–357.<br />
ATKINS, B. T. S., RUNDELL, M. 2008. The Oxford guide to practical lexicography.<br />
Oxford: Oxford University Press.<br />
ATKINS, B. T. S., KILGARRIFF, A., RUNDELL, M. 2010. The DANTE database<br />
(Database of Analysed Texts of English). – A. Dykstra, T. Schoonheim (eds.). Proceedings<br />
of the XIV EURALEX international congress. Leeuwarden/Ljouwent: Fryske Akademy,<br />
293–295.<br />
AVERINA jt 1996 = Аверина, С. А. и др. Прикладное языкознание: учебник. Санкт-<br />
Петербург: Издательство Санкт-Петербургского университета.<br />
BABENKO jt 2002 = Русские глагольные предложения: Экспериментальный<br />
синтаксический словарь. Под ред. проф. Л. Г. Бабенко. Москва: Флинта.<br />
BARTSCH, S. 2004. Structural and functional properties of collocations in English. A<br />
corpus study of lexical and pragmatic constraints on lexical co-occurrence. Tübingen:<br />
Verlag Gunter Narr.<br />
BBI 2010 = Benson, M., Benson, E., Islon, R. 2010 [1984, 1997]. The BBI combinatory<br />
dictionary of English. Amsterdam, Philadelphia: John Benjamins.<br />
BENSON, M. 1986. Lexicographic description of English. Studies in language companion<br />
series 14. Amsterdam: John Benjamins.<br />
BENSON, M. 1989. The structure of the collocational dictionary. – International Journal of<br />
Lexicography, 2, 1–14.<br />
BENSON, M. 1990. Collocations and general-purpose dictionaries. – International Journal<br />
of Lexicography, 3, 23–34.<br />
BIBER, D., CONRAD, S., LEECH, G. 2002. Longman student grammar of spoken and<br />
written English. UK: Pearson Education Lmt.<br />
CHURCH, K. W., HANKS, P. 1989. Word association, norms, mutual information, and<br />
lexicography. – Proceedings of the 27th annual meeting of the association for computational<br />
linguistics. 26-29 June 1989, University of British Columbia, Vancouver, British Columbia,<br />
Canada. Association for Computational Linguistics, 76–83.<br />
COFFEY, S. 2011. A new pedagogical dictionary of English collocations. – International<br />
Journal of Lexicography, 3, 328–342.<br />
136
COBUILD = Collins Cobuild English language dictionary. 1987. London: HarperCollins<br />
Publishers.<br />
DE SCHRYVER, G.-M., DE PAUW, G. 2007. Dictionary Writing System (DWS) + Corpus<br />
Query Package (CQP): The case of TshwaneLex. – Lexikos, 17, 226–246.<br />
DUBITŠINSKI 2009 = Дубичинский, В. В. Лексикография русского языка. Москва:<br />
Наука.<br />
EE-VN = Eesti-vene sõnaraamat 1–5. 1997–2009. Eesti Keele Instituut. Tallinn: Eesti Keele<br />
Sihtasutus.<br />
EHALA, M., SAARSO, K., VARE, S., ÕISPUU, J. (koost) 1997. Eesti keele suhtluslävi.<br />
Kultuurikoostöö Nõukogu. Strasbourg: Council of Europe Publishing.<br />
EKG 1993 = Erelt, M., Kasik, R., Metslang, H., Rajandi, H., Ross, K., Saari, H., Tael, K.,<br />
Vare, S. 1993. Eesti keele grammatika II. Süntaks. Tallinn: Eesti Teaduste Akadeemia Keele<br />
ja Kirjanduse Instituut.<br />
EKG 1995 = Erelt, M., Kasik, R., Metslang, H., Rajandi, H., Ross, K., Saari, H., Tael, K.,<br />
Vare, S. 1995. Eesti keele grammatika I. Morfoloogia. Sõnamoodustus. Tallinn: Eesti<br />
Teaduste Akadeemia Keele ja Kirjanduse Instituut.<br />
EKSS = Eesti keele seletav sõnaraamat 1–6. 2009. („Eesti kirjakeele seletussõnaraamatu”<br />
(1988–2007) 2., täiendatud ja parandatud trükk.) M. Langemets, M. Tiits, T. Valdre,<br />
L. Veskis, Ü. Viks, P. Voll (toim). Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus.<br />
Internetis aadressil http://www.eki.ee/dict/ekss/. Vaadatud 15.09.2012.<br />
ERELT, M. 1979a. Eesti lihtlause probleeme. Tallinn: Eesti Raamat.<br />
ERELT, M. 1979b. Predikatiivne adjektiiv (lausemallid). Eesti NSV Teaduste Akadeemia.<br />
Tallinn: Eesti Raamat.<br />
ERELT, M. 1985. ma-, mas- ja mast-infinitiivist eesti keeles. – Ars Grammatica 1985. Eesti<br />
NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn: Valgus, 4–22.<br />
ERELT, M. 1986. Eesti adjektiivisüntaks. Tallinn: Valgus.<br />
ERELT, M. 2003a. Syntax. – Erelt, M. (ed.). Estonian language. Tallinn: Estonian Academy<br />
Publishers, 93–129.<br />
ERELT, M. 2003b. Süntaks. – M. Erelt (koost). Eesti keele uurimise analüüs. Emakeele<br />
Seltsi aastaraamat 48 (2002). Tallinn: Emakeele Selts, 63–97.<br />
ERELT, M. 2006. Lause õigekeelsus. Juhatused ja harjutused. Tartu.<br />
ERELT, M., ERELT, T., ROSS, K. 2007 [1997]. Eesti keele käsiraamat. Tallinn: Eesti<br />
Keele Sihtasutus.<br />
ESLON, P., ÕIM, K., KAIVAPALU, K., ARGUS, R., MATSAK, E. 2010. Kuidas uurida<br />
esimese ja teise keele omandamist. – Lähivõrdlusi. Lähivertailuja, 20, 11–48.<br />
ESTMORF = Eesti keele morfoloogiline analüsaator. Filosoft OÜ. Internetis aadressil<br />
http://www.filosoft.ee/html_morf_et/morfoutinfo.html. Vaadatud 15.09.2012. Vt ka Kaalep<br />
1998.<br />
137
EVERT, S. 2009. Corpora and collocations. – A. Ludeling, M. Kyto (eds.). Corpus<br />
linguistics. An international handbook. Handbooks of linguistics and communication science<br />
29. Berlin, New York: Mouton de Gruyter, 1212–1248.<br />
EVÕS 2011 = Eesti-vene õpilase ÕS. 2011. H. Leemets, T. Leemets (koost). Tallinn: Eesti<br />
Keele Sihtasutus.<br />
FRANCIS, G. 1995. Corpus-driven grammar and its relevance to the learning of English in a<br />
cross-cultural situation. – A. Pakir (ed.). English in education: Multicultural perspectives.<br />
Singapore: Unipress.<br />
HANKS, P. 2008. Lexical Patterns: from Hornby to Hunston and beyond. – E. Bernal,<br />
J. DeCesaris (eds.). Proceedings of the XIII EURALEX international congress. Barcelona:<br />
Universitat Pompeu Fabra, 89–129.<br />
HARTMANN, R. R. K. 2001. Teaching and researching lexicography. Applied linguistics<br />
in action. Harlow: Pearson Education.<br />
HARTMANN, R. R. K., JAMES, G. 2002 [1998]. Dictionary of lexicography. London, New<br />
York: Routledge.<br />
HAUSENBERG, A-R., ILVES, M., KAIVAPALU, A., KERGE, K., KERN, K., KITSNIK, M.,<br />
KRALL, I., RUMMO, K., RÜÜTMAA, T. (koost) 2008. Iseseisev keelekasutaja: B1- ja B2taseme<br />
eesti keele oskus. Tartu: Riiklik Eksami- ja Kvalifikatsioonikeskus.<br />
HERBST, T., HEATH, D., ROE, F. I., GÖTZ, D. 2004. A valency dictionary of English:<br />
A corpus-based analysis of the complementation patterns of English verbs, nouns and<br />
adjectives. Topics in English linguistics 40. Berlin: Walter de Gruyter.<br />
HERBST, T., GÖTZ-VOTTELER, K. 2007. Valency: Theoretical, descriptive and cognitive<br />
issues. Trends in linguistics. Studies and monographs 187. Berlin, New York: Mouton de<br />
Gruyter.<br />
HUNSTON, S., FRANCIS, G. 2000. Pattern grammar: A corpus-driven approach to the<br />
lexical grammar of English. Studies in corpus linguistics 4. Amsterdam, Philadelphia: John<br />
Benjamins.<br />
HVELPLUND, H. 2011. Using Sketch Engine with IDM’s DPS for online dictionaries. –<br />
Sketch Engine Workshop, March 2011, Brighton, UK. Seminari materjalid<br />
. Vaadatud 16.07.2012.<br />
ILVES, M. 2008. Algaja keelekasutaja. A2-taseme eesti keele oskus. Tallinn: Eesti Keele<br />
Sihtasutus.<br />
JÜRVISTE, M., KALLAS, J., LANGEMETS, M., TUULIK, M., VIKS, Ü. 2011. Extending<br />
the functions of the EELex dictionary writing system using the example of the Basic<br />
Estonian Dictionary. – I. Kosem, K. Kosem (eds.). Electronic lexicography in the 21st<br />
century: New applications for new users. Proceedings of eLex 2011, Bled, 10-12 November<br />
2011. Ljubljana: Trojina, Institute for Applied Slovenian Studies, 106–112.<br />
KAALEP, H-J. 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. – Keel<br />
ja Kirjandus, 1, 22–29. Vt ka ESTMORF.<br />
KAALEP, H-J., MUISCHNEK, K. 2002. Eesti kirjakeele sagedussõnastik. Tartu: Tartu<br />
Ülikooli Kirjastus.<br />
138
KAALEP, H-J., MUISCHNEK, K. 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja<br />
kuidas. – Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 157–172.<br />
KALLAS, J., TUULIK, M. 2011. Eesti keele põhisõnavara sõnastik: ajalooline kontekst ja<br />
koostamispõhimõtted. – Eesti Rakenduslingvistika Ühingu aastaraamat, 7, 59–75.<br />
KALLAS, J., LANGEMETS, M. 2012. Automatic generation of specialized dictionaries<br />
using the dictionary writing system EELex. – A. Tavast, K. Muischnek, M. Koit (eds.).<br />
Human language technologies – The Baltic perspective. Proceedings of the fifth<br />
international conference Baltic HLT 2012. Frontiers in artificial intelligence and applications<br />
247. Amsterdam: IOS Press, 103–110.<br />
KARELSON, R. 2005. Taas probleemidest sõnaliigi määramisel. – Eesti<br />
Rakenduslingvistika Ühingu aastaraamat, 1, 53–70.<br />
KARLSSON, F., VOUTILAINEN, A., HEIKKILÄ, J. A, ANTTILA, A. (eds.) 1995.<br />
Constraint grammar: A language independent system for parsing unrestrected text. Natural<br />
language processing 4. Berlin, New York: Mouton de Gruyter.<br />
KASK, A. 1936. Mõningaid märkmeid eesti predikatiivi kohta. – Eesti keel, 1, 14–20.<br />
KERGE, K. 1996. Eesti keele funktsionaalse keeloskuse määratlemine. Tallinn:<br />
Haridusministeerium.<br />
KERGE, K. 2000. Eesti süntaks võõrkeeleõppe praktikule: käsiraamat. Tallinn: TEA<br />
Kirjastus.<br />
KERGE, K., PAJUPUU, H., ILVES, M. 2008. Esmane sõnastik. – M. Ilves. Algaja<br />
keelekasutaja. A2-taseme eesti keele oskus. Tallinn: Eesti Keele Sihtasutus, Tallinna Ülikool,<br />
Haridus- ja Teadusministeerium, 148–185.<br />
KHOKHLOVA 2010 = Хохлова, М. 2010. Исследование лексико-синтаксической<br />
сочетаемости в русском языке с помощью статистических методов (на базе<br />
корпусов текстов). Автореферат. Санкт-Петербург.<br />
KILGARRIFF, A., RUNDELL, M. 2002. Lexical profiling software and its lexicographic<br />
applications – A case study. – A. Braasch, C. Povlsen (eds.). Proceedings of the tenth<br />
Euralex international congress, Copenhagen, Denmark, August 13-17, 2002. Copenhagen:<br />
University of Copenhagen, 807–818.<br />
KILGARRIFF, A., RYCHLÝ, P., SMRZ, P., TUGWELL, D. 2004. The Sketch Engine. –<br />
G. Williams, S. Vessier (eds.). Proceedings of the 11th EURALEX international congress.<br />
Lorient, France: Université de Bretagne Sud, 105–115.<br />
KILGARRIFF, A., HUSÁK, M., McADAM, K., RUNDELL, M., RYCHLÝ, P. 2008a.<br />
GDEX: Automatically finding good dictionary examples in a corpus. – E. Bernal,<br />
J. DeCesaris (eds.). Proceedings of the XIII EURALEX international congress. Barcelona:<br />
Universitat Pompeu Fabra, 425–431.<br />
KILGARRIFF, A., GREFENSTETTE, G. 2008b. Introduction to the special issue on the<br />
Web as corpus. – T. Fontenelle (ed.). Practical lexicography. A reader. Oxford: Oxford<br />
University Press.<br />
KILGARRIFF, A., KOVAR, V., KREK, S., SRDANOVIC, I., TIBERIUS, C. A. 2010a.<br />
Quantitative evaluation of word sketches. – A. Dykstra, T. Schoonheim (eds.). Proceedings of<br />
the XIV EURALEX international congress. Leeuwarden/Ljouwent: Fryske Akademy, 372–379.<br />
139
KILGARRIFF, A., KOVÁR, V., RYCHLÝ, P. 2010b. Tickbox lexicography. – S. Granger,<br />
M. Paquot (eds.). eLexicography in the 21st century: New challenges, new applications.<br />
Proceedings of eLex 2009, Louvain-la-Neuve, 22-24 October 2009. Louvain-la-Neuve:<br />
Presses universitaires de Louvain, 411–418.<br />
KILGARRIFF, A., RYCHLÝ, P., KOVÁR, V., BAISA, V. 2012a. Finding multiwords of<br />
more than two words. – R. V. Fjeld, J. M. Torjusen (eds.). Proceedings of the XV EURALEX<br />
international congress, 7–11 August. Oslo, 693–700.<br />
KILGARRIFF, A., POMIKALEK, J., JAKUBÍČEK, M., WHITELOCK, P. 2012b. Setting<br />
up for corpus lexicography. – R. V. Fjeld, J. M. Torjusen (eds.). Proceedings of the XV<br />
EURALEX international congress, 7–11 August. Oslo, 778–785.<br />
KILGARRIFF, A., CHARALABOPOULOU, F., GAVRILIDOU, M.,<br />
JOHANNESSEN, J. B., KHALIL, S., KOKKINAKIS, S. J., LEW, R., SHAROFF, S.,<br />
VADLAPUDI, R., VOLODINA E. 2012c. Corpus-based vocabulary lists for language<br />
learners for nine languages. – Language Resources and Evaluation. (Ilmumas.) Internetis<br />
aadressil http://trac.sketchengine.co.uk/wiki/AK/Papers#. Vaadatud 06.01.2013.<br />
KILGARRIFF, A., KOSEM, I. 2012d. Corpus tools for lexicographers. – S. Granger,<br />
M. Paquot (eds.). Electronic lexicography. Oxford: Oxford University Press, 31–55.<br />
KIPPER SCHULER, K. 2005. VerbNet: A broad-coverage, comprehensive verb lexicon.<br />
PhD thesis. Computer and Information Science Dept., University of Pennsylvania.<br />
Philadelphia, PA.<br />
KOSEM, I., HUSAK, M., McCARTHY, D. 2011. GDEX for Slovene. – I. Kosem,<br />
K. Kosem (eds.). Electronic lexicography in the 21st century: New applications for new<br />
users. Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, Institute<br />
for Applied Slovenian Studies, 151–159.<br />
KÄBIN, T., PEKARSKY, N. 1923. Eesti-vene sõnastik grammatiliste vormide näitamisega.<br />
Narva.<br />
LANGEMETS, M. 2003. Kas ükskeelne või kakskeelne sõnaraamat? – M. Langemets,<br />
H. Sahkai, M-M. Sepper (toim). Toimiv keel I. Töid rakenduslingvistika alalt. Eesti Keele<br />
Instituudi toimetised 12. Tallinn: Eesti Keele Sihtasutus, 151–177.<br />
LANGEMETS, M., MÄGEDI, M., VIKS, Ü. 2005. Süntaktiline info sõnastikus: probleeme<br />
ja väljavaateid. – Eesti Rakenduslingvistika Ühingu aastaraamat, 1, 71–98.<br />
LANGEMETS, M., LOOPMANN, A., VIKS, Ü. 2006. The IEL dictionary management<br />
system of Estonian. – G-M. de Schryver (ed.). DWS 2006: Proceedings of the fourth<br />
international workshop on dictionary writing systems. Turin: Turin University, 11–16.<br />
LANGEMETS, M. 2010a. Nimisõna süstemaatiline polüseemia eesti keeles ja selle esitus<br />
eesti keelevaras. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus.<br />
LANGEMETS, M., TIITS, M., VALDRE, T., VOLL, P. 2010b. In spe: üheköiteline eesti<br />
keele sõnaraamat. – Keel ja Kirjandus, 11, 793–810.<br />
LANGEMETS, M., LOOPMANN, A., VIKS, Ü. 2010c. Dictionary management system for<br />
bilingual dictionaries. – S. Granger, M. Paquot (eds.). eLexicography in the 21st century:<br />
New challenges, new applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22-24<br />
October 2009. Louvain-la-Neuve: Presses universitaires de Louvain, 425–430.<br />
140
LAUR, M. 1998. Esimene verstapost. Eesti keele suhtluse algtase. Tallinn: REKK.<br />
LONDSALE, D., LE BRAS, Y. 2009. A frequency dictionary of French: Core vocabulary<br />
for learners. Routledge frequency dictionaries. London, New York: Routledge.<br />
LOOPMANN, A., SEIN, K., VIKS, Ü. 2006. Sõnastike haldussüsteem Eesti Keele<br />
Instituudis. – M. Koit, R. Pajusalu, H. Õim (toim). Keel ja arvuti. Tartu Ülikooli<br />
üldkeeleteaduse õppetooli toimetised 6. Tartu: Tartu Ülikooli Kirjastus, 246–258.<br />
LOOPMANN, A. 2007. Sõnastike haldussüsteem EELex. Magistritöö. Käsikiri Eesti Keele<br />
Instituudis.<br />
MAISAK 1999 = Майсак, Т. А. Ассиметрия валентностей у глаголов длижения:<br />
русский вариант. – Труды Международного семинара „Диалог’ 99” по компьютерной<br />
лингвистике и её приложениям. Т 1. Таруса.<br />
MAISAK, RAHHILINA 1999 = Майсак, Т. А., Рахилина, Е. В. Семантика и статистика:<br />
глагол идти на фоне других глаголов движения. – Логический анализ языка. Языки<br />
динамического мира. Дубна.<br />
McCARTHY, D., REDDY, S. 2011a. Semantic tagging. – Sketch Engine Workshop, March<br />
2011, Brighton, UK. Seminari materjalid . Vaadatud 16.07.2012.<br />
McCARTHY, D., REDDY, S. 2011b. Word Sketches from other parsers: CONLL format in<br />
Sketch Engine. – Sketch Engine Workshop, March 2011, Brighton, UK. Seminari materjalid<br />
. Vaadatud 16.07.2012.<br />
MCD 2010 = Macmillan collocations dictionary for learners of English. 2010. Macmillan.<br />
McENERY, T., WILSON, A. 2007. Corpus linguistics. Edingburgh: Edingburgh University<br />
Press.<br />
MED 2002 = Macmillan English dictionary for advanced learners. 2002. Macmillan.<br />
MIHKLA, K., RIIKOJA, E., ADMANN, A. 1974. Eesti keele lauseõpetuse põhijooned I.<br />
Lihtlause. Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn: Valgus.<br />
MILLER, G. A., JOHNSON-LAIRD P. N. 1976. Langauge and perception. Cambridge:<br />
Cambridge University Press.<br />
MUISCHNEK, K. 2005. Eesti keele tugiverbid ja nende mõju lause ehitusele. – Emakeele<br />
Seltsi aastaraamat, 50, 11–38.<br />
MUISCHNEK, K. 2006a. Eesti keele verbikesksed püsiühendid tekstikorpuses. – Emakeele<br />
Seltsi aastaraamat, 51, 80–105.<br />
MUISCHNEK, K. 2006b. Verbi ja noomeni püsiühendid eesti keeles. Dissertationes<br />
philologiae Estonicae Universitatis Tartuensis 17. Tartu: Tartu Ülikooli Kirjastus.<br />
MUISCHNEK, K. 2006c. Tugiverbist üldiselt ja intransitiivsest tugiverbikonstruktsioonist<br />
lähemalt. – Pille Penjam (toim). Lause argumentstruktuur: ettekandeid süntaksiseminarilt:<br />
10. mai 2005, Tartu. Tartu: Tartu Ülikooli eesti keele õppetool.<br />
MÄEARU, S. 1996. Valik rektsioone. – S. Mäearu (koost). Keelenõuanne soovitab. Tallinn:<br />
Eesti Keele Instituut, 1996.<br />
141
MÄEARU, S. 2011. Valik rektsioone. Tartu: Keelehooldekeskus.<br />
MÜÜRISEP, K. 2000. Eesti keele arvutigrammatika: süntaks. Dissertationes Mathematicae<br />
Universitatis Tartuensis 22. Tartu: Tartu Ülikooli Kirjastus.<br />
NOVIKOV 2002 = Новиков, Л. А. Типология учебных словарей. – Современный<br />
русский язык: Лексикология. Фразеология. Лексикография. Санкт-Петербург: Санкт-<br />
Петербургский Университет.<br />
OCDSE 2002 = Oxford collocations dictionary for students of English. 2002. Oxford:<br />
Oxford University Press.<br />
PAI, K. 2001. Essiivne ja translatiivne predikatiivadverbiaal. – R. Kasik (koost, toim). Keele<br />
kannul. Pühendusteos Mati Erelti 60. sünnipäevaks. Tartu Ülikooli eesti keele õppetooli<br />
toimetised 17. Tartu: Tartu Ülikooli Kirjastus, 232–249.<br />
PAJUPUU, H., KERGE, K., ALP, P. 2009. Sõnavara loomulik rikkus haritud keeleoskaja<br />
tekstides. – Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 187–196.<br />
PAJUSALU, R., TRAGEL, I., VEISMANN, A., VIJA, M. 2004. Tuumsõnade semantikat ja<br />
pragmaatikat. Tartu: Tartu Ülikooli Kirjastus.<br />
PALMER, M., GILDEA, D., KINGSBURY, P. 2005. The proposition bank: A corpus<br />
annotated with semantic roles. – Computational Linguistics, 31, 1, 71–106.<br />
PAQUOT, M. 2012. The LEAD dictionary-cum-writing aid: An integrated dictionary and<br />
corpus tool. – S. Granger, M. Paquot (eds.). Electronic lexicography. Oxford: Oxford<br />
University Press, 163–187.<br />
PENJAM, P. 2005. Liikumisverbide semantikast: tulema-verb XVII–XX sajandi eesti<br />
kirjakeeles. – Keel ja Kirjandus, 10, 818–830<br />
PIHLAK, A. 1985. Eesti ühendverbid ja perifrastilised verbid aspektitähenduse<br />
väljendajana. – Ars Grammatica 1985. Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse<br />
Instituut. Tallinn: Valgus, 62–93.<br />
PIHLAK, A. 1991. Eesti analüütilised versus vene sünteetilised verbid. Tallinn: Tallinna<br />
Pedagoogiline Instituut.<br />
POOL, R. 1999. Eesti keele verbirektsioone. Tartu: Tartu Ülikooli Kirjastus.<br />
PSV = Eesti keele põhisõnavara sõnastik. M. Jürviste, J. Kallas, K. Koppel, M. Tuulik<br />
(koost). Tallinn: Eesti Keele Sihtasutus. (Ilmumas 2013.)<br />
PUOLAKAINEN, T. 2001. Eesti keele arvutigrammatika: morfoloogiline ühestamine.<br />
Dissertationes Mathematicae Universitatis Tartuensis 27. Tartu: Tartu Ülikooli Kirjastus.<br />
PÄRN, H., SIMM, L. 1989. Eesti keele baassõnastik = Базовый словарь эстонского<br />
языка. Tallinn: Keele ja Kirjanduse Instituut.<br />
RAAG, R. 1987. Basic Estonian vocabulary 1. Uppsala: Finsk-ugriska institutionen.<br />
RAAMDOKUMENT 2007 = Euroopa keeleõppe raamdokument: õppimine, õpetamine,<br />
hindamine. 2007. Tartu: Haridus- ja Teadusministeerium.<br />
RAJAMAA, H. 1936. Kuidas tarvitada uusi sõnu? Eesti sõnade muuteline sõltuvus. Tartu:<br />
Kool.<br />
142
REDDY, S., KILGARRIFF, A., RYCHLÝ, P. 2012. Universal Sketch grammar. – 3rd<br />
Sketch Engine Workshop, March 2012, Brno, Czech Republic. Internetis aadressil<br />
http://sivareddy.in/papers/talks/Skew3-UWS.pdf. Vaadatud 06.01.2013.<br />
REITSAK, A. 1975. Valimik vene fraseologisme eesti vastetega. Tallinn: Valgus.<br />
RENOUF, A. 2003. WebCorp: Providing a renewable data source for corpus linguists. –<br />
S. Petch-Tyson, S. Granger (eds.). Extending the scope of corpus-based research: New<br />
applications, new Challenges. Language and computers 48. Amsterdam, New York: Rodopi,<br />
39–58.<br />
RICHARDS, J. C., SCHMIDT, R. 2002. Longman dictionary of language teaching and<br />
applied linguistics. UK: Pearson Education Limited.<br />
ROOSMAA, T., KOIT, M., MUISCHNEK, K., MÜÜRISEP, K., PUOLAKAINEN, T.,<br />
UIBO, H. 2001. Eesti keele formaalne grammatika. Tartu: Tartu Ülikool.<br />
RUNDELL, M., ATKINS, S. 2011. The DANTE database: A user guide. – I. Kosem, K.<br />
Kosem (eds.). Electronic lexicography in the 21st century: New applications for new users.<br />
Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, Institute for<br />
Applied Slovenian Studies, 106–112.<br />
RUNDELL, M., KILGARRIFF, A. 2011. Automating the creation of dictionaries: Where<br />
will it all end? – F. Meunier, S. De Cock, G. Gilquin, M. Paquot (eds.) A taste for corpora.<br />
In honour of Sylviane Granger. Studies in corpus linguistics 45. Amsterdam, Philadelphia:<br />
John Benjamins.<br />
RUNDELL, M. 2012. How the dictionary was created? Internetis aadressil<br />
http://www.macmillandictionaries.com/features/how-dictionaries-are-written/macmillancollocations-dictionary/.<br />
Vaadatud 15.09.2012.<br />
RUPPENHOFER, J., ELLSWORTH, M., PETRUCK, M. R. L., JOHNSON, C. R.,<br />
SCHECZYK, J. 2010. FrameNet II: Extended theory and practice. Technical report,<br />
International Computer Science Institute, Berkeley. Internetis aadressil<br />
http://framenet.icsi.berkeley.edu/. Vaadatud 15.09.2012.<br />
RÄTSEP, H. 1969. Ühendverbide rektsioonistruktuuride iseärasustest eesti keeles. –<br />
Emakeele Seltsi aastaraamat, 14-15, 59–77.<br />
RÄTSEP, H. 1978. Eesti keele lihtlausete tüübid. Tallinn: Valgus.<br />
RYCHLÝ, P. 2008. A lexicographer-friendly association score. – P. Sojka, A. Horák (eds.).<br />
Proceedings of 2nd workshop on recent advances in Slavonic natural languages RASLAN<br />
2008. Brno: Masaryk University, 6–9.<br />
SAHKAI, H., MUISCHNEK, K. 2010. Liitpredikaadid leksikoni-grammatika kontiinumil. –<br />
Eesti ja soome-ugri keeleteaduse ajakiri ESUKA / Journal of Estonian and Finno-Ugric<br />
Linguistics JEFUL, 1, 2, 295–316.<br />
SAHKAI, H. 2011. Teine grammatika. Eesti keele teonimede süntaks konstruktsioonipõhises<br />
perspektiivis. Tallinna Ülikooli humanitaarteaduste dissertatsioonid 25. Tallinn: Tallinna<br />
Ülikool.<br />
SCHERBA 1974 = Щерба, Л. В. Языковая система и речевая деятельность.<br />
Ленинград: Наука.<br />
143
SIEPMANN, D. 2005. Collocation, colligation and encoding dictionaries. Part I:<br />
Lexicological aspects. – International Journal of Lexicography, 18, 4, 409–443.<br />
SINCLAIR, J. M. 1991. Corpus, concordance, collocation. Oxford: Oxford University Press.<br />
SVENSÉN, B. 2009. A handbook of lexicography. The theory and practice of dictionarymaking.<br />
Cambridge: Cambridge University Press.<br />
ŠANSKI, N., BÕSTROVA, J., OKUNEVA, A., ROMET, A. 1983. Vene-eesti püsiühendite<br />
õppesõnastik. Tallinn: Valgus.<br />
TALMY, L. 1975. Semantics and syntax of motion. – J. P. Kimball (ed.). Syntax and<br />
semantics, vol. 4. New-York: Academic Press, 181–238.<br />
TARP, S. 2008. Lexicography in the borderland between knowledge and non-knowledge:<br />
General lexicographical theory with particular focus on learner's lexicography. Tübingen:<br />
Max Niemeyer Verlag.<br />
TAULI, V. 1980. Eesti grammatika II. Lauseõpetus. Uppsala: Finsk-ugrinska institutionen.<br />
THORNDIKE, E. L. 1991. The psychology of the school dictionary. – International Journal<br />
of Lexicography, 4, 1, 15–22.<br />
TIHHONOV 2001 = Комплексный словарь русского языка. Под ред. А. Н. Тихонова.<br />
Москва: Русский язык.<br />
TONO, Y. 2011. Bilingual lexicography in Japan. – Videoettekanne konverentsil Electronic<br />
lexicography in the 21st Century: New applications for new users. Bled, 10-12 November<br />
2011. Internetis aadressil http://videolectures.net/elex2011_bled/. Vaadatud 06.01.2013.<br />
UIBOAED, K. 2010. Statistilised meetodid murdekorpuse ühendverbide tuvastamisel. –<br />
Eesti Rakenduslingvistika Ühingu aastaraamat, 6, 307–326.<br />
UNG-EE 2010 = Ungari-eesti sõnaraamat [Magyar-észt szótár]. 2010. A. Kippasto,<br />
A. Nurk, T. Seilenthal (koost). Tallinn: Eesti Keele Sihtasutus. Internetis aadressil:<br />
http://www.ut.ee/Ural/UERS/. Vaadatud 15.09.2012.<br />
VAISS, N. 2004. Eesti keele aspekti väljendusvõimalusi vene keele taustal. Tallinn: Tallinna<br />
Pedagoogikaülikool. [Magistritöö.]<br />
VANEM, L. 2004. Eesti ühendverbide vasted vene keeles. Sõnastik ja didaktilisi soovitusi.<br />
Tallinn: Tallinna Pedagoogikaülikool. [Magistritöö.]<br />
VENDE, K. 2010. Краткий эстонско-русский словарь для изучающих эстонский язык:<br />
первая тысяча эстонских слов = Eesti-vene sõnastik algajale eesti keele õppijale.<br />
Esimesed tuhat sõna. Tallinn: TEA Kirjastus.<br />
VÄÄRI, E. 1969. Eesti keele õpik keskkoolile. Tallinn: Valgus.<br />
ÕIM, H., ORAV, H., TAREMAA, P. 2009. Lihtlause semantika: teoreetiline kontseptsioon<br />
ja arvutianalüüsi võimalused. – Keel ja Kirjandus, 7, 489–505.<br />
ÕIM, A. 2000. Fraseoloogiasõnaraamat. Tallinn: Eesti Keele Sihtasutus.<br />
ÕIM, A. 2008. Väljendiraamat. Tallinn: TEA Kirjastus.<br />
ÕIM, K., ÕIM, A. 2011. Eesti fraseoloogia leksikograafiline areng. – Keel ja Kirjandus, 11,<br />
842–863.<br />
144
LISA 1. SÕNAVISANDITE GRAMMATIKA 53<br />
Word Sketch Engine#Word Sketch Engine Sketch Grammar for Estonian<br />
# ver. 1.5<br />
*STRUCTLIMIT s<br />
*DEFAULTATTR tag<br />
*FIXORDER modifies Adj_modifier subject subject_of object object_of<br />
N_modifies Adj_modifies Adv_modifies V_modifies omastav_modifier<br />
omastav_modifies Adj_comp_modifier Adj_sup_modifier<br />
Adj_käändumatu_modifier ja/või kui/nagu predicate_N predicate_Adj<br />
osastav_modifier osastav_modifies predicate_of cardinal_modifies<br />
ordinal_modifies participle_modifier Pron_modifier kõrvallause Adv_modifier<br />
afiksaaladverb afiksaaladverb_of ühendverb väljendverb N_Vma N_Vda Adj_Vma<br />
Adj_Vda V_Vma V_Vda V_Vdes V_Vmaks V_Vmas V_Vmata V_Vmaks V_Vvat<br />
Adj_PP Adv_PP N_PP V_PP predicate_Adj_saav predicate_Adj_olev Pr_modifier<br />
Pr_modifies<br />
*CONSTRUCTION<br />
*UNARY<br />
=nimetav<br />
1:[tag="S"&features=".._n"]<br />
1:[tag="A"&features=".._n"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=omastav<br />
1:[tag="S"&features=".._g"]<br />
1:[tag="A"&features=".._g"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=osastav<br />
1:[tag="S"&features=".._p"]<br />
1:[tag="A"&features=".._p"]<br />
53<br />
Reeglites kasutatud lühendite selgitusi vt http://www.filosoft.ee/html_morf_et/morfoutinfo.html<br />
(24.01.2013).<br />
145
*CONSTRUCTION<br />
*UNARY<br />
=sisseütlev<br />
1:[tag="S"&features=".._ill"]<br />
1:[tag="A"&features=".._ill"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=aditiiv<br />
1:[tag="S"&features="adt"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=seesütlev<br />
1:[tag="S"&features=".._in"]<br />
1:[tag="A"&features=".._in"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=seestütlev<br />
1:[tag="S"&features=".._el"]<br />
1:[tag="A"&features=".._el"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=alaleütlev<br />
1:[tag="S"&features=".._all"]<br />
1:[tag="A"&features=".._all"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=alalütlev<br />
1:[tag="S"&features=".._ad"]<br />
1:[tag="A"&features=".._ad"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=alaltütlev<br />
1:[tag="S"&features=".._abl"]<br />
1:[tag="A"&features=".._abl"]<br />
146
*CONSTRUCTION<br />
*UNARY<br />
=saav<br />
1:[tag="S"&features=".._tr"]<br />
1:[tag="A"&features=".._tr"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=rajav<br />
1:[tag="S"&features=".._ter"]<br />
1:[tag="A"&features=".._ter"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=olev<br />
1:[tag="S"&features=".._es"]<br />
1:[tag="A"&features=".._es"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=ilmaütlev<br />
1:[tag="S"&features=".._ab"]<br />
1:[tag="A"&features=".._ab"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=kaasaütlev<br />
1:[tag="S"&features=".._kom"]<br />
1:[tag="A"&features=".._kom"]<br />
*CONSTRUCTION<br />
*UNARY<br />
=otsekõne<br />
1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&features!="nud"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="Z"&word=":"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=V_Vma<br />
[tag!="V"]*1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="ma"]<br />
[tag!="V"]<br />
147
*CONSTRUCTION<br />
*DUAL<br />
=V_Vmaks<br />
[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="maks"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=V_Vmast<br />
[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
eatures!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="mast"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=V_Vmas<br />
[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"& features="mas"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=V_Vmata<br />
[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="mata"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=V_Vda<br />
[tag!="V"]*1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="da"]<br />
[tag!="V"]?<br />
*CONSTRUCTION<br />
*DUAL<br />
=V_Vvat<br />
[tag!="V"]*1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="vat"]<br />
[tag!="V"]?<br />
148
*CONSTRUCTION<br />
*DUAL<br />
=V_Vdes<br />
[tag!="V"]?1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />
features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />
features!="tud"&lemma!="olema"]2:[tag="V"&features="des"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=N_Vma<br />
[tag="V"&lemma="olema"]1:[tag="S"&features=".._n"]2:[tag="V"&<br />
features="ma"][tag!="V"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=Adj_Vma<br />
[tag="V"&lemma="olema"]1:[tag="A"&features=".._n"]2:[tag="V"&<br />
features="ma"][tag!="V"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=N_Vda<br />
1:[tag="S"&features=".._n"]2:[tag="V"&features="da"][tag!="V"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=Adj_Vda<br />
[tag="V"&lemma="olema"]1:[tag="A"&features=".._n"]2:[tag="V"&<br />
features="da"][tag!="V"]<br />
*CONSTRUCTION<br />
*DUAL<br />
=kõrvallause/kõrvallause<br />
2:[tag="S"&features=".._n"][word=","]1:[lemma="et"|lemma="kui"|lemma="nagu"|<br />
lemma="justkui"|lemma="otsekui"|lemma="kuigi"|lemma="sest"|lemma="ehhki"|<br />
lemma="kuna"|lemma="kuni"|lemma="kas"|lemma="ega"|lemma="kes"|<br />
lemma="mis"|lemma="milline"|lemma="missugune"|lemma="kumb"|lemma="kus"|<br />
lemma="kuhu"|lemma="kust"|lemma="millal"|lemma="mil"|lemma="miks"|<br />
lemma="milleks"|lemma="mistavis"|lemma="mismoodi"|lemma="mistõttu"|<br />
lemma="kuidas"|lemma="kuivõrd"]<br />
2:[tag="A"&features=".._n"][word=","]1:[lemma="et"|lemma="kui"|<br />
lemma="nagu"|lemma="justkui"|lemma="otsekui"|lemma="kuigi"|lemma="sest"|<br />
lemma="ehhki"|lemma="kuna"|lemma="kuni"|lemma="kas"|lemma="ega"|<br />
149
lemma="kes"|lemma="mis"lemma="milline"|lemma="missugune"|<br />
lemma="kumb"|lemma="kus"|lemma="kuhu"|lemma="kust"|lemma="millal"|<br />
lemma="mil"|lemma="miks"|lemma="milleks"|lemma="mistavis"|<br />
lemma="mismoodi"|lemma="mistõttu"|lemma="kuidas"|lemma="kuivõrd"]<br />
2:[tag="D"][word=","]1:[lemma="et"|lemma="kui"|lemma="nagu"|<br />
lemma="justkui"|lemma="otsekui"|lemma="kuivõrd"|lemma="kuna"|<br />
lemma="kuni"|lemma="kus"|lemma="kuhu"|lemma="kust"|lemma="millal"|<br />
lemma="mil"]<br />
2:[tag="V"][word=","]1:[lemma="kas"|lemma="kes"|lemma="mis"|<br />
lemma="milline"|lemma="missugune"|lemma="kuhu"|lemma="kus"|lemma="kust"|<br />
lemma="kuidas"|lemma="miks"|lemma="et"|lemma="millal"|lemma="nagu"|<br />
lemma="justnagu"|lemma="kui"|lemma="otsekui"|lemma="justkui"|lemma="sest"|<br />
lemma="kuni"|lemma="siis"|lemma="siiski"|lemma="kuna"|lemma="kustkadu"|<br />
lemma="mispärast"|lemma="mistõttu"|lemma="mismoodi"|lemma="misjaoks"|<br />
lemma="mistarvis"|lemma="seepärast"|lemma="sellepärast"|lemma="seetõttu"|<br />
lemma="selletõttu"]<br />
*SYMMETRIC<br />
=ja/või<br />
2:[tag="S"&features=".._n"][word="ja"|word="või"]1:[tag="S"&features=".._n"]<br />
2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._g"]<br />
2:[tag="S"&features=".._p"][word="ja"|word="või"]1:[tag="S"&features=".._p"]<br />
2:[tag="S"&features=".._ill"][word="ja"|word="või"]1:[tag="S"&features=".._ill"]<br />
2:[tag="S"&features=".._in"][word="ja"|word="või"]1:[tag="S"&features=".._in"]<br />
2:[tag="S"&features=".._el"][word="ja"|word="või"]1:[tag="S"&features=".._el"]<br />
2:[tag="S"&features=".._all"][word="ja"|word="või"]1:[tag="S"&features=".._all"]<br />
2:[tag="S"&features=".._ad"][word="ja"|word="või"]1:[tag="S"&features=".._ad"]<br />
2:[tag="S"&features=".._abl"][word="ja"|word="või"]1:[tag="S"&<br />
features=".._abl"]<br />
2:[tag="S"&features=".._tr"][word="ja"|word="või"]1:[tag="S"&features=".._tr"]<br />
2:[tag="S"&features=".._ter"][word="ja"|word="või"]1:[tag="S"&<br />
features=".._ter"]<br />
2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&<br />
features=".._ter"]<br />
2:[tag="S"&features=".._es"][word="ja"|word="või"]1:[tag="S"&features=".._es"]<br />
2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._es"]<br />
2:[tag="S"&features=".._ab"][word="ja"|word="või"]1:[tag="S"&features=".._ab"]<br />
2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._ab"]<br />
2:[tag="S"&features=".._kom"][word="ja"|word="või"]1:[tag="S"&<br />
features=".._kom"]<br />
2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&<br />
features=".._kom"]<br />
150
2:[tag="A"&features=".._n"][word="ja"|word="või"]1:[tag="A"&features=".._n"]<br />
2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&features=".._g"]<br />
2:[tag="A"&features=".._p"][word="ja"|word="või"]1:[tag="A"&features=".._p"]<br />
2:[tag="A"&features=".._ill"][word="ja"|word="või"]1:[tag="A"&features=".._ill"]<br />
2:[tag="A"&features=".._in"][word="ja"|word="või"]1:[tag="A"&features=".._in"]<br />
2:[tag="A"&features=".._el"][word="ja"|word="või"]1:[tag="A"&features=".._el"]<br />
2:[tag="A"&features=".._all"][word="ja"|word="või"]1:[tag="A"features=".._all"]<br />
2:[tag="A"&features=".._ad"][word="ja"|word="või"]1:[tag="A"&<br />
features=".._ad"]<br />
2:[tag="A"&features=".._abl"][word="ja"|word="või"]1:[tag="A"&<br />
features=".._abl"]<br />
2:[tag="A"&features=".._tr"][word="ja"|word="või"]1:[tag="A"&features=".._tr"]<br />
2:[tag="A"&features=".._ter"][word="ja"|word="või"]1:[tag="A"&<br />
features=".._ter"]<br />
2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&<br />
features=".._ter"]<br />
2:[tag="A"&features=".._es"][word="ja"|word="või"]1:[tag="A"&features=".._es"]<br />
2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&features=".._es"]<br />
2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&<br />
features=".._ab"]<br />
2:[tag="A"&features=".._kom"][word="ja"|word="või"]1:[tag="A"&<br />
features=".._kom"]<br />
2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&<br />
features=".._kom"]<br />
2:[tag="V"&features="n"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />
1:[tag="V"& features="n"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="d"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />
1:[tag="V"& features="d"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="b"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />
1:[tag="V"& features="b"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="me"&lemma!="olema"&word!="ei"][word="ja"|<br />
word="või"]1:[tag="V"& features="me"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="te"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />
1:[tag="V"& features="te"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="vad"&lemma!="olema"&word!="ei"][word="ja"|<br />
word="või"]1:[tag="V"& features="vad"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="ma"&lemma!="olema"&word!="ei"][word="ja"|<br />
word="või"]1:[tag="V"& features="ma"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="da"&lemma!="olema"&word!="ei"][word="ja"|<br />
word="või"]1:[tag="V"& features="da"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="nud"&lemma!="olema"&word!="ei"][word="ja"|<br />
151
word="või"]1:[tag="V"& features="nud"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="tud"&lemma!="olema"&word!="ei"][word="ja"|<br />
word="või"]1:[tag="V"& features="tud"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="des"&lemma!="olema"&word!="ei"][word="ja"|<br />
word="või"]1:[tag="V"& features="des"&lemma!="olema"&word!="ei"]<br />
2:[tag="V"&features="ks"&lemma!="olema"&word!="ei"][word="ja"|<br />
word="või"]1:[tag="V"& features="ks"&lemma!="olema"&word!="ei"]<br />
2:[tag="D"] [word="ja"|word="või"]1:[tag="D"]<br />
2:[tag="K"] [word="ja"|word="või"]1:[tag="K"]<br />
*SYMMETRIC<br />
=kui/nagu<br />
[word!="nii"]1:[tag="S"&features=".._n"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._n"] [tag!="S"]<br />
[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._g"]<br />
[word!="nii"]1:[tag="S"&features=".._p"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._p"]<br />
[word!="nii"]1:[tag="S"&features=".._ill"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._ill"]<br />
[word!="nii"]1:[tag="S"&features=".._in"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._in"]<br />
[word!="nii"]1:[tag="S"&features=".._el"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._el"]<br />
[word!="nii"]1:[tag="S"&features=".._all"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._all"]<br />
[word!="nii"]1:[tag="S"&features=".._ad"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._ad"]<br />
[word!="nii"]1:[tag="S"&features=".._abl"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._abl"]<br />
[word!="nii"]1:[tag="S"&features=".._tr"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._tr"]<br />
[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._ter"]<br />
[word!="nii"]1:[tag="S"&features=".._es"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._es"]<br />
[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._es"]<br />
[word!="nii"]1:[tag="S"&features=".._ab"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._ab"]<br />
[word!="nii"]1:[tag="S"&features=".._kom"][word="kui"|word="nagu"]<br />
2:[tag="S"&features=".._kom"]<br />
152
[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />
features=".._kom"]<br />
[word!="nii"]1:[tag="A"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"]<br />
[tag="Z"]<br />
[word!="nii"]1:[tag="C"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"]<br />
[tag="Z"]<br />
[word!="nii"]1:[tag="U"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"]<br />
[tag="Z"]<br />
[word!="nii"]1:[tag="D"] [word="kui"|word="nagu"]2:[tag="D"] [tag="Z"]<br />
*SYMMETRIC<br />
=kui<br />
[word!="nii"]1:[tag="V"] [word="kui"]2:[tag="V"] [tag="Z"]<br />
*SYMMETRIC<br />
=seriaalkonstruktsioon<br />
2:[tag="V"&features="n"]1:[tag="V"&features="n"]<br />
2:[tag="V"&features="o"]1:[tag="V"&features="o"]<br />
*DUAL<br />
=Adj_modifier/modifies<br />
2:[tag="A"&features=".._n"][tag="A"&features=".._n"]?1:[tag="S"&<br />
features=".._n"]<br />
2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />
features=".._g"]<br />
2:[tag="A"&features=".._p"][tag="A"&features=".._p"]?1:[tag="S"&<br />
features=".._p"]<br />
2:[tag="A"&features=".._ill"][tag="A"&features=".._ill"]?1:[tag="S"&<br />
features=".._ill"]<br />
2:[tag="A"&features=".._in"][tag="A"&features=".._in"]?1:[tag="S"&<br />
features=".._in"]<br />
2:[tag="A"&features=".._el"][tag="A"&features=".._el"]?1:[tag="S"&<br />
features=".._el"]<br />
2:[tag="A"&features=".._all"][tag="A"&features=".._all"]?1:[tag="S"&<br />
features=".._all"]<br />
2:[tag="A"&features=".._ad"][tag="A"&features=".._ad"]?1:[tag="S"&<br />
features=".._ad"]<br />
2:[tag="A"&features=".._abl"][tag="A"&features=".._abl"]?1:[tag="S"&<br />
features=".._abl"]<br />
2:[tag="A"&features=".._tr"][tag="A"&features=".._tr"]?1:[tag="S"&<br />
features=".._tr"]<br />
153
2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />
features=".._ter"]<br />
2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />
features=".._es"]<br />
2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />
features=".._ab"]<br />
2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />
features=".._kom"]<br />
*DUAL<br />
=Adj_modifier/Adj_modifies<br />
1:[tag="A"&lemma!="olnud"]2:[tag="A"&features=".._n"][tag!="S"]<br />
*DUAL<br />
=Adj_comp_modifier/modifies<br />
2:[tag="C"&features=".._n"][tag="C"&features=".._n"]?1:[tag="S"&<br />
features=".._n"]<br />
2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />
features=".._g"]<br />
2:[tag="C"&features=".._p"][tag="C"&features=".._p"]?1:[tag="S"&<br />
features=".._p"]<br />
2:[tag="C"&features=".._ill"][tag="C"&features=".._ill"]?1:[tag="S"&<br />
features=".._ill"]<br />
2:[tag="C"&features=".._in"][tag="C"&features=".._in"]?1:[tag="S"&<br />
features=".._in"]<br />
2:[tag="C"&features=".._el"][tag="C"&features=".._el"]?1:[tag="S"&<br />
features=".._el"]<br />
2:[tag="C"&features=".._all"][tag="C"&features=".._all"]?1:[tag="S"&<br />
features=".._all"]<br />
2:[tag="C"&features=".._ad"][tag="C"&features=".._ad"]?1:[tag="S"&<br />
features=".._ad"]<br />
2:[tag="C"&features=".._abl"][tag="C"&features=".._abl"]?1:[tag="S"&<br />
features=".._abl"]<br />
2:[tag="C"&features=".._tr"][tag="C"&features=".._tr"]?1:[tag="S"&<br />
features=".._tr"]<br />
2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />
features=".._ter"]<br />
2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />
features=".._es"]<br />
2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />
features=".._ab"]<br />
2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />
features=".._kom"]<br />
154
*DUAL<br />
=Adj_sup_modifier/modifies<br />
2:[tag="U"&features=".._n"][tag="U"&features=".._n"]?1:[tag="S"&<br />
features=".._n"]<br />
2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />
features=".._g"]<br />
2:[tag="U"&features=".._p"][tag="U"&features=".._p"]?1:[tag="S"&<br />
features=".._p"]<br />
2:[tag="U"&features=".._ill"][tag="U"&features=".._ill"]?1:[tag="S"&<br />
features=".._ill"]<br />
2:[tag="U"&features=".._in"][tag="U"&features=".._in"]?1:[tag="S"&<br />
features=".._in"]<br />
2:[tag="U"&features=".._el"][tag="U"&features=".._el"]?1:[tag="S"&<br />
features=".._el"]<br />
2:[tag="U"&features=".._all"][tag="U"&features=".._all"]?1:[tag="S"&<br />
features=".._all"]<br />
2:[tag="U"&features=".._ad"][tag="U"&features=".._ad"]?1:[tag="S"&<br />
features=".._ad"]<br />
2:[tag="U"&features=".._abl"][tag="U"&features=".._abl"]?1:[tag="S"&<br />
features=".._abl"]<br />
2:[tag="U"&features=".._tr"][tag="U"&features=".._tr"]?1:[tag="S"&<br />
features=".._tr"]<br />
2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />
features=".._ter"]<br />
2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />
features=".._es"]<br />
2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />
features=".._ab"]<br />
2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />
features=".._kom"]<br />
*DUAL<br />
=ordinal_modifies/modifier<br />
2:[tag="O"] [tag="O"]?1:[tag="S"]<br />
*DUAL<br />
=cardinal_modifies/modifier<br />
2:[tag="N"] [tag="N"]?1:[tag="S"]<br />
*DUAL<br />
=Adj_käändumatu_modifier/modifies<br />
2:[tag="G"]1:[tag="S"]<br />
155
*DUAL<br />
=participle_modifier<br />
[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />
features="nud"]1:[tag="S"]<br />
[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />
features="tud"]1:[tag="S"]<br />
[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />
features="tav"]1:[tag="S"]<br />
[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />
features="mata"]1:[tag="S"]<br />
*DUAL<br />
=omastav_modifier/omastav_modifies<br />
2:[tag="S"&features=".._g"] [tag="A"]{0,2}1:[tag="S"&features!="pl_p"]<br />
*DUAL<br />
=omastav_modifier<br />
[tag!="K"]2:[tag="S"&features=".._g"]1:[tag="A"&features=".._n"]<br />
2:[tag="S"&(lemma="jumal"|lemma="kurat"|lemma="pagan"|lemma="jaanuar"|<br />
lemma="veebruar"|lemma="märts"|lemma="aprill"|lemma="mai"|lemma="juuni"|<br />
lemma="juuli"|lemma="august"|lemma="september"|lemma="oktoober"|<br />
lemma="november"|lemma="detsember"|lemma="esmaspäev"|lemma="teisipäev"|<br />
lemma="kolmapäev"|lemma="neljapäev"|lemma="reede"|lemma="laupäev"|<br />
lemma="pühapäev"|lemma="sajand")&features="sg_g"]1:[tag="D"&<br />
lemma!="kõige"&lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />
lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="just"&<br />
lemma!="kus"&lemma!="miks"&lemma!="millal"&lemma!="ära"&<br />
lemma!="juba"&lemma!="välja"&lemma!="ette"]<br />
*DUAL<br />
=osastav_modifier/osastav_modifies<br />
1:[tag="S"&(lemma="liiter"|lemma="meeter"|lemma="tonn"|lemma="kilo"|<br />
lemma="kilogramm"|lemma="gramm"|lemma="hektar"|lemma="kraad"|<br />
lemma="paar"|lemma="minut"|lemma="veerand"|lemma="kolmveerand"|<br />
lemma="päev"|lemma="aasta"|lemma="sekund"|lemma="tund"|lemma="hetk"|<br />
lemma="jupp"|lemma="jagu"|lemma="grupp"|lemma="nädal"|lemma="hulk"|<br />
lemma="tükk"|lemma="enamus"|lemma="enamik"|lemma="klaas"| lemma="tass"|<br />
lemma="klaasike"|lemma="tassike"|lemma="pudel"|lemma="kann"| lemma="kast"|<br />
lemma="kott"|lemma="hunnik"|lemma="viil"|lemma="sari"|lemma="rühm"|<br />
lemma="purk"|lemma="punt"|lemma="kari"|lemma="parv"|lemma="kimp"|<br />
lemma="ports"|lemma="pakk"|lemma="osa"|lemma="kuhi"|lemma="kiht"|<br />
lemma="rida"|lemma="virn"|lemma="valik")][tag="A"]{0,2}2:[tag="S"&<br />
features=".._p"][tag!="V"]<br />
156
*DUAL<br />
=osastav_modifier<br />
1:[tag="D"&lemma!="veel"&lemma!="juba"&lemma!="ju"&lemma!="ka"&<br />
lemma!="siin"&lemma!="seal"&lemma!="täna"&lemma!="siia"&lemma!="kui"&<br />
lemma!="kas"&lemma!="küll"&lemma!="kus"]2:[tag="S"&features=".._p"]<br />
*DUAL<br />
=sisseütlev_modifier<br />
1:[tag="S"&features!=".._ill"]2:[tag="S"&features=".._ill"] [tag!="V"]?<br />
2:[tag="S"&features=".._ill"]1: [tag="A"]<br />
*DUAL<br />
=seesütlev_modifier<br />
1:[tag="S"&features!=".._in"]2:[tag="S"&features=".._in"] [tag!="V"]?<br />
2:[tag="S"&features=".._in"]1: [tag="A"]<br />
*DUAL<br />
=seestütlev_modifier<br />
2:[tag="S"&features=".._el"]1:[tag="S"]<br />
1:[tag="S"&features!=".._el"]2:[tag="S"&features=".._el"] [tag!="V"]<br />
2:[tag="S"&features=".._el"]1: [tag="A"]<br />
1:[tag="A"&features=".._n"]2:[tag="S"&features=".._el"] [tag!="S"& tag!="V"]<br />
*DUAL<br />
=alaleütlev_modifier<br />
1:[tag="S"&features!=".._all"]2:[tag="S"&features=".._all"] [tag!="V"]?<br />
2:[tag="S"&features=".._all"]1:[tag="A"]<br />
1:[tag="A"&features=".._n"]2:[tag="S"&features=".._all"] [tag!="S"& tag!="V"]<br />
*DUAL<br />
=alalütlev_modifier<br />
1:[tag="S"&features!=".._ad"]2:[tag="S"&features=".._ad"] [tag!="V"]?<br />
2:[tag="S"&features=".._ad"]1:[tag="A"]<br />
1:[tag="A"&features=".._n"]2:[tag="S"&features=".._ad"] [tag!="S"& tag!="V"]<br />
*DUAL<br />
=alaltütlev_modifier<br />
2:[tag="S"&features=".._abl"]1:[tag="S"]<br />
1:[tag="S"&features!=".._abl"]2:[tag="S"&features=".._abl"] [tag!="V"]?<br />
2:[tag="S"&features=".._abl"]1: [tag="A"]<br />
1:[tag="A"&features=".._n"]2:[tag="S"&features=".._abl"] [tag!="S"& tag!="V"]<br />
157
*DUAL<br />
=saav_modifier<br />
2:[tag="S"&features=".._tr"]1:[tag="S"]<br />
1:[tag="S"&features!=".._tr"]2:[tag="S"&features=".._tr"] [tag!="V"]?<br />
2:[tag="S"&features=".._tr"]1: [tag="A"]<br />
2:[tag="S"&features=".._tr"]1:[tag="V"&features="nud"|features="tud"|<br />
features="tav"]<br />
1:[tag="A"&features=".._n"]2:[tag="S"&features=".._tr"] [tag!="S"& tag!="V"]<br />
2:[tag="S"&features=".._tr"]1:[tag="D"&lemma!="kõige"&lemma!="ja"&<br />
lemma!="ka"&lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"&<br />
lemma!="kuidas"&lemma!="just"&lemma!="kus"&lemma!="miks"&<br />
lemma!="millal"&lemma!="ära"&lemma!="juba"&lemma!="välja"&<br />
lemma!="ette"]<br />
*DUAL<br />
=rajav_modifier<br />
1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._ter"] [tag!="V"]?<br />
2:[tag="S"&features=".._ter"]1: [tag="A"]<br />
2:[tag="S"&features=".._ter"]1:[tag="V"&features="nud"|features="tud"|<br />
features="tav"]<br />
2:[tag="S"&features=".._ter"]1:[tag="D"&lemma!="kõige"&lemma!="ja"&<br />
lemma!="ka"&lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"&<br />
lemma!="kuidas"&lemma!="just"&lemma!="kus"&lemma!="miks"&<br />
lemma!="millal"&lemma!="ära"&lemma!="juba"&lemma!="välja"&<br />
lemma!="ette"]<br />
*DUAL<br />
=olev_modifier<br />
2:[tag="S"&features=".._es"]1:[tag="S"]<br />
1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._es"][tag!="V"]?<br />
2:[tag="S"&features=".._es"]1: [tag="A"]<br />
2:[tag="S"&features=features=".._es"]1:[tag="V"&features="nud"|features="tud"|<br />
features="tav"]<br />
*DUAL<br />
=ilmaütlev_modifier<br />
2:[tag="S"&features=".._ab"]1:[tag="S"]<br />
1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._ab"][tag!="V"]?<br />
2:[tag="S"&features=".._ab"]1: [tag="A"]<br />
158
*DUAL<br />
=kaasaütlev_modifier<br />
2:[tag="S"&features=".._kom"]1:[tag="S"&features=".._n"]1:[tag="S"&<br />
features!=".._g"]2:[tag="S"&features=".._kom"][tag!="V"]?2:[tag="S"&<br />
features=".._kom"]1:[tag="D"&lemma!="kõige"&lemma!="ja"&lemma!="ka"&<br />
lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"& lemma!="just"&<br />
lemma!="kuidas"&lemma!="kus"&lemma!="miks"&lemma!="millal"&<br />
lemma!="ära"&lemma!="juba"&lemma!="välja"&lemma!="ette"]<br />
2:[tag="S"&features=".._kom"]1: [tag="A"]<br />
1:[tag="A"&features=".._n"]2:[tag="S"&features=".._kom"] [tag!="S"&tag!="V"]<br />
*DUAL<br />
=Pr_modifier/Pr_modifies<br />
2:[tag="H"&features=".._g"]1:[tag="S"]<br />
*DUAL<br />
=Adv_modifier/N_modifies<br />
2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />
lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />
lemma!="just"&lemma!="kus"&lemma!="kust"&lemma!="kuhu"&<br />
lemma!="miks"&lemma!="millal"&lemma!="mil"&lemma!="nüüd"&<br />
lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />
lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />
lemma!="eks"&lemma!="alla"&lemma!="alt"&lemma!="edasi"&<br />
lemma!="eemale"&lemma!="esile"&lemma!="ette"&lemma!="juurde"&<br />
lemma!="järele"&lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&<br />
lemma!="kõrvale"&lemma!="külge"&lemma!="lahku"&lemma!="lahti"&<br />
lemma!="ligi"&lemma!="läbi"&lemma!="maha"&lemma!="mööda"&<br />
lemma!="otsa"&lemma!="peale"&lemma!="pealt"&lemma!="ringi"&<br />
lemma!="sisse"&lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&<br />
lemma!="täis"&lemma!="vahele"&lemma!="vastu"&lemma!="välja"&<br />
lemma!="ära"&lemma!="üle"&lemma!="üles"&lemma!="üleval"&<br />
lemma!="ümber"&lemma!="täna"&lemma!="eile"&lemma!="homme"&<br />
lemma!="üleeile"&lemma!="ammu"&lemma!="kaua"&lemma!="kauaks"&<br />
lemma!="varsti"&lemma!="sageli"&lemma!="tihti"&word!="harva"&<br />
lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="S"&features=".._n"]<br />
159
DUAL<br />
=Adv_modifier/Adj_modifies<br />
2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />
lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />
lemma!="just"&lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />
lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />
lemma!="eks")]1:[tag="A"] [tag!="S"]<br />
*DUAL<br />
=Adv_modifier/Adv_modifies<br />
2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />
lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />
lemma!="just"&lemma!="kus"&lemma!="kust"&lemma!="kuhu"&<br />
lemma!="miks"&lemma!="millal"&lemma!="mil"&lemma!="nüüd"&<br />
lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />
lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />
lemma!="eks"&lemma!="alla"&lemma!="alt"&lemma!="edasi"&<br />
lemma!="eemale"&lemma!="esile"&lemma!="ette"&lemma!="juurde"&<br />
lemma!="järele"&lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&<br />
lemma!="kõrvale"&lemma!="külge"&lemma!="lahku"&lemma!="lahti"&<br />
lemma!="ligi"&lemma!="läbi"&lemma!="maha"&lemma!="mööda"&<br />
lemma!="otsa"&lemma!="peale"&lemma!="pealt"&lemma!="ringi"&<br />
lemma!="sisse"&lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&<br />
lemma!="täis"&lemma!="vahele"&lemma!="vastu"&lemma!="välja"&<br />
lemma!="ära"&lemma!="üle"&lemma!="üles"&lemma!="üleval"&<br />
lemma!="ümber"&lemma!="täna"&lemma!="eile"&lemma!="homme"&<br />
lemma!="üleeile"&lemma!="ammu"&lemma!="kaua"&lemma!="kauaks"&<br />
lemma!="varsti"&lemma!="sageli"&lemma!="tihti"&word!="harva"&<br />
lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="D"&(lemma!="ja"&<br />
lemma!="ka"&lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"&<br />
lemma!="kuidas"&lemma!="just"&lemma!="kus"&lemma!="miks"&<br />
lemma!="millal")][tag!="V"]<br />
*DUAL<br />
=Adv_modifier/V_modifies<br />
2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />
lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />
lemma!="just"&lemma!="kus"&lemma!="kust"&lemma!="kuhu"&<br />
lemma!="miks"&lemma!="millal"&lemma!="mil"&lemma!="nüüd"&<br />
lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />
lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />
lemma!="eks"&lemma!="alla"&lemma!="alt"&lemma!="edasi"&<br />
lemma!="eemale"&lemma!="esile"&lemma!="ette"&lemma!="juurde"&<br />
lemma!="järele"&lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&<br />
160
lemma!="kõrvale"&lemma!="külge"&lemma!="lahku"&lemma!="lahti"&<br />
lemma!="ligi"&lemma!="läbi"&lemma!="maha"&lemma!="mööda"&<br />
lemma!="otsa"&lemma!="peale"&lemma!="pealt"&lemma!="ringi"&<br />
lemma!="sisse"&lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&<br />
lemma!="täis"&lemma!="vahele"&lemma!="vastu"&lemma!="välja"&<br />
lemma!="ära"&lemma!="üle"&lemma!="üles"&lemma!="üleval"&<br />
lemma!="ümber"&lemma!="täna"&lemma!="eile"&lemma!="homme"&<br />
lemma!="üleeile"&lemma!="ammu"&lemma!="kaua"&lemma!="kauaks"&<br />
lemma!="varsti"&lemma!="sageli"&lemma!="tihti"&word!="harva"&<br />
lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="V"&<br />
lemma!="olema"&word!="ei"&features!="tud"]<br />
*DUAL<br />
=subject/subject_of<br />
2:[tag="S"&features=".._n"][tag="D"]?[word="ei"]?1:[tag="V"&<br />
lemma!="olema"&features!="ta.*"&features!="tu.*"&features!="ti.*"&<br />
features!="da"&features!="nud"&features!="tud"&features!="des"&<br />
features!="ma"&features!="maks"&features!="mas"&features!="mast"&<br />
features!="mata"][tag!="V"&tag!="Х"&word!="alla"&word!="alt"&<br />
word!="edasi"&word!="eemale"&word!="esile"&word!="ette"&word!="juurde"&<br />
word!="järele"&word!="kaasa"&word!="kinni"&word!="kokku"&<br />
word!="kõrvale"&word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"&<br />
word!="läbi"&word!="maha"&word!="mööda"&word!="otsa"&word!="peale"&<br />
word!="pealt"&word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"&<br />
word!="tagasi"&word!="täis"&word!="vahele"&word!="vastu"&word!="välja"&<br />
word!="ära"&word!="üle"&word!="üles"&word!="üleval"&word!="ümber"]<br />
1:[tag="V"&lemma!="olema"&word!="ei"&features!="ta.*"&features!="tu.*"&<br />
features!="ti.*"&features!="da"&features!="nud"]2:[tag="S"&features=".._n"]<br />
[tag!="V"&tag!="Х"&word!="alla"&word!="alt"&word!="edasi"&<br />
word!="eemale"&word!="esile"&word!="ette"&word!="juurde"&word!="järele"&<br />
word!="kaasa"&word!="kinni"&word!="kokku"&word!="kõrvale"&<br />
word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"&word!="läbi"&<br />
word!="maha"&word!="mööda"&word!="otsa"&word!="peale"&word!="pealt"&<br />
word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"&word!="tagasi"&<br />
word!="täis"&word!="vahele"&word!="vastu"&word!="välja"&word!="ära"&<br />
word!="üle"&word!="üles"&word!="üleval"&word!="ümber"]<br />
161
*DUAL<br />
=object/object_of<br />
2:[tag="S"&features=".._n"]1:[tag="V"&(features="ti"|features="takse")]<br />
1:[tag="V"&lemma!="olema"&lemma!="andma"&(features="ge"|features="gem"|<br />
features="gu")]2:[tag="S"&features=".._n"][word!="alla"&word!="alt"&<br />
word!="edasi"&word!="eemale"&word!="esile"&word!="ette"&word!="juurde"&<br />
word!="järele"&word!="kaasa"&word!="kinni"&word!="kokku"&<br />
word!="kõrvale"&word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"&<br />
word!="läbi"&word!="maha"&word!="mööda"&word!="otsa"&word!="peale"&<br />
word!="pealt"&word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"&<br />
word!="tagasi"&word!="täis"&word!="vahele"&word!="vastu"&word!="välja"&<br />
word!="ära"&word!="üle"&word!="üles"&word!="üleval"&word!="ümber"]<br />
1:[tag="V"&word!="ei"&lemma!="olema"&(features!="gem"&features!="ge"&<br />
features!="gu"&features!="neg.*"&features!="nud"&features!="o"&<br />
features!="ta.*"&features!="tu.*"&features!="ti"&features!="ma.*"&<br />
features!="da")][tag="A"]{0,1}[tag="S"&features=".._g"]{0,1}2:[tag="S"&<br />
features=".._g"] [tag="Z"]<br />
1:[tag="V"&lemma!="olema"&lemma!="ei"&features!="nud"&features!="tud"]<br />
2:[tag="S"&features=".._p"][tag!="D"&tag!="K"&tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
2:[tag="S"&features=".._p"]1:[tag="V"&(features="ti"|features="takse")]<br />
*DUAL<br />
=adverbial_sisseütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._ill"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
162
features!="ma.*"]2:[tag="S"&features=".._adt"][tag!="V"&word!="kinni"&<br />
word!="lahti"&word!="kokku"&word!="viltu"&word!="läbi"&word!="maha"]<br />
*DUAL<br />
=adverbial_seesütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._in"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
*DUAL<br />
=adverbial_seestütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._el"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
*DUAL<br />
=adverbial_alaleütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._all"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
163
*DUAL<br />
=adverbial_alalütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._ad"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
*DUAL<br />
=adverbial_alaltütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._abl"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
*DUAL<br />
=adverbial_saav<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._tr"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
164
*DUAL<br />
=adverbial_rajav<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._ter"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
*DUAL<br />
=adverbial_olev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._es"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
*DUAL<br />
=adverbial_ilmaütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._ab"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"& word!="ümber"]<br />
165
*DUAL<br />
=adverbial_kaasaütlev<br />
1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />
features!="des"&features!="da"&features!="vat"&features!="tav"&<br />
features!="ma.*"]2:[tag="S"&features=".._kom"][tag!="V"&tag!="Х"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
*DUAL<br />
=Pron_modifier/modifies<br />
2:[tag="P"&lemma!="see"&lemma!="mina"&lemma!="sina"&lemma!="tema"&<br />
lemma!="meie"&lemma!="teie"&lemma!="nemad"&lemma!="kes"&<br />
lemma!="mis"]1:[tag="S"]<br />
*DUAL<br />
=predicate_N/predicate_N_of<br />
1:[tag="S"&features=".._n"][tag="V"&lemma="olema"][tag="A"&features=".._n"]<br />
?2:[tag="S"& features=".._n"][tag!="H"]<br />
*DUAL<br />
=predicate_Adj/predicate_Adj_of<br />
1:[tag="S"&features=".._n"][tag="V"&lemma="olema"]2:[tag="A"&<br />
features=".._n"][tag!="S"& tag!="V"]?<br />
[tag="V"&lemma="olema"]1:[tag="S"&features=".._n"]2:[tag="A"&<br />
features=".._n"] [tag!="S"]<br />
*DUAL<br />
=predicate_Adj_saav/predicate Adj_saav_of<br />
1:[tag="V"&lemma!="ei"&features!="maks"&features!="mas"&features!="mast"&<br />
features!="mata"&features!="tud"&lemma!="ole.*"][tag="S"]?2:[tag="A"&<br />
features=".._tr"][tag!="V"]<br />
*DUAL<br />
=predicate_Adj_olev/predicate Adj_olev_of<br />
1:[tag="V"&lemma!="ei"&features!="maks"&features!="mas"&features!="mast"&<br />
features!="mata"&features!="tud"&lemma!="ole.*"][tag="S"]?2:[tag="A"&<br />
features=".._es"][tag!="V"]<br />
166
*DUAL<br />
=afiksaaladverb/afiksaaladverb_of<br />
[tag!="V"]*2:[tag="D"&(word="alla"|word="alt"|word="edasi"|word="eemale"|<br />
word="esile"|word="ette"|word="juurde"|word="järele"|word="kaasa"|<br />
word="kinni"|word="kokku"|word="kõrvale"|word="külge"|word="lahti"|<br />
word="ligi"|word="läbi"|word="lahku"|word="maha"|word="mööda"|word="otsa"|<br />
word="peale"|word="pealt"|word="ringi"|word="sisse"|word="taga"|<br />
word="tagant"|word="tagasi"|word="täis"|word="vahele"|word="vastu"|<br />
word="valmis"|word="viltu"|word="välja"|word="ära"|word="üle"|word="üles"|<br />
word="üleval"|word="ümber"|word="valmis"|word="püsti"|word="laiali"|<br />
word="katki"|word="tarvis")]1:[tag="V"&word!="ei"&features!="maks"&<br />
features!="mas"&features!="mast"&features!="mata"&features!="tud"&<br />
lemma!="olema"]<br />
1:[tag="V"&word!="ei"&features!="maks"&features!="mas"&features!="mast"&<br />
features!="mata"&features!="tud"&lemma!="olema"][tag="S"]?2:[tag="D"&<br />
(word="alla"|word="alt"|word="edasi"|word="eemale"|word="esile"|word="ette"|<br />
word="juurde"|word="järele"|word="kaasa"|word="kinni"|word="kokku"|<br />
word="kõrvale"|word="külge"|word="lahti"|word="ligi"|word="läbi"|<br />
word="lahku"|word="maha"|word="mööda"|word="otsa"|word="peale"|<br />
word="pealt"|word="ringi"|word="sisse"|word="taga"|word="tagant"|<br />
word="tagasi"|word="täis"|word="vahele"|word="vastu"|word="valmis"|<br />
word="viltu"|word="välja"|word="ära"|word="üle"|word="üles"|word="üleval"|<br />
word="ümber"|word="valmis"|word="püsti"|word="laiali"|word="katki"|<br />
word="tarvis")][tag!="V"]<br />
*DUAL<br />
=väljendverb/väljendverb<br />
2:[tag="V"&features!="tud"]1:[tag="X"] [tag!="V"]<br />
[tag!="V"]?1:[tag="X"]2:[tag="V"]<br />
*SEPARATEPAGE N_PP<br />
*TRINARY<br />
=N_PP_%s<br />
1:[tag="S"]2:[tag="S"] 3:[tag="K"]<br />
1:[tag="S"] 3:[tag="K"]2:[tag="S"]<br />
*SEPARATEPAGE Adj_PP<br />
*TRINARY<br />
=Adj_PP_%s<br />
1:[tag="A"&features=".._n"]2:[tag="S"&features=".._g"]3:[tag="K"&(word="ees"|<br />
word="eest"|word="järele"|word="peale"|word="poolest"|word="puhul"|<br />
word="seas"|word="suhtes"|word="vastu"|word="üle")] [tag!="S"]<br />
167
*SEPARATEPAGE Adv_PP<br />
*TRINARY<br />
=Adv_PP_%s<br />
2:[tag="S"]3:[tag="K"]1:[tag="D"&lemma!="ja"&lemma!="ka"&lemma!="nii"&<br />
lemma!="kui"&lemma!="kas"&lemma!="veel"&lemma!="kuidas"&<br />
lemma!="just"&lemma!="kus"&lemma!="miks"&lemma!="millal"&<br />
lemma!="alla"&lemma!="alt"&lemma!="edasi"&lemma!="eemale"&<br />
lemma!="esile"&lemma!="ette"&lemma!="juurde"&lemma!="järele"&<br />
lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&lemma!="kõrvale"&<br />
lemma!="külge"&lemma!="lahku"&lemma!="lahti"&lemma!="ligi"&<br />
lemma!="läbi"&lemma!="maha"&lemma!="mööda"&lemma!="otsa"&<br />
lemma!="peale"&lemma!="pealt"&lemma!="ringi"&lemma!="sisse"&<br />
lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&lemma!="täis"&<br />
lemma!="vahele"&lemma!="vastu"&lemma!="välja"&lemma!="ära"&<br />
lemma!="üle"&lemma!="üles"&lemma!="üleval"&lemma!="ümber"&<br />
lemma!="kui"&lemma!="kas"&lemma!="nii"&lemma!="ka"&lemma!="kuidagi"&<br />
lemma!="kas"&lemma!="väga"&lemma!="juba"&lemma!="siis"]<br />
*SEPARATEPAGE V_PP<br />
*TRINARY<br />
=V_PP_%s<br />
1:[tag="V"&features!="maks"&features!="mas"&features!="mast"&<br />
features!="mata"&features!="tud"&features!="nud"&lemma!="olema"&<br />
lemma!="ei"]2:[tag="S"]3:[tag="K"&word!="allapoole"&word!="altpoolt"&<br />
word!="eespool"&word!="enne"&word!="hoolimata"&word!="ilma"&<br />
word!="keset"&word!="kesk"&word!="koos"&word!="kuni"&word!="piki"&<br />
word!="põiki"&word!="päri"&word!="risti"&word!="sealpool"&<br />
word!="sealtpoolt"&word!="seespool"&word!="siiapoole"&word!="siinpool"&<br />
word!="siitpoolt"&word!="sinnapoole"&word!="sissepoole"&word!="teispool"&<br />
word!="teispoole"&word!="tänu"&word!="väljapoole"&word!="väljaspool"&<br />
word!="väljaspoolt"&word!="ülalpool"&word!="ülaltpoolt"&word!="ülespoole"&<br />
word!="ülevalpool"&word!="ülevaltpoolt"&word!="läbi"&word!="mööda"&<br />
word!="tükkis"&word!="ühes"&word!="üle"][tag!="V"&tag!="X"&<br />
word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />
word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />
word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />
word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />
word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />
word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />
word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />
word!="üleval"&word!="ümber"]<br />
168
1:[tag="V"]3:[tag="K"&(word="allapoole"|word="altpoolt"|word="eespool"|<br />
word="enne"|word="hoolimata"|word="ilma"|word="keset"|word="kesk"|<br />
word="koos"|word="kuni"|word="piki"|word="põiki"|word="päri"|word="risti"|<br />
word="sealpool"|word="sealtpoolt"|word="seespool"|word="siiapoole"|<br />
word="siinpool"|word="siitpoolt"|word="sinnapoole"|word="sissepoole"|<br />
word="teispool"|word="teispoole"|word="tänu"|word="väljapoole"|<br />
word="väljaspool"|word="väljastpoolt"|word="ülalpool"|word="ülaltpoolt"|<br />
word="ülespoole"|word="ülevalpool"|word="ülevaltpoolt"|word="läbi"|<br />
word="mööda"|word="tükkis"|word="ühes"|word="üle")]2:[tag="S"][tag!="V"&<br />
tag!="X"&word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&<br />
word!="esile"&word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&<br />
word!="kinni"&word!="kokku"&word!="kõrvale"&word!="külge"&<br />
word!="lahku"&word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&<br />
word!="mööda"&word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&<br />
word!="sisse"&word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&<br />
word!="vahele"&word!="vastu"&word!="välja"&word!="ära"&word!="üle"&<br />
word!="üles"&word!="üleval"&word!="ümber"][tag!="V"]<br />
*SEPARATEPAGE ühendverb<br />
*TRINARY<br />
=PP_%s_ühendverb<br />
[tag!="V"]1:[tag="V"&word!="ei"&features!="maks"&features!="mas"&<br />
features!="mast"&features!="mata"&features!="tud"&lemma!="ole.*"]2:[tag="S"]<br />
3:[tag="D"&(word="alla"|word="alt"|word="edasi"|word="eemale"|word="esile"|<br />
word="ette"|word="juurde"|word="järele"|word="kaasa"|word="kinni"|<br />
word="kokku"|word="kõrvale"|word="külge"|word="lahku"|word="lahti"|<br />
word="ligi"|word="läbi"|word="maha"|word="mööda"|word="otsa"|word="peale"|<br />
word="pealt"|word="ringi"|word="sisse"|word="taga"|word="tagant"|<br />
word="tagasi"|word="täis"|word="vahele"|word="vastu"|word="välja"|word="ära"|<br />
word="üle"|word="üles"|word="üleval"|word="ümber")][tag!="V"]?<br />
169
SUMMARY<br />
SYNTAGMATIC RELATIONSHIPS OF ESTONIAN CONTENT<br />
WORDS IN CORPUS AND PEDAGOGICAL LEXICOGRAPHY<br />
The purpose of this thesis is to provide a methodological framework for corpusbased<br />
lexicographic analysis of the syntagmatic relations of Estonian nouns,<br />
adjectives, adverbs, and verbs and to suggest options for presentation of<br />
syntagmatic information in lexicographic databases and in dictionaries compiled for<br />
learners of Estonian as a second or foreign language.<br />
The Longman Dictionary of Language Teaching and Applied Linguistics (Richards,<br />
Schmidt 2002: 534) defines syntagm as a structurally significant combination of<br />
two or more units in a language and syntagmatic relations as a relationship that<br />
linguistic units (e.g. words, clauses) have with other units because they may occur<br />
together in a sequence. For example, a word may be said to have syntagmatic<br />
relations with the other words which occur in the sentence in which it appears.<br />
In this thesis the syntagmatic relations of Estonian content words are identified on<br />
the basis of traditional (Tauli 1980; EKG 1993; Kerge 2000; Erelt 2003a; Erelt et al.<br />
2007) and formal (Müürisep 2000; Puolakainen 2001; Roosmaa et al. 2001)<br />
Estonian language grammar descriptions. Syntagmatic relations of content words<br />
are described as lexico-grammatical constructions defined by means of<br />
morphosyntactic categories (phrase type, part of speech, inflectional categories).<br />
The structure of the thesis is as follows. An introductory chapter provides an<br />
overview of the general principles and methodology used to research the topic and<br />
evaluate the results. Main aims and objectives are identified.<br />
In the second chapter the methods (statistical and rule-based) used in modern<br />
corpus lexicography for automatic acquisition of syntagmatic relations are analysed.<br />
The main focus is on rule-based method used within the lexicographic tool Sketch<br />
Engine 54 to produce word sketches (one-page automatic, corpus-based summaries<br />
of a word’s grammatical and collocational behaviour) (Kilgarriff et al. 2004). The<br />
main principles of compilation of Estonian sketch grammar (a set of rules that<br />
describe the grammatical relations in a particular language) are outlined.<br />
54 See http://www.sketchengine.co.uk/ (15.10.12). The main features of Sketch Engine are<br />
concordance lines, word sketches, thesaurus (providing a lexicographer with a list of potential<br />
[near] synonyms), Sketchdiff (comparing word sketches for two words, showing the collocations<br />
that they have in common and those they do not) and Good Dictionary Example (GDEX), which<br />
attempts to automatically sort the sentences in a concordance according to how likely they are to<br />
be good dictionary examples (Kilgarriff, Kosem 2012d, see also Kilgarriff et al. 2004, Kilgarriff<br />
et al. 2008).<br />
170
The third chapter provides a list of the syntagmatic relations of Estonian content<br />
words. The sketch grammar used for their acquisition and the system's quantitative<br />
evaluation results are presented.<br />
The fourth chapter explores how advanced features of modern corpus lexicography<br />
have influenced the production of syntagmatic dictionaries and which<br />
methodologies are used for (semi-)automatic generation of lexicographic databases.<br />
Also, various formats for presenting syntagmatic information (mostly constructions<br />
and collocations) are described.<br />
The fifth chapter gives an overview of what kind of information is presented<br />
traditionally in syntagmatic dictionaries of Estonian. Using the example of the<br />
corpus-based active Basic Estonian Dictionary (the dictionary is being compiled for<br />
Estonian language learners at the beginner and lower-intermediate levels) the author<br />
suggests choice criteria for syntagmatic information; develops an innovative model<br />
for a dictionary database which allows systematic description of syntagmatic<br />
relations of headwords; and demonstrates how word sketches can be used for<br />
learners’ dictionary production.<br />
The final chapter presents the most important conclusions of the thesis, addresses<br />
unsolved problems and considers different research perspectives.<br />
For automatic acquisition of lexicographically relevant co-constituents of noun,<br />
verb, adverb and adjective headwords corpus lexicography uses statistical and rulebased<br />
methods. The statistical tools involved are primarily used to identify<br />
collocations and other instances of regularly co-occurring lexical items in a text<br />
corpus. Words located within a certain distance on either side of the word that is<br />
being investigated are retrieved and listed in order of significance (Svensén 2009:<br />
451). Various statistics are used to measure collocational strength. Rule-based<br />
methods are more restrictive. The system deals only with grammatically related cooccurrences.<br />
For Estonian there are two online corpus tools that allow analysis of syntagmatic<br />
relationships. These are Kollokatsioonide tuvastaja 55 and the Estonian module of<br />
Sketch Engine 56 (Kilgarriff et al. 2004). Kollokatsioonide tuvastaja allows a part-ofspeech<br />
filter to be used and provides statistics in order to find statistically<br />
significant co-occurrences. The system identifies salient collocates according to<br />
log-likelihood, mutual information (MI) and minimum sensitivity scores. Sketch<br />
Engine employs both approaches. First, it allows collocates to be identified<br />
according to t-score, MI, MI 3 -score, log-likelihood, minimum sensitivity and<br />
logDice scores. Comparison of various statistics has indicated that useful collocate<br />
candidates for lexicographic analysis are offered by MI 3 -score, minimum sensitivity<br />
55 See http://www.rabauti.ee/clc (20.06.12).<br />
56 Sketch Engine's Estonian module uses the Estonian Reference Corpus of 250 million words as<br />
input. The corpus had previously been annotated morphologically, lemmatized, partially<br />
disambiguated and annotated by clause by Filosoft LLC.<br />
171
and logDice statistics. Collocate candidates offered by MI and t-score are not useful<br />
to lexicographers as many frequent functional words and other noise (punctuation<br />
marks) dominate the list. Secondly, the rule-based method allows the acquisition of<br />
grammatically related statistically significant collocates. Kilgarriff and Kosem<br />
(2012d: 41) define pure statistical methods of finding collocates as “grammatically<br />
blind” and point out that lexicographically interesting collocates are, in most cases,<br />
words occurring in a particular grammatical relation to the node word. In this thesis<br />
a method for generating word sketches that was developed within the Sketch<br />
Engine (Kilgarriff et al. 2004) is implemented. For word sketches to be built, the<br />
system must be told what the grammatical relations are for the language, and where<br />
in the corpus they are instantiated. There are two ways to do this. The input corpus<br />
may already be parsed, with grammatical relations given in the input corpus. The<br />
other way is to define the grammatical relations (compile a sketch grammar), and<br />
parse the corpus, within the tool. To do this, the input corpus must be tagged for<br />
parts of speech. Then each grammatical relation is defined as a regular expression<br />
over part-of-speech tags, using corpus query language (Kilgarriff, Kosem 2012d:<br />
45).<br />
Estonian sketch grammar is geared towards the specification of the Estonian<br />
Reference Corpus and it contains 85 rules.<br />
For nouns the system searches for modifying adjectives, participles, oblique-case<br />
substantives, adverbs, pronouns, prepositional phrases, non-finite verbs and (by<br />
identifying conjunctive words) subordinate clauses.<br />
For adjectives the system searches for modifying adjectives, adverbs, oblique-case<br />
substantives, prepositional phrases, non-finite verbs and (by identifying conjunctive<br />
words) subordinate clauses.<br />
For adverbs the system searches for modifying adverbs, oblique-case substantives,<br />
prepositional phrase and (by identifying conjunctive words) subordinate clauses.<br />
For verbs the system searches for substantives that function as subjects, objects and<br />
adverbials, and also for modifying adjectives, adverbs, prepositional phrases, nonfinite<br />
verbs, gerundives and (by identifying conjunctive words) subordinate clauses.<br />
Multiword verbs: particle verbs (verb + adverb particle, e.g. alla kukkuma ʽfall<br />
downʼ); expression verbs (verb + noun/adjective phrase, e.g. aru saama<br />
ʽunderstandʼ); catenative verbs (verb + non-finite verb, e.g. käima panema ʽstartʼ,<br />
lit. ʽmake [the engine] workʼ); and support verb constructions (e.g. läbirääkimisi<br />
pidama ʽnegotiateʼ) are considered separately.<br />
Since adverbial particles are tagged in the corpus as regular adverbs, a list of<br />
adverbial particles was compiled. The system identifies the most frequent adverbial<br />
particles used with a particular verb. This feature has great value when<br />
lexicographers need to choose what kind of particle verbs should be presented in the<br />
dictionary. Secondly, it is possible to see components of expression verbs on<br />
condition that the component concerned has the part-of-speech tag X. Other<br />
172
components of multiword verbs are identified as objects, adverbials or modifying<br />
non-finite verbs.<br />
Also constructions with conjunctions ja/või ‘and/or’, kui/nagu ‘as’ can be found for<br />
all content words. For nouns the system searches also for predicatives<br />
(complements of the copula-like verb olema ‘be’).<br />
Figure 81 shows the word sketch for the noun diskussioon ‘discussion’.<br />
Figure 81. Word sketch of the noun diskussioon ‘discussion’ in the Estonian<br />
Reference Corpus.<br />
Word Sketch offers the lexicographer the most frequent collocates that occur as<br />
adjectival modifiers (e.g. avalik ʽpublicʼ, poliitiline ʽpoliticalʼ, elav ʽlivelyʼ, tõsine<br />
ʽseriousʼ, pikk ʽlongʼ, avatud ʽopenʼ), various oblique-case substantive modifiers<br />
(e.g. diskussiooni objekt/teema/tulemus ʽobject/topic/result of discussionʼ) and in<br />
the ʽand/orʼ (e.g. diskussioon ja arutelu ʽdiscussion and debateʼ) relation to the<br />
node word. Also identified are relations where the node word functions as subject<br />
and object, e.g. diskussioon käib/tekib/jätkub ʽdiscussion takes<br />
place/starts/continuesʼ, diskussiooni alustama/algatama/jätkama/avama<br />
ʽstart/initiate/continue/open a discussionʼ.<br />
173
As Rundell and Kilgarriff (2011) point out, though originally seen as a useful<br />
supplementary tool, the sketches provide a compact and revealing snapshot of a<br />
wordʼs behaviour and uses and have, in most cases, become the preferred starting<br />
point in the process of analysing complex headwords.<br />
For evaluation of Estonian word sketches the method proposed in Kilgarriff et al.<br />
(2010a) was used. Kilgarriff et al. (2010a: 375) emphasize that the quality of the<br />
word sketches depends on the quality and size of the corpus, lemmatizer, part-ofspeech<br />
tagger, sketch grammar and statistics. The evaluation implicitly evaluates all<br />
components. However, from the user's perspective the evaluation needs to tell<br />
potential users – here, lexicographers – if the system is good enough to help their<br />
task: in this case, making dictionaries.<br />
Precision (the percentage of the answers given that are correct) is calculated as<br />
follows. For a sample of words, for each collocate in the word sketch the<br />
lexicographer has to assess whether a particular collocate is lexicographically<br />
relevant, whether it is useful for lexicographic analysis of the word's collocational<br />
and grammatical behaviour or not. A customised version of the Sketch Engine was<br />
prepared, in which word sketches contained 20 collocates for each word, and in<br />
which each collocate was associated with a menu with the item good or bad. A<br />
screenshot of the interface is shown in Figure 82.<br />
174
Figure 82. Screenshot of word sketch evaluatorsʼ interface.<br />
Seven lexicographers from the Institute of the Estonian Language were asked to<br />
assess word sketches. The total number of collocations assessed by all evaluators<br />
was 320.<br />
The analysis of evaluation revealed that all evaluators agreed that 70% (222<br />
collocates) were good and 22% (71 collocates) were bad. While 8% (27 collocates)<br />
were assessed as good by the majority of evaluators, some lexicographers<br />
considered them bad. This means that two thirds or more of collocations were<br />
assessed by lexicographers as lexicographically relevant. Sources of bad collocates<br />
175
were part-of-speech tagging, lemmatization errors and multiword items. Where<br />
lexicographers did not agree was mostly on collocates which had very contextspecific<br />
markedness and were very frequent in particular subcorpora. This<br />
explanatory remark emphasizes the importance of corpus size and coverage.<br />
As Paquot (2012: 164–165) states, using corpora as the basis for the description of<br />
words and phrases has become widely established as state-of-the-art dictionary<br />
making practice in pedagogical lexicography. Lexicographers have made use of<br />
corpus data to select the words they want to include in a learners’ dictionary,<br />
describe their meaning and illustrate their preferred environment in context.<br />
In modern corpus-based pedagogical lexicography there is a clear tendency towards<br />
automatic generation of entries (Kilgarriff et al. 2008). Another tendency is towards<br />
direct transfer of collocations from corpus tool to dictionary entry (Kilgarriff,<br />
Kosem 2012d). Strong connection between corpus tools and dictionary writing<br />
systems has also influenced the way syntagmatic relations are analysed and<br />
described in corpus-based syntagmatic dictionaries.<br />
According to Svensén (2009: 30) the syntagmatic information provided in a<br />
dictionary is concerned with the behaviour of the lemma in combination with other<br />
words, both grammatically and lexically, and syntagmatic dictionaries are<br />
concerned with the relations between lexical items and other items with which they<br />
can be combined. In dictionary typology proposed by Bo Svensén (2009: 30) there<br />
are three main types of syntagmatic dictionary: construction or valency dictionaries,<br />
collocation dictionaries and idiom dictionaries. As Hunston and Francis (2000: 28)<br />
point out, the traditional description of English makes a clear separation between<br />
lexis and grammar. This issue is also reflected in Svensénʼs (2009: 30) typology.<br />
On the other hand, Sinclair (1991: 114) insists that the evidence of corpuslinguistics<br />
points to the falsity of the distinction between lexis and grammar.<br />
Sinclairʼs ideas were developed by different scholars who proposed to describe<br />
language not in terms of grammar and lexis, but in terms of lexico-grammatical<br />
patterns. Hunston and Francis (2000: 32) define the patterns of a word as all the<br />
words and structures which are regularly associated with the word and which<br />
contribute to its meaning. A pattern can be identified if a combination of words<br />
occurs relatively frequently, if it is dependent on a particular word choice, and if<br />
there is a clear meaning associated with it. The same strategy is used in modern<br />
pedagogical dictionaries of English collocations, e.g. in the Macmillan Collocations<br />
Dictionary for Learners of English (2012). In this dictionary the various collocates<br />
within each entry (or sub-entry) are grouped in the first instance according to the<br />
lexico-grammatical structure formed by the collocational phrase. These structures<br />
are indicated by brief labels, with capital letters representing the base item (the<br />
headword) within each phrase. At the entry for the noun design, for example, the<br />
lexico-grammatical groups or collocational patterns are adj+N and N+n (Coffey<br />
2011: 329). The use of such kinds of collocational pattern eliminates the necessity<br />
to analyse grammatical and lexical items separately.<br />
176
Another essential feature of modern pedagogical lexicography is the use of<br />
multifunctional lexicographic databases, which allow each item to be analysed from<br />
different points of view. The Tono 2011 collocation database not only provides<br />
information about frequency and collocation statistics, but also shows on which<br />
CEFR (Common European Framework of Reference for Languages) level a<br />
particular item should be used and whether or not collocation is presented in junior<br />
high school English textbooks in Japan. This approach makes the information<br />
presented in syntagmatic dictionaries more manageable, more reliable and more<br />
finely adjusted to target usersʼ needs.<br />
At the moment there are no syntagmatic specialized dictionaries of Estonian<br />
language which would provide information about grammatical and collocational<br />
properties of lexemes of different parts of speech. A brief overview of the kind and<br />
manner of syntactic information in Estonian language dictionaries is presented in<br />
Langemets et al. (2005: 72). The authors emphasize that syntactic constructions<br />
have been described in several Estonian dictionaries, but mostly implicitly, by<br />
means of case examples, as no general syntactic encoding system has yet been<br />
elaborated. However, there are a few specialized dictionaries which explicitly<br />
provide information about government patterns (e.g. Pool 1999; Vaiss 2004; UNG-<br />
EE 2010; Mäearu 2011). An analysis of government patternsʼ presentation formats<br />
revealed that information is presented either in coded metalanguage or by means of<br />
dead examples. A dead example is an invented example containing only those<br />
elements that are indispensable for conveying the grammatical information<br />
(Svensén 2009: 147). Mostly cases, infinitives and prepositional phrases are used<br />
(e.g. õnnelik mille üle ʽhappy with sthʼ). As a rule all syntactic information is also<br />
illustrated on the level of authentic or adapted examples.<br />
Analysis of the information which is typically presented in Estonian L2 dictionary<br />
entries (see also Kallas, Tuulik 2011) indicated that lexicographers of the Estonian<br />
language as a second language need to elaborate a new format for explicit<br />
presentation of syntagmatic information in dictionary entries.<br />
In the thesis a theoretical conception of a Basic Estonian Dictionary is presented. It<br />
is a comprehensive print and online dictionary of contemporary Estonian compiled<br />
for learners of Estonian as a second or foreign language (A2, B1 proficiency level).<br />
In order to support the development of lexical and grammatical competence the<br />
dictionary aims to present explicitly syntagmatic relations of Estonian substantives,<br />
adjectives, adverbs and verbs.<br />
The author proposes basic principles that should be considered while compiling<br />
learner dictionaries of Estonian as a second or foreign language. First, there is a<br />
need to take into consideration the basic linguistic competence components<br />
described by the CEFR (Hausenberg et al. 2008; Ilves 2008). The CEFR<br />
emphasizes the importance of government patterns, collocations and phrasal verbs.<br />
Secondly, in order to guarantee the suitability of a dictionary profile for users of a<br />
certain linguistic proficiency, there is a need to use existing vocabulary profile<br />
descriptions. Finally, statistical information can be very useful. Statistics provide<br />
177
evidence that while compiling dictionaries for basic users, it is reasonable to choose<br />
constructions on the basis of raw co-occurrence. Sorting collocations according to<br />
salience brings forward a greater number of rare collocates that may be more<br />
appropriate for independent and proficient users.<br />
The database of the Basic Estonian Dictionary is organized into several fields:<br />
lemma, pronunciation, inflectional information, definition, word formation,<br />
government, collocation, multiword patterns and semantically related words<br />
(synonyms, antonyms).<br />
The government pattern field contains data about the government pattern together<br />
with attributes for the type of government (object, case, adposition, infinitive<br />
government, etc.), as well as position of the complements, obligatory complements<br />
and complementation variability. For example, mitu ʽmanyʼ requires object<br />
government of keda-mida ʽsb-sth-Pʼ as in the usage example: Mitu last sul on?<br />
ʽHow many children do you have?ʼ; kukkuma ʽto fall downʼ is described by the<br />
pattern (kust) + kuhu meaning that the complement kuhu ʽwhere-ILLʼ is obligatory<br />
while kust ʽwhere-ELAʼ is optional as in the example: Kivi kukkus vette ʽThe stone<br />
fell into the waterʼ.<br />
The collocation pattern field contains data about the collocation pattern together<br />
with attributes for the type of the collocation. Collocation patterns are described by<br />
means of categorical and functional-relational labels. For example, the collocation<br />
ajakirja tellima ʽto subscribe to a journalʼ belongs to the N(O)+V (ʽNoun (object) +<br />
Verbʼ) type of the collocation as in the usage example of Ta tellib välismaalt<br />
teaduslikke ajakirju ʽajakiri-PL.Pʼ ʽHe/She subscribes to scientific journals from<br />
abroadʼ ʽjournal-PL.Pʼ.<br />
The multiword pattern field is meant for the presentation of particle, expression and<br />
catenative verbs, and support verb constructions.<br />
In the thesis the author shows how the most frequent government and collocational<br />
patterns can be identified on the basis of word sketches. Also, the potential of word<br />
sketches for syntax-semantic interface is analysed. Using the example of the verb<br />
saabuma, ʽarriveʼ the author illustrates a method developed for verb meaning<br />
analysis, division into senses and identifying the semantic roles of dependents.<br />
In conclusion it should be emphasized that corpus lexicography is quite a young<br />
scientific discipline which has great potential for development. The symbiosis of<br />
corpus and pedagogical lexicography is certainly one of the most promising fields<br />
for future research.<br />
178
ELULOOKIRJELDUS<br />
Nimi: Jelena Kallas<br />
Sünniaeg ja -koht: 21. oktoober 1976, Narva<br />
Kodakondsus: Eesti<br />
Haridus<br />
2011 täiendkoolitus: 16.–17.03.2011 Brighton, Inglismaa<br />
2010 täiendkoolitus: 06.–11.06.2010 Ljubljana Ülikool, Sloveenia<br />
2002 täiendkoolitus: 15.–19.07.2002 Brightoni Ülikool, Inglismaa<br />
2003–2013 Tallinna Ülikool, doktoriõpe<br />
2000–2003 Tallinna Pedagoogikaülikool, Magister artium kraad eesti keele<br />
erialal<br />
1996–2000 Tallinna Pedagoogikaülikool, Baccalaureus artium kraad eesti keele<br />
kui võõrkeele ja kultuuriloo erialal; lisaeriala põhikooli inglise keele<br />
õpetaja<br />
Teenistuskäik<br />
05.01.2011– Eesti Keele Instituut, teadur<br />
01.04.2010–05.01.2011 Eesti Keele Instituut, leksikograaf<br />
2003–05.01.2011 Eesti Keele Instituut, erakorraline teadur<br />
2000–2003 Eesti Keele Instituut, assistent<br />
Teadustegevus<br />
Põhilised uurimisvaldkonnad on teoreetiline ja praktiline leksikograafia, eesti keele<br />
kui teise keele õpetamise metoodika.<br />
Eesti Rakenduslingvistika Ühingu ja rahvusvahelise leksikograafide ühingu<br />
EURALEX liige.<br />
179
CURRICULUM VITAE<br />
Name: Jelena Kallas<br />
Date and place of birth: 21 October, 1976, Narva<br />
Citizenship: Estonian<br />
Education<br />
2011 2nd International Sketch Engine Workshop, 16.–17.03.2011<br />
Brighton, England<br />
2010 Lexicom International Workshop in Lexicography and Lexical<br />
Computing, 06.–11.06.2010 Ljubljana University, Slovenia<br />
2002 Lexicom International Workshop in Lexicography and Lexical<br />
Computing, 15.–19.07.2002 Brighton University, England<br />
2003–2013 Tallinn University, PhD studies<br />
2000–2003 Tallinn Pedagogical University, MA studies (specialisation:<br />
Estonian Philology)<br />
1995–2000 Tallinn Pedagogical University, BA studies (specialisation:<br />
Estonian Philology)<br />
Employment<br />
05.01.2011– Institute of the Estonian Language, researcher<br />
01.04.2010–05.01.2011 Institute of the Estonian Language, lexicographer<br />
2003–05.01.2011 Institute of the Estonian Language, extraordinary researcher<br />
2000–2003 Institute of the Estonian Language, assistant<br />
Research activity<br />
Field of research: theoretical and practical lexicography, Estonian as a Second<br />
Language teaching methodology.<br />
Member of the Estonian Association for Applied Linguistics and of the European<br />
Association for Lexicography (EURALEX).<br />
180
TALLINNA ÜLIKOOL<br />
HUMANITAARTEADUSTE DISSERTATSIOONID<br />
TALLINN UNIVERSITY<br />
DISSERTATIONS ON HUMANITIES<br />
1. СЕРГЕЙ ДОЦЕНКО. Проблемы поэтики А. М. Ремизова. Автобиографизм как<br />
конструктивный принцип творчества. Таллинн: Изд-во ТПУ, 2000. 162 стр. Таллиннский<br />
педагогический университет. Диссертации по гуманитарным наукам, 1. ISSN<br />
1406-4391. ISBN 9985-58-135-0.<br />
2. MART KIVIMÄE. Ajaloomõtlemise kolm strateegiat ja nende dialoogisuhted minevikuga<br />
(lisades tõlgitud R. Koselleck, J. Rüsen, E. Nolte). Historismi muutumise, arendamise,<br />
ületamise probleemid. Tallinn: TPÜ kirjastus, 2000. 201 lk. Tallinna Pedagoogikaülikool.<br />
Humanitaarteaduste dissertatsioonid, 2. ISSN 1406–4391. ISBN 9985-58-164-4.<br />
3. НАТАЛЬЯ НЕЧУНАЕВА. Минея как тип славяно–греческого средневекового<br />
текста. Таллинн: Изд-во ТПУ, 2000. 177 стр. Таллиннский педагогический<br />
университет. Диссертации по гуманитарным наукам, 3. ISSN 1406-4391. ISBN<br />
9985-58-125-3.<br />
4. ОЛЕГ КОСТАНДИ. Раннее творчество В. Каверина как литературный и<br />
культурный феномен. Таллин: Изд-во ТПУ, 2001. 142 стр. Таллиннский<br />
педагогический университет. Диссертации по гуманитарным наукам, 4. ISSN 1406–<br />
4391. ISBN 9985-58-180-6.<br />
5. LAURI LINDSTRÖM. Album Academicum Universitatis Tartuensis 1918–1944. Rahvus,<br />
sugu, sünnikoht ja keskhariduse omandamise koht üliõpilaskonna kujunemist ja<br />
kõrghariduse omandamist mõjutavate teguritena. Tallinn: TPU Press, 2001. 92 p. Tallinn<br />
Pedagogical University. Dissertations on Humanities Sciences, 5. ISSN 1406-4391. ISBN<br />
9985-58-190-3.<br />
6. AУРИКA MEЙMPE. Руccкиe литератoры-эмигрaнmы в Эcmoнии 1918–1940. Нa<br />
матepиaлe пеpиoдическoй печaти. Таллин: Изд-во ТПУ, 2001. 165 стр.<br />
Таллиннский педагогический университет. Диссертации по гуманитарным<br />
наукам, 6. ISSN 1406-4391. ISBN 9985-58-205-5.<br />
7. AIVAR JÜRGENSON. Siberi eestlaste territoriaalsus ja identiteet. Tallinn: TPÜ<br />
kirjastus, 2002. 312 lk. Tallinna Pedagoogikaülikool. Humanitaarteaduste<br />
dissertatsioonid, 7. ISSN 1406–4391. ISBN 9985-58-239-X.<br />
8. DAVID VSEVIOV. Kirde-Eesti urbaanse anomaalia kujunemine ning struktuur<br />
pärast Teist maailmasõda Tallinn: TPÜ kirjastus, 2002. 104 lk. Tallinna<br />
Pedagoogikaülikool. Humanitaarteaduste dissertatsioonid, 8. ISSN 1406-4391. ISBN<br />
9985-58-242-X.<br />
9. ROMAN KALLAS. Eesti kirjanduse õpetamise traditsioon XX sajandi vene õppekeelega<br />
koolis. Tallinn: TPÜ kirjastus, 2003. 68 lk. Tallinna Pedagoogikaülikool.<br />
Humanitaarteaduste dissertatsioonid, 9. ISSN 1406–4391. ISBN 9985-58-256-X.<br />
181
10. KRISTA KERGE. Keele variatiivsus ja mine-tuletus allkeelte süntaktilise keerukuse<br />
tegurina. Tallinn: TPÜ kirjastus, 2003. 246 lk. Tallinna Pedagoogikaülikool.<br />
Humanitaarteaduste dissertatsioonid, 10. ISSN 1406-4391. ISBN 9985-58-265-9.<br />
11. АННА ГУБЕРГРИЦ. Русская драматургия для детей как элемент субкультуры:<br />
1920–1930-е годы. Таллинн: Изд-во ТПУ, 2004. 168 стр. Таллиннский<br />
педагогический университет. Диссертации по гуманитарным наукам, 11. ISSN 1406–<br />
4391. ISBN 9985-58-302-7.<br />
12. VAHUR MÄGI. Inseneriühendused Eesti riigi ülesehituses ja kultuuriprotsessis (1918–<br />
1940). Tallinn: TPÜ kirjastus, 2004. 146 lk. Tallinna Pedagoogikaülikool.<br />
Humanitaarteaduste dissertatsioonid, 12. ISSN 1406-4391. ISBN 9985-58-344-2.<br />
13. HEIKKI OLAVI KALLIO. Suomen ja Viron tiedesuhteet erityisesti Viron<br />
miehitysaikana vuosina 1940–1991. Tallinn: Tallinnan Pedagogisen Yliopiston<br />
kustantamo, 2004. 243 lk. Tallinnan Pedagogisen Yliopiston. Humanististen tieteiden<br />
väitöskirjat, 13. ISSN 1406-4391. ISBN 9985-58-350-7.<br />
14. ÜLLE RANNUT. Keelekeskkonna mõju vene õpilaste eesti keele omandamisele ja<br />
integratsioonile Eestis. Tallinn: TLÜ kirjastus, 2005. 215 lk. Tallinna Ülikool.<br />
Humanitaarteaduste dissertatsioonid, 14. ISSN 1406-4391. ISBN 9985-58-394-9.<br />
15. MERLE JUNG. Sprachspielerische Texte als Impulse für schriftliche Textproduktion im<br />
Bereich Deutsch als Fremdsprache. Tallinn: Verlag der Universität Tallinn, 2006. 186<br />
S. Universität Tallinn. Dissertationen in den Geisteswissenschaften, 15. ISSN 1406-<br />
4391. ISBN 9985-58-409-0<br />
16. ANDRES ADAMSON. Hertsog Magnus von Holmsteini roll Läänemere-ruumis<br />
Liivi sõja perioodil. Tallinn: TLÜ kirjastus, 2005. 156 lk. Tallinna Ülikool. Humanitaarteaduste<br />
dissertatsioonid, 16. ISSN 1736-3624. ISBN 9985-58-427-9.<br />
17. АИДА ХАЧАТУРЯН. Роман В.С. Маканина «Андеграунд, или Герой нашего<br />
времени»: Homo urbanis в поле «усреднения». Таллинн: Изд-во ТПУ, 2006. 146 стр.<br />
Таллиннский педагогический университет. Диссертации по гуманитарным<br />
наукам, 17. ISSN 1736–3624. ISBN-10 9985-58-435-X. ISBN-13 987-9985-58-435-4.<br />
18. JULIA TOFANTŠUK. Construction of Identity In The Fiction of Contemporary British<br />
Women Writers (Jeanette Winterson, Meera Syal, and Eva Figes). Tallinn: Tallinn<br />
University Press, 2001. 160 p. Tallinn University. Dissertations on Humanities Sciences,<br />
18. ISSN 1736-3624. ISBN 978-9985-58-479-8.<br />
19. REILI ARGUS. Eesti keele muutemorfoloogia omandamine. Tallinn: TLÜ kirjastus,<br />
2007. 242 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 19. ISSN 1736-<br />
3624. ISBN 978-9985-58-543-6.<br />
20. ÕNNE KEPP. Identiteedi suundumusi Eesti luules. Tallinn: TLÜ kirjastus, 2008.<br />
222 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 20. ISSN 1736-3624.<br />
ISBN 978-9985-58-574-0.<br />
21. ANNELI KÕVAMEES. Itaalia eesti reisikirjades: Karl Ristikivi „Itaalia<br />
Capriccio” ja Amée Beekmani „Plastmassist südamega madonna”. Tallinn: TLÜ<br />
kirjastus, 2008. 141 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 21. ISSN<br />
1736-3624. ISBN 978-9985-58-543-6.<br />
22. ENE ALAS. The English Language National Examination Validity Defi ned By Its Oral<br />
Profi ciency Interview Interlocutor Behaviour. Tallinn: Tallinn University, 2010. 232 p.<br />
182
Tallinn University. Dissertations on Humanities Sciences, 22. ISSN 1736-3621. ISBN 978-<br />
9949-463-03-9.<br />
23. MERLE TALVIK. Ajakirjagraafi ka 1930. aastate Eestis: Stereotüübid ja ideoloogia.<br />
Tallinn: Tallinna Ülikool, 2010. 203 lk. Tallinna Ülikool. Humanitaarteaduste<br />
dissertatsioonid, 23. ISSN 1736-3624. ISBN 978-9949-463-31-2.<br />
24. TÕNIS LIIBEK. Fotograafiakultuur Eestis 1839-1895. Tallinn: Tallinna Ülikool, 2010. 286<br />
lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 24. ISSN 1736-24. ISBN 978-<br />
9949-463-52-7.<br />
25. HEETE SAHKAI. Teine grammatika. Eesti keele teonimede süntaks<br />
konstruktsioonipõhises perspektiivis. Tallinn. Tallinna Ülikool, 2011. 182 lk. Tallinna<br />
Ülikool. Humanitaarteaduste dissertatsioonid, 25. ISSN 1736-3624. ISBN 978-9949-463-<br />
98-5.<br />
26. MAARJA VAINO. Irratsionaalsuse poeetika A. H. Tammsaare loomingus. Tallinn.<br />
Tallinna Ülikool, 2011. 181 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid,<br />
26. ISSN 1736-3624. ISBN 978-9949-29-017-8.<br />
27. ANNIKA KILGI. Tõlkekeele dünaamika piibli esmaeestinduse käigus: verbi<br />
morfosüntaksi areng ja lõplik toimetamisfaas. Tallinn. Tallinna Ülikool, 2012. 222 lk.<br />
Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 27. ISSN 1736-3624. ISBN 978-<br />
9949-29-050-5.<br />
28. ELVIRA KÜÜN. Dissertatsioon esitatud kaitsmisele.<br />
29. PEETER KAASIK. Nõukogude Liidu sõjavangipoliitika Teise maailmasõja ajal ja<br />
sõjajärgsetel aastatel: sõjavangide kinnpidamissüsteem Eesti näitel ja hinnang<br />
sõjavangide kohtlemisele rahvusvahelise õiguse järgi. Tallinn. Tallinna Ülikool, 2012.<br />
631 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 29. ISSN 1736-3624.<br />
ISBN 978-9949-29-055-0.<br />
30. KADRI SEMM. Milieus in Neighbourhood Place-Making. Tallinn. Tallinna Ülikool,<br />
2012. 210 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 30. ISSN 1736-<br />
3624. ISBN 978-9949-29-066-6.<br />
31. AVE MATTHEUS. Eesti laste- ja noortekirjanduse genees: küsimusepüstitusi ja<br />
uurimisperspektiive. Tallinn. Tallinna Ülikool, 2012. 260 lk. Tallinna Ülikool.<br />
Humanitaarteaduste dissertatsioonid, 31. ISSN 1736-3624. ISBN 978-9949-29-070-3.<br />
ILMUNUD VEEBIVÄLJAANDENA<br />
http://e-ait.tlulib.ee/<br />
1. ИННА АДАМСОН. Модальный смысл дезидеративности: от семантической<br />
зоны к семантической типологии высказываний (на материале русского языка).<br />
Таллинн: Изд-во ТЛУ, 2006. 131 стр. Таллиннский педагогический университет.<br />
Диссертации по гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-455-2.<br />
2. MARIS SAAGPAKK. Deutschbaltische Autobiographien als Dokumente des zeit- und<br />
selbstempfindens: vom ende des 19. Jh. Bis zur umsiedlung 1939. Tallinn: Verlag der<br />
Universität Tallinn, 2006. 163 S. Universität Tallinn. Dissertationen in den<br />
Geisteswissenschaften. ISSN 1736-5031. ISBN 978-9985-58-469-9.<br />
3. JANIS EŠOTS.Mullā Sadrā’s Teaching on Wujūd: A Synthesis of Mysticism and<br />
Philosophy. Tallinn: Tallinn University Press, 2007. 150 p. Tallinn University.<br />
Dissertations on Humanities Sciences. ISSN 1736-5031. ISBN 978-9985-58-492-7.<br />
183
4. ГРИГОРИЙ УТГОФ. Проблема синтактического темпа. Таллинн: Изд-во ТЛУ,<br />
2007. 145 стр. Таллиннский педагогический университет. Диссертации по<br />
гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-507-8.<br />
5. ДИМИТРИЙ МИРОНОВ. Глагольность в сфере имен: к проблеме семантического<br />
описания девербативов (на материале русского языка). Изд-во ТЛУ, 2008. 98 стр.<br />
Таллиннский педагогический университет. Диссертации по гуманитарным наукам.<br />
ISSN 1736-5031. ISBN 978-9985-58-563-4<br />
6. INNA PÕLTSAM-JÜRJO. Liivimaa väikelinn varase uusaja lävel. Uurimus Uus-Pärnu<br />
ajaloost 16. sajandi esimesel poolel. Tallinn: TLÜ kirjastus, 2008. 257 lk. Tallinna<br />
Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-570-2.<br />
7. TIIT LAUK. Džäss Eestis 1918–1945. Tallinn: TLÜ kirjastus, 2008. 207 lk. Tallinna<br />
Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-594-8.<br />
8. ANDRES ADAMSON. Hertsog Magnus ja tema “Liivimaa kuningriik”. Tallinn: TLÜ<br />
kirjastus, 2009. 173 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN<br />
1736-5031. ISBN 978-9985-58-615-0.<br />
9. ОЛЕСЯ ЛАГАШИНА. Марк Алданов и Лев Толстой: к проблеме рецепции.<br />
Таллинн: Изд-во ТЛУ, 2009. 151стр. Таллиннский педагогический университет.<br />
Диссертации по гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-654-9.<br />
10. MARGIT LANGEMETS. Nimisõna süstemaatiline polüseemia eesti keeles ja selle<br />
esitus eesti keelevaras. Tallinn: TLÜ kirjastus, 2009. 259 lk. Tallinna Ülikool.<br />
Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-651-8.<br />
11. LEO LUKS. Ei kogemine nihilismi mõtlemises filosoofia ja kirjanduse ühtesulamisel.<br />
Tallinn. Tallinna Ülikool, 2010. 147 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid.<br />
ISSN 1736-5031. ISBN 978-9949-463-55-8.<br />
12. JELENA RUDNEVA. Сказание о черноризском чине" Кирилла Туровского: опыт<br />
лингвотекстологического исследования. Tallinn. Tallinna Ülikool, 2011. 227 lk.<br />
Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-<br />
9949-463-92-3.<br />
13. ELO LINDSALU. Naisekuju modelleerimine XX sajandi alguskümnendite eesti<br />
kirjanduses. Tallinn. Tallinna Ülikool, 2012. 236 lk. Tallinna Ülikool.<br />
Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9949-29-024-6.<br />
14. ANTON KÜÜNAL. Специфика оперного либретто как текста: на примере опер<br />
на библейские сюжеты (Россия вторая половина XIX b.) Tallinn. Tallinna Ülikool,<br />
2012. 234 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031.<br />
ISBN 978-9949-29-069-7.<br />
15. EINAR VÄRÄ. Kaubandussidemed Soome suurvürstiriigi ja Eesti alade vahel aastail<br />
1809–1865. Tallinn. Tallinna Ülikool, 2012. 158 lk. Tallinna Ülikool.<br />
Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9949-29-072-7.<br />
DISSERTATSIOONINA KAITSTUD MONOGRAAFIAD<br />
(ilmunud iseseisva väljaandena)<br />
1. ANNE VALMAS. Eestlaste kirjastustegevus välismaal 1944–2000. I-II. Tallinn: Tallinna<br />
Pedagoogikaülikooli kirjastus, 2003. 205, 397 lk. Tallinna Pedagoogikaülikool. ISBN 9985-<br />
58-284-5. ISBN 9985-58-285-3.<br />
184
2. ANNE LANGE. Ants Oras. Monograafia. Tartu: Ilmamaa, 2004. 493 lk. ISBN 9985-77-<br />
163-X.<br />
3. KATRI AASLAV-TEPANDI. Eesti näitlejanna Erna Villmer. Monograafia. Tallinn:<br />
Eesti Teatriliit, 2007. 495 lk. ISBN 78-9985-860-41-0.<br />
4. KRISTA ARU. Üks kirg, kolm mõõdet. Peatükke eesti toimetajakesksest ajakirjandusest:<br />
K. A. Hermann, J. Tõnisson, K. Toom. Monograafia. Tartu: Eesti Kirjandusmuuseumi<br />
Teaduskirjastus 2008. 479 lk ISBN 9789949446254.<br />
185