Download (9Mb) - E-Ait

TALLINNA ÜLIKOOL 

HUMANITAARTEADUSTE DISSERTATSIOONID 

TALLINN UNIVERSITY 

DISSERTATIONS ON HUMANITIES 

32 

1

JELENA KALLAS 

EESTI KEELE SISUSÕNADE SÜNTAGMAATILISED 

SUHTED KORPUS- JA ÕPPELEKSIKOGRAAFIAS 

Tallinn 2013 

3





32 

Jelena Kallas 

EESTI KEELE SISUSÕNADE SÜNTAGMAATILISED SUHTED KORPUS- JA 

ÕPPELEKSIKOGRAAFIAS 

Eesti Keele ja Kultuuri Instituut, Tallinna Ülikool, Tallinn, Eesti 

Dissertatsioon on lubatud kaitsmisele filosoofiadoktori (lingvistika) kraadi taotlemiseks 

Tallinna Ülikooli humanitaarteaduste doktorinõukogu poolt 4. veebruaril 2013. aastal 

Juhendajad: Asta Õim, filosoofiadoktor, Eesti Kirjandusmuuseumi vanemteadur 

Margit Langemets, filosoofiadoktor, Eesti Keele Instituudi teadur 

Oponendid: Raili Pool, filosoofiadoktor, Tartu Ülikooli lektor 

Kadri Muischnek, filosoofiadoktor, Tartu Ülikooli dotsent 

Kaitsmine toimub 4. aprillil 2013. aastal algusega kell 12 Tallinna Ülikooli auditooriumis 

A-242, Narva mnt 29, Tallinn 

Doktoritöö valmimist on toetanud Euroopa Sotsiaalfondi projekt „Doktorikool: keeleteadus, 

filosoofia, semiootika” ning doktoriõppe ja rahvusvahelistumise programm „DoRa” 

Autoriõigus: Jelena Kallas, 2013 

Autoriõigus: Tallinna Ülikool, 2013 

ISSN 1736-3624 (trükis) 

ISBN 978-9949-29-078-9 (trükis) 

ISSN 1736-5031 (online, pdf) 

ISBN 978-9949-29-079-6 (online, pdf) 

Tallina Ülikool 

Narva mnt 25 

10120 Tallinn 

www.tlu.ee 

4

SISUKORD 

DISSERTANDI TEEMAKOHASED PUBLIKATSIOONID ................................................ 7 

EESSÕNA ............................................................................................................................... 8 

LÜHENDID ............................................................................................................................ 9 

1. SISSEJUHATUS ............................................................................................................... 10 

1.1. Töö eesmärgid ........................................................................................................... 13 

1.2. Analüüsimaterjal ja uurimismeetodid ........................................................................ 13 

1.3. Töö ülesehitus ............................................................................................................ 15 

2. SÜNTAGMAATILISED SUHTED KORPUSLEKSIKOGRAAFIAS ............................ 16 

2.1. Korpusleksikograafia areng ....................................................................................... 16 

2.2. Süntagmaatiliste suhete tuvastamise meetodid .......................................................... 18 

2.2.1. Statistilised meetodid ......................................................................................... 18 

2.2.2. Kombinatoorsed meetodid ................................................................................. 23 

2.3. Sõnavisandite grammatika meetod ............................................................................ 26 

3. EESTI KEELE SUBSTANTIIVIDE, ADJEKTIIVIDE, ADVERBIDE JA VERBIDE 

SÜNTAGMAATILISED SUHTED NING NENDE TUVASTAMINE 

KORPUSEPROGRAMMI SKETCH ENGINE EESTI MOODULI NÄITEL ..................... 31 

3.1. Eesti keele sõnavisandite grammatika koostamise põhimõtted .................................. 31 

3.2. Substantiivi süntagmaatilised suhted ......................................................................... 35 

3.2.1. Leksikogrammatilised konstruktsioonid ............................................................. 35 

3.2.2. Sõnavisandid ...................................................................................................... 37 

3.2.3. Kokkuvõtteks: substantiivid ............................................................................... 50 

3.3. Adjektiivi süntagmaatilised suhted ............................................................................ 52 


3.3.2. Sõnavisandid ...................................................................................................... 53 

3.3.3. Kokkuvõtteks: adjektiivid .................................................................................. 58 

3.4. Adverbi süntagmaatilised suhted ............................................................................... 59 


3.4.2. Sõnavisandid ...................................................................................................... 60 

3.4.3. Kokkuvõtteks: adverbid ..................................................................................... 63 

3.5. Verbi süntagmaatilised suhted ................................................................................... 64 

3.5.1. Lihtverbi leksikogrammatilised konstruktsioonid .............................................. 64 

3.5.2. Lihtverbi sõnavisandid ....................................................................................... 66 

3.5.3. Perifrastilised verbid ja nende tuvastamine ........................................................ 73 

3.5.4. Kokkuvõtteks: verbid ......................................................................................... 80 

3.6. Sõnavisandite hindamine ........................................................................................... 82 

3.6.1. Hindamise metoodika ......................................................................................... 82 

3.6.2. Tulemused .......................................................................................................... 85 

3.6.3. Tulemuste analüüs .............................................................................................. 85 

4. SÜNTAGMAATILISED SUHTED ÕPPELEKSIKOGRAAFIAS .................................. 88 

4.1. Traditsiooniline ja korpusleksikograafia .................................................................... 89 

4.2. Süntagmaatiliste suhete esitusviisid ........................................................................... 90 

4.3. Süntagmaatiliste üksuste valikukriteeriumid ............................................................. 97 

4.4. Kokkuvõtteks: süntagmaatiline info tänapäeva õppesõnastikes ja 

õppeleksikograafilistes andmebaasides ............................................................................. 99 

5

5. SÜNTAGMAATILISED SUHTED EESTI KEELE ÕPPESÕNASTIKES JA 

ANDMEBAASIDES ........................................................................................................... 100 

6 

5.1. Seni ilmunud eesti keele rektsioonisõnastikud......................................................... 101 

5.2. Eesti keele põhisõnavara sõnastik ............................................................................ 104 

5.2.1. Süntagmaatiliste üksuste valikukriteeriumid .................................................... 104 

5.2.2. Süntagmaatilised üksused andmebaasis ........................................................... 111 

5.2.3. Sõnavisandid kui leksikograafilise analüüsi lähtepunkt ................................... 117 

5.2.4. Näidisartiklid .................................................................................................... 124 

6. KOKKUVÕTE ................................................................................................................ 126 

6.1. Põhilised teadustulemused ....................................................................................... 126 

6.2. Uurimistöö edasised arengusuunad .......................................................................... 133 

VIITEALLIKAD ................................................................................................................. 136 

LISA 1. SÕNAVISANDITE GRAMMATIKA .................................................................. 145 

SUMMARY ........................................................................................................................ 170 

ELULOOKIRJELDUS ........................................................................................................ 179 

CURRICULUM VITAE ..................................................................................................... 180

DISSERTANDI TEEMAKOHASED 

PUBLIKATSIOONID 

I. Jelena Kallas, Margit Langemets 2012. Automatic generation of specialized 

dictionaries using the dictionary writing system EELex. – A. Tavast, K. Muischnek, 

M. Koit (eds.). Human language technologies – The Baltic perspective. Proceedings 

of the fifth international conference Baltic HLT 2012. Frontiers in artificial 

intelligence and applications 247. Amsterdam: IOS Press, 103–110. 

II. Jelena Kallas, Maria Tuulik, Madis Jürviste 2012. Leksikograafilise tarkvara Sketch 

Engine eesti keele moodul. – Eesti ja soome-ugri keeleteaduse ajakiri ESUKA / 

Journal of Estonian and Finno-Ugric Linguistics JEFUL, 3–2, 57–77. 

III. Madis Jürviste, Jelena Kallas, Margit Langemets, Maria Tuulik, Ülle Viks 2011. 

Extending the functions of the EELex dictionary writing system using the example of 

the Basic Estonian Dictionary. – I. Kosem, K. Kosem (eds.). Electronic lexicography 

in the 21st century: New applications for new users. Proceedings of eLex 2011, Bled, 

10-12 November 2011. Ljubljana: Trojina, Institute for Applied Slovenian Studies, 

106–112. 

IV. Jelena Kallas, Maria Tuulik 2011. Eesti keele põhisõnavara sõnastik: ajalooline 

kontekst ja koostamispõhimõtted. – Eesti Rakenduslingvistika Ühingu aastaraamat, 

7, 59–75. 

V. Jelena Kallas 2010. The development of scholary lexicography of the Estonian 

language as a second language in a historical and a theoretical perspective. – 

A. Dykstra, T. Schoonheim (eds.). Proceedings of the XIV EURALEX international 

congress. Leeuwarden/Ljouwent: Fryske Akademy, 648–651. 

VI. Елена Каллас 2009. Лексикографическая реализация средств выражения 

пространственных отношений функционально-семантического поля 

локативности в эстонском языке. – Функциональная семантика языка, 

семиотика знаковых систем и методы их изучения. Москва: Российский 

университет дружбы народов, 64–69. 

7

EESSÕNA 

Õppeleksikograafia on minu huviks olnud alates 2000ndate algusest, kui pärast 

TLÜ lõpetamist liitusin Eesti Keele Instituudi eesti-vene sõnaraamatu töörühmaga. 

Korpusleksikograafia valdkonnaga puutusin põhjalikumalt kokku, kui osalesin 

suvekoolis „The 2002 Lexicom International Workshop in Lexicography and 

Lexical Computing”, mis toimus Brightoni Ülikoolis Inglismaal. Vahepealsel ajal 

olen saanud jälgida korpusleksikograafia kiiret arengut olukorrani, kui 

keeletehnoloogiliste vahenditega on võimalik eri tüüpi sõnaraamatute automaatne 

korpuspõhine genereerimine (ja seda isegi tähendusjaotuste ja definitsioonide 

tasandil). Väitekiri tegeleb vaid korpuste kasutamise ühe aspektiga (sisusõnade 

süntagmaatiliste seoste automaattuvastamisega), aga usun, et sellele järgneb hulk 

põnevaid uurimistöid, mis muudavad eesti keele korpuste kasutuse veelgi 

mitmepalgelisemaks. 

Olen väga tänulik kõigile inimestele, kes on mind sel teel toetanud ja inspireerinud. 

Suur tänu juhendajatele, retsensentidele, toimetajatele, kolleegidele Eesti Keele 

Instituudis, Tallinna Ülikoolis ja Tartu Ülikoolis. Eriline tänu reedeklubi liikmetele. 

Suur aitäh ka minu perele ja sõpradele, kes on mulle kogu aeg kaasa elanud. 

Doktoritöö valmimist on toetanud Euroopa Sotsiaalfondi projekt „Doktorikool: 

keeleteadus, filosoofia, semiootika” ning doktoriõppe ja rahvusvahelistumise 

programm „DoRa”. 

Tallinnas 

21. jaanuaril 2013 

8

LÜHENDID 

A adverbiaal 

abe abessiiv 

abl ablatiiv 

ade adessiiv 

Adj adjektiiv 

Adv adverb 

all allatiiv 

com komitatiiv 

comp komparatiiv 

da da-infinitiiv 

des gerundiiv 

ela elatiiv 

ess essiiv 

g genitiiv 

ill illatiiv 

in inessiiv 

inf infinitiiv 

KL kõrvallause 

ma ma-infinitiiv 

maks maks-vorm 

mas mas-vorm 

mata mata-vorm 

N substantiiv 

nom nominatiiv 

Num numeraal 

O objekt 

p partitiiv 

pl pluural 

Post postpositsioon 

PP adpositsioonifraas 

Pr prooprium 

Pred predikatiiv 

Prep prepositsioon 

Pron pronoomen 

Ptcp partitsiip 

S subjekt 

sg singular 

sup superlatiiv 

ter terminatiiv 

trl translatiiv 

V verb 

vat vat-vorm 

9

1. SISSEJUHATUS 

Süntagmaatiliste suhete korpus- ja õppeleksikograafiline käsitlus on tänapäeva 

rakenduslingvistika üks aktuaalsemaid valdkondi. Siinne väitekiri on esimesi 

katseid analüüsida eesti keele leksikaalsemantilise sisuga sõnade ehk sisusõnade 1 

süntagmaatilisi suhteid korpusleksikograafiliste meetoditega ja rakendada saadud 

tulemusi eesti keele õppesõnastike koostamisel. Töös analüüsin eraldi 

substantiivide, adjektiivide, adverbide ja verbide klassi moodustavate sisusõnade 

süntagmaatilisi suhteid. 

„Longman Dictionary of Language Teaching & Applied Linguistics” (Richards, 

Schmidt 2002: 534) defineerib süntagmat (syntagm) 2 kui kahe või enama üksuse 

struktuuriliselt olulist kombinatsiooni ja süntagmaatilisi suhteid (syntagmatic 

relationships) kui ühe keelelise üksuse (nt sõna, klausi) suhet teise üksusega, mis 

põhineb sellel, et nad esinevad koos mingi järjendi sees. 

Siinses töös tähistan mõistega süntagmaatilised suhted sisusõnade tähenduslikke ja 

statistiliselt esilduvaid kombinatsioone teiste leksikaalsete ja grammatiliste 

üksustega, eelkõige seda, mis tüüpi laienditega ja milliste konkreetsete sõnadega 

teatud leksikaalne üksus koos esineb. Uurin eesti keele sisusõnade süntagmaatiliste 

suhete formaalse kirjeldamise võimalusi korpusanalüüsi jaoks ja nende suhete 

esitamist õppeleksikograafilistes andmebaasides ja sõnastikes. Korpusanalüüsi 

tarvis kirjeldan suhete tüüpe vormiklasside (sõnaliikide, fraasitüüpide) ja 

morfosüntaktiliste kategooriate (käänded) kaudu, kuna lähtekohaks on 

morfoloogiliselt märgendatud korpus. Selliseid kirjeldusi nimetan töös 

leksikogrammatilisteks konstruktsioonideks ja konstruktsiooni moodustajaid 

kaasmoodustajateks. 

Leksikograafia teoorias (Svensén 2009: 7) on süntagmaatilised suhted omaette 

leksikograafilise kirjelduse objekt. Sisusõnade süntagmaatiliste suhete eksplitsiitse 

esitamise eesmärk on toetada ja suunata keeleõppijat võõrkeelse teksti koostamisel 

ehk sünteesil. Kasutajale antakse infot iga konkreetse lekseemi leksikaalsetest ja 

grammatilistest kombinatoorsetest omadustest. Sõltuvalt sellest, kas tegemist on 

leksikaalse või grammatilise suhtega, eristatakse kaht süntagmaatilise suhte liiki: 

1) süntagmaatilised leksikaalsed suhted, mille hulka kuuluvad kollokatsioonid, 

püsiühendid ja idioomid; 2) süntagmaatilised grammatilised ehk semantilismorfosüntaktilised 

suhted, mille hulka kuuluvad täistähenduslike sõnaliikide 

valents (nii semantiline kui ka süntaktiline) ja eri tüüpi grammatilised 

konstruktsioonid. 

Leksikaalsete ja grammatiliste süntagmaatiliste suhete eristus kajastub ka 

süntagmaatiliste sõnastike üldtüpoloogias (vt nt Svensén 2009: 21–37), kus 

leksikograafilise kirjelduse objektiks olevate süntagmaatiliste seoste tüübi järgi 

1 EKGs (1995: 15, 18) kasutatakse terminit täistähenduslik ehk autosemantiline sõna. 

2 Siin ja edaspidi on sulgudes termini ingliskeelne vaste, kui ei ole osutatud teisiti. 

10

eristatakse kolme liiki süntagmaatilisi sõnastikke: 1) valentsisõnastik (kirjeldab 

lemmade süntaktiliselt võimalikke seotud ja vabade laiendite tüüpe ning nende 

laiendite esinemist reguleerivaid semantilisi piiranguid); 2) kollokatsioonisõnastik 

(kirjeldab lemmade semantiliselt läbipaistvaid koosesinemisi teiste sõnadega); 

3) idioomisõnastik. 

Teiselt poolt on tänapäeva leksikograafias teooriaid, mis väldivad leksika ja 

grammatika lahushoidmist ja käsitlevad leksikogrammatilisi üksusi tervikuna 

(nt Hunston, Francis 2000). Gill Francis (1995) rõhutab, et 

kommunikatsiooniprotsess ei toimu nii, et kõigepealt valitakse süntaktiline 

struktuur ja alles seejärel sellega sobiv leksikaalne üksus. Vastupidi, me valime 

leksikaalseid üksusi, millega kaasnevad süntaktilised struktuurid, kuhu nad 

loomulikult ja grammatiliselt korrektselt sobivad. Selliseid üksusi nimetatakse eri 

teooriates malliks (pattern) (nt Hunston, Francis 2000), konstruktsiooniks 

(construction) (Atkins, Rundell 2008), leksikogrammatiliseks malliks (lexicogrammatical 

pattern) (Coffey 2011) või kollokatsiooniks (collocation) (Bartsch 

2004; Siepmann 2005; Kilgarriff, Kosem 2012d). Sofia Bartsch (2004: 11) 

defineerib kollokatsioone kui kahe või enama sõna suhteliselt püsivaid, sageli 

korduvaid süntagmaatilisi kombinatsioone, mida reguleerivad süntaksi ja semantika 

kombinatoorsed reeglid. Dirk Siepmanni (2005: 438) järgi on kollokatsioon 

igasugune holistiline leksikaalne, leksikogrammatiline või semantiline üksus, mis 

reeglina koosneb kahest või enamast sõnast ja millele on omane minimaalne 

korduvus teatud kontekstis. Adam Kilgarriffi ja Iztok Kosemi (2012d: 40) käsitluses 

hõlmab kollokatsiooni mõiste teatud grammatilises seoses olevaid otsisõna (node 

word) ja selle kollokaatide statistiliselt esilduvaid koosesinemisi. 

Seega on teoreetilises ja praktilises leksikograafias mitu lähenemist, kuidas 

süntagmaatilisi suhteid kirjeldada ja milliste parameetrite järgi keelematerjali 

analüüsida. Leksikograafilist rakendust on leidnud sellised teooriad nagu 

grammatiliste ja leksikaalsete kollokatsioonide teooria (Benson 1986, 1989, 1990), 

valentsiteooria (Herbst jt 2007), freimisemantika (Atkins jt 2003), mallide 

grammatika (Hunston, Francis 2000; Hanks 2008). Nende teooriate põhimõtetest 

lähtudes on koostatud eri tüüpi süntagmaatilisi sõnastikke ja andmebaase, nagu 

„BBI Dictionary of English Word Combinations” (BBI 2010), FrameNet 3 , „Pattern 

Dictionary of English Verbs” (Hanks 2008), „A Valency Dictionary of English” 

(Herbst jt 2004). 

Teooriate põhiline erinevus seisneb eelkõige kirjeldusobjektis. Põhiküsimus on, kas 

leksikograafiline kirjeldus piirdub vaid süntaktilisel tasandil tuvastatavate üksustega 

või on analüüsi aluseks sõnade semantilised funktsioonid. Näiteks eeldab 

freimisemantiline lähenemine (Atkins 2002: 16–19) leksikograafilise analüüsi 

eeletapina iga verbi freimielementide tuvastamist ja nendele elementidele vastavate 

üksuste morfoloogilist ja süntaktilist analüüsi. Nii kujuneb lekseemile iseloomulik 

nn valentsivalem (valence formula), millest leksikograaf konkreetse kirje 

3 FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (20.01.12). 

11

koostamisel lähtub. Sellist leksikaalsete üksuste mitmetasandilist (semantika– 

süntaks–morfoloogia) analüüsi ja kirjeldust peetakse oluliseks igasuguse leksikaalse 

andmebaasi koostamisel (vt nt Langemets jt 2005: 94–95). 

Siinses töös arutlen, kuidas ja mil määral saaks morfoloogiliselt märgendatud 

korpuse andmeid kasutada sõnade semantika uurimisel ja süntagmaatiliste 

omaduste esitamisel eesti keele õppeleksikograafilistes andmebaasides ja 

õppesõnastikes. 

Tegemist on interdistsiplinaarse uurimusega, mis analüüsib süntagmaatiliste suhete 

käsitlust tänapäeva korpus- ja õppeleksikograafias ja uurib nende kahe distsipliini 

kokkupuutepunkte. Korpusleksikograafia (corpus lexicography, computational 

lexicography, computer-based lexicography) on arvuti- ja korpuslingvistikaga 

tihedalt seotud leksikograafia haru, mis uurib korpusmaterjalide kasutamise 

võimalusi sõnastike ja andmebaaside koostamisel. Õppeleksikograafia (pedagogical 

lexicography) on teise keele ja võõrkeele õpetamise didaktikaga seotud distsipliin, 

mis tegeleb õppesõnastike (pedagogical dictionary), sõnavaraloendite (vocabulary 

profile) ja sõnavara omandamisele suunatud õppematerjalide koostamise 

teoreetiliste ja praktiliste küsimustega (Dubitšinski 2009: 339). 

Reinhard R. K. Hartmann ja Gregory James (2002: 107) defineerivad 

õppesõnastikku kui teatmeteost, mis on koostatud spetsiaalselt keeleõpetajate 

ja -õppijate praktiliste didaktiliste vajaduste rahuldamiseks. Võrreldes 

mitteõppeotstarbelistel eesmärkidel koostatud sõnastikega, avaldub õppesõnastiku 

spetsiifika (Averina jt 1996: 312–313; Novikov 2002: 453–455) järgmises: 

1) märksõnastiku sihikindlas didaktiliselt põhjendatud valikus (õppesõnastike 

märksõnastiku aluseks peavad olema keeleoskustasemete ja sõnavarastatistikaga 

tegelevate spetsialistide koostöös valminud sõnavaraloendid); 

2) lekseemide seletusviisis ehk definitsioonis (eeltingimuseks on spetsiaalse ehk 

kontrollitud definitsioonisõnavara loendi koostamine); 

3) süntagmaatiliste ja paradigmaatiliste suhete esitusviisis [siinse töö autori 

rõhutus]. 

Õppesõnastike valdkonnas peetakse ideaalseks saavutuseks õppesõnastike süsteemi 

(komplekti) loomist, mis võimaldab infot esitada mitmes eri keerukusastmes 

(Dubitšinski 2009: 341; vt ka Langemets 2003: 183). Selline ühtne leksikograafiline 

süsteem peab rajanema nn graduaalsuse printsiibil (algselt defineeris juba 1928. 

aastal ameerika pedagoog ja psühholoog Edward L. Thorndike (1991: 19)), mille 

kohaselt on õppeleksikograafia ülesanne koostada erinevatele keeleoskustasemetele 

orienteeritud õppesõnastike komplekt: iga järgnev sõnaraamat peab pakkuma 

märksõnade kohta eelmisest suuremat infomahtu, ka sõnaraamatute metakeel peab 

muutuma lihtsamast keerulisemaks. 

Seda tüüpi õppesõnastike komplekti koostatakse Eesti Keele Instituudis. Komplekti 

esimeseks sõnastikuks on A2- ja B1-keeleoskustasemega õppijatele mõeldud 

ükskeelne eesti keele põhisõnavara sõnastik (edaspidi PSV, ilmumas 2013), mille 

12

märksõnade hulk on ca 4500. Järgmise etapina on kavas koostada B2- ja C1tasemele 

mõeldud sõnastik. Siinses töös käsitlen lähemalt eesti keele sisusõnade 

süntagmaatiliste suhete süstemaatilise esitamise võimalusi PSV sõnastiku näitel. 

1.1. TÖÖ EESMÄRGID 

Töö ülesanded võib tinglikult jaotada teoreetilisteks (eesti keele substantiivide, 

adjektiivide, adverbide ning verbide (sh perifrastiliste verbide) süntagmaatiliste 

suhete korpus- ja õppeleksikograafilise käsitluse teoreetilise raamistiku loomine) ja 

rakenduslikeks (süntagmaatiliste suhete automaatne korpuspõhine tuvastamine ja 

nende esitus õppeotstarbelises eesti keele sõnastikus). 

Täpsemad eesmärgid on järgmised: 

koostada eesti keele substantiivide, adjektiivide, adverbide ja verbide 

leksikogrammatiliste konstruktsioonide nimestik, mis on aluseks nende 

sõnaliikide süntagmaatiliste suhete korpusest ekstraheerimise grammatika ja 

õppeleksikograafilise esituse põhimõtete väljatöötamisel; 

toetudes eesti keele morfoloogiaanalüsaatori ESTMORF (Kaalep 1998) 

märgendussüsteemile, koostada süntagmaatiliste suhete automaatseks 

analüüsiks ja tuvastuseks sobiv grammatika, käsitleda grammatika kirjutamise 

käigus tekkinud probleeme, testida grammatikat leksikograafilise tarkvara 

Sketch Engine baasil ja analüüsida saadud tulemusi; 

analüüsida süntagmaatiliste suhete õppeleksikograafilist käsitlust muude keelte 

(eeskätt inglise) ja seni ilmunud eesti keele süntagmaatilistes sõnastikes ja 

andmebaasides; 

töötada välja süntagmaatiliste suhete formaalne kirjeldus eesti keele 

õppeleksikograafiliste andmebaaside tarbeks ja rakendada seda sõnastike 

haldussüsteemis EELex eesti keele põhisõnavara sõnastiku andmebaasis; 

töötada välja süntagmaatiliste üksuste valiku põhimõtted eesti keele A2- ja B1keeleoskustasemega 

eesti keele kui teise ja/või võõrkeele õppijatele mõeldud 

sõnastikes (tagamaks lekseemi süntagmaatiliste omaduste eksplitsiitse esituse 

ning hõlbustamaks nende omandamist). 

1.2. ANALÜÜSIMATERJAL JA UURIMISMEETODID 

Sisusõnade süntagmaatiliste suhete automaattuvastamist katsetan siinses töös 

korpusleksikograafilise tarkvara Sketch Engine 4 abil. Sketch Engine’i 

4 Sketch Engine http://www.sketchengine.co.uk/ (15.09.12). Tänapäeval kasutavad sõnaraamatute 

loomisel seda programmi sellised kirjastused nagu Oxford University Press, Cambridge 

University Press, Collins, Le Robert ja Cornelsen Verlag ning seda rakendati ka inglise keele 

leksikaalse andmebaasi DANTE (Database of Analysed Texts of English; Atkins jt 2010) 

13

põhifunktsioonideks on konkordantsi koostamine ja selle mitmekülgne töötlemine, 

statistikapõhine kollokaatide leidmine, korpusest sagedusloendite koostamine, 

sõnavisandite (word sketch) genereerimine ja heade sõnastikunäidete (Good 

Dictionary Example, GDEX) valimine. 

Tarkvara valik on tingitud eelkõige sellest, et Sketch Engine’i sõnavisandite moodul 

võimaldab süntagmaatiliste suhete automaattuvastamist. Spetsiaalse nn 

sõnavisandite grammatika (sketch grammar) põhjal otsib programm koostaja poolt 

määratud grammatilises suhtes olevaid sõnapaare ja -kolmikuid, töötleb andmeid 

statistiliselt ja teeb leksikograafi jaoks sõna süntaktilisest ja kollokatiivsest 

käitumisest kompaktse kokkuvõtte, mida nimetatakse sõnavisandiks (Kilgarriff jt 

2004). 

Tarkvara eesti mooduli sisendiks on eesti keele koondkorpus 5 (u 250 mln sõnet), 

mille OÜ Filosoft on morfoloogiliselt märgendanud, osaliselt ühestanud ja 

osalausestanud. Koondkorpus sisaldab ajalehtede ja ajakirjade tekste, ilukirjandus-, 

seadus- ja teadustekste, riigikogu stenogramme ning uue meedia (jututubade, 

foorumite) tekste. 

Sisusõnade leksikogrammatiliste konstruktsioonide nimestiku ja nende 

automaattuvastamist võimaldavate reeglite väljatöötamisel lähtun eesti keele 

traditsioonilistest (Rätsep 1978; Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007) 

ja formaalsetest (Müürisep 2000; Roosmaa jt 2001; Puolakainen 2001) 

grammatikakirjeldustest. Sõnavisandite grammatika reeglid toetuvad 

morfoloogiaanalüsaatori ESTMORF (Kaalep 1998) märgenditele. 

Sõnavisandite evalveerimisel kasutan Kilgarriffi jt (2010a) väljatöötatud 

sõnavisandite kvantitatiivse evalveerimise meetodit. Tulemuste hindamiseks on 

kasutatud sellist näitajat nagu täpsus (precision), mis näitab õigesti tuvastatud 

kollokaatide osakaalu kõigist tuvastatud kollokaatidest. Meetodis palutakse 

leksikograafidel hinnata iga tuvastatud kollokaadi leksikograafilist väärtust 

kaheastmelisel skaalal hea–halb. Hea kollokaat peab vastama kriteeriumidele 

tähenduslikkus, terviklikkus ja kasulikkus sõna semantika ja grammatika uurimisel. 

Halb on kollokaat, mille puhul on ilmselgelt tegemist veaga, st tuvastatud sõnapaar 

või -kolmik ei ole tähenduslik ega terviklik või kasulik sõna semantika ja 

grammatika uurimisel. 

Õppeleksikograafia küsimusi käsitlevates peatükkides olen näitematerjalina 

kasutanud inglise ja eesti keele õppesõnastike, eelkõige rektsiooni- ja 

kollokatsioonisõnastike kirjeid. 

väljatöötamisel. Eestis kasutatakse Sketch Engine’it Eesti Keele Instituudis kahe sõnastiku 

koostamisel: need on „Eesti keele seletav sõnaraamat” (EKSS; vt Langemets jt 2010b) ja „Eesti 

keele põhisõnavara sõnastik” (PSV; vt Kallas, Tuulik 2011). 

5 

Eesti keele koondkorpus http://www.cl.ut.ee/korpused/segakorpus/index.php?lang=et 

(15.09.12). 

14

Töös väljatöötatud süntagmaatiliste seoste formaalset kirjeldust rakendan Eesti 

6 

Keele Instituudi sõnastike haldussüsteemis 

(edaspidi EELex; vt 

Langemets jt 2006, 2010c; Loopmann jt 2006; Loopmann 2007; Jürviste jt 2011) eesti 

keele põhisõnavara sõnastiku andmebaasis. EELex on veebipõhine leksikograafi 

töökeskkond, mis ühendab sõnastike koostajatele ja toimetajatele vajaliku tarkvara ja 

ressursid, toetab rühmatööd ja pakub eesti keele tuge. EELexi keskkonnas on 

valminud või tegemisel ligi 40 eri tüüpi ja mitmesuguse struktuuriga sõnastikku: 

ükskeelsed, tõlkesõnastikud, terminibaasid jne. Sõnastikuandmed paiknevad 

tsentraalses veebiserveris XML-vormingu kujul (vt lähemalt Loopmann 2007). 

1.3. TÖÖ ÜLESEHITUS 

Väitekiri koosneb sissejuhatusest, neljast osast ja kokkuvõttest. Sissejuhatuses 

määratlen töö peamised eesmärgid ja annan ülevaate töös kasutatud materjalist ja 

uurimismeetoditest. Teises osas käsitlen teoreetilisi küsimusi, mis on seotud 

süntagmaatiliste suhete käsitlusega korpusleksikograafias. Annan lühiülevaate 

korpusleksikograafia ajaloost, esitan tänapäeva korpusleksikograafilise tarkvara 

tüpoloogia ning analüüsin erinevaid lähenemisi, mida rakendatakse tänapäeva 

leksikograafias süntagmaatiliste suhete kirjeldamisel, ja meetodeid, mida 

kasutatakse nende automaattuvastamisel. Kolmandas osas kirjeldan 

leksikogrammatilisi konstruktsioone, mis on iseloomulikud eesti keele 

substantiividele, adjektiividele, adverbidele ja verbidele, käsitlen nende 

grammatiliste suhete automaattuvastamiseks kirjutatud reegleid (vt Lisa 1), 

illustreerin reeglite väljundit, esitan sõnavisandite kvantitatiivse evalveerimise 

tulemused ja annan ülevaate evalveerimise käigus esile kerkinud probleemidest. 

Neljandas osas on uurimisobjektiks eri tüüpi formaalsed kirjeldused, mida on 

kasutatud sõnastikes ja andmebaasides süntagmaatiliste suhete esitamiseks, ning 

süntagmaatiliste üksuste valikukriteeriumid. Viiendas osas analüüsin seni ilmunud 

eesti keele süntagmaatiliste sõnastike ülesehitust ja süntagmaatiliste suhete 

esitusviise. Eesti keele põhisõnavara sõnastiku andmebaasi näitel kirjeldan 

süntagmaatiliste üksuste valikukriteeriume A2- ja B1-keeleoskustasemega eesti 

keele kui teise ja/või võõrkeele õppijatele mõeldud sõnastikes, pakun välja nende 

üksuste süstemaatilist esitamist võimaldava andmebaasi ülesehituse, näitan 

sõnavisandite kasutusvõimalusi sisusõnade süntaksi ja semantika uurimisel ja esitan 

eesti keele põhisõnavara sõnastiku näidisartiklid. Kokkuvõtvas osas toon välja 

väitekirjas esitatud peamised teadustulemused, lahendamata jäänud probleemid ja 

arutlen uurimistöö edasiste arengusuundade üle. 

6 

EELex http://eelex.eki.ee/, dokumentatsiooni vt http://eelex.dyn.eki.ee/edoc/edoc.html 

(15.09.12). 

15

2. SÜNTAGMAATILISED SUHTED 

KORPUSLEKSIKOGRAAFIAS 

Korpusleksikograafia põhiülesanne on erinevat tüüpi leksikograafiliste üksuste 

korpuspõhine automaattuvastamine. Uurimisobjektiks on sõnade definitsioonid, 

grammatiline kasutusinfo, süntagmaatilised suhted, leksikaalsemantilised suhted, 

näitelausete valik, lausemallid (subkategorisatsioonimallid) jm. 

Perspektiivis on korpuse päringusüsteemid (Corpus Query System) 

sõnastikusüsteemide (Dictionary Writing System) lahutamatu osa. Näitena võib tuua 

ühe progressiivsema sõnastikusüsteemi TshwaneLex (De Schryver, De Pauw 2007). 

Artikli pealkirjast „Dictionary Writing System (DWS) + Corpus Query Package 

(CQP): The Case of TshwaneLex” selgub kohe ka selle sõnastikusüsteemi 

funktsionaalne eripära: sõnastikusüsteem ja korpuse päringusüsteem on ühendatud, 

leksikograafi tööks on valida sobiv näitematerjal ja see lisatakse automaatselt teatud 

kirje vastavasse kohta. 

2.1. KORPUSLEKSIKOGRAAFIA ARENG 

Kilgarriff jt (2004: 106–107) on eristanud korpusleksikograafia arengus 7 kolm 

põhilist etappi. 

Esimene on arvutieelne periood, kui leksikograafide allikmaterjaliks olid eelkõige 

sõnasedelid. Teine periood algas 1970ndate lõpus seoses COBUILD (Collins 

Birmingham University International Language Database) projektiga, mille 

eesmärk oli luua korpuspõhised leksikonid inglise keele kui võõrkeele õppijate 

jaoks. Alates sellest projektist on konkordantsist saanud põhiline leksikograafi 

tööriist. Seejärel hakati looma programme, mis kergendaksid konkordantsis 

sisalduva informatsiooni töötlemist, nt WordSmith Tools 8 , MonoConc Pro 9 , IMC 

Corpus Workbench 10 (vt kirjeldust McEnery, Wilson 2007: 209–213), AntConc 11 . 

Kolmas periood on seotud leksikaalse statistika meetodite kasutuselevõtuga. 

Lähtekohaks peetakse Ken Churchi ja Patrick Hanksi 1989. aastal ilmunud artiklit, 

milles autorid tegid ettepaneku kasutada sõnadevahelise seose tugevuse mõõtmiseks 

vastastikuse informatsiooni väärtuse MI statistikut. Churchi ja Hanksi (1989) järgi 

tuleb sõnapaare, millele on omane kõrge vastastikuse informatsiooni väärtuse 

indeks, käsitleda kollokatsioonidena. 2000ndate alguses toimus leksikograafilise 

tarkvara Sketch Engine (Kilgarriff jt 2004) loomisega järjekordne kvalitatiivne 

7 

Ülevaateid korpusleksikograafia ajaloost vt ka Kilgarriff, Grefenstette (2008b: 90–93); Rundell, 

Kilgarriff (2011: 1–5). 

8 

WordSmith Tools http://www.lexically.net/wordsmith/index.html (20.06.12). 

9 

MonoConc Pro http://www.athel.com/mono.html (20.06.12). 

10 

IMC Corpus Workbench http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ 

(20.06.12). 

11 

AntConc http://www.antlab.sci.waseda.ac.jp/software.html (20.06.12). 

16

hüpe: süntagmaatiliste seoste automaattuvastamisel võeti aluseks morfoloogilise 

analüsaatori tulemused (sõnaliik ja grammatilised tunnused) ning kombinatsioonis 

statistiliste meetoditega osutus selline lähenemine efektiivseks. 

Tänapäeval kasutatakse eri tüüpi korpusleksikograafilist tarkvara, mis hõlbustab 

keeleandmete töötlemist ja aitab leksikograafil materjali sorteerida ja analüüsida. 

Kilgarriff ja Kosem (2012: 34–35) on välja pakkunud selle valdkonna tarkvara 

tüpoloogia. 

1) Eristatakse n-ö arvutipõhiselt (computer-based) ja online-režiimis töötavaid 

programme. Arvutipõhine tarkvara on näiteks WordSmith Tools, MonoConc Pro, 

IMC Corpus Workbench, AntConc. Neid programme saab kas tasuta või teatud tasu 

eest arvutisse installeerida ja programmi funktsioonide abil tekste analüüsida. 

Online-programmid on nt Sketch Engine (Kilgarriff jt 2004), taani keele 

mitmekülgset analüüsi võimaldav KorpusDK 12 ja Brighami Ülikooli professori 

Mark Daviese loodud corpus.byu.edu 13 . Eesti keele korpusi saab online-režiimis 

analüüsida Keeleveebi 14 , Tartu Ülikooli koondkorpuse kollokatsioonide tuvastaja 15 

ja Sketch Engine’i eesti keele mooduli kaudu. 

2) Korpusepäringu tarkvara võib olla loodud mingi konkreetse korpuse töötlemiseks 

(corpus-related tool), nt XAIRA 16 või KorpusDK, või moodustada süsteemi, 

võimaldades integreerida erinevaid korpuseid (corpus-independent tools), nt Sketch 

Engine, IMC Corpus WorkBench, WordSmithTools, MonoConc Pro ja AntConc. 

3) Tarkvara, mis käsitleb korpusena veebis olevaid tekste töötlemata kujul, nt 

Google. Kuigi veeb ei ole loodud lingvistilise ja leksikograafilise analüüsi jaoks, 

võib selle analüüs siiski kasulikuks osutuda. Spetsiaalsed programmid võimaldavad 

analüüsida veebi konkordantsi kujul, näiteks võib tuua programmi Webcorp 17 

(Renouf 2003). 

4) Eristatakse lihtsat (simple) ja täiustatud (advanced) tarkvara. Lihtsa tarkvara 

põhifunktsioonideks on konkordantsi koostamine ja kollokatsioonide (otsitakse 

statistiliste meetoditega) ning võtmesõnade tuvastamine. Viimase arengujärgu 

programmide lisafunktsioonid on sõnavisandi genereerimine ja otsing CQLpäringukeele 

(Contextual Query Language) abil, aga ka näitelausete automaatne 

valik, tesauruste koostamine jm. 

Sõltuvalt uurimise eesmärgist kasutatakse eri tüüpi tarkvaras sõnade 

süntagmaatiliste suhete automaattuvastamiseks erinevaid meetodeid, mis võib 

jaotada kahte suurde gruppi: puhtstatistilised meetodid ja kombinatoorsed meetodid. 

Stefan Everti (2009: 1215, 1220–1223, vt ka Uiboaed 2010: 310–312) uurimuses on 

12 KorpusDK http://ordnet.dk/korpusdk_en/?set_language=en (20.06.12). 

13 corpus.byu.edu http://corpus.byu.edu/corpora.asp (20.06.12). 

14 Keeleveeb www.keeleveeb.ee (20.06.12). 

15 Kollokatsioonide tuvastaja http://www.rabauti.ee/clc (20.06.12). 

16 XAIRA http://xaira.sourceforge.net/ (20.06.12). 

17 Webcorp http://www.webcorp.org.uk/live/ (25.10.12). Tarkvara töötab ka eesti keele jaoks. 

17

kirjeldatud ja võrreldud kolme põhilist lähenemist, mida rakendatakse 

süntagmaatiliste suhete tuvastamisel. 

1) Kindlas naabruses koosesinevaks (surface co-occurrence) peetakse kahte sõna, 

kui nad esinevad sageli koos teatavas kauguses ehk samas aknas (collocational 

span), mida arvestatakse kahe sõna vahele jäävate sõnade järgi. 

2) Tekstiliselt koosesinevaks (textual co-occurrence) peetakse sõnu, kui nad 

esinevad koos samas tekstiüksuses, tavaliselt lauses, osalauses või lausungis. 

3) Süntaktiliselt koosesinevaks (syntactic co-occurrence) peetakse sõnu ainult 

juhul, kui nende vahel on kindel süntaktiline seos, näiteks verb koos subjekti või 

objektiga. 

Kaks esimest lähenemist eeldavad statistiliste meetodite rakendamist. Kolmas 

lähenemine eeldab kombinatoorsete meetodite väljatöötamist, lisaks statistilisele 

analüüsile kasutatakse siin süntagmaatiliste suhete tuvastamisel ka teisi filtreid, nt 

morfoloogilisi või süntaktilisi märgendeid. 

Võrreldes kolme lähenemist, osutab Evert (2009: 1223–1224), et kindlas naabruses 

koosesinemise otsing osutus väga kasulikuks eelkõige korpuslingvistikas ja 

leksikograafias. Selle lähenemise puhul on tegemist teatud kompromissiga 

kitsendatud (restricted) süntaktilise koosesinemise (eriti kui arvesse on võetud 

ainult üks konkreetne süntaktiline seos) ja väga laia tekstilise koosesinemise vahel. 

Sel meetodil saadud sõnapaaride loendeid on kergem hallata, võrreldes loenditega, 

mis on saadud tekstilise koosesinemise mõõtmise meetodiga. Tekstiliste 

koosesinemiste otsingu väljund on liiga mahukas ja väljakutseks isegi arvutile. 

Süntaktiline koosesinemine esitab eri tüüpi sagedasti esinevaid grammatilises 

seoses olevaid ühendeid eraldi ning selle väljund on palju puhtam. Evert märgib, et 

eriti kasulik on see meetod mitmesõnaliste püsiühendite (multiword expression) 

tuvastamisel ja möönab, et otsingu tulemus on vastavuses süntaktilise analüsaatori 

täpsusega (ibid.). 

Järgnevalt kirjeldan lähemalt statistiliste ja kombinatoorste meetodite põhimõtteid 

ja analüüsin nende rakendamisvõimalusi eesti keele sisusõnade süntagmaatiliste 

suhete tuvastamisel. 

2.2. SÜNTAGMAATILISTE SUHETE TUVASTAMISE MEETODID 

2.2.1. Statistilised meetodid 

Süntagmaatiliste suhete tuvastamiseks statistiliste meetoditega on välja töötatud ja 

testitud eri tüüpi statistikuid (association measures). Statistikud võimaldavad 

arvutada kahe sõna seose tugevuse väärtuse korpuses, mille põhjal võib otsustada, 

kas tegemist on püsiühendiga või mitte. Statistikute kasutamise eelis on, et arvesse 

ei võeta ainult sõnade koosesinemise, vaid ka ühendit moodustavate sõnade 

eraldiesinemise sagedusi (Uiboaed 2010: 307). Statistiliste kollokaatide leidmiseks 

18

kasutatakse leksikograafias selliseid statistikuid nagu t-skoor (T-score), vastastikuse 

informatsiooni väärtus (mutual information, MI), MI 3 -skoor (MI 3 -score), logtõepära 

funktsioon (log-likelihood), minimaalne tundlikkus (minimum sensitivity), 

Dice’i koefitsient (Dice coefficient) ja sellel põhinev esilduvuse statistik logDice 

(logDice score). 

Näiteks Dice arvutatakse järgmise valemi põhjal: 

, 

kus fA – otsisõna (node word) eraldiesinemise sagedus korpuses; fB − kollokaadi 

(collocate) eraldiesinemise sagedus korpuses; fAB – otsisõna ja kollokaadi 

koosesinemise sagedus 18 . 

Eesti keele analüüsiks on olemas kaks online-režiimis töötavat programmi, mille 

abil saab statistiliselt esilduvaid kollokatsioone otsida. Tartu Ülikoolis loodud 

kollokatsioonide tuvastaja 19 käsitleb kollokatsioonidena selliseid sõnapaare, mille 

liikmed esinevad üksteise naabruses sagedamini, kui võiks eeldada nende 

üksindaesinemise sageduse põhjal. Tüüpilised kollokatsioonid on püsiühendid, 

näiteks ühendverbid või idiomaatilised väljendid. Programmi sisendkorpused on 

Eesti keele koondkorpus ja Tasakaalus korpus 20 . 

TÜ kollokatsioonide tuvastaja kasutab kolme statistikut: log-tõepära funktsioon, 

vastastikuse informatsiooni väärtus (MI) ja minimaalne tundlikkus; võrdluseks saab 

otsida ka lihtsalt esinemissageduse järgi järjestatud sõnapaare. Programm 

võimaldab otsida lemmade või sõnavormide statistiliselt esilduvaid kollokaate, 

lisaks saab päringut täpsustada kollokaadi sõnaliigilise kuuluvuse määramisega. 

Joonisel 1 on illustreeritud päring, millega tuvastatakse substantiivi päike tasakaalus 

korpuses esinevaid adjektiivseid kollokaate. Kollokaadid on järjestatud log-tõepära 

funktsiooni väärtuse järgi. 

18 Teiste statistikute valemeid vt nt Rychlý (2008). 

19 Kollokatsioonide tuvastaja http://www.rabauti.ee/clc (11.01.13). 

20 Eesti keele koondkorpus, Tasakaalus korpus vt 

http://www.cl.ut.ee/korpused/grammatikakorpus/ (11.01.13). 

19

Joonis 1. TÜ kollokatsioonide tuvastaja kasutajaliides (substantiivi päike kõrgeima 

log-tõepära funktsiooni väärtusega adjektiivsed kollokaadid). 

Jooniselt 1 nähtub, et substantiivi päike tuvastatud kõrgeima log-tõepära 

funktsiooni väärtusega adjektiivsed kollokaadid on loojuv/loojunud/ere/tõusev/ 

kuum jne. 

Teiseks saab statistilisi koosesinemisi tuvastada programmi Sketch Engine eesti 

keele mooduli collocations-funktsiooni abil. Kollokaatide otsingul kasutab Sketch 

Engine koosesinemise sagedust ja kuut statistikut: t-skoor, vastastikuse 

informatsiooni väärtus (MI), MI 3 -skoor, log-tõepära funktsioon, minimaalne 

tundlikkus ja esilduvus (logDice). Kollokaate saab otsida sõnavormi, lemma ja 

grammatiliste tunnuste järgi, määrates täpselt ka otsitavate kollokatsioonide akna 

ning järjestusaluseks oleva statistiku. Joonisel 2 on akna suuruseks viis sõna, st 

uuritava sõna vasakule ja paremale poole arvestatakse viis sõna. 

20

Joonis 2. Programmi Sketch Engine kollokatsioonide otsingu aken. 

Nt kui otsilemmaks on päike, siis esitab programm erinevaid statistikuid kasutades 

selle statistiliselt relevantsed kollokaadid. Joonisel 3 on lemma päike statistilised 

kollokaadid järjestatud esilduvuse statistiku logDice väärtuse järgi. 

Joonis 3. Substantiivi päike statistilised kollokaadid järjestatuna esilduvuse 

(logDice) väärtuse järgi. 

21

Jooniselt 3 nähtub, et logDice väärtuse järgi on sagedamad kollokaadid 

käes/paistma/loojuma/särama/tõusev/päike/pilv jt. Kollokaat päike on hea näide 

puhtstatistilise analüüsi puudusest. Kollokaatide tuvastamisel ei arvesta programm 

osalause piiridega ning võtab arvesse juhtumid, kus otsisõna ja kollokaat on küll 

ühes kollokatsiooni aknas, kuid on eri osalausete liikmed, nt lauses Seal on palju 

rohkem päikest, aga põhjamaal on päikest vähem ja ka mängureeglid on 

teistsugused loetakse sõnad päikest ja päikest kollokaatideks. Üsna sarnase 

tulemuse saab, reastades kollokatsiooni kandidaadid minimaalse tundlikkuse ja 

MI 3 -skoori statistiku alusel. 

Koosesinemise sageduse, MI, t-skoori ja log-tõepära funktsiooniga saadud 

tulemused on mürarikkamad, kuna väljundisse sattub palju kirjavahemärke ja 

sagedamaid sõnu, mis ei paku leksikograafilist huvi (vrd Joonis 4). 

Joonis 4. Substantiivi päike statistilised kollokaadid järjestatuna t-skoori väärtuse 

järgi. 

Joonisel 4 on väljundis kirjavahemärgid, mittetähenduslikud sõnad 

ja/kui/ei/et/ka/mis, asesõnad tema/mina. Leksikograafilist huvi pakuvad nendest 

vaid käes ja paistma. 

Seega kindlas naabruses koosesinemiste tuvastamisel saavutavad nendest seitsmest 

statistikust eesti keele jaoks paremad tulemused eelkõige MI 3 -skoori, minimaalse 

tundlikkuse ja esilduvuse (logDice) statistikud. 

22

2.2.2. Kombinatoorsed meetodid 

Hübriidmeetodis kombineeritakse statistilist ja reeglipõhist lähenemist. Nagu 

igasuguse reeglipõhise lähenemise puhul, iseloomustavad seda parem arusaadavus, 

ülevaatlikkus ja kohaldatavus ‒ uurijal on võimalik tulemusi otseselt mõjutada, 

kuna iga reegli efektiivsust saab eraldi hinnata ja seda vajadusel korrigeerida 

(vrd Roosmaa jt 2001: 11). 

Kombinatoorsete meetodite rakendamine korpuspäringu tarkvaras on seotud 

sisendkorpuse andmetüüpidega – lemmatiseerimine; morfoloogilised, süntaktilised 

märgendid; osalausestamine jm. Nendele üksustele toetutakse arvutigrammatika 

kirjutamisel. Meetod eeldab eeltööna tuvastatavate üksuste analüüsi, tuleb täpselt 

määrata, mis tüüpi suhteid hakkab programm tuvastama. Nimestiku loomisel saab 

rakendada kahte lähenemist: empiirilist ehk korpusainesest lähtuvat ja lingvistilist 

ehk traditsioonilisest grammatikakirjeldusest lähtuvat. 

1. Korpusandmete empiiriline analüüs aitab tuvastada leksikogrammatilisi 

konstruktsioone, mida ei saa indekseerida traditsioonilise sõnaliigimärgendiga ning 

mille konstruktsioonispetsiifilist tähendust ja grammatikat ei saa esitada märksõna 

leksikaalsete omadustena (vt nt Sahkai 2011). 

Empiirilise lähenemise metodoloogilisi aluseid on kirjeldatud nt mallide 

grammatika teoorias (Hunston, Francis 2000), kus süntagmaatiliste suhete tüüpe 

nimetatakse mallideks (pattern), neid kirjeldatakse vormiklasside (form class) 

kaudu ja tuvastatakse eelkõige konkordantsiridade analüüsile toetudes järgmiselt: 

1) valitakse juhuslik hulk konkordantsiridu, nt Hunston ja Francis (2000) 

analüüsivad iga sõna (substantiiv, verb, adjektiiv, adverb) ca 50 konkordantsirida; 

2) valik järjestatakse parema või vasaku naabri suhtes. Hunston ja Francis (2000: 37) 

ka põhjendavad sorteerimist, nt kui substantiive sorteerida parempoolsete naabrite 

suhtes, siis saab tuvastada tüüpilisi järellaiendeid, vasaku naabri suhtes sorteerides 

tulevad esile eeslaiendid; 

3) tuvastatud koosesinemisi kirjeldatakse formaalselt vormiklassi terminites. 

Põhilised vormiklassid on ‘verbi grupp’, ‘noomeni grupp’, ‘adjektiivi grupp’, 

‘adverbi grupp’. 

Beryl T. Sue Atkins ja Michael Rundell (2008: 330–359) käsitlevad Oxfordi 

leksikograafia käsiraamatus analoogse meetodiga tuvastatud üksusi 

leksikograafiliselt relevantsete konstruktsioonidena. Nende käsiraamatus kirjeldatud 

meetodi kohaselt tuvastatakse süntagmaatiliste suhete tüüpe konkordantsiridade 

analüüsi põhjal. Esiteks tuleb analüüsida konkordantsiridu, seejärel tuvastada 

konkreetsele sõnaliigile (eelkõige substantiivile, adjektiivile, verbile ja adverbile) 

omased konstruktsioonid ja lõpuks esitada nende konstruktsioonide nimestik. 

Kaasmoodustajad on defineeritud kas sõnaliigi või fraasitüübi kaudu, lisaks 

osutatakse vajadusel ka kaasmoodustaja süntaktilisele funktsioonile (subjekt, 

objekt, adverbiaal). 

23

Järgnevalt rakendan kirjeldatud empiirilist lähenemist eesti substantiivi diskussioon 

näitel. Joonisel 5 on selle substantiivi 20 esimest konkordantsirida (otsisõnaga 

seotud sõnad on alla joonitud). 

Joonis 5. Sõna diskussioon konkordantsiread programmis Sketch Engine (ridade 

üldarv on 5934). 

Konkordantsiridade analüüsist kooruvad välja sellele sõnale iseloomulikud 

konstruktsioonid. On näha, et 1) diskussiooni iseloomu ja tüüpi on täpsustatud 

adjektiivide suur, äge, laialdane, pingne, põhimõtteline, juriidiline abil; 2) laiendiks 

on postpositsioonifraas millegi üle, millegi ümber ja postpositsioonilaadne ühend 

mingitel teemadel; 3) laiendiks on komitatiivis substantiiv, st diskussioon kellegagi; 

4) otsisõna on verbide tekkima, toimuma (subjekti funktsioonis) ja jälgima (objekti 

funktsoonis) laiendiks. 

Neid tuvastatud konstruktsioone kirjeldades saab järgneva tabeli (näitelausete 

allikas on eesti keele koondkorpus). 

Tabel 1. Substantiivi diskussioon konstruktsioonid. 

1 KONSTRUKTSIOON ADJ 

NÄITELAUSE Kuid ka see on avaliku diskussiooni objekt. 

2 KONSTRUKTSIOON PP-üle 

NÄITELAUSE Jätkame diskussiooni muudatusettepanekute üle. 

3 KONSTRUKTSIOON PP-ümber 

NÄITELAUSE Diskussioon eelnõu ümber on viinud mind segadusse. 

.... 

24

Kui võrrelda diskussiooni kirjet seni ilmunud eesti keele sõnastikes, siis on näha, et 

just need konstruktsioonid on sõnastikes fikseeritud. Võrdleme nt kirjet diskussioon 

EKSSis (vt Joonis 6) ja sõnastikus „Valik rektsioone” (Mäearu 2011) (vt Joonis 7). 

Joonis 6. Kirje diskussioon EKSSis. 

Joonis 7. Kirje diskussioon sõnastikus „Valik rektsioone” (Mäearu 2011). 

Mõlemas sõnastikus on esitatud konstruktsioon diskussioon + PP (diskussioon mille 

üle, mille ümber, ja postpositsioonilaadsed mis teemal, mis küsimuses), lisaks on 

EKSSis ka konstruktsioon Adj + diskussioon (elav, huvitav, poliitiline, teaduslik, 

äge diskussioon). Järelikult on olulisemad konstruktsioonid korpusest tuvastatavad 

küllalt väikese hulga konkordantsiridade põhjal. 

Sellel teel saadud konstruktsioonide nimestik on aluseks korpusandmete 

automaatanalüüsi võimaldava arvutigrammatika reeglite kirjutamisel. 

2. Lingvistiline meetod eeldab, et lingvistiliste nähtuste kirjeldamisel lähtutakse 

akadeemiliste ja süntaktiliste (eelkõige fraasisüntaksi) grammatikate 

põhiseisukohtadest ja seejärel uuritakse nende nähtuste esinemist korpuses 

(Khokhlova 2010). Eesmärk on traditsioonilistes grammatikates fikseeritud 

täistähenduslike sõnaliikide (substantiivide, adjektiivide, adverbide ja verbide) 

süntagmaatiliste suhete tüüpide süstemaatiline kirjeldamine. 

Traditsioonilised grammatikakirjeldused on suureks abiks arvutigrammatika 

algversioonide loomisel. Kirjeldustele toetumine aitab juba uuritud keelenähtuste 

(antud töö puhul sisusõnade süntagmaatiliste suhete tüüpide) käsitlemist 

arvutigrammatikas. 

Siinses töös rakendan eesti keele sisusõnade süntagmaatiliste suhete 

automaattuvastamisel kombinatoorset sõnavisandite grammatika meetodit, mida on 

25

edukalt rakendatud leksikograafilises tarkvaras Sketch Engine sõnavisandite 

genereerimisel (Kilgarriff jt 2004). Järgmises peatükis tutvustan valitud meetodi 

põhimõtteid. 

2.3. SÕNAVISANDITE GRAMMATIKA MEETOD 

Meetod seisneb selles, et spetsiaalse arvutigrammatika (nn sõnavisandite 

grammatika) põhjal otsib programm koostaja poolt määratud grammatilistes suhetes 

olevaid sõnapaare ja -kolmikuid, töötleb andmeid statistiliselt ja teeb leksikograafi 

jaoks sõna süntaktilisest ja kollokatiivsest käitumisest kompaktse kokkuvõtte, mida 

nimetatakse sõnavisandiks. Sõnadevahelise seose tugevuse mõõtmisel kasutab 

programm logDice statistikut, lisaks mõõdetakse sõnade koosesinemise sagedust 

(raw frequency). 

Sõnavisandite grammatika formalismi reeglid on regulaaravaldised, mille 

atribuudid on sõnavorm („word”), lemma („lemma”), sõnaliik („tag”) ja 

muutetunnused („features”) 21 . 

Sõnavisandite grammatikas on nelja liiki grammatilisi suhteid 22 : 1) üheliikmeline 

suhe (unary) on defineeritud ühe konkreetse morfoloogilise kategooria kaudu ning 

see suhe annab infot ühe kindla grammatilise vormi kohta, nt mis käändes esineb 

konkreetse noomeni lemma kõige sagedamini; 2) sümmeetriline suhe (symmetric) 

puudutab eelkõige rinnastusseoses olevaid sõnu; 3) kaheliikmelised suhted (dual) 

võimaldavad otsida kahe sõna seoseid; 4) kolmeliikmelised suhted (trinary) 

võimaldavad leida seoseid kolme erineva sõna vahel (nt verbiga koos esinevaid 

adpositsioonifraase). Lisaks on veel reegli tüüp colloc, mis võimaldab otsida 

mitmest, nt kolmest ja enamast sõnast koosnevaid grammatilises seoses olevaid 

üksusi. 

Symmetric-, dual-, trynary- ja colloc-tüüpi reeglid on mõeldud sõnavisandite 

grammatikas defineeritud sõnapaaride, -kolmikute ja -nelikute tuvastamiseks, mille 

komponendid paiknevad tekstis üksteise suhtes kindlalt defineeritud naabruses 

(üldiselt on kontekstina vaadeldud osalauset). 

Reegliga colloc saab tuvastada selliseid kolmeliikmelisi konstruktsioone, kus 

laiendil on omakorda laiend, näiteks eesti keele substantiivse põhjaga 

sõnakolmikuid ja -nelikuid nagu uue aja kombed, luteri usu kirik, saja meetri jooks, 

kahe päeva toit, kolme meetri pikkune, keskmist kasvu mees, esimest aastat õpetaja, 

pikemat aega meister, kõrge kontsaga kingad; kuni kümme meetrit lai tee, üle valla 

21 Eesti keeles on muutetunnusteks noomeni arvu- ja käändetunnused, võrdlusastmete tunnused, 

verbi arvu-, isiku-, aja-, kõneviisi-, tegumoe- ja kõneliigitunnused, samuti infiniitsete 

verbivormide tunnused. 

22 Vt täpsemat kirjeldust Sketch Engine Trac – Grammatical relation definitions 

http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying#wordsketchdefs (28.08.12). 

26

kuulus sepp 23 . Selliste sõnakolmikute ja -nelikute nimestiku koostamine on omaette 

uurimisteema ning antud töös seda tüüpi suhteid ei käsitleta. 

Järgnevalt toon näiteks sõnavisandite grammatika meetodiga tuvastatud substantiivi 

päike 20 kollokaati, mis on järjestatud koosesinemise sageduse (vt Joonis 8) ja 

esilduvuse (vt Joonis 9) järgi. Jooniste esimeses veerus on esitatud otsisõna 

kollokaadid, teises veerus on grammatilise suhte nimetus (vt lähemalt ptk 3.2–3.5.), 

kolmandas on koosesinemiste arv ja neljandas on esilduvuse väärtus. 

Joonis 8. Substantiivi päike kollokaadid järjestatuna koosesinemise sageduse järgi. 

23 Näidete allikas on Tauli (1980). 

27

Joonis 9. Substantiivi päike kollokaadid järjestatuna esilduvuse (logDice) väärtuse 

järgi. 

Jooniste 8 ja 9 võrdlusest nähtub, et koosesinemise sagedus toob esile need 

kollokaadid, mille üksindaesinemise sagedus on kõrge (paistma, tõusma, loojuma 

jm), suurem osa nendest kollokaatidest kuulub eesti keele sagedussõnastiku 

(Kaalep, Muischnek 2002) 3000 sagedama sõna hulka. Esilduvus toob nähtavale 

eelkõige need kollokaadid, mille üksindaesinemise sagedus on madal (nt lemmade 

seniit, taevavõlv, varjutama üksindaesinemise sagedus on korpuses madalam kui 

20), kuid mis on olulised otsisõna süntagmaatika uurimise seisukohalt. Esilduvus 

toob nähtavale sellised sõnaühendid nagu päike seniidis, päike taevavõlvil (nt lauses 

Elu on täiesti võimalik ka päikest taevavõlvil edasi lükkamata), päikest varjutama 

jmt. 

Joonistel 3, 4, 8 ja 9 esitatud andmete võrdlusest on näha, et kombineeritud 

meetodiga (antud uurimuses sõnavisandite grammatika meetodiga) saadud tulemus 

on puhtam ja leksikograafil ei ole vaja kulutada aega eri tüüpi müra (nt 

kirjavahemärkide, vt Joonis 4) filtreerimisele. Puhtstatistilise meetodiga tuvastatud 

koosesinemiste puhul saavutavad eesti keele jaoks paremad tulemused eelkõige 

MI 3 -skoori, minimaalse tundlikkuse ja esilduvuse (logDice) statistikud. 

Koosesinemise sageduse, MI, t-skoori ja log-tõepära funktsiooniga saadud 

tulemused on mürarikkamad, kuna väljundisse satub palju kirjavahemärke ja 

sagedamaid sõnu, mis ei paku leksikograafilist huvi. Sõnavisandite grammatika 

28

meetodiga tuvastatud grammatiliste suhete puhul on kasulik vaadata nii 

koosesinemise sageduse kui ka esilduvuse põhjal tuvastatud kollokaate. Esimene 

näitab, mis kollokatiivses ümbruses ja mis kontekstides kasutatakse sõna kõige 

sagedamini, teine aitab tuvastada harvem ette tulevaid koosesinemisi. 

Tarkvara Sketch Engine’i sõnavisandi moodulis on laiendatud päringuga (advanced 

options, vt Joonis 10) võimalik määrata grammatiliste suhete tuvastamise 

lisatingimusi: 

valida olemasoleva korpuse failidest need, mis hakkavad kuuluma allkorpusesse 

(subcorpus); 

määrata suhte minimaalne esinemissagedus (minimum frequency); 

määrata grammatilise suhte minimaalne esilduvuse väärtus (minimum salience) 

(vt lähemalt Rychlý 2008). Väärtuse tõlgendamise põhimõte on järgmine: 

kõrged väärtused osutavad sõnadevahelisele tugevale seosele, väiksed ja 

negatiivsed väärtused sellele, et sõnad pigem välistavad üksteisega 

koosesinemise (Evert 2009: 2016); 

määrata ühe kategooria kuvatavate üksuste hulk (maximum number of items in 

grammatical relations); 

järjestada kollokaate esilduvuse väärtuse või koosesinemiste arvu järgi (sort 

collocations according to salience/raw frequency); 

kasutada funktsiooni Tickbox Lexicography template, mis pakub eri 

kollokatsioonidele (GDEXi sätete kohaselt) teatud arvu nn parimaid näitelauseid 

(vt lähemalt Kilgarriff jt 2008a); 

klasterdada kollokatsioone (cluster collocations); 

määrata minimaalne sarnasus klasterdatavate üksuste vahel (minimal similarity 

between cluster collocations); 

järjestada kollokaate grammatilise suhte liigi järgi (structure word sketch by 

gramrels); 

genereerida mitmesõnalisi sõnavisandeid (show links to multiword sketches); 

valida grammatilise suhte tüüp (select gramrels). 

29

Joonis 10. Sõnavisandi kasutajaliides: laiendatud päring. 

30

3. EESTI KEELE SUBSTANTIIVIDE, ADJEKTIIVIDE, 

ADVERBIDE JA VERBIDE SÜNTAGMAATILISED 

SUHTED NING NENDE TUVASTAMINE 

KORPUSEPROGRAMMI SKETCH ENGINE EESTI 

MOODULI NÄITEL 

3.1. EESTI KEELE SÕNAVISANDITE GRAMMATIKA KOOSTAMISE 

PÕHIMÕTTED 

Korpusanalüüsi tarbeks kirjeldan eesti keele sisusõnade süntagmaatiliste suhete 

tüüpe vormiklasside (sõnaliikide, fraasitüüpide) ja morfosüntaktiliste kategooriate 

(käänete) kaudu. Selline lähenemine on tingitud asjaolust, et korpusanalüüsi 

lähtekohaks on morfoloogiliselt märgendatud korpus ja sõnavisandite grammatika 

atribuudid on korpuses märgendatud sõnavormid, lemmad, sõnaliigid ja 

muutetunnused (vt lähemalt ptk 2.3.). Selliseid kirjeldusi nimetan töös 

leksikogrammatilisteks konstruktsioonideks. Konstruktsiooni moodustajaid käsitlen 

kaasmoodustajatena. 

Kaasmoodustaja on otsisõnaga süntagmaatilises suhtes olev sõna, ta võib olla nii selle 

sõna laiend kui ka põhi, mida otsisõna laiendab. Näiteks otsides substantiivi 

diskussioon süntagmaatilisi suhteid, on leksikograafi jaoks oluline näha nii neid 

suhteid, kus diskussioon on laiendi funktsioonis (nt diskussiooni teema) kui ka neid, 

kus diskussioon on põhja funktsioonis (nt äge diskussioon). Seejuures on oluline 

märkida, et kirjeldatud konkreetsete sisusõnade leksikogrammatilised 

konstruktsioonid ei ole sama mis nende sisusõnade fraasitüübid. Eriti oluline on see 

märkus substantiivi leksikogrammatiliste konstruktsioonide juures (vt Tabel 3), kus 

on välja toodud konstruktsioon numeraal + substantiiv. Tegemist on arvsõnafraasiga. 

Kuid moodustusstruktuuri põhjal kirjeldamine võimaldab arvsõnafraase käsitleda ka 

substantiivi leksikogrammatiliste konstruktsioonide hulgas. 

Konstruktsioonide loendi koostamisel olen otsustanud lingvistilise meetodi kasuks. 

Edaspidi võib kaaluda ka korpusainesest lähtuvate empiiriliste meetodite 

rakendamist, mis täiendaks sõnavisandite grammatikat. 

Eesti keele sõnavisandite grammatika koostamiseks tuli lahendada järgmised 

küsimused. 

1) Koostada eesti keele traditsiooniliste (Rätsep 1978; Tauli 1980; EKG 1993; 

Kerge 2000; Erelt jt 2007) ja formaalsete (Müürisep 2000; Roosmaa jt 2001; 

Puolakainen 2001) grammatikakirjelduste põhjal eesti substantiivide, adjektiivide, 

adverbide ja verbide süntagmaatiliste suhete nimestik. Kokku olen välja toonud 32 

substantiivide, adjektiivide, adverbide ja verbide leksikogrammatilist 

konstruktsiooni (vt Tabel 3, Tabel 5, Tabel 6 ja Tabel 7). 

2) Analüüsida olemasolevate eesti keele morfoloogiliste analüsaatorite sõnaliikide 

ja morfoloogiliste tunnuste märgendussüsteemi. 

31

Siinse töö raames koostatud sõnavisandite grammatika põhineb 

morfoloogiaanalüsaatori ESTMORF (Kaalep 1998) märgendussüsteemil 24 , millega 

on märgendatud eesti keele koondkorpus. ESTMORFi märgendussüsteem erineb 

paljuski teistes eesti keele morfoloogilistes analüsaatorites kasutatud märgenditest, 

toon tabelis 2 näiteks sõnaliikide käsitluse ESTMORFis, eesti keele kitsenduste 

grammatikas (edaspidi ESTKG) (Roosmaa jt 2001) ja Eesti Keele Instituudi (EKI) 

morfoloogilises analüsaatoris 25 . 

Tabel 2. Sõnaliikide käsitlus ESTMORFi (Kaalep 1998), ESTKG (Roosmaa jt 

2001) ja EKI morfoloogilises analüsaatoris. 

ESTMORF ESTKG EKI 

_S_ nimisõna 

_H_ pärisnimi 

_A_ omadussõna – 

algvõrre 

_S_ nimisõna 

_S_ nimisõna 

_H_ pärisnimi 

_C_ omadussõna – 

keskvõrre 

_U_ omadussõna – 

ülivõrre 

_A_ omadussõna _A_ omadussõna 

_G_ genitiivatribuut _G_ genitiivatribuut _G_ genitiivatribuut e 

(käändumatu 

omastavaline 

omadussõna) 

(pärisnimekujuline) 

täiend 

_D_ määrsõna _D_ määrsõna _D_ määrsõna 

_I_ hüüdsõna _I_ hüüdsõna _I_ hüüdsõna 

_J_ sidesõna _J_ sidesõna _J_ sidesõna 

_K_ kaassõna _K_ kaassõna _K_ kaassõna 

_N_ põhiarvsõna 

_N_ põhiarvsõna 

_O_ järgarvsõna _N_ arvsõna 

_O_ järgarvsõna 

_P_ asesõna _P_ asesõna _P_ asesõna 

32 

_V_ tegusõna _V_ tegusõna _V_ tegusõna 

_X_ verbi juurde 

kuuluv sõna, millel 

eraldi sõnaliigi tähistus 

puudub, nt plehku 

– – 

_Y_ lühend, nt USA _Y_ lühend, nt USA – 

_Z_ lausemärk, nt -, /, _Z_ lausemärk, nt -, /, – 

24 

ESTMORFi kirjeldus http://www.filosoft.ee/html_morf_et/morfoutinfo.html (28.08.12). 

25 

Eesti Keele Instituudi morfoloogiline analüsaator http://www.eki.ee/tarkvara/morf_lisa.html 

(28.08.12).

ESTMORF märgendab omaette sõnaliikideks alg-, kesk- ja ülivõrdes adjektiivid, 

üld- ja pärisnimisõnad, põhi- ja järgarvsõnad ning ei erista selliseid sõnaliike nagu 

modaal-, afiksaal- ja proadverbid (vrd EKG 1993: 18). Roosmaa jt arvates oleks 

selgem selline märgendus, kus sõltumata sellest, kas adjektiiv on alg-, kesk- või 

ülivõrdes, on kasutusel ikkagi sama märgend, mis ütleb, et tegu on adjektiiviga, ja 

lisaks veel märgend, mis näitab võrdlusastet (2001: 25–27). Nii on ESTKGs kolme 

eri adjektiivi märgendi (A, C ja U) asemel kasutusele võetud üksainus märgend (A) 

ning võrdlusastet näitavad märgendid pos (algvõrre), comp (keskvõrre) ja super 

(ülivõrre). Samal põhjusel on võetud pärisnime (H) ja üldnime (S) märgendid 

kokku üheks nimisõna märgendiks (S); põhiarvsõna (N) ja järgarvsõna (O) 

märgendid aga üheks arvsõna märgendiks (N). Lisamärgenditeks on põhi- ja 

järgarvsõnade märgendid (card ja ord) ning põhi-, modaal- ja abiverbide märgendid 

(main, mod, aux). Lisaks on ESTKGs ka adpositsioonide lisamärgendid, mis täpselt 

määravad, kas tegu on pre- või postpositsiooniga (vt kirjeldust Roosmaa jt 2001: 

121–158). Kuna ESTMORF pre- ja postpositsioone ei erista, siis tuli sõnavisandite 

grammatika tarbeks koostada spetsiaalsed pre- ja postpositsioonide loendid. 

EKI morfoloogilise analüsaatori süsteem sarnaneb sõnaliikide märgendamisel 

ESTMORFi ja ESTKG omaga, eraldi sõnaliigina märgendatakse pärisnimesid; 

adjektiivi võrdlusastmeid omaette sõnaliikideks ei märgendata. 

Kõigi kolme analüsaatori puuduseks on perifrastiliste verbide ja teist tüüpi 

püsiühendite puudulik märgendamine (eelkõige afiksaaladverbide märgendamine 

iseseisvateks adverbideks ja väljendverbide nominaalsete komponentide 

märgendamine iseseisvateks substantiivideks), kuid see puudus korvatakse ilmselt 

juba lähiaastatel (vt Kaalep, Muischnek 2009: 157–173). Põhilised probleemid on 

piiritletud samuti formaalses grammatikas (Roosmaa jt 2001: 26): nii ESTMORFis 

kui ka ESTKGs analüüsitakse predikaadi koosseisu kuuluvaid substantiivseid ja 

adverbilisi komponente eraldi (Roosmaa jt 2001: 29) ning eeltöötluse ja 

morfoloogilise analüüsi käigus neid ära ei tunta. Nagu ESTKG loojad märgivad, 

nõuaks liitpredikaadi adverbiliste ja substantiivsete komponentide täpsem analüüs 

semantilise info olemasolu ning väga mahukat väljend- ja ühendverbide 

arvutisõnastikku. Teiseks probleemiks on adverbialiseerunud ja adjektiviseerunud 

üksuste sõnaliigi määramine, nt käes, tasuta jne. Need vormid lemmatiseeritakse ja 

märgendatakse üldjuhul iseseisva substantiivina. 

Lähtuvalt morfoloogiaanalüsaatori ESTMORF märgendite süsteemist on eesti keele 

sõnavisandite grammatikasse kirjutatud reeglid selliste sõnaliikide jaoks nagu S 

(substantiiv); A (ka C, U ja G, st tuli kirjutada eraldi reeglid kõikide nende 

adjektiivivormide jaoks); D (adverb) ja V (verb). Kuid analüüsi on kaasatud ka 

sellised sõnaliigid nagu K (adpositsioon), P (pronoomen), N (kardinaal), O 

(ordinaal) ja X (Xiga on märgendatud verbi juurde kuuluv sõna, millel eraldi 

sõnaliigi tähistus puudub). Koondkorpuses on Xiks märgendatud järgmised sõnad: 

pärit (32278) 26 , tähele (7878), andeks (2690), parata (2135), mahti (1310), kihla (807), 

26 Sulgudes on esitatud andmed nende sõnade eraldiesinemise sageduse kohta koondkorpuses. 

33

plehku (492), säru (145), vehkat (76), peksa (70), lulli (62), amokki (41), tuupi (35), 

putket (28), luuslanki (24), luuri (16), lakku (6) ja rooki (1). 

3) Koostada konkreetsed sõnavisandite grammatika reeglid. 

4) Seejärel reegleid korpuse päringukeelt kasutades testida ja vaadata, kas nad 

töötavad. Oluline vaheetapp on iga reegli kontekstitingimuste täpsustamine ja 

vajadusel reeglit täpsustava leksikoni koostamine. Eraldi loendid koostasin 

sidendite, afiksaaladverbide, substantiivsete kvantorite ja prepositsioonide jaoks. 

Kontekstitingimuste määramisel ja loendite koostamisel toetusin eesti keele 

traditsiooniliste (Rätsep 1978; Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007) ja 

formaalsete (Müürisep 2000; Roosmaa jt 2001; Puolakainen 2001) grammatikate ja 

tasakaalus- ning koondkorpuse andmetele. Afiksaaladverbide loendi koostamisel 

kasutasin EKSSi ja EE-VN ühendverbide loendeid. Korpusandmeid kasutasin kõige 

rohkem siis, kui oli vaja otsustada, kas teatud grammatilise suhte puhul on mõtet 

otsida konkreetse sisusõna neid laiendeid, mis asuvad otsisõna paremas kontekstis, 

vasakus kontekstis või mõlemas. Toon näite: otsisõnaks on adjektiiv ja 

tuvastamisobjektiks on selle infinitiivsed laiendid (ahne sööma). Infinitiivsed 

laiendid on reeglina järellaiendid. Samas korpusandmed 27 osutavad sellele, et 

mõnikord esineb ma-infinitiivis verb ka adjektiiviks märgendatud sõnade ees, nt 

konstruktsioonides mõtlema kutsuv, lagunema/ununema kippuv jmt. Siiski on 

selliste konstruktsioonide esinemissagedus üsna madal ning neid on otstarbekam 

otsida päringukeele abil. Reegli lisamisel satuksid väljundisse juhuslikud verbi ja 

adjektiivi koosesinemised (nt saama õiget, domineerima tühjad jmt). Sel põhjusel 

seda tüüpi konstruktsioone tuvastavat reeglit (*Vma_Adj) ei ole koostatud. 

Eesti keele sõnavisandite grammatika versioon 1.5 koosneb 85 reeglist, mille hulgas 

on 14 unary-tüüpi, 4 symmetric-tüüpi, 62 dual-tüüpi ja 5 trinary-tüüpi reeglit 

(vt Lisa 1). 

Unary-tüüpi reeglid tuvastavad, mis käändes esineb konkreetne substantiiv või 

adjektiiv kõige sagedamini. See info on kasulik grammatikaliseerunud ja 

leksikaliseerunud vormide uurimisel. Nt korpuse andmed näitavad, et substantiivi 

tasu on kasutatud ilmaütlevas käändes 28 933 korda, teistes käänetes aga tunduvalt 

vähem (osastavas 5152 korda, omastavas 5077 korda, nimetavas 2558 korda). Selle 

info põhjal võib järeldada, et sõnavorm tasuta on adverbialiseerumas. Teiseks 

osutub see info kasulikuks morfoloogiliste vormide kasutussageduse uurimisel. 

Näiteks adjektiivi võimalik andmed näitavad, et omastavat vormi võimalike on 

kasutatud 6433 korda, samas vorm võimalikkude esineb vaid kaks korda. See teave 

on eriti oluline vormimoodustusinfo esitamisel õppesõnastikes. Nendele andmetele 

toetudes saab teha valiku, mis morfoloogilisi vorme esitada, et mitte koormata 

õppijat grammatiliselt lubatavate, aga tegelikus keeles mitte kasutatavate 

vormidega. 

27 

Konstruktsioonid on leitud päringuga 2:[ tag="V"&features="ma"] 1: [tag="A"& 

features=".._n"]. 

34

Symmetric-tüüpi reeglid on koostatud eelkõige substantiivide, adjektiivide, 

adverbide ja verbide rinnastus- ja võrdlustarindite tuvastamiseks (vt lähemalt ptk 

3.2.2.10., 3.3.2.7., 3.4.2.5. ja 3.5.2.9.). 

Kahe- ja kolmeliikmeliste leksikogrammatiliste konstruktsioonide tuvastamiseks olen 

koostanud 67 reeglit. Peatükkides 3.2.–3.5. käsitlen ja võimalusel lahendan nende 

reeglite koostamisel tekkinud probleeme ja analüüsin saadud tulemusi. Igas peatükis 

on kaks osa: sõnaliigi leksikogrammatiliste konstruktsioonide nimestik (vt Tabel 3, 

Tabel 5, Tabel 6, Tabel 7) ja nende konstruktsioonide käsitlus sõnavisandite 

grammatikas. Tabelites osutan konkreetset konstruktsiooni tuvastava reegli 

nimetusele. Grammatika praeguses versioonis 1.5 on reeglite nimetustes kasutatud 

mitmete teiste keelte jaoks (nt Khokhlova 2010) koostatud sõnavisandite 

grammatikate traditsioonilist terminiaparaati. Neist suurem osa on ingliskeelsed 

terminid, nt subject ʽsubjektʼ, object ʽobjektʼ, adverbial ʽadverbiaalʼ, predicate 

ʽpredikatiivʼ, participle ʽpartitsiipʼ jt. Sõltuvussuhteid on näidatud sõnade modifier 

ʽlaiendʼ, modifies ʽlaiendabʼ ja prepositsiooni of abil. Grammatika metakeele 

arendamine nõuab täiendavaid kasutajauuringuid ning edaspidi saab seda kohandada 

eri sihtgruppide (leksikograafide, lingvistide, keeleõppijate) soovidele vastavaks. 

Tabelites toodud näited on võetud kas grammatikatest (Tauli 1980; EKG 1993; 

Kerge 2000; Erelt jt 2007) või eesti keele koondkorpusest. 

3.2. SUBSTANTIIVI SÜNTAGMAATILISED SUHTED 

3.2.1. Leksikogrammatilised konstruktsioonid 

Substantiivi süntagmaatiliste suhete nimestiku koostamisel lähtusin järgmistest 

grammatilistest käsitlustest: Valter Tauli 1980: 156–188; EKG 1993: 114–129; 

Krista Kerge 2000: 27–31, 78–83; Mati Erelt 2003a: 112–116. Sõnavisandite 

grammatika kirjutamisel kasutasin ka Kaili Müürisepa (2000: 62–68) väitekirja 

täiendigrammatika peatükis kirjeldatud põhimõtteid. 

Eesti substantiivifraasi moodustusstruktuuri kirjeldades osutab Erelt (2003a: 112, vt 

ka Erelt jt 2007: 531), et eesti keeles on tüüpilise/prototüüpse substantiivifraasi 

laiendite positsioon fikseeritud fraasi peasõna suhtes. Suurem osa laienditest esineb 

substantiivile eelnevas positsioonis: 1) demonstratiivid, nt see mees, kõik kohad, 

oma inimene; 2) adjektiivid, nt vana mees; 3) kvantorid, nt kaks meest; 

4) partitsiibid ja mata-ühendid relatiivsete klausidena, nt jalutav mees, rabisev 

vihm, hinnatav saavutus, möödunud päev, kõigi poolt oodatud inimene, hommikust 

saadik pesemata käed; 5) genitiivis laiendid, nt venna raamat, eesti keel; 6) mõned 

obliikvakäändes substantiivsed laiendid, nt puust maja, nokaga müts; 

7) järgarvsõnad, nt kümnes klass; 8) ja-tegijanimed relatiivsete klausidena, nt 

mõtleja inimene, hauduja kana. Lisaks loetletule substantiivi-, adjektiivi- ja 

kavantori(fraasi)dele esinevad substantiivi laienditena ka adverb(ifraas)id (kikkis 

kõrvad, raagus puud), adpositsioonifraasid (uhkus kodumaa üle), infinitiiv(ifraas)id 

35

(soov õppida, kavatsus abielluda) ja kõrvallaused (nt Muidugi jääb küsimus, kas see 

isik on sotsiaalselt kindlustatud) (vt Kerge 2000: 78–81). 

Tabelis 3 on esitatud sõnavisandite grammatikas tuvastatavad substantiivi 

leksikogrammatilised konstruktsioonid. 

Tabel 3. Substantiivi leksikogrammatilised konstruktsioonid. 

Kaasmoodus 

36 

taja kood 

Kaasmoodustaja 

Näited Konstruktsiooni tuvastava 

reegli nimetus SkE eesti 

moodulis 

Adj adjektiiv väike poiss, punane roos Adj_modifier/modifies 

Adj_comp_modifier/modifies 

Adj_sup_modifier/modifies 

Adj_käändumatu_modifier/ modifies 

Ptcp partitsiip 

(v-kesksõna, 

tav-kesksõna, 

nud-kesksõna, 

tud-kesksõna) 

N obliikvakäändes 

substantiiv 

jalutav mees, 

möödunud päev 

venna raamat, sõbra 

pruut, panga juhataja, 

ülikooli nõukogu; 

meeter riiet, pudel vett, 

paanikas mees, abielus 

naine, rauast uks, 

lendurist abikaasa, 

rinnuni rohi, lasteta 

perekond, iseloomuga 

naine; 

usk jumalasse, osavõtt 

koosolekust, lootus 

vabadusele, kiri sõbralt, 

ettepanek lõunasöögiks, 

tee suhkruta, abielu 

pankuriga, ämber veega 

Num arvsõna 

Eesti Vabariik, Euroopa 

Liit 

esimene armastus, sada 

kilomeetrit 

Adv adverb raagus puud, 

gripis/sarlakites laps, 

alasti jõnglane, kummuli 

pann, kohevil tainas, 

omaette tuba; palju 

pahandust, vähe vigu, 

natuke aega 

Pron pronoomen need lilled, mõlemad 

lapsed 

participle_modifier 

omastav_modifier/omastav_ 

modifies 

osastav_modifier/osastav_ 

modifies 

sisseütlev_modifier 

seesütlev_modifier 

seestütlev_modifier 

alaleütlev_modifier 

alalütlev_modifier 

alaltütlev_modifier 

saav_modifier 

rajav_modifier 

olev_modifier 

ilmaütlev_modifier 

kaasaütlev_modifier 

Pr_modifier/Pr_modifies 

ordinal_modifies/modifier 

cardinal_modifies/modifier 

Adv_modifier/N_modifies 

Pron_modifier/modifies

Kaasmoodus- 

taja kood 



Vinf verb ma- või 

da-infinitiivis 


(tuvastusobjekt 

on kõrvallause 

alguses olev 

sidend) 

N ja/või N 

N kui/nagu N 

rinnastustarind 

võrdlustarind 

(nagu-tarind, 

kui-tarind) 

Näited Konstruktsiooni tuvastava 

reegli nimetus SkE eesti 

ülespoole põlve kleit, üle 

küla mees, elu üle 

mõtleja; hirm vanemate 

ees, vastutus laste eest, 

saatekiri arsti juurde 

meister valetama, soov 

laulda, harjumus õppida 

Mees, kes valetas. 

Küsimus, mis eile kerkis. 

See on fakt, et ta valetas. 

Mul tekkis kahtlus, kas ta 

mitte ei valeta. 

Mul on tunne, nagu oleks 

mul energiakriis. 

päike ja tuul, 

elu kui kabaree, 

mees nagu orkaan 

moodulis 

N_PP 

N_Vma 

N_Vda 

kõrvallause 

ja/või 

kui/nagu 

Pred predikatiiv Naine on ilus. predicate_N/predicate_N_of 

predicate_Adj/predicate_Adj_of 

3.2.2. Sõnavisandid 

3.2.2.1. Adjektiiv kaasmoodustajana 

Sõnavisandite grammatika versioonis 1.5 (vt Lisa 1) on adjektiivsete atribuutide 

tuvastamiseks neli reeglit (vt Tabel 3): Adj_modifier/modifies, 

Adj_comp_modifier/modifies, Adj_sup_modifier/modifies, 

Adj_käändumatu_modifier/modifies. See on tingitud ESTMORFi eripärast, et 

adjektiivi alg-, kesk- ja ülivõrded ning käändumatud adjektiivid on märgendatud 

omaette sõnaliikideks (vt ka ptk 3.1.). 

Grammatikas on arvesse võetud ainult sellised struktuurid, kus täiend on põhja ees. 

Tingimuseks on seatud, et täiend ühildub põhjaga käändes (v.a neli viimast käänet) 

ja arvus ning asub substantiivi vasakus kontekstis. Adjektiivseid järeltäiendeid 

programm hetkel ei otsi. Nagu märgitakse Erelti jt (2007: 532) käsiraamatus, 

kasutatakse eesti keeles järelasendit täiendi esiletõstmiseks peamiselt 

ilukirjanduskeeles ja emotsionaalses kõnes (vrd nt Tauli (1980: 159) näidet: Juba 

lapsena igatsesin merd ääretut (Friedebert Tuglas)). Järeltäiendi tuvastamiseks 

oleks vaja esiteks järeltäiendi grammatika põhjalikumat uurimist, ja teiseks, kuna 

seda tüüpi täiend esineb sagedamini ilukirjanduskeeles ja emotsionaalses kõnes, on 

nende automaattuvastamiseks vajalikud piisavalt suured vastavate allkeelte 

märgendatud korpused, vastasel juhul ei ole väljund representatiivne. 

37

Toon näiteks substantiivide päike (vt Joonis 11) ja ühiskond (vt Joonis 12) 

sõnavisandites tuvastatud (algvõrdes esinevad) eestäiendid. Siin ja edaspidi on 

sõnavisandi jooniste ülemisel real nähtavad grammatilise suhte nimetus 

sõnavisandite grammatikas, tuvastatud sõnade üldine koosesinemiste arv (overall 

frequency) ja esilduvuse (logDice) üldväärtus (overall score). Jooniste esimeses 

veerus on nähtavad lemmale viiduna otsisõna kollokaadid, teises veerus on iga 

konkreetse sõnapaari- või kolmiku koosesinemiste arv (frequency), kolmandas 

veerus on esilduvuse väärtus (score). Väärtuse tõlgendamise põhimõte on järgmine: 

kõrged väärtused osutavad sõnadevahelisele tugevale seosele, väiksed ja 

negatiivsed väärtused sellele, et sõnad pigem välistavad üksteisega koosesinemise 

(Evert 2009: 2016) (vt arutelu ptk-is 2.2.1. ja 2.2.2.). Joonistel on lemmad 

järjestatud koosesinemise sageduse järgi. Nii tulevad esile sõnad, mille 

eraldiesinemise sagedus korpuses on kõrge. Selline materjali esitusviis toetab eriti 

alg- ja kesktasemele suunatud süntagmaatiliste õpikute koostamist (vt arutelu ptk-is 

5.2.1.3.). 

Joonis 11. Substantiivi päike Joonis 12. Substantiivi ühiskond 

adjektiivatribuudid. adjektiivatribuudid. 

Joonisel 11 olevast infost nähtub, et reegli Adj_modifier alusel tuvastas programm 

lemma päike 2240 adjektiivset laiendit, millest kõige sagedam kollokaat on tõusev 

(271 koosesinemist), järgnevad ere/loojuv/lõõskav jt. Sõnapaari tõusev päike 

esilduvuse väärtus on 10.7; sõnapaari loojuv päike esilduvuse väärtus on sellest 

kõrgem (10.93), mis osutab, et sõnade loojuv ja päike seos on statistiliselt tugevam. 

Seevastu substantiivi ühiskond kõige sagedam adjektiivne eestäiend demokraatlik 

(914 koosesinemist) on ühtlasi kõrgeima esilduvuse väärtusega (10.66) adjektiivne 

kollokaat. 

3.2.2.2. Partitsiip kaasmoodustajana 

Partitsiipsete kaasmoodustajate tuvastamiseks on sõnavisandite grammatikas reegel 

participle_modifier (vt Tabel 3). Otsitakse substantiivi vasakus kontekstis esinevaid 

v-, tav-, nud- ja tud-kesksõnu. Seega tuvastab programm substantiivi ja partitsiibi 

38

ühendeid, milles partitsiip esineb eestäiendi funktsioonis. Joonis 13 näitab sõna 

kohv ja Joonis 14 sõna artikkel partitsiipseid eestäiendeid. 

Joonis 13. Substantiivi kohv Joonis 14. Substantiivi artikkel 

atribuudid. atribuudid. 

Substantiivi kohv sõnavisandis on sellised ühendid nagu jahvatatud/röstitud/ 

jahtunud jne. Substantiivi artikkel sagedamad kaasmoodustajad on nud-partitsiip 

ilmunud ja tud-partitsiibid avaldatud/nimetatud/kirjutatud jt. 

3.2.2.3. Substantiiv kaasmoodustajana 

Obliikvakäändeliste substantiivsete atribuutide tuvastamiseks on kirjutatud eraldi 

reeglid iga käände jaoks. Seega toob süsteem esile substantiivi genitiiv- (venna 

raamat), partitiiv- (kimp lilli) ja adverbiaalatribuudid (usk jumalasse). 

3.2.2.3.1. Genitiivatribuut 

Genitiivatribuudi reegel omastav_modifier/omastav_modifies (vt Tabel 3) tuvastab 

substantiive, mis asuvad vahetult otsitava substantiivi vasakus kontekstis ja on 

genitiivis. Ka selle suhte puhul otsitakse vaid eestäiendiga ühendeid. Tauli (1980: 

166) on osutanud, et sellised konstruktsioonid, kus genitiivatribuut järgneb 

substantiivile, on samuti eesti keeles võimalikud, nt Kes olen mees ma koidu? 

(Gustav Suits), kuid need on pigem erandlikud ja esinevad üldjuhul luules. 

Programm otsib nii neid juhtumeid, kus otsitava lemma laiendiks on teine genitiivis 

substantiiv, kui ka neid, kus otsitav lemma esineb ise genitiivatribuudi funktsioonis. 

Joonisel 15 on lemma eesmärk genitiivatribuudid (omastav_modifier): 

eelnõu/projekti/seaduse eesmärk; samuti need ühendid, kus eesmärk ise esineb 

genitiivatribuudi funktsioonis (omastav_modifies): eesmärgi saavutamine/täitmine/ 

seadmine jne. 

39

Joonis 15. Substantiiv eesmärk fraasi põhja ja genitiivatribuudi funktsioonis. 

Lisaks tuvastab programm reegli Pr_modifier/Pr_modifies (vt Tabel 3) abil 

genitiivis pärisnimede ja üldnimede koosesinemisi. Nt substantiivi vabariik 

sõnavisandis tulevad esile atribuudid Eesti/Lõuna-Aafrika/Läti jmt. 

3.2.2.3.2. Partitiivatribuut 

Partitiivatribuudid esinevad eelkõige substantiivsetes kvantorifraasides (vt ka Kerge 

2000: 25–26), nt kari mullikaid. Seda tüüpi kaasmoodustajate tuvastamiseks on 

kirjutatud reegel osastav_modifier/osastav_modifies, vt Tabel 3. 

Reegliga saab tuvastada otsisõna ainsuse ja mitmuse partitiivis olevaid 

järeltäiendeid. Programm otsib ainult loendina etteantud sõnade järeltäiendeid. 

Põhjus on selles, et muidu tuvastaks programm kõik võimalikud substantiivi 

koosesinemised teise partitiivis esineva substantiiviga, nt lauses Teise tsitaadi 

autorit ma täpselt ei mäleta või Mis loogika see õieti on, mille alusel kodanikel 

vahet tehakse? 

Loendis on sõnad aasta, enamik, enamus, gramm, grupp, hektar, hetk, hulk, hunnik, 

jagu, jupp, kann, kari, kast, kiht, kilogramm, kilo, kimp, klaas, klaasike, 

kolmveerand, kott, kraad, kuhi, liiter, meeter, minut, nädal, osa, paar, pakk, parv, 

põlvkond, ports, pudel, punt, purk, päev, rida, rühm, sari, sekund, tass, tassike, tilk, 

tonn, tund, tükk, valik, veerand, viil, virn. 28 

Jooniselt 16 nähtub, et substantiivi tass sagedamad partitiivatribuudid 

(osastav_modifier) on kohv/tee/vesi. 

28 Loendi koostamisel lähtusin päringuga 1:[tag="S"] [tag="A"]{0,2} 2:[tag="S"& 

features=".._p"][tag!="V"] saadud konkordantside analüüsist. 

40

Joonis 16. Substantiivi tass partitiivatribuudid. 

3.2.2.3.3. Adverbiaalatribuut 

Eraldi reeglid on kirjutatud kõikide adverbiaalkäändeliste täiendite tuvastamiseks 

(vt Tabel 3): sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier, 

alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, saav_modifier, 

rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier. 

Tauli (1980: 158–173), Kerge (2000: 27–31) ja Erelti (2003a: 114–115) eesti keele 

süntaksi uurimused näitavad, et nii substantiivile eelnevad kui ka järgnevad 

adverbiaalatribuudid võivad esineda kõikides adverbiaalkäänetes (vt Tabel 4). 

Tabel 4. Adverbiaalatribuutide asukoht põhja suhtes. 

Moodustusstruktuur 

Eestäiend Järeltäiend 

N+Nill eeskotta minek, Austraaliasse 

sõit 

usk jumalasse, sõit linna, vaade õue 

N+Nin paanikas inimene, tiisikuses käänak jutuajamises, äike 

mees, abielus naine, 

veebruaris, seisukohad 

küünaldes kuusk 

keeleküsimustes 

N+Nela rauast uks, lambanahast 

kasukas, kunstnikust vend 

unistus armastusest, osa päevast 

N+Nall luurele minek, trepile tulek lootus õnnele, rünnak kindlusele 

N+Nade naerul suu, hüppel loom, kõnelus sel teemal, meister omal 

veskil käik 

alal, võistlus ajavahemikul 

N+Nabl rahvuselt soomlane, elukutselt 

õpetaja, kontserdilt kojuminek 

küsimus kolleegilt, kiri õelt 

N+Ntrl sõduriks minek, minutiks tagatis eduks, juhend esmaabiks, 

äraminek 

soov puhkuseks 

N+Nter laeni kuusk, rinnuni rohi, 

maani palitu 

tee mõistmiseni 

N+Ness turistina sõit üritus tervikuna, osavõtt külalisena 

N+Nabe lasteta perekond, nokata müts, 

tasuta tsirkus 

pidu temata 

41

Moodustusstruktuur 

Eestäiend Järeltäiend 

N+Ncom nokaga müts, habemega mees, 

prillidega naine 

vestlus sõbraga, ämber veega 

Ühendeid noomen + noomen adverbiaalkäändes põhjalikult analüüsinud Tauli 

(1980: 167–173) märgib, et seda tüüpi ühendite üldine sõnajärg on, et laiend 

järgneb põhisõnale. Laiend on põhisõna ees, kui põhisõnaks on sõnad käik, minek, 

olek, panek, tulek, osalt püük ja sõit. Ka korpuse andmed osutavad, et järeltäiend 

esineb palju sagedamini kui eestäiend. Sõnavisandite grammatika reeglid otsivad 

hetkel seestütlevas, alalütlevas, alaltütlevas, saavas, olevas, ilmaütlevas ja 

kaasaütlevas käändes esinevaid eestäiendeid ja kõikides käänetes järeltäiendeid. 

Adverbiaalatribuutide reeglite puhul on problemaatiline see, et süsteem otsib 

osalause piires kõiki võimalikke laiendeid paremas ja vasakus kontekstis ning üsna 

sageli sattuvad väljundisse laiendid, mis pole otsilemmaga seotud. Toon näiteks 

lemma kiri sõnavisandis esile tulnud adverbiaalatribuudid (vt Joonis 17). 

Joonis 17. Substantiivi kiri adverbiaalatribuudid. 

Sõnavisandite grammatika alusel tuvastas programm sellised ühendid nagu kiri 

peaministrile/valitsusele/presidendile (vt veergu alaleütlev_modifier); kiri 

aadressilt/rindelt (vt alaltütlev_modifier); kiri pudelis (vt seesütlev_modifier); kiri 

aadressil/teemal, kirja alusel/teel (vt alalütlev_modifier); kiri palvega/ 

42

teatega/ettepanekuga (vt kaasaütlev_modifier); kiri postkastist/arvutist/pangast (vt 

seestütlev_modifier); kirja saatjaks/ajendiks, vastuseks kirjale (vt saav_modifier) jt. 

Loetletud üksused pakuvad leksikograafilist huvi (moodustavad tähenduslikke 

seoseid ja näitavad kollokatiivset ümbrust), kuid väljundis on ka palju vigast infot, 

nt kiri paremuselt (vt veergu alaltütlev_modifier). Lemma kiri puhul on see tingitud 

suures osas asjaolust, et väljundisse sattuvad iseseisva substantiivina sellised 

vormid, mis on tegelikult väljendverbide nominaalsed komponendid. Näiteks on 

suur hulk vigadest tingitud väljendverbidest kirja panema (nt lauses Muidu saab 

igaüks end kandidaadina kirja panna ja piinata rahvast lubadustega, ..), kirjas 

olema (nt lauses Nüüd olen tööotsijana kirjas ja käin heakorratöödel, ..), kirja 

minema (nt lauses Korraldajad andsid läbi mikrofoni käitumisjuhiseid et üritus 

rekordina kirja läheks, ..), kirja saama (nt lauses Viimase jooksu võitis Nazarov ja 

sai kirja paremuselt kolmanda aja ..) jt. Ühendid nagu kandidaadina/tööotsijana/ 

rekordina kiri (vt veergu olev_modifier) on tingitud väljendverbi olemasolust 

lauses; vigane ühend kiri paremuselt (vt alaltütlev_modifier) on tingitud sellest, et 

programm otsib paremas kontekstis asuvat naabrit, paremuselt on aga 

väljendverbile järgneva substantiivifraasi osa (paremuselt kolmas aeg). Seega 

toodud näited pole mitte substantiivi kiri adverbiaalatribuudid, vaid vastavate 

väljendverbide komponendid või kõrval asuvate substantiivifraaside laiendid. Et 

seda tüüpi vigu vältida, oleks vaja otsingut mitte ainult osalausete piires, vaid fraasi 

piires. 29 

Adverbiaalatribuudi reeglid tuvastavad paremini eelkõige neid ühendeid, mille 

puhul on tegemist rektsioonistruktuuridega. Kuna programmi kasutajaliides 

võimaldab valida, mis tüüpi suhteid otsida, siis ei pea iga sõna kõikide esile tulnud 

veergude sisu üle vaatama. Kasutaja võib täpselt määrata, mis adverbiaalkäändes 

atribuudid teda huvitavad. Nt kui lemmaks on usk ja kasutajat huvitab, millesse või 

kellesse usutakse, siis saab otsida ainult sisseütlevas käändes esinevaid laiendeid ja 

väljundis kuvatakse ainult illatiivseid atribuute, st usk jumalasse/õiglusse/imesse jne 

(vt Joonis 18). 

29 Eesti keele nimisõnafraaside eristamiseks on loodud spetsiaalne programm Eestikeelsete 

nimisõnafraaside filtreerija (EstNPTool), vt kirjeldust 

http://www.eki.ee/keeletehnoloogia/projektid/EstNPTool/ (28.08.12). 

43

Joonis 18. Substantiivi usk illatiivsed adverbiaalatribuudid. 

3.2.2.4. Pronoomen kaasmoodustajana 

Pronoomenite ja substantiivide koosesinemisi tuvastav reegel 

Pron_modifier/modifies (vt Tabel 3) otsib, milliste substantiividega esineb 

konkreetne pronoomen kõige sagedamini. Korpuse andmetel on sagedamad ühendid 

järgmised (vt Joonis 19, väljund on viidud lemmadele). 

Joonis 19. Pronoomeni ja substantiivi sagedamad koosesinemised. 

Toon näiteks pronoomeni mitu sõnavisandi (vt Joonis 20), milles tulevad esile 

sellised substantiivid nagu kord/aasta/kuu jne. 

44

Joonis 20. Pronoomeni mitu substantiivsed kaasmoodustajad. 

3.2.2.5. Numeraal kaasmoodustajana 

EKG (1993: 140) järgi on kvantorifraas eksotsentriline nagu adpositsioonifraas: 

põhi tingib laiendi olemasolu. Reeglid ordinal_modifies/modifier, 

cardinal_modifies/modifier (vt Tabel 3) tuvastavad substantiivi ja numeraali 

ühendeid, seejuures otsib programm eraldi põhiarvsõna ja substantiivi ning 

järgarvsõna ja substantiivi ühendeid. Toon näiteks numeraalide kaks (vt Joonis 21) 

ja esimene (vt Joonis 22) sõnavisandid, kus on näha lemmade kaks ja esimene 

tuvastatud kaasmoodustajad, nt kaks aastat/korda/nädalat jne ning esimene 

kord/päev/kvartal jne. 

Joonis 21. Kardinaali kaks Joonis 22. Ordinaali esimene 

kaasmoodustajad. kaasmoodustajad. 

45

3.2.2.6. Adverb kaasmoodustajana 

Müürisep (2000: 66) märgib, et adverbilised täiendid esinevad väga harva ning neid 

on raske määrata. Sõnavisandite grammatika reegel Adv_modifier/N_modifies (vt 

Tabel 3) otsib selliseid konstruktsioone, kus substantiivi vasakus kontekstis esineb 

adverb. Eesmärk on tuvastada eelkõige viisi- ja seisundimäärsõnu. 

Kontekstipiiranguna on reeglisse kirjutatud sellised adverbiks märgendatud sõnad 

nagu ikka, kuigi, ja, ju, juba, just, ka, kas, kui, kuidas, kus, miks, millal, nagu, nii, 

nüüd, siis, siiski, vaid, veel, muidugi, palju, kust, kuhu, mil, aga ka sagedamad 

ajamäärsõnad alati, ammu, eile, harva, kaua, kauaks, sageli, tihti, täna, varsti, 

üleeile ja afiksaaladverbide funktsioonis esinevad adverbid (vt loendit ptk 3.5.3.2.). 

Näiteks adverbiga omaette moodustavad ühendi sellised substantiivid nagu 

küsimus/teema/eesmärk/probleem/väärtus jne (vt Joonis 23). 

Joonis 23. Adverbi omaette ja substantiivi sagedamad ühendid. 

3.2.2.7. Adpositsioonifraas kaasmoodustajana 

Reegli N_PP abil otsib süsteem sõnakolmikuid, milles substantiivi laiendiks on 

kahest komponendist koosnev adpositsioonifraas. Otsitakse nii selliseid 

konstruktsioone, kus otsisõnale järgneb adpositsioon ja sellele järgneb substantiiv 

(prepositsioonide puhul), nt löök allapoole vööd, kui ka neid, kus otsisõnale järgneb 

teine substantiiv ja sellele järgneb omakorda adpositsioon (postpositsioonide 

puhul), nt armastus ema vastu 30 . 

Joonisel 24 on näidatud substantiivi viha laienditena esinevad adpositsioonifraasid, 

nt viha kelle-mille vastu (211 lauset) / peale (20 lauset) / pärast (19 lauset) / suhtes 

(6 lauset). 

30 Neljast ja rohkemast komponendist koosnevate kaassõnafraaside otsing (nt vajadus uue korteri 

järele) eeldab colloc-tüüpi reeglite kirjutamist (vt ptk 2.3.). 

46

Joonis 24. Substantiivi viha laiendavad adpositsioonifraasid. 

Oluline on märkida, et süsteem otsib ainult substantiivile järgnevaid 

adpositsioonifraase ja ei arvesta juhtumeid, kus adpositsioonifraas eelneb 

substantiivile. Selliste konstruktsioonide sõnajärge analüüsinud Tauli toob näiteid 

juhtumitest, kus adpositsioonifraas on lauses substantiivi ees, nt .. mööda koridori 

mineku sammude kerge kaja .. (August Mälk), Aer vaatas talle korraks otsa ja nägi 

ilma hirmuta musti silmi (Juhan Smuul). Kuid samas märgib Tauli, et seda tüüpi 

konstruktsioonid esinevad teatud semantiliste piirangute korras, nt kui põhjaks on 

substantiivid minek, tulek või kui prepositsiooniks on ilma (1980: 178–181). Sel 

põhjusel piirdub reegel vaid nende juhtumite otsimisega, kus adpositsioonifraas 

esineb järellaiendi funktsioonis. 

Joonisel 25 on näidatud fraasi viha kelle-mille vastu konkordantsiread, millest on 

näha, et programm otsib adpositsioonifraase vaid substantiivi paremast kontekstist. 

Joonis 25. Konstruktsiooni viha kelle-mille vastu kasutust illustreerivad 

konkordantsiread. 

47

3.2.2.8. Infiniitne verb kaasmoodustajana 

Infiniitsetest verbidest võivad substantiivi laiendi funktsioonis esineda ma-infinitiiv, 

mas-vorm (nt lauses Pildi nimeks on „Poiss õngitsemas”), mast-vorm (nt lauses 

Suur tänu mind aitamast), mata-vorm (söömata roog, kirjutamata seadus), maksvorm 

(eeldused mõistmaks) ja da-infinitiiv (lust tantsida) (Tauli 1980: 188–193). 

Eeslaiendi funktsioonis esinevaid verbivorme otsitakse partitsiipe tuvastava reegli 

participle_modifier (vt Tabel 3) abil, kus partitsiipidest on sisse võetud v-, tav-, 

nud- ja tud-kesksõnad (vt ptk 3.2.2.2.). 

Reeglid N_Vma, N_Vda (vt Tabel 3) otsivad ainult maja da-infinitiivis olevaid 

järellaiendeid. Joonisel 26 on tuvastatud substantiivi soov da-infinitiivsed laiendid: 

säilitada/vabaneda/vältida jne. Joonisel 27 on substantiivi meister ma-infinitiivsed 

laiendid: grillima/leiutama/vihjama jne. 

Joonis 26. Substantiivi soov Joonis 27. Substantiivi meister 

da-infinitiivis laiendid. ma-infinitiivis laiendid. 

3.2.2.9. Kõrvallause laiendina 

EKG kohaselt liigituvad kõrvallaused kolmeks põhitüübiks: komplementlause, 

adverbiaallause ja relatiivlause. Komplementlaused on pealause predikaadi vm 

liikme seotud laiendid, mis täiendavad sisuliselt vastavat sõna või sõnade ühendit. 

Relatiivlaused on kõrvallaused, mille pronoomenist või adverbist sidend on 

korrelaadi vahendusel või ilma selleta viiteseoses kas pealause substantiivi(fraasi)ga 

või erandjuhul pealause kui tervikuga. Adverbiaallaused on pealause predikaadi vm 

lauseelemendi vabad laiendid (1993: 281–282). 

Reegel kõrvallause (vt Tabel 3) tuvastab substantiivile järgneva kõrvallause alguses 

asuvaid sidendeid etteantud loendi alusel. Loend on koostatud Tauli (1980: 228– 

240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest ning loendis on 

sidendina toimivad sõnad ega, ehkki, et, justkui, kas, kes, kuhu, kui, kuidas, kuigi, 

48

kuivõrd, kumb, kuna, kuni, kus, kust, miks, mil, millal, milleks, milline, mis, 

mismoodi, missugune, mistarvis, mistõttu, nagu, otsekui ja sest. 

Joonisel 28 on näidatud sõna küsimus laiendavate kõrvallausete alguses olevad 

sidendid. Nendest sagedamad on küsimus, mis … (nt lauses Need on küsimused, mis 

tuleb seaduses reguleerida, ..), küsimus, kas … (nt lauses Nüüd tekib jälle küsimus, 

kas peaks kartma olla rikas), küsimus, et … (nt lauses Teine küsimus, et kui asi on 

lausa vastupidi) jt. 

Joonis 28. Substantiivi küsimus laiendavate kõrvallausete alguses asuvad sidendid. 

Ühesõnaliste sidendite tuvastamine õnnestub selle reegliga hästi, kuid probleeme 

tekib selliste ühenditega nagu mis ajal, mis ajani, mis põhjusel, mil(lisel) kombel, 

kui palju, kui pikk jne (vt lähemalt EKG 1993: 291). Hetkel tuvastab süsteem ainult 

ühest sõnast koosnevaid sidendeid. Ühenditena esinevate sidendite tuvastamine jääb 

sõnavisandite grammatika edasiarenduseks. 

3.2.2.10. Rinnastus- ja võrdlustarindid 

Reeglite ja/või, kui/nagu (vt Tabel 3) abil tuvastatakse koordinatsiooniseoses 

olevaid substantiive ning kui- ja nagu-võrdlustarindeid. Tegemist on sümmeetrilisel 

suhtel põhineva ehk symmetric-tüüpi reeglitega. Joonisel 29 on näidatud sõnaga 

päike rinnastusseoses olevad substantiivid: tuul ja päike (nt lauses Tuul ja päike on 

praeguseks põllumaa pea kõikjal kuivatanud), vihm ja päike (Juulis on aga vihma 

ja päikest parasjagu). 

49

Joonis 29. Substantiivi päike rinnastustarindid. 

3.2.2.11. Predikatiiv 

Eesti keeleteaduses eristatakse predikatiive ja predikatiivadverbiaale (vt lähemalt 

Erelt 2003b: 73; predikatiivadverbiaale on uurinud Pai 2001). Predikatiivideks 

peetakse nominatiivset või partitiivset noomenit (lisaks ka da-infinitiivi ja 

partitsiipi) verbi olema laiendina (nt EKG 1993: 10), mõnes käsitluses ka verbide 

saama, näima laiendina (nt Kask 1936). Siinse töö raames käsitlen predikatiivina 

verbi olema partitiivis või nominatiivis substantiivset või adjektiivset laiendit. 

Translatiivis ja essiivis adjektiivseid verbilaiendeid käsitletakse 

predikatiivadverbiaalidena (vt lähemalt ptk 3.5.2.4.). 

Sõnavisandite reeglitega predicate_N/predicate_N_of, predicate_Adj/ 

predicate_Adj_of (vt Tabel 3) tuvastatakse konstruktsioone, kus predikatiivi 

funktsioonis on nominatiivis või partitiivis substantiiv või adjektiiv, nt Hunt on tark 

loom. Poiss on tubli jne. Näiteks tuvastab süsteem, et lemma hunt sagedam 

predikatiivi funktsioonis esinev substantiiv on loom. Joonisel 30 on näidatud 

vastavad konkordantsiread. 

Joonis 30. Substantiivi hunt ja tema predikatiivi loom illustreerivad 


3.2.3. Kokkuvõtteks: substantiivid 

Substantiivide sõnavisandites tulevad esile adjektiivsed, partitsiipsed, 

pronominaalsed, adverbiaalsed ja substantiivsed kaasmoodustajad, laiendi 

funktsioonis esinevad infiniitverbid ja adpositsioonifraasid, kõrvallausete alguses 

50

asuvad sagedamad sidendid, predikatiivid, rinnastus- ja võrdlustarindid, lisaks 

tuvastatakse, milliste verbidega esineb otsisõna subjekti, objekti ja adverbiaali 

funktsioonis (vt ptk 3.5.2.1.–3.5.2.3.). Seega koorub sõnavisanditest välja sõna 

esialgne leksikaalne profiil, mille alusel saab leksikograaf sõnaraamatu artikleid 

koostada. Toon näiteks sõna diskussioon sõnavisandi (vt Joonis 31). 

Joonis 31. Substantiivi diskussioon sõnavisand. 

Sõnavisandist saab vajaliku materjali sõnaartikli koostamiseks: 

avalik/poliitiline/elav .. diskussioon. Diskussioon käib/tekib/toimub .. Diskussiooni 

alustama/tekitama/algatama .. Diskussiooni objekt/teema/tulemus .. Diskussioon ja 

arutelu. Diskussioon teemal, diskussiooni tulemusel. Diskussioon 

ajakirjanduses/komisjonis/ühiskonnas. Diskussioon on elav/mõttetu/vajalik .. 

Diskussioon millegi ümber / millegi üle. 

51

3.3. ADJEKTIIVI SÜNTAGMAATILISED SUHTED 


Adjektiivikonstruktsioonide nimestiku koostamisel on aluseks Erelti (1979b, 1986), 

Tauli (1980: 158–193), EKG (1993: 129–136) ja Kerge (2000: 31–35) käsitlused. 

EKG järgi võib adjektiivifraasi laiendliikmeteks olla: 1) substantiiv(ifraas), nt 

kirjatarkuses osav; 2) adpositsioonifraas, nt poja üle uhke, külaliste vastu viisakas; 

3) infinitiiv(ifraas), nt ahne sööma; 4) adjektiiv(ifraas), nt põhjatu rikas, igavene 

suur; 5) kvantorifraas, nt viie päeva vanune; 6) adverb(ifraas), nt tõsiselt haige; 

7) kõrvallause, nt Ta tütar oli ilusam(,) kui ta ise (nooruses oli) (1993: 129–130). 

Tabelis 5 on esitatud sõnavisandite grammatikas tuvastatavad adjektiivi 


Tabel 5. Adjektiivi leksikogrammatilised konstruktsioonid. 


kood 

52 


Näited Konstruktsiooni 

tuvastava reegli 

nimetus SkE eesti 

moodulis 

Adj adjektiiv igavene suur Adj_modifier/Adj_modifies 


substantiiv 

sõbratari sarnane; 

kõrvuni armunud, 

südamepõhjani 

solvunud; söögiks 

kõlbmatu; 

õpetajana hinnatud 

Adv adverb väga aeglane, eriti 

kiire, silmatorkavalt 

hea, parajasti 

rumal, iseloomult 

raske, seest toores 

omastav_modifier 

sisseütlev_modifier 

seesütlev_modifier 


alaleütlev_modifier 

alalütlev_modifier 

alaltütlev_modifier 

saav_modifier 


olev_modifier 

ilmaütlev_modifier 


Adv_modifier/Adj_modifies


kood 



Vinf verb ma- või dainfinitiivis 



on kõrvallause 

alguses olev 

Adj ja/või Adj 

Adj kui/nagu N 

sidend) 

rinnastustarind, 


(nagu-tarind, 

kui-tarind) 




poja üle uhke, 

kingituste üle 

rõõmus, hull raha 

järele, maavarade 

poolest rikas, 

mantli kohta lühike, 

juristi jaoks liiga 

aeglane, iseloomu 

poolest hea, 

matkast saadik 

tõbine 

ahne sööma, ilus 

vaadata, raske 

mõista, sobilik 

asendama 

hea, kui ... 

huvitav, kas ... 

ilus ja noor, 

must kui öö, 

valge kui lumi, 

must nagu süsi 

moodulis 

Adj_PP 

Adj_Vma 

Adj_Vda 

kõrvallause 

ja/või 

kui/nagu 


Sõnavisandite grammatikas on adjektiivide süntagmaatiliste suhete tuvastamiseks 

kokku 20 reeglit. Nagu substantiivi kirjelduses, arvestab grammatika versioon 1.5 

adjektiivi substantiivsete, adjektiivsete ja adverbiliste laiendite puhul eelkõige 

eeslaiendeid, adpositsioonifraasi, infiniitse verbi ja kõrvallause korral aga ainult 

järelpositsioonis olevaid laiendeid. 

3.3.2.1. Adjektiiv kaasmoodustajana 

Reegel Adj_modifier/Adj_modifies (vt Tabel 5) otsib adjektiivi adjektiivseid 

laiendeid, mis asuvad vahetult selle vasakus kontekstis (nt igavene suur). Joonisel 

32 on näidatud sagedamad adjektiivid, mille laiendiks on lemma jube: 

raske/hea/kallis jne. 

53

Joonis 32. Sõna jube adjektiivse kaasmoodustajana. 


Adjektiivifraasi substantiivne kaasmoodustaja võib esineda genitiivis (sõbratari 

sarnane) ja adverbiaalkäänetes. Sõnavisandite grammatika alusel (reeglid 

omastav_modifier, sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier, 


rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier, vt Tabel 5) 

otsib programm adjektiivi omastavas (jumala hea), sisseütlevas (eetrisse minev), 

seesütlevas (arvutivõrgus kättesaadav), seestütlevas (ametist lahkuv), alaleütlevas 

(nõuetele vastav), alalütlevas (välismaal elav), alaltütlevas (tähtsuselt järgmine), 

saavas (tööks sobiv), rajavas (kõrvuni armunud), olevas (õpetajana töötav), 

ilmaütlevas (tingimusteta vaba) ja kaasaütlevas (seadusega ettenähtud) käändes 

substantiivseid kaasmoodustajaid. 

Reeglid omastav_modifier, sisseütlev_modifier, seesütlev_modifier, 

seestütlev_modifier, laleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, 

saav_modifier, rajav_modifier, olev_modifier, ilmaütlev_modifier, 

kaasaütlev_modifier tuvastavad kõige paremini rektsiooniliste laienditega suhteid, 

nt kellega-millega sarnane, kellele-millele lähedane jmt. 


Reegel Adv_modifier/Adj_modifies (vt Tabel 5) tuvastab adverbe, mis esinevad 

otsisõna eeslaiendi funktsioonis. Kontekstipiiranguna on reeglisse kirjutatud 

sellised adverbiks märgendatud sõnad nagu ja, ka, nii, kui, kas, veel, kuidas, just, 

nagu, ju, ikka, vaid, siis, siiski, muidugi, palju, eks ja kuigi. Joonisel 33 on näha 

lemma hea adverbilised kaasmoodustajad: väga/päris/eriti/piisavalt. 

54

Joonis 33. Adjektiivi hea adverbilised laiendid. 


Adpositsiooniliste laiendite tuvastamise reegli Adj_PP (vt Tabel 5) abil otsib 

programm hetkel vaid adjektiivi postpositsioonifraasina esinevaid järellaiendeid, nt 

jõle/range kelle vastu, tähelepanelik/nõudlik/tundlik mille suhtes jms. Otsitakse 

postpositsioonidega ees, eest, järele, peale, poolest, puhul, seas, suhtes, vastu ja üle 

fraase. 31 Reegel töötab kõige paremini rektsioonistruktuuride tuvastamisel. Näiteks 

tuvastab süsteem, et lemma vihane sagedamaks laiendiks on postpositsioonifraas 

kelle-mille peale (vt Joonis 34). 

Joonis 34. Adjektiivi vihane postpositsionifraasina esinev laiend. 

Joonisel 35 on seda grammatilist suhet illustreerivad konkordantsiread. 

31 Loendi koostamisel lähtusin päringuga 1:[tag="A"&features=".._n"] 2:[tag="S"] 3:[tag="K"] 

[tag!="S"] saadud konkordantside analüüsist. Loendis olevad postpositsioonid on sagedad 

rektsioonistruktuuride moodustamisel. 

55

Joonis 35. Konstruktsiooni vihane kelle-mille peale kasutust illustreerivad 



Nagu ka substantiivi puhul (vt ptk 3.2.2.8.), tuvastavad reeglid Adj_Vma, Adj_Vda 

(vt Tabel 5) adjektiivi laiendiks olevaid maja da-infinitiive, nt ilus vaadata, raske 

mõista jmt. Joonisel 36 on näha lemma ilus tuvastatud laiendeid: ilus 

vaadata/öelda/teha jne, nt lauses Lääneliku tava järgi on ilus elada väikeses 

rahulikus linnas. 

Joonis 36. Adjektiivi ilus da-infinitiivis kaasmoodustajad. 


Reegel kõrvallause (vt Tabel 5) tuvastab adjektiivile järgnevate kõrvallausete 

alguses olevaid sidendeid etteantud loendi alusel. Loend on koostatud lähtuvalt 

Tauli (1980: 228–240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest 

ning loendis on sellised sidendina toimivad sõnad nagu ega, ehkki, et, justkui, kas, 

kes, kuhu, kui, kuidas, kuigi, kuivõrd, kumb, kuna, kuni, kus, kust, miks, mil, millal, 

milleks, milline, mis, mismoodi, missugune, mistarvis, mistõttu, nagu, otsekui ja 

sest. 

56

Joonisel 37 on näidatud adjektiivi selge laiendavate osalausete alguses asuvad 

sidendid. Nendest sagedamad on selge, et ... (nt lauses On täiesti selge, et 

konventsiooni põhieesmärgid tuleb täita .. ), selge, kas ... (nt lauses Arve puhul on 

selge, kas ta on pangast läbi käinud), selge, mis ... (nt lauses Päriselt ei ole siiski 

selge, mis see töötulu on) jt. 

Joonis 37. Adjektiivi selge laiendavate kõrvallausete alguses asuvad sidendid. 


Reegli (ja/või, kui/nagu, vt Tabel 5) abil tuvastatakse koordinatsiooniseoses olevaid 

substantiive ning kui- ja nagu-võrdlustarindeid. Tegemist on sümmeetrilisel suhtel 

põhineva ehk symmetric-tüüpi reegliga. Joonisel 38 näidatakse lemmaga hele 

koordinatsiooniseoses olevaid adjektiive: hele ja/või tume (nt lauses Tegelikult ei 

olene ju sellest, kas tüdruk on tumeda või heleda peaga, mitte midagi), hele ja 

rõõmus (Ta soovitab rõõmsates ja heledates toonides kardinaid) jne. 

Joonis 38. Adjektiivi hele rinnastustarindid. 

57

3.3.3. Kokkuvõtteks: adjektiivid 

Adjektiivide sõnavisandites tulevad esile selle adjektiivsed, substantiivsed, 

adverbilised kaasmoodustajad, laiendi funktsioonis esinevad infiniitverbid ja 

postpositsioonifraasid, kõrvallausete alguses asuvad sagedamad sidendid ning 

rinnastus- ja võrdlustarindid. Lisaks tulevad esile ühendid, kus adjektiiv ise ei esine 

mitte põhja, vaid laiendi funktsioonis. 

Toon näiteks adjektiivi rikas sõnavisandi (vt Joonis 39). 

Joonis 39. Adjektiivi rikas sõnavisand. 

Siit saab vajaliku materjali sõnaartikli koostamiseks: rikas riik/inimene/mees/maa .. 

Rikas ja suur, rikas ja kuulus, rikas ja vaene .. Väga/piisavalt rikas. Predikatiivsed 

laused: ajalugu/keel/linn on rikas. Predikatiivadverbiaaliga ühendid: (ratsa) rikkaks 

saama, rikkana näima/surema/sündima. Postpositsioonifraas: rikas kelle-mille 

poolest, nt lauses See piirkond on rikas maavarade poolest. 

58

3.4. ADVERBI SÜNTAGMAATILISED SUHTED 


Sõnavisandite grammatikas on adverbide süntagmaatiliste suhete tuvastamiseks 

kokku 12 reeglit (vt Tabel 6). Nagu ka substantiivi ja adjektiivide kirjelduses, 

tuvastab sõnavisandite grammatika adverbi substantiivsete, adjektiivsete ja 

adverbiliste laiendite puhul ainult eeslaiendeid, adpositsioonifraasi, infiniitse verbi 

ja kõrvallause korral aga ainult järelpositsioonis olevaid laiendeid. 

Adverbikonstruktsioonide nimestiku koostamisel on aluseks Tauli (1980: 158–193), 

EKG (1993: 136–137) ja Kerge (2000: 31–34) käsitlused. Adverbifraasi 

laiendliikmeks võib olla: 1) adverb, nt väga hästi; 2) substantiivi käändevorm, nt 

uksest siinpool, teistest paremini; 3) adpositsioonifraas, nt selja pealt katki; 

4) kvantorifraas, nt paar päeva hiljem, mitu kilomeetrit kaugemal; 5) kõrvallause, nt 

Ta rääkis kauem, kui mina seda tegin (EKG 1993: 136). 

Tabelis 6 on esitatud sõnavisandite grammatikas tuvastatavad adverbi 


Tabel 6. Adverbi leksikogrammatilised konstruktsioonid. 


kood 


Adv adverb väga aeglaselt, 

silmatorkavalt hästi, 

harjumatult rumalalt, 

igavesti suurelt, 

parasjagu/parajasti 


substantiiv 





moodulis 

rumalalt 

kuradi kiiresti, jumala 

äkki, pagana kahju; 

ideid täis; uksest 

siinpool, teistest 

paremini; olenevalt 

tingimustest; 

partneriga 

vaheldumisi, rahadega 

kimpus; kõrvuni 

armunult, surmani 

solvunult; isa surmaga 

samaaegselt 

selja pealt lõhki, 

puusade ümbert pingul, 

kulmu kohalt marraskil 

Adv_modifier/Adv_modifies 

omastav_modifier 

osastav_modifier 


saav_modifier 


olev_modifier 


Adv_PP 

59


kood 

60 




on 

kõrvallause 

alguses olev 

Adv ja/või Adv 

Adv kui/nagu N 


sidend) 

rinnastustarind 





moodulis 

Ta rääkis kauem, kui 

mina seda tegin. 

See viib niikaugele, 

et ... 

hästi ja kiiresti, 

kergelt kui õhk, 

mustalt nagu süsi, 

valgelt kui lumi 

kõrvallause 

ja/või 

kui/nagu 


Reegel Adv_modifier/Adv_modifies (vt Tabel 6) tuvastab neid adverbe, mis esinevad 

otsitava adverbi eeslaiendi funktsioonis. Kontekstipiiranguna on reeglisse kirjutatud 

sellised adverbiks märgendatud sõnad nagu ikka, ja, ju, just, ka, kas, kui, kuidas, kus, 

miks, millal, nagu, nii, nüüd, vaid, veel, juba, kuigi, kust, kuhu, muidugi, palju, siis, 

siiski, eks, aga ka sagedamad ajamäärsõnad nt alati, ammu, eile, harva, homme, kaua, 

kauaks, sageli, tihti, täna, varsti, üleeile ja afiksaaladverbide funktsioonis esinevad 

adverbid (vt loendit ptk 3.5.3.2.). Joonisel 40 on näha lemma hästi adverbilised 

kaasmoodustajad: väga/päris/eriti/üsna/ piisavalt. 

Joonis 40. Adverbi hästi adverbilised laiendid.


Programm otsib omastavas (jumala äkki, pagana kahju), osastavas (ideid täis), 

seestütlevas (teisest paremini), saavas (esitamiseks valmis), rajavas (kõrvuni 

armunult) ja kaasaütlevas (isa) surmaga samaaegselt) käändes kaasmoodustajaid. 

Omastavas kaasmoodustajaid tuvastab programm etteantud loendi alusel. Loendis 

on sellised sõnad nagu jumal, pagan, kurat, sajand, lisaks ka kõikide kuude ja 

nädalapäevade nimetused. 

Adverbi substantiivse kaasmoodustaja reeglid omastav_modifier, osastav_modifier, 

seestütlev_modifier, rajav_modifier, saav_modifier, kaasaütlev_modifier (vt Tabel 6) 

tuvastavad kõige paremini neid suhteid, kus on tegemist rektsiooniliste laienditega, 

nt kellega-millega sarnaselt, kellele-millele omaselt, milleks valmis jt. 

Joonis 41. Adverbi valmis translatiivis Joonis 42. Adverbi vähe partitiivis 

laiendid. laiendid. 

Joonisel 41 on esitatud lemma valmis saavas käändes olevad laiendid: valmis 

vastuvõtmiseks/vastamiseks/ühinemiseks, lisaks ajafraasid valmis (mingiks) ajaks / 

tähtajaks / hetkeks. Joonisel 42 on näha lemma vähe partitiivis laiendid 

raha/aega/tähelepanu. 


Kaassõnaliste laiendite tuvastamise reegli Adv_PP (vt Tabel 6) abil otsib programm 

adverbi kaassõnalisi eeslaiendeid, nt selja pealt lõhki. Selle reegli oluliseks 

probleemiks on, et enamasti on seda tüüpi konstruktsioonid neljaliikmelised. 

Sagedamate konstruktsioonide hulgas on nt (mitme) protsendi / krooni võrra 

rohkem / vähem, (mitme) sammu võrra ees, (millegi) lõppemise tõttu pooleli. Seega 

edaspidi tuleks see reegel muuta colloc-tüüpi reegliks. 

61

Joonis 43. Lemma lõhki laiendi funktsioonis esinevad postpositsioonifraasid. 

Joonisel 43 on näha lemma lõhki laiendi funktsioonis esinevaid adpositsioonifraase: 

rinna kohalt / selja pealt / külje pealt / selja taga / kubeme juurest. 


Reegel (kõrvallause, vt Tabel 6) tuvastab adverbile järgnevate kõrvallausete alguses 

olevaid sidendeid etteantud loendi alusel. Loend on koostatud lähtuvalt Tauli 

(1980: 228–240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest ning 

loendis on sellised sidendina toimivad sõnad nagu et, justkui, kuhu, kui, kuivõrd, 

kuna, kuni, kus, kust, mil, millal, nagu, otsekui. 

Joonisel 44 on näidatud sõna niipalju laiendavate osalausete alguses asuvad 

sagedamad sidendid niipalju, et ... (nt lauses Kommentaariks niipalju, et ettepanek 

ei ole küll üdini halb, aga ..), niipalju, kui ... (nt lauses Raha on täpselt niipalju, kui 

seda on vaja). 

Joonis 44. Adverbi niipalju laiendavate kõrvallausete alguses asuvad sidendid. 

62


Reegli (ja/või, kui/nagu, vt Tabel 6) abil tuvastatakse rinnastusseoses olevaid 

adverbe ning kui/nagu-võrdlustarindeid. Tegemist on symmetric-tüüpi reegliga. 

Joonisel 45 näidatakse lemmaga vähe rinnastusseoses olevaid substantiive: vähe või 

palju (nt lauses Teine analüüs näitab, kas raha on palju või vähe), mõõdukalt või 

vähe (.. s.o tööstuskaupade kollektsiooni, mille puhul impordipiiranguid 

tollitariifide näol kasutatakse maailmas mõõdukalt või vähe). 

Joonis 45. Adverbi vähe rinnastustarindid. 

3.4.3. Kokkuvõtteks: adverbid 

Kokkuvõtteks võib öelda, et adverbide sõnavisandites tulevad esile otsisõna 

adverbilised ja substantiivsed kaasmoodustajad, laiendi funktsioonis esinevad 

adpositsioonifraasid, laiendliikmeks olevate kõrvallausete alguses asuvad sidendid 

ning rinnastus- ja võrdlustarindid. Lisaks tulevad esile konstruktsioonid, kus adverb 

ise ei esine mitte põhja, vaid laiendi funktsioonis. 

Toon näiteks adverbi omaette sõnavisandi (vt Joonis 46). 

Joonis 46. Adverbi omaette sõnavisand. 

63

Lemma omaette sõnavisandis tulevad esile järgmised ühendid: omaette 

küsimus/teema/eesmärk. Omaette ja vaikselt .. Miski on omaette eesmärgiks/ 

väärtuseks (nt lauses Raha on muutunud eesmärgiks omaette, pole enam ainult 

vahend). 

3.5. VERBI SÜNTAGMAATILISED SUHTED 

Verbide leksikogrammatiliste konstruktsioonide kirjeldamisel on lähtekohaks Tauli 

(1980: 41–158) ja Kerge (2000: 42–44) uurimused. Verbi laiendite kirjeldamisel 

järgin teoreetilist seisukohta, et verbi finiitvorm on lause struktuuriline keskus, 

põhielement, mis koondab enda ümber enamiku muudest lauseelementidest ja 

määrab paljudel juhtudel ka nende vormi (Rätsep 1978: 10–13). Eesti keele 

verbidele omaste lausemallide fikseerimine näitas, et verbid tingivad seotud 

laienditena kas noomenite või verbide kindlaid morfoloogilisi vorme või kindla 

üldise grammatilise tähendusega morfoloogiliste vormide rühmi (Rätsep 

1978: 212). Seejuures võivad eesti keeles vormiklassidena esineda kõik substantiivi 

käändevormid, mõned adjektiivi käänded ja teatud hulk kaassõnaühendeid (Rätsep 

1978: 214). 

Verbi laiendite süntaktilise kategooria määramisel lähtun põhimõttest, millega on 

arvestatud ka nt kitsenduste grammatika väljatöötamisel – süntaksi alustalaks on 

morfoloogia, eriti igale keelele ainuomane morfoloogiliste tunnuste süsteem, ning 

süntaktilised kategooriad on üldistused, mis näitavad, kuidas sõnavormid, mis on 

moodustatud kui morfoloogiliste tunnuste kompleksid, võivad teatud sõnajärje 

korral esineda ja milliseid loomulikke klasse, ‘süntaktilisi funktsioone’ saab 

eristada ja järeldada sellistest sõnajärgedest (vt Karlsson jt 1995: 37, viidatud 

Müürisep 2000: 23 kaudu). 

3.5.1. Lihtverbi leksikogrammatilised konstruktsioonid 

Tabelis 7 on esitatud sõnavisandite grammatikas tuvastatavad verbi 


Tabel 7. Verbi leksikogrammatilised konstruktsioonid. 


kood 

64 


(vajadusel 

fraasitüüp ja 

moodustaja 

grammatiline 

funktsioon) 

N(S) substantiiv 

nominatiivis subjekti 

funktsioonis 

(partsiaalsubjekti 

programm eraldi 

kategooriana ei 

tuvasta) 




moodulis 

Lapsed laulavad. 

subject/subject_of


kood 


(vajadusel 

fraasitüüp ja 

moodustaja 

grammatiline 

funktsioon) 

N(O) substantiiv 

nominatiivis, 

genitiivis ja 

partitiivis objekti 

funktsioonis 

N(A) substantiiv 

adverbiaalkäändes 

adverbiaali 

funktsioonis 

Adj adjektiiv 

predikatiivadverbiaali 

funktsioonis 

Adv adverb adverbiaali 

funktsioonis 


adverbiaali 

funktsioonis 

Vinf infiniitverb ma-, 

mas-, mast-, mata-, 

vat- ja da-vormis 




moodulis 

Tehke otsus. 

Ma teen järgmise 

ettepaneku. 

Ta tahab jätkata tööd 

õpetajana. 

Ma lähen kooli. 

Ta käib poes iga päev. 

Ta rääkis tööst. 

Ma andsin sõbrale raha. 

Ta käskis lastel õue minna. 

Laenasin tuttavalt raha. 

Ta tahab saada lenduriks. 

Ta jõudis metsani. 

Ta töötab õpetajana. 

Ta töötas prillideta. 

Ta käib tööl jalgrattaga. 

Ta värvis seinad punaseks. 

Ta näis väsinuna. 

object/object_of 

adverbial_sisseütlev 

adverbial_seesütlev 

adverbial_seestütlev 

adverbial_alaleütlev 

adverbial_alalütlev 

adverbial_alaltütlev 

adverbial_saav 

adverbial_rajav 

adverbial_olev 

adverbial_ilmaütlev 

adverbial_kaasaütlev 

predicate_Adj_saav/ 

predicate_ Adj_saav_of 

predicate_Adj_olev/ 

predicate_ Adj_olev_of 

Ta jooksis kiiresti. Adv_modifier/V_modifies 

Ta tuli minu juurde. V_PP 

Ta läks ujuma. 

Ta käib ujumas. 

Ta tuli ujumast. 

Ta lahkus maksmata. 

Tahan juua. 

V_Vma 

V_Vmaks 

V_Vmast 

V_Vmas 

V_Vmata 

V_Vda 

Vdes gerundiiv Süües kasvab isu. V_Vdes 


Ma kuulsin, et sa oled kõrvallause 

(tuvastusobjekt on haige. Ta küsis, kas ma 

kõrvallause alguses 

olev sidend) 

olen nõus. 

V ja/või V rinnastustarind kirjutama ja lugema, ja/või 

V kui V võrdlustarind (parem) karta kui kahetseda kui 

65

3.5.2. Lihtverbi sõnavisandid 

Verbide sõnavisandite genereerimisel on suureks probleemiks asjaolu, et 

morfoloogiline analüsaator ei erista liht- ja perifrastilisi verbe. Et seda puudust 

korvata, koostasin käsitsi eesti keele sagedamate afiksaaladverbide loendi (vt 

lähemalt ptk 3.5.3.2.). Teiseks teoreetiliseks küsimuseks on vajadus eristada 

grammatikas finiit- ja infiniitverbe. Finiitverbi kontekstitingimuseks on, et tegemist 

ei tohi olla infinitiivi (da- ja vat-), supiini (ma-, mas-, mast-, maks- ja mata-), 

gerundiivi (des-) ega partitsiibi (v-, tav-, nud- ja tud-) vormidega. Programm otsib 

ainult finiitverbide subjekte, objekte, adverbiaale ja predikatiivadverbiaale. 

3.5.2.1. Subjekt 

Eesti keeles võib subjektiks olla substantiiv, pronoomen ja numeraal nominatiivis 

ning partitiivis, kvantorina talitlev adverb, da-infinitiiv (Müürisep 2000: 50) ning 

osalause, kui seda saab asendada substantiivse subjekti kombel käituva 

pronoomeniga (EKG 1993: 39). Sõnavisandite grammatikas loetakse verbi 

subjektiks nominatiivis substantiive, mis asuvad lauses vahetult enne või pärast 

verbi. Kontekstipiiranguteks on, et tegemist peab olema finiitverbiga ja verb ei tohi 

olla umbisikulise tegumoe vormis. Reegel subject/subject_of (vt Tabel 7) töötleb 

ainult normaallauseid (Mees ehitab maja). 

Huvitavaks siinse uurimise käigus lahendamata jäänud teoreetiliseks probleemiks 

on eksistentsiaallauses (Peenral kasvab lilli) partsiaalsubjekti funktsioonis esinevate 

substantiivide tuvastamine. Kuna partsiaalsubjektiga laused on võimalikud ainult 

intransitiivverbide puhul (EKG 1993: 42–45), saaks selle probleemi osaliselt 

lahendada, kui intransitiivsetel verbidel oleks intransitiivsust tähistav märgend. 

3.5.2.2. Objekt 

Eesti keeles võib objektiks olla substantiiv, pronoomen ja numeraal nominatiivis, 

genitiivis ja partitiivis, da-infinitiiv, vat-infinitiiv, adverb kvantorifraasi põhjana 

(Müürisep 2000: 53) ja osalause (EKG 1993: 46). Sõnavisandite grammatikas 

loetakse verbi objektiks 1) singulari ja pluurali nominatiivis substantiive. 

Kontekstitingimuseks on, et predikaat on käskiva kõneviisi või umbisikulise 

tegumoe vormis (nt lausetes Hääled loetakse avalikult kohe pärast hääletamise 

lõppemist, Unustagem hirmutamine). Kindlas kõneviisis verbiga esinevaid 

mitmuslikke totaalobjekte (Ostsin saapad, Kinkisin talle lilled) sõnavisandite 

grammatika praegune versioon 1.5 ei tuvasta, see kuulub edasiarenduste hulka. 

Seda tüüpi objektide tuvastamist toetaksid verbi intransitiivust/transitiivsust 

tähistavad märgendid; 2) singulari genitiivis substantiive (nt lauses Ma teen 

järgmise ettepaneku). Kontekstipiiranguteks on, et predikaat ei tohi olla eitavas 

kõnes, umbisikulises tegumoes ja infiniitses vormis; 3) singulari ja pluurali 

partitiivis substantiive, mis asuvad verbi paremas või vasakus kontekstis. 

66

Joonis 47 näitab, kuidas tuvastatakse partitiivis olevaid objekte. 

Joonis 47. Verbi ja selle objekti tuvastamist illustreerivad konkordantsiread. 

Joonisel 47 allajoonitud sõnad tuvastatakse vastava verbi objektina, nt jätkama 

tööd, saavutama edu, andma hinnangut jne. 

Objekte tuvastava reegli probleemiks on väljendverbide nominaalsed komponendid, 

mis on märgendatud iseseisvate substantiividena, nt aru saama. Joonisel 48 on näha 

(konkordantside esimene rida, allajoonitud), et sõna aru on märgendatud kui sg_p 

‘ainsuse partitiivi’ vormis olev substantiiv, järelikult käsitleb programm substantiivi 

aru verbi saama objektina. Seda probleemi saaks edaspidi lahendada vaid 

morfoloogilises analüsaatoris oleva väljendverbide leksikoni abil, nii et 

väljendverbide komponendid oleksid vastavalt märgendatud. 

Joonis 48. Väljendverbi aru saama komponentide morfoloogiline märgendamine 

Sketch Engine'i sisendkorpuses. 

3.5.2.3. Adverbiaal 

Nagu märgib Mati Erelt (2003b: 72–73), on adverbiaali küllaltki detailse kirjelduse 

esitanud Karl Mihkla jt (1974) ning EKG (1993), kuid süvauurimusi on tehtud 

vähe. Verbi laiendavad adverbiaalid võivad esineda kõigis käändeis. Sõnavisandite 

grammatikas loetakse adverbiaalideks kõiki neid verbilaiendeid, mis pole 

grammatilistes käänetes (nominatiivis, genitiivis või partitiivis) ja mis asuvad verbi 

paremas kontekstis ühe osalause piires. Adverbiaaliks olev substantiiv võib esineda: 

1) illatiivis (uskuma/armuma kellesse-millesse; nakatuma millesse); 2) inessiivis 

(kahtlema/eksima kelles-milles); 3) elatiivis (kuulma/rääkima kellest-millest); 

67

4) allatiivis (lootma kellele-millele); 5) adessiivis (peatuma/baseeruma/põhinema 

millel, vedama kellel); 6) ablatiivis (küsima kellelt); 7) translatiivis (tunnistama 

kelleks-milleks); 8) terminatiivis (jõudma kelleni-milleni); 9) essiivis (töötama 

kellena); 10) komitatiivis (abielluma kellega, uhkeldama millega); 11) abessiivis 

(toime tulema milleta). 

Reeglid sisseütlev_adverbial, seesütlev_adverbial, seestütlev_adverbial, 

alaleütlev_adverbial, alalütlev_adverbial, alaltütlev_adverbial, saav_adverbial, 

rajav_adverbial, olev_adverbial, ilmaütlev_adverbial, kaasaütlev_adverbial (vt 

Tabel 7) tuvastavad kõige paremini neid suhteid, kus on tegemist rektsiooniliste 

laienditega, nt armuma kellesse-millesse. 

Adverbiaali automaatse tuvastamise probleemiks on, et programm otsib ainult 

kaheliikmelisi suhteid, kuid sageli on verbikonstruktsioon mitme laiendiga, nt 

aitama kellelgi + mida teha, alustama mida + millega, süüdistama keda + milles jt. 

Selliste mitmelaiendiliste konstruktsioonide tuvastamine kuulub grammatika 

edasiarenduste hulka. 

Kui objekti puhul on probleemiks grammatilises käändes substantiivse 

komponendiga väljendverbid, nt aru saama, siis adverbiaalide tuvastamises on 

veaallikaks adverbiaalkäändes substantiivist ja verbist koosnevad väljendverbid, nt 

silmas pidama, meelde tuletama. Seda tüüpi noomenitest komponendid tulevad 

esile adverbiaalide hulgas. 

Omaette uurimisteemaks on ka kogeja- (Jaanile meeldib tantsida. Jaani huvitab 

muusika. Jaani haaras hirm. Jaanil hakkas halb), omaja- (Jaanil on auto) ja 

tulemuslause (Jaanist sai hea sportlane) adverbiaalide tuvastamine. Seda tüüpi 

partitiiv-, allatiiv-, adessiiv- ja elatiivadverbiaalide tuvastamine kuulub grammatika 

edasiarenduste hulka. Neid saaks tuvastada vastavate olemasolu-, kogeja-, omaja- ja 

tulemuslausete sagedamate predikaatverbide loendi alusel. 

3.5.2.4. Predikatiivadverbiaal 

Predikatiivadverbiaalina käsitleb programm verbi translatiivis ja essiivis esinevaid 

adjektiivseid laiendeid. Reeglid predicate_Adj_saav/predicate_Adj_saav_of, 

predicate_Adj_olev/predicate_ Adj_olev_of (vt Tabel 7) tuvastavad verbi laiendiks 

oleva essiivis ja translatiivis adjektiivi. 

Eesti keele koondkorpuse analüüs näitab (vt Joonist 49), et sagedamad 

translatiivadverbiaali ja verbi ühendid on vajalikuks/õigeks/võimalikuks/oluliseks 

pidama, kindlaks määrama, kindlaks/teatavaks tegema, selgeks/võimalikuks/ 

saatuslikuks/tuntuks saama, kehtetuks tunnistama, erapooletuks/arusaamatuks/ 

viimaseks jääma, heaks kiitma ja omaks võtma. 

68

Joonis 49. Sagedamad translatiivadverbiaali ja verbi ühendid. 

Sagedamad essiivadverbiaali ja verbi ühendid on püsima muutumatuna/stabiilsena/ 

tugevana, seisma tühjana, tunduma uskumatuna/võimatuna/kummalisena. 

Käsitlemata on jäänud nominatiivis predikatiivadverbiaal, nt Ta nägi hea välja. 

Seda tüüpi predikatiivadverbiaale on vaja veel uurida, et selgitada, mis verbidega 

koos see võib esineda. 


Reegel Adv_modifier/V_modifies (vt Tabel 7) tuvastab adverbe, mis esinevad 

otsitava verbi laiendi funktsioonis. Kontekstipiiranguna on reeglisse pandud sellised 

adverbiks märgendatud sõnad nagu ikka, ja, ju, just, ka, kas, kui, kuidas, kus, miks, 

millal, nagu, nii, nüüd, vaid, veel, kuigi, palju, muidugi, kust, kuhu, siis, siiski, eks, 

afiksaaladverbide funktsioonis esinevad adverbid (vt loendit ptk 3.5.3.2.) ja mõned 

ajamäärsõnad. Joonisel 50 on näha lemma sõitma adverbilised kaasmoodustajad: 

koha- kohale/sinna, aja- praegu/seejärel ja viisimäärsõnad kiiresti/hästi. 

69

Joonis 50. Verbi sõitma adverbilised laiendid. 


Kaassõnaliste laiendite tuvastamise reegel V_PP (vt Tabel 7) otsib verbi 

laiendavaid adpositsioonifraase, nagu kelle-mille eest võitlema, põgenema, 

hoolitsema, kaitsma; mille järele haisema; kelle-mille hulka kuuluma; mille kallal 

nokitsema, töötama; kelle-mille kohta kehtima, teatama, teadma, kirjutama; kellemille 

peale haukuma, vihastama, kaebama; mille poole püüdlema, pürgima, 

püüdma; mille poolest erinema, sarnanema; mille puhul õnnitlema; mille pärast 

tülitsema; kelle-mille tõttu kannatama; kelle-mille vastu võitlema; kelle-mille vahel 

jagama; kelle-mille üle rõõmustama jmt (vt ka EKG 1993: 68–70). 

Reegel käsitleb prepositsioonidena adpositsioone allapoole, altpoolt, eespool, enne, 

hoolimata, ilma, keset, kesk, koos, kuni, läbi, mööda, piki, põiki, päri, risti, 

sealpool, sealtpoolt, seespool, siiapoole, siinpool, siitpoolt, sinnapoole, sissepoole, 

teispool, teispoole, tänu, tükkis, väljapoole, väljaspool, väljastpoolt, ühes, ülalpool, 

ülaltpoolt, üle, ülespoole, ülevalpool, ülevaltpoolt. Ülejäänud adpositsioonid on 

käsitletud postpositsioonidena. 

Joonisest 51 nähtuvad verbi hääletama laiendavad sagedamad adpositsioonifraasid: 

kelle-mille poolt (sagedamad on liitumise/eelnõu/umbusalduse/seaduse poolt), kellemille 

vastu (sagedamad on otsuse/eelarve/eelnõu/ettepaneku vastu) ja mille teel 

(sagedamad on kirja/posti/interneti/telefoni teel). 

70

Joonis 51. Verbi hääletama laiendavad sagedamad adpositsioonifraasid. 


Sõnavisandite grammatikas on eraldi reeglid verbi infinitiivi, gerundiivi ja supiini 

vormis laiendite tuvastamiseks. Programm tuvastab (vt Tabel 7): 1) infinitiivis 

laiendeid (V_Vda, V_Vvat); 2) supiinis ja käändelistes vormides laiendeid (V_Vma, 

V_Vmas, V_Vmast, V_Vmaks, V_Vmata); 3) gerundiivis laiendeid (V_Vdes). Kõige 

suurem infiniitsete laiendite tuvastamise probleem on, et võimatu on eristada 

juhtumeid, kus infiniitne verbivorm talitleb subjekti, objekti, adverbiaali, 

predikatiivi või vaba laiendina (vt EKG 1993: 237–246), nendest juhtumitest, kus 

infiniitverb moodustab mingi finiitverbiga liitpredikaadi, st kui tegemist on mingit 

tüüpi perifrastilise verbiga (vt EKG 1993: 246–248). Hetkel kuvatakse infiniitsed 

verbivormid ühes veerus ning leksikograafil tuleb neid analüüsides eristada, kas 

tegemist on lihtverbi laiendite või perifrastiliste verbidega. Selle probleemi saab 

lahendada ainult morfoloogilise analüsaatori abil, eeldusel, et morfoloogiline 

analüsaator märgendab perifrastiliste verbide komponendid eraldi märgenditega. 

ma-, mas- ja mast-infinitiivi on eesti keeles põhjalikult käsitlenud Erelt (1985). 

Infinitiivirektsiooni puhul on raske otsustada, kas tegemist on regulaarse 

sõnamoodustusmalli või idiomaatilise püsiühendi, nt ahelverbiga. Traditsiooniliselt 

eristatakse järgmisi infinitiivirektsiooni tüüpe: finiitverb + 1) ma-infinitiiv (minema, 

saatma, jooksma mida tegema); 2) maks-vorm (kasutama mida tegemaks); 3) masvorm 

(käima mida tegemas); 4) mast-vorm (tulema mida tegemast); 5) mata-vorm 

(jätma mida tegemata); 6) da-infinitiiv (tahtma mida teha); 7) vat-vorm (paistma 

mida tegevat). 

Joonisel 52 on esitatud lemma ütlema kombinatsioonid gerundiivi ja matavormidega: 

ütlema naerdes/naeratades/muiates/naljatades/ohates/lahkudes ja 

ütlema keerutamata/häbenemata. 

71

Joonis 52. Verbi ütlema ühendid des- ja mata-vormis infiniitverbidega. 


Sõnavisandite grammatika tuvastab kõrvallausete alguses olevaid sidendeid 

etteantud loendi alusel, mis on koostatud lähtuvalt Tauli (1980: 228–240), EKG 

(1993: 282–295), Erelti jt (2007: 506) kirjeldustest. 

Loendis on järgmised sidenditena toimivad sõnad: et, justkui, justnagu, kas, kes, 

kuhu, kui, kuidas, kuna, kuni, kus, kust, kustkaudu, miks, millal, milline, mis, 

misjaoks, mismoodi, mispärast, missugune, mistarvis, seepärast, sellepärast, 

mistõttu, nagu, otsekui, seetõttu, selletõttu, sest, siis, siiski. 

Joonisel 53 on näidatud verbi ütlema laiendavate osalausete alguses asuvad sidendid. 

Nendest sagedamad on ütlema, et ... (nt lauses Nüüd ma pean ütlema, et ma ei näe 

neid täiendusi), ütlema, kas ... (nt lauses Ma ei oska öelda, kas seda on liiga vähe või 

liiga palju), ütlema, mis ... (nt lauses Ma muidugi ei oska öelda, mis saab aastal 2200, 

aga me võime olla rahulikud, kellegi silmad meist seda aastat ei näe). 

Joonis 53. Verbi ütlema laiendavate kõrvallausete alguses asuvad sidendid. 

Nii nagu ka teiste sõnaliikide puhul, õnnestub ühesõnaliste sidendite tuvastamine 

selle reegliga hästi. Problemaatiline on ühendite tuvastamine, nt mis ajal, mis ajani, 

mis põhjusel, mil(lisel) kombel, kui palju, kui pikk jne (vt lähemalt EKG 1993: 291). 

72

Hetkel tuvastab süsteem ainult ühest sõnast koosnevaid sidendeid. Ühendina 

esinevate sidendite tuvastamine jääb grammatika edasiarenduste hulka. 


Reegli ja/või ja kui (vt Tabel 7) abil tuvastatakse rinnastusseoses olevaid verbe ning 

kui-võrdlustarindeid. Tegemist on symmetric-tüüpi reegliga. Reegli toel tuvastab 

süsteem selliseid konstruktsioone nagu laulma ja tantsima, laulma ja mängima, 

laulma ja rääkima. Teiseks tuvastab süsteem võrdlustarindeid, nagu (parem/pigem) 

karta kui kahetseda, pigem nutta kui naerda jmt. 

3.5.3. Perifrastilised verbid ja nende tuvastamine 

Siinses peatükis käsitlen lühidalt eesti keele perifrastiliste verbide 

moodustusstruktuuri ja analüüsin, mis tüüpi komponente saab ESTMORFi 

märgendussüsteemile toetudes sõnavisandite grammatikas tuvastada. Nagu märgib 

Erelt (2003b: 70), on predikaadi puhul põhiküsimus olnud predikaadi ja vaba 

sõnaühendi piiri määramine. EKGs on leksikaal-analüütilised konstruktsioonid 

koondatud kategooriasse nimega „perifrastilised verbid”, mille alla kuuluvad: 

1) ühendverbid (finiitverbi ühendid afiksaaladverbiga), 2) väljendverbid (finiitverbi 

ühendid noomeniga) ja 3) ahelverbid (finiitverbi ühendid infiniidiga) (EKG 1993: 

18–22). Nendest on kõige rohkem uuritud verbi ja noomeni püsiühendeid, sh 

väljendverbe ja tugiverbiühendeid (Pai 2001; Muischnek 2005, 2006a, 2006b, 

2006c; Sahkai, Muischnek 2010), ühendverbe ja väljendverbe on käsitlenud Rätsep 

(1969, 1978), Pihlak (1985, 1991) ja Vanem (2004). 

Eesti leksikograafias ei ole välja kujunenud perifrastiliste verbide esitamise 

traditsiooni ning iga sõnaraamat käsitleb neid erinevalt vastavalt sellele, mis on 

sõnastiku profiil. Kui ühendverbe esitatakse enamasti (all)märksõnadena, siis 

väljend-, ahelverbe ja tugiverbiühendeid esitatakse üldjuhul kas märksõna 

tähendusploki näitelausetes või fraseologismidena. Selline lähenemine on kooskõlas 

EKG seisukohaga (1993: 19), et kuigi perifrastilised verbid moodustavad 

süntaktilise terviku, ei ole see siiski mitmeosaline sõna, vaid ikkagi sõnade ühend, 

mille komponendid kuuluvad eri sõnaliiki. 

Samas olen arvamusel, et leksikograafiliselt tuleb perifrastilist verbi pidada pigem 

mitmeosaliseks sõnaks kui sõnade ühendiks, kuna perifrastilisel verbil on iseseisev 

terviktähendus ja argumentstruktuur. Samasugust perifrastiliste verbide käsitlust 

rõhutavad ka arvutilingvistid Heiki-Jaan Kaalep ja Kadri Muischnek, kes käsitlevad 

seda tüüpi üksusi püsiühendina (multiword expression), st kahe või enama 

sõna(vormi) ühendina, mida mingi tähenduse väljendamiseks on tavaks koos 

kasutada. Uurijad märgivad, et kui morfoloogia tasandil ehk võibki käsitleda iga 

tühikutevahelist stringi omaette analüüsiüksusena, mis saab oma sõnaliigi ja 

grammatiliste kategooriate analüüsi, siis edasi, süntaktilise ja semantilise analüüsi 

jaoks, on oluline mitmesõnalise leksikaalse üksuse või mitmesõnalise minimaalse 

semantilise üksuse tunnistamine ja äratundmine (2009: 157–158). 

73

Korpusleksikograafilise analüüsi otstarbeks on oluline perifrastiliste verbide 

moodustusstruktuuri analüüs. 

3.5.3.1. Väljendverbid (noomen(ifraas) + verb) 

EKG (1993: 20) järgi on väljendverb selline perifrastiline verb, mille sisuliseks 

tuumaks on noomen(id). 

Väljendverbi võimalikud moodustusstruktuurid on: 

1) substantiiv (sise- ja väliskohakäändes) + verb, nt silma hakkama, korrale 

kutsuma, mõttesse langema; omaette rühmana võib tuua ka kolmikparadigmasid 

moodustavaid verbe: meelest (ära) minema – meeles olema – meelde tulema. 

Rudolf Karelson (2005) märgib, et nominaalse komponendi puhul pole alati kerge 

otsustada, kas tegu on uue sisuga (st mitte substantiivi käändevormi, vaid nt adverbi 

või adpositsiooniga) või siiski substantiivile omase erilise käändetähendusega. 

Sellised sõnakujud nagu lukkus, lokkis, sompus, tükkis, pilves; lukku (Pani ukse 

lukku), pilve (Ilm läks pilve), tükki (Suhkur on tükki sulanud), tompu (Padjasuled 

lähevad tompu) on ilma kahtluseta adverbid. Kuid traditsiooniliselt käsitletakse neid 

ikkagi väljendverbide käändsõnalise komponendina (2005: 62–63); 

2) substantiiv (grammatilises käändes) + verb, nt nägu tegema, aru saama, lugu 

pidama, muret tundma; seejuures võib noomenist komponendi kääne kasutuses 

varieeruda; 

3) adjektiiv (translatiivis, essiivis) + verb, nt araks lööma, pahaks panema; 

4) pronoomen (partitiivis, translatiivis) + verb, nt end tundma, end tundma andma, 

paljuks pidama; 

5) ainult ühendites esinev komponent + verb, nt tähele panema, peksa saama, pärit 

olema. Need on sõnad, mida ESTMORF analüüsib osaliselt X-ina, st verbi juurde 

kuuluva sõnana, millel eraldi sõnaliigi tähistus puudub (vt ptk 3.1.). Tänapäeva 

keele seisukohast on enamik nendest kivinenud sõnavormidest adverbid (nt andeks, 

plehku, pärit). Samas on sõnavorme, mis esinevad ainult ühendites ja mille 

sõnaliigilist kuuluvust on raske määrata, nt peksa, kihla. Sel põhjusel käsitlen 

siinses töös (ja ka sõnavisandite grammatikas) verbi ja X-iks märgendatud sõnade 

ühendeid väljendverbidena; 

6) adverbialiseerunud käändevorm + verb, nt nõus olema. Seda tüüpi ühendite 

noomenist komponent ei esine iseseisva märksõnana ning tavaliselt esitatakse 

ühend vastava substantiivi kirjes (nt EKSSis on nõus olema substantiivi nõu kirjes). 

7) Mõnikord on väljendverbi ja ahelverbi verbaalseks komponendiks ka ühendverb, 

nt arust ära olema, puust ette tegema. 

Sõnavisandite grammatika abil saab hetkel korpusest otsida omaette kategooriana 

vaid translatiivis ja essiivis esinevaid predikatiivadverbiaale (reeglid 

predicate_Adj_saav/predicate_Adj_saav_of, predicate_Adj_olev/ 

predicate_Adj_olev_of, vt Tabel 7). 

74

Lisaks on eraldi reegel väljendverb, mis otsib korpusest verbi ja X-iks märgendatud 

sõna koosesinemisi. Sagedamad neist on pärit olema, tähele panema ja andeks 

andma. 

Ülejäänud väljendverbide noomenitest komponente süsteem eraldi ei otsi, vaid need 

tulevad esile verbi objekti (nt aru saama, juttu ajama) (vt ptk 3.5.2.2.) või 

adverbiaalina (nt silma paistma) (vt ptk 3.5.2.3.). 

3.5.3.2. Ühendverbid (afiksaaladverb + verb) 

EKG (1993: 20) järgi on ühendverbid perifrastilised verbid, mille sisuliseks 

tuumaks on verb, komplekteerivaks komponendiks on orientatsiooni, perfektiivsust 

või seisundit, üksikjuhtudel ka modaalsust väljendav afiksaaladverb. Seega võib 

ühendverbid moodustusstruktuuri järgi jaotada neljaks rühmaks (vt ka Rätsep 1978: 

29–39): 

1) verb + orientatsiooniadverb (alla, all, alt, ette, ees, eest jmt); 

2) verb + perfektiivsusadverb (maha, täis, valmis, ära jmt); 

3) verb + seisundiadverb (püsti, kokku, laiali, kinni, lahti, katki jmt); 

4) verb + modaalsust väljendav afiksaaladverb (tarvis jmt). 

Lisaks on juhtumeid, kus orientatsiooniadverb esineb koos perfektiivsusadverbiga, 

nt Mees võttis kala otsast ära, või mitu orientatsiooniadverbi esineb kõrvuti, nt 

Majad ajavad tuld seest välja. 

Orientatsiooniliste afiksaaladverbidega ühendverbid (Rätsep 1978: 28; EKG 1993: 

21; Kaalep, Muischnek 2009: 160) jaotuvad ainukordseteks (peale käima, üle 

ajama, maha võtma, üles lööma) ja korrapärasteks (alla/üles/sisse/välja 

tulema/minema/jooksma) ühendverbideks. Ainukordsed ühendverbid moodustavad 

süntaktilise terviku, millest sõltuvad seotud laiendid. Korrapärased ühendverbid ei 

ole valmis sõnastikuüksused nagu ainukordsed verbid. Mõlemad ühendi osised 

säilitavad tähendusliku iseseisvuse. Vaatamata sellele moodustavad ka korrapärased 

ühendverbid süntaktiliselt lahutamatu terviku. Lausemalli ei määra siin finiitverb, 

vaid verb koos afiksaaladverbiga. 

Traditsiooniliselt esitatakse eesti keele sõnastikes nii korrapärased kui ka ainukordsed 

ühendverbid kas alusverbi sõnaartiklis allmärksõnana (nt EKSS, EE-VN) või omaette 

märksõnana (nt EVÕS, vt joonis 54). 

75

Joonis 54. Ühendverbide esitus EVÕSis (2011). 

Afiksaaladverbe tuvastab sõnavisandite grammatika loendi alusel (reegel 

afiksaaladverb/afiksaaladverb_of). Loend on koostatud EKSSi ja EE-VN 

sagedamate eesti keele ühendverbide loendi põhjal. Loendis on järgmised 

afiksaaladverbid: alla, alt, edasi, eemale, esile, ette, juurde, järele, kaasa, katki, 

kinni, kokku, kõrvale, külge, lahku, lahti, laiali, ligi, läbi, maha, mööda, otsa, peale, 

pealt, püsti, ringi, sisse, taga, tagant, tagasi, tarvis, täis, vahele, valmis, vastu, 

välja, ära, üle, üles, üleval, ümber. Grammatika koostamispõhimõte on, et kui ühe 

osalause piires on verb ja selles loetelus olev afiksaaladverb, siis on tegemist 

ühendverbiga. 

Joonis 55 näitab sagedamaid verbi lööma ja abiksaaladverbide ühendeid: kaasa 

lööma, läbi lööma, välja lööma, maha lööma, kokku lööma ja lahku lööma. 

Joonis 55. Verbiga lööma esinevad afiksaaladverbid. 

3.5.3.3. Ahelverbid (infiniitverb + finiitverb) 

Ahelverbid on perifrastilised verbid, mille sisuliseks tuumaks on infiniit. Finiitverb 

väljendab infiniidiga tähistatud situatsiooni modaalsust, aspekti, kausatiivsust või 

viisi (EKG 1993: 19). EKGs on eristatud ahelverbide neli tüüpi: 

76

1) modaalverb + infiniitverb. Sellised ahelverbid on võima, tohtima, saama dainfinitiiviga, 

pidama supiiniga ning näima, paistma ja tunduma vat-infinitiiviga; 

2) tegevuse faasi (algust või lõppu) tähistav verb + supiinivorm. Sellised ahelverbid 

on hakkama, asuma, minema, tulema, jääma, kukkuma, lööma, kargama, süttima 

koos supiini illatiiviga; lakkama koos supiini elatiiviga; 

3) tegevuse põhjustamist tähistav kausatiivverb + infiniitverb. Näiteks panema, 

ajama, jätma, laskma, lööma, vajutama, keerama koos supiini illatiiviga; 

4) tegevuse viisi tähistav verb + infiniitverb. Näiteks paukuma, nähvama koos dainfinitiiviga. 

Nagu tugiverbid (vrd Muischnek 2006c), võib ka ahelverbid jaotada kahte rühma: 

1) produktiivselt ahelverbe moodustavad verbid; siia kuuluvad modaalverbid ja ka 

mõned faasi tähistavad verbid, nt hakkama, lakkama; 2) finiitverbid, mis 

kombineeruvad tegevust väljendavate infiniitverbidega, mida saab esitada teatud 

semantilisse välja kuuluvatena, nt ajama, panema, lööma jt. Esimese rühma verbid 

kombineeruvad piiramatu hulga tegevust väljendavate infiniitverbidega. Teise 

rühma finiitverbid moodustavad teatud kindlat tegevust väljendavate 

infiniitverbidega püsiühendeid, kus finiitverbi panus püsiühendi tähendusse on 

minimaalne. Sellistes ühendites osalevaid infiniitverbe saab tavaliselt esitada mingi 

semantilise välja liikmetena. Toon näiteks verbide ajama, panema, lööma ja 

minema mõningad infiniitverbidest komponentide rühmad (ahelverbide allikas on 

Pihlak 1991): 

1) (inimese) füsioloogilise ja psühholoogilise seisundi muutuse verbid: 

a) ajama haigutama, ~ iiveldama, ~ kipitama, ~ luksuma, ~ magama, ~ naerma, 

~ oksendama, ~ õhetama, ~ öökima; 

b) panema armuma, ~ ehmuma, ~ heldima, ~ häbenema, ~ hämmelduma, 

~ imestama, ~ imetlema, ~ itsitama, ~ jahmuma, ~ kiruma, ~ kisama, ~ kõhklema, 

~ naerma, ~ röökima; 

c) lööma kartma, ~ kihama, ~ kohkuma, ~ kõhklema, ~ särama; 

2) seisundi muutuse verbid: 

a) ajama hõõguma, ~ keema, ~ põlema, ~ vahutama; 

b) panema hapnema, ~ kollendama, ~ kütma, ~ põlema; 

c) lööma klirisema, ~ leekima, ~ põlema, ~ mädanema, ~ pulbitsema; 

d) minema haisema, ~ hallitama, ~ idanema, ~ kasvama, ~ käärima, ~ mädanema, 

~ paisuma, ~ õitsema; 

3) sotsiaalse interaktsiooni verbid: 

a) ajama kihama, ~ tülitsema; 

b) minema kaklema, ~ kiskuma, ~ vaidlema. 

Verbi minema tähenduses ‘alustama, hakkama’ uurinud Heete Sahkai (2011) on 

märganud, et nende ühendite puhul on tegemist kas püsiühenditega või osaliselt 

produktiivsete idiomaatiliste mallidega, mida ei saa esitada minema rektsioonina, nt 

kujul [minema + ma-infinitiiv], sest nad on piiratud kindlate tähendusrühmadega 

77

või verbi kindla vormiga. Seega esineb verb minema tähenduses ‘alustama, algama, 

hakkama’ ainult kindlates konstruktsioonides (2011: 180). See on väga oluline 

tähelepanek ahelverbide leksikograafilise, eelkõige õppeleksikograafilise esituse 

seisukohalt, mis osutab sellele, et ka ahelverbe tuleks sõnastikus esitada 

eksplitsiitselt omaette üksusena (võimalusel koos definitsiooni ja näitelausega), 

mitte näidete tasandil, sest keeleõppija jaoks ei pruugi nende tähendus olla 

läbipaistev. 

Sõnavisandite grammatika ei otsi ahelverbide komponente eraldi, vaid neid 

tuvastatakse reeglite V_Vma abil (vt Tabel 7). Joonisel 56 on sagedamad ahelverbid 

verbiga ajama: ajama naerma/iiveldama/minema/nutma/higistama. 

Joonis 56. Sagedamad ahelverbid verbiga ajama. 

3.5.3.4. Tugiverbiühendid 

Eesti keele tugiverbiühendite moodustusstruktuuri on põhjalikult uurinud Kadri 

Muischnek (2005, 2006a, 2006b: 18–22, 2006c). 

Tugiverbikonstruktsiooniks nimetatakse sellist verbist ja noomenist või 

noomenifraasist koosnevat struktuuri, mille tähenduse annab noomen(ifraas) ja 

verbi osaks on jäänud ainult grammatilised funktsioonid: väljendada aega, isikut, 

tegumoodi jms ning siduda tegevust väljendav noomen, mis semantiliselt on lauses 

predikaadiks, selle lause muude osalistega. Tüüpiliselt on tegevust väljendav 

noomen formaalselt objekti positsioonis (teeb tööd, annab tõuke, peab kõne), 

harvem muu argumendi positsioonis (jõuab järeldusele) (Muischnek 2006a: 82). 

Tugiverbid võib Muischneki (2006c) järgi jaotada kahte rühma: 

1) produktiivselt tugiverbiühendeid moodustavad verbid, nt tegema, tegelema, 

sooritama, käima, juhtuma, toimuma jt; 

2) tugiverbid, mis kombineeruvad tegevust väljendavate noomenitega, mida saab 

esitada teatud semantilisse välja kuuluvatena, nt ajama, pidama, laskma, lööma, 

andma. 

78

Esimese rühma verbid kombineeruvad piiramatu hulga tegevust väljendavate 

noomenitega, millele seatakse küll mõningaid süntaktilisi ja semantilisi piiranguid. 

Teise rühma verbid moodustavad teatud kindlate tegevust väljendavate 

noomenitega püsiühendeid, kus verbi panus püsiühendi tähendusse on minimaalne. 

Sellistes ühendites osalevaid noomeneid saab tavaliselt esitada mingi semantilise 

välja liikmetena, näiteks: ajab poliitikat/äri/asju jne; ajavad juttu/lora; ajab 

jonni/joru/kiusu jne; peab kõne/ettekande/loengu jne; peavad läbirääkimisi/kõnelusi 

jne; A peab B-ga sõda/diskussiooni jne; peavad pidu/sünnipäeva jne. 

Muischneki (2005, 2006a, 2006b: 18–22, 2006c) uurimuste põhjal võib teha 

üldistava järelduse, et eesti keele tugiverbiühendite moodustusstruktuur on 

järgmine: 

1) verb + noomen (grammatilises käändes, sagedamini partitiivis), nt kõnet pidama, 

asju ajama; 

2) verb + noomen (adverbiaalkäändes), nt järeldusele jõudma. 

Nagu ka väljendverbide noomenitest komponente, ei otsi süsteem hetkel 

tugiverbiühendite nominaalseid komponente eraldi. Grammatilistes käänetes 

noomenitest komponendid tulevad esile verbi objektina (vt pkt 3.5.2.2.), 

adverbiaalkäänetes esinevad komponendid adverbiaalidena (vt ptk 3.5.2.3.). 

Joonisel 57 on perifrastilised verbid, mille üheks komponendiks on finiitverb 

ajama. Jooniselt nähtub, et tugiverbiühendid ja väljendverbid (juttu/asju/korda/ 

habet ajama) on tuvastatud objektidena, afiksaaladverbidega ühendverbid 

(taga/läbi/välja/ära/kokku ajama) on tuvastatud omaette, kuid seisundiadverbidega 

ühendverbid (segi/segamini/püsti/laiali/lõhki ajama) on tuvastatud kui tavalised 

adverbidest laiendid. Ahelverbid (ajama naerma/iiveldama/nutma/higistama) on 

tuvastatud reegliga V_Vma (vt Tabel 7). Lisaks on reegliga predicate_Adj_saav 

tuvastatud adjektiivse komponendiga väljendverbid (hulluks/suureks/pahaks ajama jt). 

79

Joonis 57. Verbi ajama sõnavisandis esinevad perifrastilised verbid. 

Nende probleemide ainukeseks lahendamisviisiks on perifrastiliste verbide 

märgendamine omaette leksikaalsete üksustena. Perifrastilisi verbe märgendatakse 

omaette sõnaliigina nt leksikograafilises andmebaasis DANTE. Sõnaliigi märgend 

‘phr_v’ on sellistel perifrastilistel verbidel, mille komponentideks on lisaks verbile 

1) afiksaaladverb (adverb particle), nt get up, point out; 2) prepositsioon 

(prepositional particle), nt see through (someone’s plans); 3) afiksaaladverb ja 

prepositsioon (verbs with both types of particle), nt make off with, refer back to 

(Rundell, Atkins 2011: 235). 

3.5.4. Kokkuvõtteks: verbid 

Verbide sõnavisandid näitavad konkreetse verbi substantiivseid, adjektiivseid ja 

adverbilisi kaasmoodustajaid, laiendi funktsioonis esinevaid adpositsioonifraase, 

infiniitverbe, laiendliikmeks olevate kõrvallausete alguses asuvaid sidendeid ning 

rinnastus- ja võrdlustarindeid. Verbi ja selle substantiivsete laiendite grammatilisi 

suhteid on nimetatud sõnavisandite grammatikas morfosüntaktiliste kategooriate 

terminites. Eristatud on subjekt, objekt ja adverbiaalkäänetes esinevad 

substantiivsed adverbiaalid. 

Sõnavisandite grammatika reeglite abil on võimalik tuvastada ka selliseid 

perifrastilisi verbe nagu väljend-, ühend-, ahelverbid ja tugiverbiühendid. Omaette 

kategooriana tuvastab programm translatiivis ja essiivis esinevate adjektiivide ja 

verbide ühendeid (nt hulluks minema) ning verbi ja X-iks märgendatud sõnade 

koosesinemisi (nt tähele panema). Väljendverbide ja tugiverbiühendite noomenitest 

komponendid tulevad esile verbi objekti (nt aru saama, juttu ajama, läbirääkimisi 

pidama) või adverbiaalina (nt silma paistma, järeldusele jõudma). Ahelverbide 

komponentidena esinevaid infiniitverbe tuvastab süsteem eraldi reegli V_Vma abil. 

Ühendverbe moodustavaid afiksaaladverbe tuvastab sõnavisandite grammatika 

loendi alusel. Loendis on järgmised afiksaaladverbid: alla, alt, edasi, eemale, esile, 

80

ette, juurde, järele, kaasa, katki, kinni, kokku, kõrvale, külge, lahku, lahti, laiali, 

ligi, läbi, maha, mööda, otsa, peale, pealt, püsti, ringi, sisse, taga, tagant, tagasi, 

tarvis, täis, vahele, valmis, vastu, välja, ära, üle, üles, üleval, ümber. 

Toon näiteks verbide hoolitsema (vt Joonis 58) 32 ja tooma (vt Joonis 59) 

sõnavisandid. 

Joonis 58. Verbi hoolitsema sõnavisand. 

Verbi hoolitsema sõnavisandist (vt Joonis 58) nähtub grammatiline klass subjekt 

(sagedamad on riik/valitsus, firma, mees/inimene/naine, ema/isa/vanaema), lisaks 

laiendi funktsioonis esinevad adpositsioonifraasid (hoolitsema kelle-mille eest, nt 

lapse/pere/perekonna, looma/hobuse/koera, maja eest) ja adverb (hästi/piisavalt 

jne). Visandis on samuti tuvastatud kõrvallause alguses asuvad sagedamad sidendid 

(nt lauses Maakler peab hoolitsema, et kogu tehing sujuks turvaliselt kõigile 

osalistele). Seega saab nendele sõnavisandi andmetele toetudes järeldada, et verbi 

hoolitsema sagedamad laiendid on substantiiv (subjekti funktsioonis), 

adpositsioonifraas ja adverb, ehk kes (riik/firma/valitsus) hoolitseb kelle-mille 

(laste/inimeste) eest ja kuidas (hästi/piisavalt). 

32 Sõnavisandi esitamisel on kasutatud klasterdamise funktsiooni (st programm rühmitab 

automaatselt samasse leksikaal-semantilisse gruppi kuuluvad leksikaalsed üksused). 

81

Joonis 59. Verbi tooma sõnavisand. 

Verbi tooma sõnavisandist (vt Joonis 59) nähtuvad sellised kategooriad nagu 

subjekt (aasta/tulevik/päev jne), objekt (tooma näidet/selgust/edu) ja adverbiaalid. 

Adverbiaalide morfoloogiline vormistus on alaleütlev (tooma turule/lavale/ 

päevavalgele jt), saav (tooma näiteks/võrdluseks/põhjuseks jt), sisseütlev (tooma 

haiglasse/politseisse), harvemini ka alalütlev (tooma laupäeval/neljapäeval jt), 

seestütlev (tooma poest/köögist/kodunt jne), rajav (tooma vaatajateni/lugejateni/ 

publikuni) ja seesütlev (tooma tulevikus). Sagedamate grammatiliste suhetena tulid 

esile adpositsioonifraas kelle-mille ette (tooma avalikkuse/vaatajate/ publiku ette) ja 

adverb (tooma kohale/lähemale). Perifrastilistest verbidest on tuvastatud sagedamad 

ühendverbid: kaasa tooma, välja tooma, esile tooma ja sisse tooma. 

Nendest kahest sõnavisandist nähtub, et ka verbide sõnavisanditest koorub välja 

selle leksikaalne profiil, millele leksikograaf saab toetuda verbi süntagmaatiliste 

omaduste eksplitsiitsel kirjeldamisel. 

Järgmises osas esitan sõnavisandite kvantitatiivse evalveerimise tulemused. 

3.6. SÕNAVISANDITE HINDAMINE 

Peatükis hindan sõnavisandite väljundi täpsust, kirjeldan hindamise kriteeriume ja 

annan ülevaate evalveerimise käigus esile kerkinud probleemidest. 

3.6.1. Hindamise metoodika 

Eesti keele sõnavisandite kvantitatiivsel evalveerimisel kasutan Kilgarriffi jt 

(2010a) meetodit, millega uuriti hollandi, inglise, jaapani ja sloveeni keele 

82

sõnavisandeid (märksõnastiku iga 42. sõna 20 kollokaati) 33 . Kilgarriff jt (2010a: 

372) rõhutavad, et evalveerimine on oluline nii Sketch Engine'i arendajatele kui ka 

selle potentsiaalsetele kasutajatele. Arendajate eesmärk on selgitada probleemsed 

kohad ja parandada süsteemi funktsionaalsust. Leksikograafidel aitab evalveerimine 

hinnata, kas sõnavisanditest on neile konkreetsete kirjete koostamisel abi. 

Evalveerimise tulemused peaksid näitama, kas tarkvara on piisavalt hea, mitme 

protsendi ulatuses on tuvastatud informatsioon kasulik ja kas seda tasub 

igapäevases töös kasutada. 

Siinses töös hinnatakse sõnavisandeid kasutaja, st tegeva leksikograafi seisukohalt. 

Tulemuste hindamiseks kasutatakse sellist näitajat nagu täpsus (precision). Täpsus 

näitab õigete tuvastatud kollokaatide osakaalu kõigist tuvastatud kollokaatidest. 

Üldjuhul hinnatakse ka taoliste programmide korrektsust (recall). Korrektsus näitab 

tuvastatud õigete kollokaatide suhet kõikide leksikograafilise analüüsi käigus leitud 

ja sõnaraamatus või andmebaasis fikseeritud konkreetse sõna kollokaatidega. Nt kui 

sõnavisandis on substantiivi jahu kollokaatideks vaid sõeluma ja jahvatama, siis on 

täpsus 100%, sest mõlemad on õiged, kuid korrektsus võib olla madal, kuna on 

olemas veel palju kollokaate, mida süsteem pole tuvastanud (Kilgarriff jt 2010a: 

380). Korpusleksikograafilise tarkvara korrektsuse mõõtmine eeldab vastava 

kollokatsioonisõnaraamatu või andmebaasi olemasolu ning on korrelatsioonis 

sisendkorpuse sisuga. Kuna eesti keele jaoks sellist andmebaasi ei ole, piirdun 

siinses uurimuses vaid programmi täpsuse mõõtmisega. 

Meetod seisneb selles, et leksikograafidel palutakse hinnata iga tuvastatud 

kollokaadi leksikograafilist väärtust kaheastmelisel skaalal hea–halb 34 . Hea ehk 

leksikograafiliselt relevantne kollokaat peab vastama sellistele kriteeriumidele nagu 

tähenduslikkus, terviklikkus ja kasulikkus sõna semantika ja grammatika uurimisel. 

Halb ehk leksikograafiliselt irrelevantne kollokaat on ilmselgelt vigane, st 

kollokatsioonil ei ole mingit tähendust või leksikograaf arvab, et selline 

kollokatsioon ei oma leksikograafilist väärtust. 

Kilgarriffi jt (2010a) uurimus näitas, et suurema osa valesti tuvastatud 

kollokaatidest põhjustasid sõnaliigi märgendamise ja lemmatiseerimise käigus 

tekkinud vead, duplikaadid ja korpustes sisalduv nn müra. Probleemne on ka 

mitmesõnaliste üksuste tuvastamine. Parimaks osutus jaapani keele sõnavisandite 

33 

Mõiste kollokaat tähistab siin kõiki programmi abil tuvastatud otsisõnaga grammatilises seoses 

olevaid statistiliselt esilduvaid sõnu. 

34 

Kilgarriff jt (2010a) kasutasid esialgu viieastmelist skaalat hea (good) ‒ hea, aga vale 

grammatiline suhe või sõnaliigi märgend (good but wrong grammatical relation or POS-tagging 

error) – võib olla, aga kollokaat ei ole asjakohane (maybe, not striking collocate) ‒ võib olla, aga 

erialakeel (specialized vocabulary) ‒ halb. Kuid hinnangute analüüsimisel selgus, et hindajad on 

üsna sageli ühel meelel, kas tuvastatud kollokaat on hea või halb. Sel põhjusel otsustati, et 

efektiivsem on pakkuda leksikograafidele kaheastmeline skaala hea–halb. Head on kollokaadid, 

millele leksikograafid andsid hinnangu hea või hea, aga vale grammatiline suhe või sõnaliigi 

märgend. Halvad on need, mille hinnang oli võib olla ja halb. 

83

väljund, kus 87% tuvastatud kollokaatidest oli hinnatud heaks. Inglise ja sloveeni 

sõnavisandite täpsus olid ca 70% ja taani keele oma 66,3%. 

Eesti sõnavisandite evalveerimise tarbeks lõin koostöös Sketch Engine’i 

programmeerijate Vojtech Kovari ja Milos Jakubicekiga spetsiaalse kasutajaliidese. 

Joonisel 60 on adverbi täis evalveerimise kasutajaliides. 

Joonis 60. Sketch Engine’i evalveerimise kasutajaliides (adverb täis). 

84

Evalveerimisel osales 7 Eesti Keele Instituudi leksikograafi, kes kasutavad tarkvara 

oma igapäevases töös. Evalveerida tuli 16 sõna (4 substantiivi: päike, abielu, leping, 

arvamus; 4 adjektiivi: ilus, uhke, sarnane, iseloomulik; 4 adverbi: omaette, täis, üle, 

sarnaselt ja 4 verbi: paistma, hääletama, ajama, tegema) 20 sagedamat kollokaati. 

Evalveerimiseks valisin enamasti polüseemilised sõnad. Esindatud olid nii 

konkreetsed kui ka abstraktsed substantiivid, adverbi, adpositsiooni ja 

afiksaaladverbina käituv sõna, võrdluse eesmärgil sama adjektiivi adverbiaalne 

derivaat, transitiivsed ja intransitiivsed verbid. Verbide valiku üheks kriteeriumiks 

oli nende aktiivsus perifrastiliste verbide moodustamisel. Kollokaatide arvu 

määramisel lähtusin Kilgarriffi jt uurimusest, mis osutas mh sellele, et kõrge 

esinemissagedusega sõnade puhul on otstarbekas esitada sõnaraamatus umbes 20 

kõrge esilduvusega kollokaati. Samas keskmise ja madala esinemissagedusega 

sõnade korral võib see arv olla tunduvalt väiksem (2010a: 375). Siinses uurimuses 

valisin evalveerimiseks eesti keele 3000 sagedama sõna hulka kuuluvad sõnad, 

kollokaadid sorteerisin koosesinemise sageduse järgi ja minimaalseks 

koosesinemise sageduseks määrasin 2. Kuna sõnavisandid töötavad praegu 

põhimõttel, et kollokaadid viiakse lemmadele, siis näidati kasutajaliideses 

leksikograafidele ka sagedamat koosesinemist (commonest match) sõnavormide 

tasandil, nt täies elujõus. Lisaks said leksikograafid vajadusel analüüsida 

konkordantsiridu. 

3.6.2. Tulemused 

Analüüsitud 320 kollokatsioonist pidas enamik leksikograafe heaks kokku 222 

kollokaati ehk 70% kollokaatide üldarvust. 27 kollokaadi ehk 8% puhul oli enamik 

leksikograafe ühel meelel, et tegemist on hea kollokaadiga, samas väiksem osa 

evalveerijatest pidas samu kollokaate halvaks. Negatiivse hinnangu halb sai 71 

kollokaati ehk 22% üldarvust. 

Järgnevalt analüüsin neid kollokaate, mille suhtes olid leksikograafid eriarvamusel, 

aga ka tuvastatud vigaste kollokaatide põhjusi. 

3.6.3. Tulemuste analüüs 

Eriarvamusel olid leksikograafid eelkõige nende kollokaatide suhtes, mille 

tekstiliigiline markeeritus oli väga tugev, st kollokaat illustreeris sõna kasutust 

mingis konkreetses valdkonnas. Näiteks substantiivi arvamus sõnavisandis tulid 

esile sellised genitiivatribuudid nagu komitee/sotsiaalkomitee/veterinaarkomitee 

arvamus. Alliktekstide analüüsist selgus, et enamasti on need kollokatsioonid pärit 

Eesti ja Euroopa seaduste tekstidest. Verbi hääletama sõnavisandis tuli esile objekti 

funktsioonis esinev kollokaat muudatusettepanek, nt lausetes Õige varsti hakkame 

me hääletama muudatusettepanekuid või Palun hääletada muudatusettepanekut 1. 

See kollokatsioon esineb eelkõige riigikogu stenogrammide 1995–2001 tekstides. 

Osa leksikograafe arvas, et sellised kollokaadid risustavad sõnavisandeid ja pidasid 

neid halbadeks, enamus arvas aga, et need näitavad, mis tüüpi tekstides kasutatakse 

seda sõna antud korpuses kõige rohkem ja pidasid seepärast kollokaati 

85

leksikograafiliselt relevantseks. See asjaolu osutab, et sõnavisandite evalveerimisel 

on otsustava tähtsusega ka selle korpuse sisu, mille põhjal on sõnavisandid 

genereeritud. Vastakad arvamused olid ka nt rindtarindi vapper ja ilus suhtes. 

Leksikograafid arvasid, et tuvastatud sõnaühend on tugevalt seotud 

televisioonisarjaga „Vaprad ja ilusad” ja pidasid seda halvaks. Samas alliktekstis on 

seda ühendit kasutatud ka sarjaga mitte seotud kontekstides (nt lauses Ilmselgelt on 

meie võrokeelsed tütarlapsed hulga ebakindlamad kui kõik need vaprad ja ilusad 

meessolistid, kes Eurovisioni lavadel üles astuvad) ja sel põhjusel pidas osa 

leksikograafe seda kollokaati ikkagi heaks. 

Teiseks põhjustas lahkarvamusi kollokaatide lemmadele viimine, mis mõnikord 

muudab tuvastatud kollokatsiooni arusaamatuks ühendiks, nt täis raud, mille taga 

on tegelikult püsiväljend täie rauaga ‘nagu vähegi võimalik’. See tähelepanek 

viitab sellele, et edaspidi tasub kaaluda eesti keele sõnavisandite genereerimist ka 

sõnavormide jaoks ja mitte viia tulemused alati lemmadele. Samale probleemile on 

osutanud Kaalep ja Muischnek (2009: 162) rõhutades, et ekslik oleks arvata, et 

morfoloogiliselt ühestatud korpust kasutades saab tekstisõnad kõrvale jätta ning 

tegelda ainult lemmade koosesinemistega. Ühendverbide kui muutumatu sõna ja 

tekstis muutuva verbi ühendite tuvastamiseks võib tõesti kõik tekstisõnad asendada 

lemmadega, st leidis → leidma, leidnud → leidma ja üles → üles. Kuid verbi ja 

noomeni kindla muutevormi püsivate ühendite, näiteks väljendverbide puhul on asi 

teisiti. Näiteks väljendverbi silmist kaotama leidmiseks tuleb tekstis esinev 

verbivorm asendada lemmaga, kuid kui käändevorm silmis asendatakse tema 

lemmaga silm, saab sõnapaari silm kaotama (ibid.). Siinne uurimus näitab, et seda 

tüüpi sõnaühendeid on eesti keeles palju, sh teatud tüüpi adverbifraasid. See teema 

kuulub vaieldamatult väitekirja aktuaalsemate edasiarenduste hulka. 

Hinnangu halb põhjused võib tinglikult jaotada kahte rühma. 

1) Üldtuntud probleemid nagu: 

a) lemmatiseerimisvead, mis on tingitud nt vormihomonüümiast: substantiiv villa 

on lemmatiseeritud kui vill. Siin on vea põhjuseks mh asjaolu, et Sketch Engine’i 

korpuse ettevalmistamise järgus jäi sisendkorpuses mitme tõlgendusega sõnadel 

sisse ainult esikohal olev tõlgendus. Näiteks kui esialgu oli substantiivil villa kaks 

tõlgendust: vill + O ja villa + O, siis Sketch Engine’i korpuses on neist vaid 

esimene; 

b) morfoloogilise märgendamise vead sõnaliigi tasandil. Probleemne on 

leksikaliseerunud ja grammatikaliseerunud vormide märgendamine. Näiteks sõna 

käes fraasis päikse käes on märgendatud kui substantiiv ning tuleb esile kui 

substantiivi päike seesütlevas järeltäiend. Adverbide ja verbide sõnavisandites on 

valesti tuvastatud kollokaatide põhjuseks adverbide ja adpositsioonide (lemma üle 

sõnavisandis) ning adverbide ja sidesõnade (lemma paistma sõnavisandis) vale 

märgendamine. Näiteks lauses Kuid selline olukord, nagu paistab, mõningaid ei 

rahuldanud on sidesõna nagu märgendatud adverbiks. 

86

2) Teise rühma moodustavad probleemid, mida võib edaspidi lahendada reeglite 

tasandil (kontekstitingimuste täpsustamine, täiendavate sõnaloendite (eelkõige 

stopp-sõnade loendite) koostamine, sõnadevahelise distantsi muutmine) ja 

sisendkorpuse täiendav märgendamine (eriti oluline on perifrastiliste verbide, 

fraasipiiride ning süntaktiline märgendamine). 

Evalveerimisel osutusid probleemseks: 

a) sõnapaaridena tuvastatud kolmest, neljast ja viiest komponendist koosnevad 

fraasid, mis mõjuvad poolikute ja mõnikord ka semantiliselt tühjadena. Näiteks 

substantiivi abielu sõnavisandis osutusid sagedaseks partitsiipsed kollokaadid 

kestnud ja sõlmitud. Konkordantsiridade analüüsist selgub aga, et tegemist on 

sõnanelikutega, nt 25 aastat kestnud abielu ja 1986. aastal sõlmitud abielu. 

Analoogsed on nt sellised kollokatsioonid nagu vaheline leping pro Eesti Vabariigi 

ja Poola Vabariigi vaheline leping, ajastule iseloomulik pro modernsele / ülemineku 

ajastule iseloomulik, arvamuse uuring pro avaliku arvamuse uuring jmt; 

b) teatud tüüpi laiendid, mida leksikograafid ei pidanud leksikograafiliselt 

relevantseks. Nendeks osutusid eelkõige põhiarvsõnad (üks abielu), aja- (nt praegu 

tegema), koha- (nt kaugelt paistma), hulga- ja määramäärsõnad (nt tõeliselt/liiga 

ilus; veidi üle) ning asemäärsõnad (nt siis tegema). Hinnangud osutasid vajadusele 

koostada adverbide stopp-sõnade loend. Samas rõhutas üks leksikograaf, et 

adverbid võivad mõnede sõnade juures olla olulised. Nt koha- ja ajamäärsõnade 

analüüs aitab rekonstrueerida verbi sündmusstruktuuri (vt lähemalt ka ptk 5.2.3.4.), 

ka hulga- ja määramäärsõnad toovad esile sõna kalduvuse esineda koos 

konkreetsete adverbidega. 

Kokkuvõtteks võib öelda, et suurema osa halvaks hinnatud tuvastatud üksustest 

põhjustasid sõnaliigi märgendamise ja lemmatiseerimise käigus tekkinud vead, 

mitmesõnaliste üksuste poolik tuvastamine ja reeglite seisukohalt õigesti tuvastatud, 

kuid leksikograafiliselt irrelevantseks hinnatud eri tüüpi adverbidest laiendid. 

Sõnavisandites tuvastatavad substantiivide, adjektiivide, adverbide ja verbide 

süntagmaatilised suhted on põhilised süntagmaatiliste sõnastike kirjeldusobjektid. 

Järgnevas peatükis analüüsin, kuidas ja milleks kasutatakse kombinatoorsete 

meetoditega (sealhulgas sõnavisandite põhjal) saadud andmeid süntagmaatiliste 

õppesõnastike ja andmebaaside koostamisel. Eraldi analüüsin süntagmaatiliste 

üksuste valikukriteeriume. 

87

4. SÜNTAGMAATILISED SUHTED 

ÕPPELEKSIKOGRAAFIAS 

Õppeleksikograafia kui üldleksikograafia haru omapära väljendub eelkõige selle 

tihedas seoses teise keele ja võõrkeele õpetamise metoodikaga. Ingliskeelses 

haridusruumis nimetatakse õppesõnastikku pedagoogiliseks sõnastikuks 

(pedagogical dictionary) ja õppijasõnastikuks (learners’ dictionary), vene 

haridusruumis õppesõnastikuks (vn учебные словари), saksakeelses haridusruumis 

õppijasõnastikuks (sks Lernerwörterbuch). Eesti keele õppeleksikograafias on 

käibel mitu terminit: õppesõnastik, koolisõnastik ja baassõnastik. 

Tüpoloogiliselt liigitatakse õppesõnastikud järgmiste tunnuste järgi (Hartmann 

2001: 76–79): 

1) sihtgrupp – täiskasvanute ja noorte/laste õppesõnastikud; 

2) kasutajate keel(ed) – emakeelena kõnelejatele mõeldud või võõrkeelena 

kõnelejatele mõeldud õppesõnastikud; 

3) sõnastiku keel(ed) – nt üks- ja kakskeelsed õppesõnastikud; 

4) kirjeldusobjekt – kutsekeele, entsüklopeedilised, sõnapõhised/temaatilised 

õppesõnastikud; 

5) funktsioon – aktiivne ehk kodeeriv vs. passiivne ehk dekodeeriv. 

Nendele tunnustele võib lisada sõnastike üldtüpoloogias kasutatavad kriteeriumid 

(vt täpsemalt Atkins, Rundell 2008: 24–25): 

6) maht – standardne (akadeemiline), väike (concise) või taskusõnaraamat; 

7) formaat – pabersõnastik, elektrooniline, veebipõhine sõnastik. 

Õppesõnastike tüpologiseerimisel on väga levinud akadeemik Lev V. Scherba 

(1974) töödest alguse saanud nn binaarsetel opositsioonidel põhinev meetod (vt ka 

Tarp 2008: 17). Olulisemad binaarsed opositsioonid tulenevad sõnastiku kasutaja 

profiilist, sõnastiku leksikograafilisest ja tehnoloogilisest profiilist ning 

funktsioonist (Averina jt 1996: 314). Eristatakse üldisi (kõigile keeleõppijatele) vs. 

teatud grupile (nt õpilastele) suunatud, üldkeele vs. entsüklopeedilisi, 

semasioloogilisi vs. onomasioloogilisi, süntagmaatilisi vs. paradigmaatilisi, 

kombineeritud vs. kombineerimata, aktiivseid vs. passiivseid, preskriptiivseid vs. 

deskriptiivseid ja paberkandjal vs. elektroonilisi sõnaraamatuid. 

Õppesõnastike puhul on oluline kasutaja profiili täpne määratlemine. Sellest 

sõltuvad üksuste valikukriteeriumid ja need allikad, millele leksikograafid 

koostamisel toetuvad. Atkins ja Rundell (2008: 28–30) analüüsivad kasutaja profiili 

järgmiste komponentide alusel: 1) kasutaja tüüp – kas kasutajad on täiskasvanud, 

lapsed, teismelised; emakeelsed kõnelejad või keeleõppijad; milline on nende 

keeleoskustase (algajad, edasijõudnud); kas nad on tavalised kasutajad või 

88

professionaalid; mis situatsioonis nad sõnastikku kasutavad (haridusasutuses, 

kodus, tööl); 2) kasutuse tüüp – sõnade tähendustest arusaamine, keeleõpe, 

tõlkimine, kirjutamine, suuliseks eksamiks ettevalmistamine; 3) kasutaja eelnevad 

oskused – nende lingvistiline kompetents, nt kas nad teavad, mis on substantiiv; 

oluline on ka nende metaleksikograafiline kompetents ehk kas nad saavad 

sõnastikus kasutatavatest koodidest aru jne. Mida täpsem on sõnastiku kasutajate 

profiili kirjeldus, seda kergem on edaspidi lahendada sõnastiku koostamise ja 

toimetamisega seotud probleeme. 

Süntagmaatilise õppesõnastiku mõistet kasutatakse leksikograafia teoorias 

katusterminina sõnastikele, milles on infoüksustena kollokatsioonid, 

konstruktsioonid, püsiväljendid, idioomid, fraasid või laused (Hartmann, James 

2002: 135). Süntagmaatiliste seoste eksplitsiitse esituse põhieesmärgiks on toetada 

kasutajat võõrkeelse teksti loomisel (rääkimisel, kirjutamisel). Nende osaoskuste 

arendamiseks läheb õppijal vaja sõnaraamatut, mis näitab eksplitsiitselt konkreetse 

sõna kombinatoorseid võimalusi ja annab juhtnööre selle sõna korrektseks 

kasutuseks eelkõige fraasi ja lause tasandil. Seda funktsiooni täidavadki 

süntagmaatilised erisõnastikud või süntagmaatilisi suhteid kirjeldavad plokid 

üldsõnaraamatute sees. Põhierinevus seisneb selles, et kui süntagmaatilistes 

erisõnastikes esitatakse suhteid eksplitsiitselt (esitusviise käsitlen peatükkides 4.2. 

ja 5.1.), siis üldsõnaraamatutes esitatakse neid enamasti implitsiitselt kasutusnäidete 

tasandil (vt nt Langemets jt 2005: 84). 

Selles peatükis uurin tänapäeva süntagmaatiliste andmebaaside ja sõnastike makroja 

mikrostruktuuri eripära, süntagmaatiliste üksuste valikukriteeriume ja esitamise 

strateegiaid. Eraldi käsitlen võimalusi, mis on tekkinud seoses korpusleksikograafia 

arenguga. 

4.1. TRADITSIOONILINE JA KORPUSLEKSIKOGRAAFIA 

Traditsiooniliselt eristatakse leksikograafia teoorias kaht süntagmaatilise suhte liiki: 

1) süntagmaatilised leksikaalsed suhted, mille hulka kuuluvad kollokatsioonid, 

püsiühendid ja idioomid; 2) süntagmaatilised grammatilised ehk semantilismorfosüntaktilised 

suhted, mille hulka kuuluvad täistähenduslike sõnaliikide 

valents (nii semantiline kui ka süntaktiline) ja eri tüüpi grammatilised 

konstruktsioonid. Selline lähenemine on teoreetiliselt kirjeldatud nt leksikaalsete ja 

grammatiliste kollokatsioonide teoorias (Benson 1986, 1989, 1990). Grammatilised 

kollokatsioonid koosnevad põhisõnast, milleks on substantiiv, adjektiiv/partitsiip 

või verb, ja adpositsioonifraasist või muust grammatilisest struktuurist (infinitiivist 

või klausist). Leksikaalsetel kollokatsioonidel põhisõna ei ole, nendele on omased 

sellised struktuurid nagu: verb + substantiiv, adjektiiv + substantiiv, substantiiv + 

verb, substantiiv + substantiiv, adverb + adjektiiv, adverb + verb (BBI 2010: ix). 

89

Tänapäeva korpuspõhiselt koostatud süntagmaatilistes sõnastikes (nt MCD 2010, 

OCDSE 2007 35 ) on leksikaalsete ja grammatiliste kollokatsioonide eristamisest 

loobutud, süntagmaatilisi suhteid kirjeldatakse leksikogrammatiliste mallidena, 

Coffey (2011: 333) nimetab neid samuti kollokatsiooni mallideks. Mallid on 

defineeritud eelkõige sõnaliigi terminites, nt adjective + noun, verb + preposition + 

noun. Kõiki neid struktuure nimetatakse kollokatsioonideks ja sõnastikke vastavalt 

kollokatsioonisõnaraamatuteks (collocation dictionary). 

4.2. SÜNTAGMAATILISTE SUHETE ESITUSVIISID 

Süntagmaatiliste suhete esitamisel kasutatakse erinevaid strateegiaid, mis sõltuvad 

sellest, kas süntagmaatilisi suhteid esitatakse eksplitsiitselt või implitsiitselt. 

Svenséni (2009) järgi on süntaktilise info esitamiseks ükskeelsetes sõnastikes 

levinumad strateegiad: kodeeritud metakeel (coded metalanguage), kodeerimata 

metakeel (uncoded metalanguage), näitekonstruktsioonide (dead example) 36 või 

loomulike näidete (live example) kasutus ja info esitamine definitsiooni tasandil. 

Lisaks esitatakse süntagmaatilist infot mitte sõnaartiklites, vaid sõnaraamatu lisana 

(nt tabelite vormis). Järnevalt kirjeldan neid strateegiaid Svenséni (2009: 144–151) 

vahendusel, kui ei ole osutatud teisiti. 

1) Kodeeritud metakeel kirjeldab süntagmaatilisi suhteid mitmesuguste süntaktiliste 

koodide abil. Süntaktilised koodid on inglise leksikograafias nt [U] ‘loendamatu 

nimisõna’, [C] ‘loendatav nimisõna’, [I] ‘intransitiivne verb’, [T] ‘transitiivne verb’. 

Kodeeritud metakeelt kasutatakse näiteks inglise keele substantiivide, adjektiivide 

ja verbide valentsisõnastikus (Herbst jt 2004) (vt Joonis 61). Autorite sõnul on 

sõnastiku eesmärk esitada akadeemiline, põhjalik ja võimalusel kõikehaarav inglise 

substantiivide, adjektiivide ja verbide valentsi kirjeldus. Tegemist on korpuspõhise 

sõnaraamatuga, mille aluseks on Birminghami Ülikoolis koostatud 320 mln sõna 

suurune korpus. Sõnastiku põhilised infoüksused on valentsi mall (valency pattern), 

sõna tähendus konkreetses mallis, sama või sarnase semantilise rolliga 

komplementide grupp ja malli sagedus (harva esinev (rare) / 

> 30% / sage (frequent) / väga sage (very frequent)). Valentsi mallid on kirjeldatud 

enamasti moodustusstruktuuri alusel, põhiliselt fraasitüübi terminites. Näiteks 

[N] – substantiivifraas, [ADJ] – adjektiivifraas, [+ about N] – prepositsioonifraas, 

mille põhjaks on prepositsioon about jne. (Herbst jt 2004: vii–xxii) 

35 

OCDSE materjali põhiallikaks on 100 mln sõna suurune British National Corpus ja ka Internet 

(OCDSE 2007: VII). 

36 

Siinses tööd kasutan Svenséni (2009: 147) termini dead example ‘surnud näited’ vastena 

terminit näitekonstruktsioon. 

90

Joonis 61. Herbsti jt (2004) valentsisõnastiku ülesehitus (verb argue). 

2) Kodeerimata metakeel esitab grammatilise informatsiooni omaette tekstilise 

üksusena, nt [only before noun] ‘ainult enne nimisõna’. 

3) Näitekonstruktsioonide korral kasutatakse grammatilise info esitamiseks 

sisusõnade asendus- ehk provorme (pro-form). Inglise leksikograafias asendatakse 

substantiivid ja substantiivifraasid umbmääraste asesõnadega sth ‘something’ ja sb 

‘somebody’, verbid asendatakse proverbi do eri vormidega jne (näide 1). 

(1) happy: ~ about/in/with sth/sb; ~ doing sth/to do sth 

4) Loomulikud kasutusnäited illustreerivad sõna kasutust mingis konkreetses fraasis 

või lauses. 

5) Definitsiooni tasandil näidatakse sõna grammatilist kasutust definitsiooni sees. 

Sellist strateegiat kasutatakse nt COBUILD sõnastikus (näide 2). 

(2) near: 1 If something is near or near to a place, thing, or person, it is a 

short distance from them 

91

Leksikaalseid süntagmaatilisi suheteid esitatakse Svenséni (2009: 170–204) järgi 

1) kasutusnäidete tasandil (näide 3); 2) definitsiooni osana (näide 4); 3) nii 

definitsiooni kui ka kasutusnäidete tasandil (näide 5). 37 

92 

(3) abate verb: to become less violent: the storm/rain has ~d 

(4) abate verb: (of a storm, rain etc.) to become less violent 

(5) abate verb: (of bad weather) to become less violent: the storm/rain has ~d 

Tänapäevastes korpuspõhiselt koostatud inglise kollokatsioonisõnastikes esitatakse 

infoüksused enamasti kodeeritud metakeeles. Suhteid defineeritakse morfoloogiliste 

(sõnaliikide) kategooriate kaudu ning kollokaadid esitakse kollokatsiooni põhja 

sõnaartiklis. Nii esitavad kollokatsioone nt OCDSE ja MCD. Tabelis 8 on loetletud 

MCDs esitatud kollokatsioonide leksikogrammatilised mallid. 

Tabel 8. Kollokatsioonide mallid MCDs (Coffey 2011: 333 järgi). 

Substantiivi mallid (noun-based patterns) Näited 

adjektiiv + substantiiv strong desire 

substantiiv + substantiiv city centre 

substantiiv + substantiiv design concept 

verb + substantiiv express a desire 

substantiiv + verb counsel argued 

substantiiv + prepositsioon + substantiiv advance in design, 

immunity against infection 

substantiiv + prepositsioon + substantiiv issue of gender, 

countries across the globe 

verb + prepositsioon + substantiiv arise from desire, 

collapse into giggles 

rinnastusseoses substantiivid alcohol and gambling, 

goods or services 

Verbi mallid (verb-based patterns) Näited 

adverb + verb fully deserve, peer about 

verb + substantiiv deserve applause 

substantiiv + verb injuries heal 

verb + adjektiiv gleam white 

verb + verb seek to illustrate 

verb + prepositsioon + substantiiv disagree with a conclusion, 

act on advice 

rinnastusseoses verbid relax and unwind, 

inspire and motivate 

Adjektiivi mallid (adjective-based patterns) Näited 

adverb + adjektiiv eminently desirable 

verb + adjektiiv become desirable 

adjektiiv + substantiiv desirable attribute 

37 Näidetes on alla joonitud kollokaat.

Adjektiivi mallid (adjective-based patterns) Näited 

adjektiiv + infinitiiv glad to hear 

adjektiiv + adjektiiv pale green 

adjektiiv + prepositsioon + substantiiv grateful for assistance, 

rinnastusseoses adjektiivid, koos kasutatavad 

adjektiivid 

generous with time 

desolate and lonely, cosy little, 

glossy black 

Selline MCD süntagmaatiliste suhete sõnaliigipõhine käsitlus sobib kokku 

kombinatoorsete korpusleksikograafiliste meetoditega (vt ptk 2.2.2.), kuna 

süntagmaatiliste suhete automaattuvastamine tugineb just morfoloogiliselt 

märgendatud korpusele ja seega ka sõnaliigi märgenditele. 

MCD on koostatud nn Tickbox Lexicography (TBL) (Kilgarriff jt 2010b) 

põhimõtete järgi. Tegemist on poolautomaatse sõnavisandite põhise sõnastiku 

koostamisega. Leksikograafi tööks on valida konkreetse lekseemi jaoks sobivad 

kollokaadid ja näitelaused. Seejärel kopeerib süsteem valitud üksused automaatselt 

sõnastikusüsteemi vastavasse kohta. 

Joonisel 62 on substantiivi impression sõnavisand. Jooniselt nähtub, et 

grammatiliste kategooriate nimetused (v+N (= verb + substantiiv), N+v 

(= substantiiv + verb), adj+N (= adjektiiv + substantiiv)) on ühtlasi ka sõnastikus 

esitatud kollokatsiooni mallide koodid (vrd Tabel 8). Selline lähenemine võimaldab 

paremini siduda sõnavisandeid koostatava sõnastikuga. 

Joonis 62. Kollokaatide valik MCD koostamisel (Rundell 2012). 

93

Toon näiteks sõnaartikli impression katkendi MCDs (2010: 387–388) (näide 6). 

(6) impression N 

an opinion or feeling about something or someone 

● adj+N good favourable, good, positive, the right The food and service 

all made favourable impressions. [---] 

● v+N create an impression convey, create, give, leave, make, produce 

His account is incomplete and gives the wrong impression. [---] 

Näitest (6) nähtub, et sõnaartiklis on kodeeritud metakeeles esitatud kollokatsiooni 

sõnaliigipõhine struktuur (adj+N, v+N), seejärel semantiliselt seotud kollokaatide 

alarühm ja kollokatsiooni kasutust illustreeriv lause. 

Neid esitusviise rakendatakse ka mahukate leksikograafiliste andmebaaside 

koostamisel: süntagmaatilised suhted defineeritakse vormiklasside (sõnaliikide, 

fraasitüüpide) kaudu, seejärel toimub korpusleksikograafilise tarkvara abil nende 

automaatne tuvastamine ja poolautomaatne andmebaasi talletamine. Näiteks võib 

tuua leksikograafiliseks etaloniks peetava inglise keele leksikaalse andmebaasi 

DANTE 38 (Atkins jt 2010; Rundell, Atkins 2011: 233–246). DANTE kirjeldab 

tänapäeva inglise keele 42 000 sõna semantilisi, grammatilisi, kombinatoorseid ja 

tekstilisi (text-type) omadusi. Andmebaasi koostamisel on kasutatud kahte tarkvara: 

Sketch Engine ja IDM 39 . Süntagmaatiliste suhete osas esitab DANTE 

substantiivide, adjektiivide ja verbide nn süntaktilised mallid ehk konstruktsioonid 

(syntax patterns or constructions). Joonis 63 illustreerib, mis tüüpi süntaktilised 

mallid on esitatud substantiivsete märksõnade jaoks. Rippmenüüs on näha 

substantiivi süntaktiliste kontekstide koodid (syntactic context codes), nt ‘N_mod’ 

tähistab konstruktsioone, kus otsitava substantiivi eestäiendiks on teine substantiiv 

(nt sea view). Andmebaasis on substantiivi jaoks 16 koodi, adjektiivi jaoks 15 koodi 

ja verbi jaoks 42 koodi (vt lähemalt Rundell, Atkins 2011: 238–241). 

38 The Database of Analysed Texts of English www.webdante.com (28.08.12). Andmebaasi 

materjal on ekstraheeritud 1,7 miljardi sõna suurusest korpusest. 

39 Vt www.idm.fr (28.08.12). 

94

Joonis 63. Inglise keele leksikaalse andmebaasi DANTE kasutajaliides. 

Omaette suund on korpuspõhine kollokatsioonisõnaraamatute automaatne 

genereerimine (Kilgarriff jt 2008a; Hvelplund 2011). Kilgarriff jt (2008a) on 

kirjeldanud kollokatsioonide demosõnastiku Forbetterenglish.com 40 koostamise 

põhimõtteid. Sõnastik on automaatselt genereeritud sõnavisandite põhjal, ka 

näitelaused lisanduvad andmebaasi automaatselt. Joonis 64 näitab sõna breakfast 

esitust. 

40 Vt http://forbetterenglish.com (28.08.12). 

95

Joonis 64. Automaatselt genereeritud kirje breakfast demosõnastikus 

Forbetterenglish.com. 

Tuvastatud grammatilised kategooriad on object_of ‘objekt’ (cook/eat/skip/serve 

breakfast), a_modifier ‘adjektiivne laiend’ (continental/heartly/leisurely breakfast), 

modifies ‘põhi’ (breakfast cereal/buffet/bar) ja n_modifier ‘substantiivne laiend’ 

(buffet/champagne/wholegrain breakfast). 

Siinses töös väljatöötatud sõnavisandite grammatika tarbeks koostatud 

leksikogrammatiliste konstruktsioonide klassifikatsiooni alusel (vt ptk 3.2–3.5.) 

saab edaspidi samuti genereerida analoogse süntagmaatiliste suhete andmebaasi. 

Üheks oluliseks vaheetapiks on aga hea sõnastikunäite valimise ehk GDEX (Good 

Dictionary Example; vt lähemalt Kilgarriff jt 2008a; Kosem jt 2012) funktsiooni 

väljatöötamine eesti keele jaoks. 

Korpusleksikograafiline tarkvara võimaldab tuvastada sagedamaid ja kõrge 

esilduvusega leksikogrammatilisi konstruktsioone. Kuid ainult sellest analüüsist ei 

piisa, et tagada valitud üksuste vastavus konkreetse keeleoskustasemega keeleõppija 

oskustele ja vajadustele. Järgmises peatükis analüüsin Yukio Tono (2011) inglise 

keele kollokatsioonisõnastiku koostamisel rakendatud meetodit, mille eesmärk on 

muuta süntagmaatiliste üksuste valikukriteeriumid läbipaistvamaks ja kergemini 

hoomatavamaks. 

96

4.3. SÜNTAGMAATILISTE ÜKSUSTE VALIKUKRITEERIUMID 

Tono (2011) soovitab süntagmaatiliste üksuste valimisel võtta arvesse statistilise 

analüüsi andmeid ning rõhutab, et need andmed on oluline siduda 

keeleoskustasemete sõnavaraloenditega. Nii saab võimalikuks süntagmaatiliste 

üksuste astmeline, õppijate konkreetsele keeleoskustasemele vastav esitus. Nt kui 

tegemist on inglise keele õppesõnastiku koostamisega, siis on otstarbekas lisada 

andmebaasi CEFR (Certification Standard for European Reference Framework) 

sõnavaraloendite 41 andmed ja näidata, kas kollokaat on esinenud keskkoolile 

mõeldud inglise keele õpikutes. 

Sõnavaraloendite koostamist peetakse õppeleksikograafia omaette haruks, neid 

kasutatakse eelkõige keeleoskuse mõõtmisel, testimisel ja hindamisel. Tänapäeval 

koostatakse sõnavaraloendeid korpusandmete põhjal (nt Londsale, Le Bras 2009; 

Kilgarriff jt 2012c). Kilgarriff jt (2012c) märgivad, et sõnavaraloendeid uurides 

saab vastuse, mis sõnu tuleb kasutada laste lugemisoskuse arendamiseks mõeldud 

raamatutes, mitte-emakeelsetele kõnelejatele mõeldud õpikutes ja sõnaraamatute 

koostamisel. Traditsiooniliselt on sõnavaraloendid orientiiriks eelkõige 

õppesõnastike märksõnastiku ja definitsioonisõnavara koostamisel. Kuid Tono 

(2011) järgi tuleks sõnavaraloendeid aktiivselt kasutada mitte ainult õppesõnastike 

märksõnastike koostamisel, vaid ka süntagmaatiliste suhete esitamisel. See on üks 

eeldusi tagamaks sõnastiku leksikaalse profiili vastavuse keeleõppijate vajadustele 

ja ootustele. 

Joonisel 65 on näidatud Tono (2011) andmebaasi infoühikud: kollokaatide 

koosesinemise sagedus (frq), esilduvuse väärtus (logDice), keeleoskustase (CEFR), 

kollokaadi esinemine keskkooli inglise keele õpikutes (textbook). 

41 Vt lähemalt http://www.englishprofile.org (28.12.12). Andmebaas võimaldab vaadata 

leksikaalsete üksuste (nii üksikute sõnade kui ka väljendite) kuuluvust teatud taseme sõnavarra, 

lisaks illustreeritakse kasutust näitelausete tasandil ja esitatakse ka sõnamoodustuslike seoste 

infot. 

97

Joonis 65. Verb take ja selle objekti funktsioonis esinevate kollokaatide märgendus 

kollokatsioonide andmebaasis (Tono 2011). 

Neid parameetreid on arvestatud verbi take ja selle objekti funktsioonis esinevate 

substantiivide kollokatsioonide esitamisel (vt Joonis 66). 

Joonis 66. Verbi take kollokatsioonide astmeline esitus kollokatsioonisõnastiku 

kasutajaliideses (Tono 2011). 

98

Korpuses olevad metaandmed võimaldavad järjestada kollokatsioone vastavalt 

erinevatele keeleoskustasemetele. A1-tasemel on esitatud sellised verbi take 

kollokatsioonid nagu take a picture, take a photo, take a look, A2-tasemel – take a 

course, take part; B1 – take a responsibility, take a measure jne. 

Selline lähenemine näitab, et süntagmaatiliste üksuste valikul on otstarbekas 

toetuda mitte ainult korpusandmete analüüsile, vaid tagamaks sõnastiku leksikaalse 

profiili vastavuse potentsiaalsete kasutajate oskustele ja vajadustele, tuleb võtta 

arvesse sõna esinemust keeleoskustasemete sõnavaraloendites ja õppetekstides. 

4.4. KOKKUVÕTTEKS: SÜNTAGMAATILINE INFO TÄNAPÄEVA 

ÕPPESÕNASTIKES JA ÕPPELEKSIKOGRAAFILISTES 

ANDMEBAASIDES 

Kokkuvõtteks võib öelda, et osaliselt mõjutatuna korpusleksikograafiliste meetodite 

arengust (kus suhteid ei jagata grammatilisteks ja leksikaalseteks, vaid käsitletakse 

arvuti jaoks sobivamate formaliseeritud leksikogrammatiliste konstruktsioonidena), 

käsitletakse tänapäeva õppeleksikograafias igat liiki süntagmaatilisi suhteid 

kollokatsioonidena, mida defineeritakse enamasti morfosüntaktiliste (sõnaliikide, 

fraasistruktuuride) kategooriate kaudu. Selline lähenemine võimaldab paremini 

kasutada korpusleksikograafilise analüüsi tulemusi. Kuna opereeritakse samade 

kategooriatega, on saanud võimalikuks tuvastatud üksuste automaatne talletamine 

õppeleksikograafilistesse andmebaasidesse. Seejuures on oluline märkida, et 

enamasti piirduvad süntagmaatilised sõnastikud eelkõige süntaksi tasandil 

tuvastatavate üksuste kirjeldamisega. Analüüsitud sõnastikest käsitletakse 

argumentide semantilisi rolle vaid Herbsti jt (2004) sõnaraamatus. 

Süntagmaatiliste üksuste valikul on uus tendents n-ö integratiivsete 

päringusüsteemide loomine (nt Tono 2011), kus üksuste valikul ei lähtuta ainult 

leksikograafilise tarkvara abil saadud andmetest, vaid analüüsi kaasatakse ka teisi 

allikaid, nt eri keeleoskustasemete sõnavaraloendeid ja õppetekste. See tagab 

sõnastike leksikaalse profiili vastavuse konkreetse keeleoskustasemega õppijate 

oskustele ja vajadustele. 

99

5. SÜNTAGMAATILISED SUHTED EESTI KEELE 

ÕPPESÕNASTIKES JA ANDMEBAASIDES 

Süntagmaatilise info esitamise uurimused eesti keele üld- ja õppesõnaraamatutes 

(vt Langemets jt 2005; Kallas, Tuulik 2011) on näidanud, et eesti leksikograafias ei 

ole välja kujunenud kollokatsioonisõnaraamatute koostamise traditsiooni, küll aga 

on välja kujunenud rektsioonisõnastike ja -valimike ning pikk 

fraseoloogiasõnaraamatute 42 (nt Reitsak 1975; Šanski jt 1983; Õim 2000, 2008) 

koostamise tava. 

Rektsioon ehk sõltumine on selline alistus, milles põhja leksikaalne tähendus, vahel 

ka grammatiline tähendus määrab laiendi grammatilise vormi (EKG 1993: 8). Eesti 

keele rektsioonistruktuuride liike on kirjeldanud Rätsep (1978: 64, 223), EKG 

(1993: 8), Kerge (2000: 18–19), Vaiss (2004: 5), Langemets jt (2005: 91–93). 

Üldiselt eristatakse järgmisi liike: 1) substantiiv → käände- (usk kellesse-millesse), 

kaassõna- (viha kelle-mille vastu) ja tegevusnimerektsioon (tahe mida teha); 

2) adjektiiv → käände- (kindel kelles-milles), kaassõna- (kade kelle-mille peale) ja 

tegevusnimerektsioon (julge mida tegema); 3) verb → objekti- (toetama kedamida), 

käände- (tutvuma kellega-millega), kaassõna- (võitlema kelle-mille vastu), 

tegevusnime- (tahtma mida teha, jätma mida tegemata), lausungirektsioon (ütlema, 

et) ja üldine asendusrektsioon (sõitma kust kuhu); 4) adverb → käänderektsioon 

(erinevalt kellest-millest); 5) kaassõna → käänderektsioon (peale kelle-mille, peale 

keda-mida); 6) kvantor → käänderektsioon (rühm keda-mida). 

Jelena Kallase ja Maria Tuuliku (2011) uurimus osutas vajadusele koostada uut 

tüüpi eesti keele õppesõnaraamat, mis kirjeldaks süstemaatiliselt eesti 

substantiivide, adjektiivide, adverbide ja verbide süntagmaatilisi suhteid, sh nii 

rektsioonistruktuure kui ka leksikaalseid kollokatsioone ja püsiühendeid. Siinses 

töös toon seda tüüpi õppesõnastiku näiteks eesti keele põhisõnavara sõnastiku 

(PSV, ilmumas 2013). PSV makroja mikrostruktuurist ja koostamispõhimõtetest 

annan ülevaate peatükis 5.2. Kirjeldatud põhimõtteid võib pidada prototüüpseteks, 

nii et neid saab edaspidi rakendada teiste õppeleksikograafiliste andmebaaside 

ülesehitamisel ja eesti keele kui teise keele õppesõnastike koostamisel. 

Esmalt aga analüüsin seni ilmunud eesti keele rektsioonisõnastike makroja 

mikrostruktuuri. Uurimisobjektiks on rektsioonistruktuuride esitamise viisid ja 

liigid. 

42 Fraseoloogiasõnaraamatu koostamise põhimõtteid käesolevas töös eraldi ei käsitleta. Ülevaadet 

eesti fraseoloogia leksikograafilisest arengust, sh tänapäeva veebirakendustest vt Õim, Õim (2011). 

100

5.1. SENI ILMUNUD EESTI KEELE REKTSIOONISÕNASTIKUD 

Rektsioonivalimike ja -sõnastike koostamise tava ulatub 20. sajandi algusesse, mil 

eri sõnaliikide rektsioone esitati sõnastike lisana (Käbin, Pekarsky 1923), omaette 

abiraamatutena (Rajamaa 1936) või õigekeelsuse õpikute ja grammatikate (Aavik 

1936) osana. 

Tiido Käbini ja Nikander Pekarsky (1923) sõnaraamatus on eksplitsiitselt esitatud 

kaassõnade rektsioon. 

Herman Rajamaa (1936) rõhutab, et tema koostatud abiraamat on eesti 

keeleteaduses esimene katse koostada eesti sõnade (käänd-, pöörd- ja 

muutumatute sõnade) muutelise sõltuvuse käsiraamat. Autor näitab, missuguse 

käändega ühenduses ühte või teist sõna tarvitada (näited 7–9) 43 . 

(7) allutama (midagi kellelegi) [---] 

(8) tutvus (millegagi, kellegagi) [---] 

(9) tulvil (midagi, millestki) [---] 

Johannes Aavik (1936: 358) nimetab rektsiooniks seda, millist käänet või 

kaassõnalist väljendit mingi sõna nõuab ning esitab rektsioonistruktuure järgmiselt 

(näited 10−13): 

(10) eelistama – midagi millestki või midagi millelegi 

(11) sarnane (identne) – millegagi 

Objektirektsioonis on Aavik eristanud täisobjekti ja osaobjekti, mida tähistatakse 

kui osaobj. ‘verb konstrueerib ainult osaobjektiga’ (näide 12) ja täisobj. v. 

‘täisobjekt võimalik’ (näide 13). 

(12) haldama − osaobj. 

(13) nakatama – kedagi (täisobj. v.) millessegi (näit. haigusesse); ka: kellelegi 

midagi 

Ka 20. sajandi teisel poolel on rektsioonivalimik traditsiooniline eesti keele õpikute 

ja grammatikate osa (vt nt Vääri 1969: 91–92; Tauli 1980: 330–339; Erelt 2006: 

35–40). Enamasti esitatakse rektsioone käändeküsimuste (näide 14) või 

kaassõnaühendi (näide 15) kaudu; mõned autorid kasutavad ka koode (näide 16). 

(14) samastama mida? millega? (Vääri 1969: 92) 

(15) info millegi kohta (harvem: millest) (Erelt 2006: 36) 

43 Sõltumisele lisaks on Rajamaa (1936) abiraamatus esitatud ka sõna definitsioon, põhilised 

morfoloogilised vormid (käändsõnadel on esitatud peale nimetava omastav ja osastav ainsuses ja 

mitmuses, pöördsõnadel on esitatud üldjuhul ma-infinitiivi kõrval da-infinitiiv, umbisikulise 

tegumoe olevik ja näitelause. 

101

(16) samastama O+Km 44 (Tauli 1980: 335) 

Näidetest (7–16) nähtub, et eesti keele grammatikates ja käsiraamatutes on 

sisusõnade rektsioonistruktuuride esitamisel rakendatud ja rakendatakse kahte 

esitusviisi: näitekonstruktsioone (eelkõige käändeküsimuste ja kaassõnaühendite 

abil) ja kodeerimist. 

Siinses peatükis analüüsin rektsioonistruktuuride esitusviise eraldi väljaandena 

ilmunud üks- ja kakskeelsetes rektsioonisõnastikes. Valikus on Pooli (1999), Vaissi 

(2004), UNG-EE (2010) ja Mäearu (2011) sõnastikud. 

UNG-EE (2010) sõnaraamatus kodeeritakse eesti verbide rektsioonistruktuure 

süntaktiliste (O = objekt) ja morfoloogiliste (nt käände nimetused G = genitiiv, 

All = allatiiv ja infinitiivitunnused -MA, -DA) kategooriate kaudu (näited 17–18). 

(17) andma O, All Annan sulle sada forintit. 

(18) hakkama -MA Laps hakkas käima. 

Natalia Vaissi aspektisõnastikus (2004) on kasutatud koode, näitamaks verbi 

objektikäände rektsiooni (näited 19–20). Eesti keele transitiivverbid on jagatud 

lähtuvalt nende objektikäände rektsioonist ja sellest sõltuvast aspektuaalsest 

tähendusest partitiivseteks (kood: PART), perfektiivseteks (kood: PERF) või 

aspektilisteks (kood: ASPEKT) verbideks. Ühendverb järele aitama (näide 19) on 

partitiivverb (objekt peab alati olema partitiivis), välja aitama (näide 20) on 

perfektiivne ühendverbi (objekt peab olema genitiivis). 

(19) järele aitama – PART (keda? mida?) 1. koolitöös, õppimises abistama, et 

õpilane jõuaks klassi üldisele tasemele Tugevam õpilane aitab nooremat 

järele. Üliõpilane aitas kuuenda klassi õpilast matemaatikas järele. 2. ühtteist 

pisut parandades, viimistledes sobivaks, parajaks, paremaks jne muuta 

Huvitavat looduslikku kiviskulptuuri on kunstniku käsi siin-seal kergelt 

järele aidanud. 

(20) välja aitama – PERF kuskil või mingist olukorrast pääseda aitama 

Lubasin endale, et aitan tüdruku siit välja. Aitasin mehe laukast välja. 

Raili Pooli (1999) raamat kirjeldab nii liht- kui ka väljend- ja ühendverbide 

rektsioone. Rektsioonistruktuuride esitamisel on kasutatud nii süntaktilisi kui ka 

morfoloogilisi kategooriaid. Kolmekäändeline objekt (võib esineda nii nominatiivis, 

genitiivis kui ka partitiivis) on tähistatud lühendiga O, ainult partitiivis esinevad 

objektid on rektsioonikirjeldustes tähistatud küsimusega keda? mida?. Teist tüüpi 

rektsioonistruktuure näidatakse morfoloogiliste kategooriate kaudu, milleks on 

kääne (tähised on mis, kellel-millel, kellele-millele, kellelt-millelt, kellesse-millesse, 

kelles-milles, kellest-millest, kelleks-milleks, kellena-millena, kellega-millega, 

kelleta-milleta), infiniitse verbi tunnus (vastavad lühendid ma-inf, da-inf), supiini 

käändevormid (vastavad lühendid on -ma, -mas, -mast ja -mata). 

44 O tähistab objekti, Km tähistab komitatiivis sõltlaiendit. 

102

Kaassõnarektsiooni näitamiseks on kasutatud kaassõnafraase (mille eest, kelle 

poolt) (Pool 1999: 5). Seega on esitatud verbide sihitiserektsioon (näide 21), 

käänderektsioon (näide 22), kaassõnarektsioon (näide 23), infinitiivirektsioon 

(näide 24), substitutsioonirektsioon (näide 25). Lisaks on esitatud mitmelaiendilisi 

konstruktsioone (näide 26). 

(21) armastama keda? mida? Mart armastab Tiiut. 

(22) armuma kellesse? Juhan armus Marisse. millesse? Ta armus mägedesse 

juba lapsena. 

(23) eksima mille vastu? Mart eksis eeskirjade vastu. 

(24) hakkama ma-inf Hakkasime sööma. 

(25) hilinema kuhu? Hilinesin teatrisse/tööle. 

(26) eelistama keda? mida? (+ kellele? millele?) Eelistan teed (kohvile). 

Sirje Mäearu rektsioonisõnastik (2011) on esimene (eelkäijaks on Mäearu 1996), 

mis vaatleb süstemaatiliselt mitte ainult verbide, vaid ka substantiivide, adjektiivide 

ja adverbide rektsioone (2011: 3). Verbidel on esitatud sihitise- (näide 27), käände- 

(näide 28), kaassõna- (näide 29), infinitiivi- (näide 30) ja substitutsioonirektsioon 

(näide 31). 

(27) allkirjastama ▷ mis/mille/mida: Müüja ja ostja allkirjastasid ostu-müügi 

lepingu. Direktor peab arved allkirjastama. Ei allkirjastanud lepingut. 

(28) alla kirjutama ▷ millele: Kirjutab lepingule alla. 

(29) diskuteerima ▷ mille üle: Diskuteeriti kütteprobleemide üle. 

(30) ajendama ▷ mida mida tegema: Madal hoiuintressimäär ajendab 

investeerima. 

(31) apelleerima ‘edasi kaebama’ ▷ kuhu: Apelleerib ringkonnakohtusse, 

üldkoosolekule. 

Substantiividel on näidatud käände- (näide 32), kaassõna- (näide 33), tegevusnime- 

(näide 34) ja substitutsioonirektsioon (näide 35). 

(32) vastavus ▷ millele: Joogivee kvaliteedi vastavus nõuetele. 

(33) karistus ▷ mille eest: Karistus illegaalide töölevõtmise eest. 

(34) valmisolek ▷ mida teha: Valmisolek minna. 

(35) kutse ▷ kuhu: Kutse õhtusöögile restoranis Gloria. 

Adjektiividel – käände- (näide 36), kaassõna- (näide 37) ja tegevusnimerektsioon 

(näide 38). 

(36) lojaalne ▷ millele: Lojaalne tööandjale. 

103

104 

(37) neutraalne ‘erapooletu’ ▷ mille suhtes: Vaidluse suhtes neutraalne 

vahekohus. 

(38) kompetentne ▷ mida tegema: Üldkoosolek on kompetentne otsustama kõiki 

seltsitegevusega seotud küsimusi. 

Adverbidel ja adpositsioonidel – käänderektsioon (näited 39, 40). 

(39) olenevalt ▷ millest: Töö keerukusest olenevalt on tunnihind 16–32 eurot. 

(40) hoolimata ▷ millest: Kõrgest east hoolimata nägi ta hea välja. 

Seega on seni ilmunud eesti keele rektsioonisõnastikes kasutatud kahte erinevat 

süntagmaatiliste suhete esitusviisi: kodeeritud metakeelt (Vaiss 2004; UNG-EE 

2010) ja näitekonstruktsioone (Pool 1999; Mäearu 2011). Näitekonstruktsioonid 

moodustatakse käändeküsimuste, infinitiivide, supiini käändevormide ja 

kaassõnaühendite abil. Lisaks illustreerivad mõlemad lähenemised 

rektsioonistruktuuride kasutust näitelausete tasandil. 

Vaissi (2004) sõnastiku kirjeldusobjekt on vaid objektirektsioon, UNG-EE (2010), 

Pooli (1999) ja Mäearu (2011) sõnastikes kirjeldatakse verbide objekti-, käände-, 

kaassõna-, tegevusnime ja üldist asendusrektsiooni. Mäearu (2011) sõnastikus on 

esitatud lisaks substantiivide, adjektiivide, adverbide ja adpositsioonide 

rektsioonistruktuurid. 

5.2. EESTI KEELE PÕHISÕNAVARA SÕNASTIK 

Eesti keele põhisõnavara sõnastiku (PSV) sihtgrupp on nii need A1-tasemel 

keeleõppijad, kes soovivad areneda A2- ja B1-tasemele, kui ka need, kes on juba 

A2-B1-taseme saavutanud ja kellele annaks sõnastik tuge omandatud materjali 

kinnistamiseks. 

Toetudes tänapäeva inglise (ptk 4.2. ja 4.3.) ja eesti (ptk 5.1.) õppeleksikograafias 

juurdunud süntagmaatiliste sõnastike koostamispõhimõtetele, pakun siinses 

peatükis kriteeriumid, millest peaks lähtuma konkreetsetele keeleoskustasemetele 

suunatud eesti keele õppesõnastike ja õppeleksikograafiliste andmebaaside 

süntagmaatiliste infoüksuste valikul ja koostamisel ning kuidas tagada 

süntagmaatiliste suhete süstemaatiline esitamine andmebaasis. 

5.2.1. Süntagmaatiliste üksuste valikukriteeriumid 

Arvestades olemasolevaid eesti keele ressursse, tuleb eesti keele süntagmaatiliste 

andmebaaside ja sõnastike korpuspõhisel koostamisel lähtuda järgmistest 

kriteeriumidest: 1) ametlike keeleoskustasemete formaalsetes kirjeldustes esitatud 

nõudmised (eelkõige süntagmaatiliste suhete liikide osas); 2) suhet moodustavate 

sõnade esinemus keeleoskustasemete sõnavaraloendites; 3) statistilise töötluse 

andmed. Vaatlen neid kriteeriume ükshaaval PSV näitel.

5.2.1.1. Ametlike keeleoskustasemete nõuded 

Ametlike keeleoskustasemete nõudmiste analüüsil lähtun siinses töös eelkõige 

Euroopa Liidu keeleoskustasemete kirjeldusest „Euroopa keeleõppe 

raamdokumendis” (2007; edaspidi raamdokument) ja selle üldsätetele vastavate 

eesti keele A2- (Ilves 2008) ja B1-tasemete (Hausenberg jt 2008) kirjeldustest. 

Nagu märgivad Eslon jt: „ei raamdokumendis ega algaja, iseseisva või vilunud 

keelekasutaja kirjeldustes pole tasemeoskuste lingvistilist sisu tegelikult avatud, sest 

puuduvad täpsed teadmised, missugused keelestruktuurid ja sõnavara missugusele 

tasemele tegelikult omased on.” (Eslon jt 2010: 12) „Siiani ei ole päris selge, kas 

suhtluses aktiivselt kasutatavad leksikaalsed üksused ja morfosüntaktilised 

konstruktsioonid muutuvad keeleõppija tasemeoskuste edenedes järjest 

keerulisemaks ja mitmekesisemaks või mitte, kas nimetatud üksuste hulk suureneb, 

stabiliseerub või väheneb, kas väljendusvõimalused avarduvad või ei pruugi 

täiskasvanu keelekasutus oluliselt erineda teismelise omast.” (Eslon jt 2010: 14) 

Tallinna Ülikooli eesti keele ja kultuuri instituudi teadlastel on kavas analüüsida, 

missugused keeleüksused (morfosüntaktilised konstruktsioonid, kollokatsioonid, 

idiomaatika jm) iseloomustavad keeleoskustasemeid, selgitades seejuures, 

missugustest teoreetilistest ja metodoloogilistest alustest oleks mõttekas lähtuda, 

missuguseid analüüsimeetodeid kasutada. Kavandatava uurimuse eesmärk on 

võrrelda esimese ja teise keele arengut kahes suunas: ühelt poolt vanuserühmade 

kaupa ehk etapiti (väikelaps – kooli eelik– põhikooliõpilane – 

gümnaasiumiõpilane – täiskasvanu) ja teisalt keeleoskustasemeti (A1 – A2 – B1 – 

B2 – C1 – C2). Uurimuse rakenduslikuks väljundiks peab saama teaduslikult 

põhjendatud alus tasemeõppe korraldamiseks ja keeleoskuse mõõtmiseks, 

tasemeoskuste saavutamisele suunatud õppesõnastike ja õpikute komplekt (Eslon jt 

2010). 

Kuna selle uurimuse tulemusi ei ole veel avaldatud, 45 siis piirdun vaid A2- ja B1keelepädevuste 

komponentide analüüsiga. Eesmärgiks on valida 

keeleoskustasemete kirjeldustest kriteeriumid, millega tuleks kindlasti arvestada 

A2- ja B1-tasemele suunatud sõnastiku koostamisel. Siinse uurimuse 

problemaatikat arvestades on eriti olulised sellised keelepädevuse liigid nagu 

sõnavara- ja grammatikapädevus. 

5.2.1.1.1. Sõnavarapädevus 

Raamdokumendi (2007: 128) kohaselt „sõnavarapädevus tähendab mõne keele 

sõnavara tundmist ja oskust seda kasutada.” A2-tasemel keelt oskav õppija „valdab 

igapäevavajadustega piirnevat nappi sõnavara”, B1-tasemel keelt oskav õppija 

„valdab põhisõnavara, kuid teeb märkimisväärseid vigu, kui on vaja väljendada 

keerukamat mõtet või kui kõneaine ja olukord on võõras.” (Raamdokument 2007: 

130) 

„Sõnavarapädevus puudutab leksikaalseid ja grammatilisi üksusi. 

45 Seisuga 27.01.13. 

105

Leksikaalsete üksuste hulka kuuluvad 

a) väljendid, mis koosnevad mitmest sõnast ning mida õpitakse ja kasutatakse kui 

tervikut. Püsiväljendid hõlmavad: 

lausetarindeid, sealhulgas otseseid keelefunktsioonide väljendusi [---], nagu 

tervitused, nt Kuidas läheb? Tere hommikust!, vanasõnu jms keelelisi arhaisme [---], 

nt Käi kus tont!; 

idioome, mis on tihti semantiliselt läbipaistmatud ja kivistunud metafoorid, nt 

pani kõrvad pea alla ‘suri’, aia taha minema ‘ebaõnnestuma’, nagu õlitatud välk 

‘väga kiiresti’; [või] intensiivsussõnad [---]; 

fraaslauseid, mida õpitakse ja kasutatakse kui liigendumatuid tervikuid, kuhu 

muid sõnu ja fraase saab lauseid moodustades sisestada, nt ega te ei ... või kas 

ma saaksin ...; 

muid kinnistunud fraase, nt ühend- ja väljendverbid, [---] liit- või 

ühendkaassõnad [---]; 

püsiühendeid, mis koosnevad tihti koos esinevatest sõnadest, nt tuld kustutama 

või uinuv kaunitar; 

b) üksiksõnad [---] kuuluvad kindlat tüüpi vormimoodustusega avatud sõnaliikide 

hulka (nimisõna, tegusõna, omadussõna, määrsõna), kuigi viimased võivad 

sisaldada ka suletud sõnarühmi (nt nädalapäevade, kuude nimetused, kaalu- ja 

mõõtühikud jms). Mõned sõnarühmad võivad täita grammatilisi ja suhtlus- ehk 

pragmaatilisi ülesandeid”. (Raamdokument 2007: 128–129) 

Ilvese (2008: 35) järgi lubab A2-taseme sõnavara (selle orienteeruvaks suuruseks 

võiks olla ligi 2000 sõna) keeleõppijal igapäevastes olukordades endale olulistel 

teemadel ja eesmärkidel lihtsalt suhelda, lühemat suulist monoloogi esitada, 

vestluspartnerit ja kirjalikke tekste mõista ning loetu ja kuuldu võtmesõnu 

vahendada. B1-taseme sõnavara on piisav igapäevaste teemade jaoks (perekond, 

huvialad, töö, reisimine, päevasündmused), kuigi vahel võib ette tulla kaudset 

väljendust (Hausenberg jt 2008: 40). 

5.2.1.1.2. Grammatikapädevus 

„Grammatikapädevus tähendab keele grammatiliste vahendite tundmist koos 

oskusega neid kasutada. [---] Grammatikapädevus on võime luua ja edastada 

tähendust korrektsete fraaside ja lausete moodustamise teel või leida nende 

tähendus kooskõlas eelnimetatud põhimõtetega (see ei ole kinnistunud vormide või 

fraaside päheõppimine ja taasesitus). [---] Grammatika kirjeldamisel osutatakse 

järgmisi komponente: 

üksused, nt morfeemid, tüved ja liited, sõnad; 

kategooriad, nt arv, kääne, sugu, konkreetne/abstraktne, loendatav/loendamatu, 

sihiline/sihitu verb, isikuline/umbisikuline tegumood [---]; 

106

klassid, nt pöördtüübid, käändtüübid, avatud sõnaliigid (nt nimisõnad, 

tegusõnad, omadussõnad, määrsõnad), suletud sõnaliigid (nt grammatilised 

sõnad); 

tarindid, nt komplekssõnad, fraasid (nimisõnafraas, tegusõnafraas jms), 

osalaused (pealause, kõrvallause, rindosalause) ja lauselühendid, laused, nt liht-, 

rind-, põimlause; 

protsessid, nt nominalisatsioon, liidete lisamine, vormimoodustus või eritüvelise 

vormi valik, võrdlemine, sõnajärje muutmine, asendus, sidendus vms; 

seosed, nt rinnastus, sõltumine, ühildumine, valents, rektsioon.” 

(Raamdokument 2007: 129–130) 

A2-tasemel keeleõppijal on ülevaade eesti keele põhilistest grammatilistest 

struktuuridest, sh tunneb maja da-infinitiivi kasutamise reegleid, oskab 

sagedamatest verbidest moodustada ma-tegevusnime käändelisi mas-, mast-, ja 

mata-vorme ning da-infinitiivi des-vormi (Ilves 2008: 69–70). 

A2-taseme õppesõnastikes on süntagmaatiliste üksuste valiku ja esituse seisukohalt 

oluline arvestada järgmiste A2-tasemel keelekasutajale esitatavate nõuetega (Ilves 

2008: 73–74): 

„Tunneb sagedamaid sihilisi verbe [---]. 

Sihiliste verbide seas tunneb sagedamaid partitiivverbe ehk verbe, millega 

kasutatakse alati osastavat käänet, nt nägema, aitama, armastama, õpetama, 

uskuma, kasutama. 

Ühendverbe ja väljendverbe saab liigitada kas sama abisõna järgi (nt ära 

minema, ära sööma; andeks andma, andeks saama) või sama põhisõna järgi (nt 

sünnipäeva pidama, kõnet pidama; alla kirjutama, üles kirjutama). Juba 

algtasemel on oluline õppida selliseid rühmi süstemaatiliselt mõistma ja 

kasutama. [---] 

Oskab tegusõnu laiendada lihtsate aja-, koha-, põhjus- ja viisimäärustega, nt 

tuleb homme, tehti Tallinnas, hilines minu pärast, on alati kirjutanud väga 

viisakalt. [---] 

Oskab maja da-infinitiivi moodustada, kuid eksib infinitiivi valikul sageli veel 

ka B-tasemel. 

Oskab tegevusi ja protsesse eitada, kasutades selleks eitavat kõnet, nt Ma ei ole 

veel kohvi joonud, või mata-vormi, nt Mul on kohv veel joomata. [---] 

Tunneb sagedate verbide rektsioone, nt töötan kelnerina, õpin kokaks, käin tööl, 

aitan sind [---] 

Puudumise ja kohaloleku väljendamiseks oskab kasutada olemasolu ja kogejaomaja 

lauset. Ma olen siin. Teda pole siin. Mul pole bussipiletit. 

107

Oskab kasutada et- ja sest-sidendiga põimlauseid, nt Ta ütles, et Anne tuleb 

homme [---].” 

Sellest kirjeldusest võib järeldada, et A2-tasemel õppesõnastikes tuleks erilist 

tähelepanu pöörata eelkõige verbi objekti (eriti partitiivverbide), infinitiivi-, 

käände-, kaassõna- ja sidendirektsiooni esitamisele, leksikaalsetest üksustest peaks 

eraldi käsitlema kollokatsioone ja perifrastilisi verbe (eelkõige väljend- ja 

ühendverbe). Verbide kirjes tuleks õppijale võimalusel näidata eksplitsiitselt 

verbide laiendusvõimalusi, mida saab teha käände-, kaassõna- ja üldrektsiooni 

vahendusel. 

B1-taseme kirjelduses (Hausenberg jt 2008: 83) on öeldud, et B1-tasemel on isik 

omandanud põhilised grammatilised struktuurid ja lausetüübid arusaamise tasemel 

ning kasutab osa neist produktiivselt, kuid kasutuses esineb veel palju vigu. 

Süntagmaatiliste üksuste valiku ja esituse seisukohalt on oluline arvestada, et B1tasemel 

esitatakse õppijale järgmised nõudmised (Hausenberg jt 2008: 90–93): 

„[---] on verbiga koos vaja omandada ka tema kohustuslikud laiendid (nt 

hoolitsema kelle eest?) või nende puudumine (nt *käituma ennast). Laiendite 

puhul on oluline tunda eestipäraseid kollokatsioone (sõnu, mis esinevad sageli 

koos), nt käitub omamoodi, käitub nagu väike laps. Laiendite olemasolu korral 

on vaja omandada ka nende vorm, nt käima kus? mida tegemas?; jääma kuhu?; 

aitama keda?; aitama kellel mida teha?, seda eriti juhtudel, kui see erineb 

emakeele omast. [---] 

Mõistab samasse mõistepesasse kuuluvate sagedamate verbide tähendus- ja 

kasutuserinevust. liht- ja ühendverbid (minema – ära minema; tegema – ära 

tegema); ühendid tuumverbidega (hiljaks jääma, haigeks jääma, ära jääma; 

nõu pidama, pidu pidama, loomi pidama); refleksiiv/automatiiv- ja 

kausatiivverbid (õppima – õpetama, arenema – arendama) [---]. 

Kasutab koos verbiga käändsõnu põhilistes käändevormides ja 

kaassõnafraasides. [---]” 

Seega rõhutatakse ka B1-taseme kirjelduses eelkõige rektsioonistruktuuride 

kasutusega seotud kompetentsi ja kollokatsioonide ning perifrastiliste verbide 

tundmist. 

5.2.1.1.3. Kokkuvõtteks: süntagmaatilised suhted A2- ja B1-tasemel 

A2- ja B1-keeleoskustasemete nõudmiste analüüs osutab sellele, et süntagmaatiliste 

suhete esitamisel õppesõnastikus peaks tähelepanu pöörama eelkõige 

rektsioonistruktuuride (st verbi objekti-, infinitiivi-, käände-, kaassõna- ja 

sidendirektsioonile) ning selliste leksikaalsete üksuste nagu kollokatsioonide ja 

perifrastiliste verbide (väljend- ja ühendverbide) esitamisele. 

Oluline järeldus on, et A2- ja B1-tasemel peab keeleõppijal olema kujunenud teatud 

metalingvistiline kompetents, mis on omakorda leksikograafilise kompetentsi 

108

(oskus sõnaraamatuid kasutada) aluseks. Õppijal on ülevaade põhilistest 

grammatilistest struktuuridest, ta tunneb maja da-infinitiivi kasutamise reegleid 

jne. Järelikult saab neid kategooriaid õppesõnastikes metakeelena kasutada. 

Kuid järgmisena tekib küsimus, mis parameetrite alusel valib leksikograaf üksusi 

konkreetse keeleoskustasemega õppijatele suunatud sõnastikku. Mis 

keeleoskustasemel peab õppija oskama kasutada väljendverbe silmas pidama ja 

meelde jätma või rektsioonistruktuuri lakkama mida tegemast. Siin saab toetuda 

esiteks keeleoskustasemete sõnavaraloenditele ja teiseks süntagmaatiliste suhete 

korpusleksikograafilise töötluse käigus saadud statistilistele andmetele. 

5.2.1.2. Esinemus keeleoskustasemete sõnavaraloendites 

Eestis on praeguseks ilmunud nii õppeotstarbelisi sagedussõnastikke kui ka mitu 

sõnavaraloendit, mida tavapäraselt nimetatakse baassõnastikuks, sõnaindeksiks või 

esimeseks ehk esmaseks sõnastikuks. Paraku puudub uurimus, mis esitaks 

korpusandmetele toetudes kõikidele keeleoskustasemetele vastavad 

sõnavaraloendid. Sellised loendid võiksid olla nii leksikograafiliste väljaannete kui 

ka keeleõpiku komplektide, õppekirjanduse ja testide koostamise aluseks. 

Esimene õppeotstarbeline sagedussõnastik on Raimo Raagi koostatud eesti keele 

517 sagedamat sõna sisaldav „Eesti keele baassõnastik” (Raag 1987), mille alusel 

koostasid Hele Pärn ja Leeni Simm eesti keelt algtasemel valdavate õppijate jaoks 

kakskeelsete baassõnastike sarja (nt Pärn, Simm 1989). Pärna ja Simmi koostatud 

sõnastikes on 734 sõna, autorid on täiendanud Raagi loendit, lähtudes temaatilistest 

kriteeriumidest (lisandunud on kuude, kehaosade nimetused jms). Lisaks ilmusid 

2010. aastal algajale eesti keele õppijale suunatud Kullo Vende koostatud 

kakskeelsed sõnastikud, mis sisaldavad eesti keele tuhat esimest sõna (nt Vende 

2010). 

Õppeotstarbelise sõnavarastatistikaga seotud praktilisele tööle andis 1990. aastate 

teisel poolel hoogu vajadus töötada välja eesti keele oskuse tasemekirjeldused. 

Mitmete asjatundjate ja töörühmade töö tulemusena saab praegu kasutada järgmisi 

sõnavaraloendeid: 1) Mall Lauri algtaseme keeleoskuskirjelduses esitatud 

tuumiksõnade loend (Laur 1998: 89–118); 2) 2272 sõnast koosnev esimene sõnastik 

(Kerge jt 2008: 142–160); 3) kesktaseme keeleoskuskirjelduses esitatud umbes 

2000 sõnast koosnev sõnaindeks (Ehala jt 1997: 256–284). 

Sõnavaraloendite sõnade arvu määramisel on lähtekohaks „Eesti keele 

funktsionaalse keeleoskuse määratlemises” esitatud andmed (Kerge 1996: 7–8), 

mille kohaselt ulatub eesti keelt algtasemel valdava inimese sõnavara 1500–2000 

sõnani, keelt kesktasemel valdava inimese oma aga umbes 5000 sõnani. 

Seega peaksid Kerge jt (2008) ning Ehala jt (1997) koostatud sõnavaraloendid 

katma A2-taseme keeleõppija sõnavara. B1- ja B2-tasemete jaoks ei ole seni eraldi 

loendit koostatud. Sellise loendina võib käsitleda põhisõnavara sõnastiku projekti 

tarbeks koostatud märksõnade loendit (ca 4500 sõna) (vt lähemalt Kallas, Tuulik 

2011). PSV märksõnastiku koostamisel on lähtutud eelkõige olemasolevate 

109

sagedussõnastike andmetest (Kaalep, Muischnek 2002) ja sõnavaraloenditest (Ehala jt 

1997: 256–284; Laur 1998: 89–18; Kerge jt 2008: 142–160). Samuti on lähtekohaks 

sellised kriteeriumid nagu tuumsus (Pajusalu jt 2004), kasutatavus suulises ja 

kirjalikus tekstiloomes (Pajupuu jt 2009) ja vajalikkus igapäevaelu valdkondades. 

PSV märksõnastikku saab kasutada kesktasemele suunatud sõnastikes teatud 

filtrina. Juhul, kui sõna ei kuulu PSV märksõnastikku, ei sobi seda kasutada 

definitsiooni ja näitelausete ega süntagmaatiliste suhete esitamise tasandil. Selline 

lähenemine tagab, et sõnastiku sõnavara vastab sihtgrupi leksikaalsele profiilile. 

5.2.1.3. Statistilise töötluse andmed 

Peatükis 2.3. näitasin, et kombinatoorsete meetoditega tuvastatud süntagmaatiliste 

suhete tuvastamisel on kasulik analüüsida otsisõna kollokaate nii koosesinemise 

sageduse kui ka esilduvuse väärtuse põhjal. Esimene näitab, millises kollokatiivses 

ümbruses ja mis kontekstides kasutatakse sõna kõige sagedamini, teine aitab 

tuvastada harvemaid koosesinemisi. Samas on õppesõnastiku koostamisel oluline 

arvestada ka süntagmaatilises suhtes olevate sõnade esinemust keeleoskustaseme 

sõnavaraloendites. 

Eksperimendi korras võrdlen sõna diskussioon sõnavisandeid (grammatilised suhted 

on tuvastatud reeglitega subject_of, object_of ja Adj_modifier). Joonisel 67 on 

kollokaadid järjestatud esilduvuse (logDice) väärtuse järgi, joonisel 68 aga 

koosesinemise sageduse järgi. 

Joonis 67. Substantiivi diskussioon kollokaadid järjestatuna esilduvuse (logDice) 

väärtuse järgi. 

Jooniselt 67 nähtuvad sellised kollokatsioonid nagu 

äge/selleteemaline/laialdane/tuline diskussioon; diskussioon puhkeb/jätkub/järgneb/ 

keskendub/käivitub; diskussiooni ärgitama/vallandama/edendama/algatama. 

110

Joonis 68. Substantiivi diskussioon kollokaadid järjestatuna koosesinemise 

sageduse järgi. 

Jooniselt 68 nähtuvad sellised ühendid nagu avalik/poliitiline/elav/tõsine/pikk 

diskussioon; diskussioon käib/tekib/toimub/jätkub/algab; diskussiooni 

alustama/tekitama/algatama/jätkama. 

Kui võrrelda neid tulemusi PSV märksõnastikuga, siis selgub, et sellised 

esilduvusega esile tulnud sõnad nagu laialdane, ärgitama ei kuulu eesti keele 

põhisõnavara hulka ning sellised ühendid sobiksid pigem C-tasemele suunatud 

sõnastikku. Koosesinemise sagedusega esile tulnud ühendid (vt Joonis 68) sobivad 

pigem algajale keeleõppijale mõeldud sõnastikes esitamiseks. 

Seega tundub otstarbekana lähtuda A2- ja B1-tasemetele mõeldud sõnastike 

koostamisel koosesinemise sageduse põhjal saadud andmetest. Samas B2- ja C1tasemetel 

tuleks tähelepanu pöörata eelkõige kõrge esilduvusega ühenditele. 

5.2.2. Süntagmaatilised üksused andmebaasis 

Süntagmaatiliste üksuste esitamiseks on PSV XML-skeemis kollokatsiooni-, 

rektsiooni- ja ühendite plokid. Andmebaasi loomisel tundus selline jaotus 

otstarbekana, kuna võimaldas käsitleda leksikaalseid kollokatsioone, 

rektsioonistruktuure ja ühendeid eraldi üksustena. Edaspidi võib kaaluda PSV 

andmebaasi restruktureerimist, nii et kõik suhted oleksid kirjeldatud 

moodustusstruktuuri alusel sõnaliigi terminites, nagu on tehtud töös analüüsitud 

korpuspõhiste inglise keele kollokatsioonisõnastike koostamisel (nt MCD 2010). 

Joonis 69 näitab PSV rektsiooni- ja kollokatsiooniplokkide XML-skeemi. Aknas 

kirjeldatakse sõnastikus kasutusel olevaid atribuute, elemente, sõnaartikli 

hierarhilist struktuuri ning sõnastikus kasutusel olevaid andmetüüpe (vt lähemalt 

Loopmann 2007). 

111

Joonis 69. Lõik eesti keele põhisõnavara sõnastiku XML-skeemist. 

5.2.2.1. Rektsiooniplokk 

Rektsiooniploki põhielemendid on rektsioonigrupp, rektsioon ja kasutusnäited 

(näide ja selle seletus) (vt Joonis 69). 

Rektsioonigrupil on atribuut @c:koht ‘eel/järelrektsioon’, mis võimaldab määrata 

rektsiooni asukoha põhja suhtes. Vaikimisi on rektsioonid määratud 

järelrektsioonideks (koos kellega-millega, minema mida tegema jne), kuid mõnede 

sõnade, nt postpositsioonide puhul (kelle-mille jaoks) on nende laiend alati 

eespositsioonis. Sel juhul märgendatakse andmebaasis, et tegemist on 

eelrektsiooniga. 

Rektsioonil on kolm atribuuti: 

1) atribuut @c:fak ‘fakultatiivne laiend’ võimaldab määrata, kas tegemist on 

obligatoorse või fakultatiivse laiendiga. Seda atribuuti kasutatakse vaid 

mitmelaiendiliste konstruktsioonide kirjeldamisel, nt eelistama keda-mida + 

kellele-millele. Kui leksikograaf märgendab teise komponendi fakultatiivseks, siis 

sõnastikus esitatakse see sulgudes, st eelistama keda-mida (+ kellele-millele); 

2) atribuut @c:var ‘variant’ võimaldab esitada üht semantilist funktsiooni täitvaid 

rektsioonistruktuure koos, nt esitatakse verbi kleepima rektsioonid kleepima 

millele / mille peale; 

3) atribuut @c:rliik ‘rektsiooniliik’ (vt Joonis 70) võimaldab määrata iga 

rektsioonistruktuuri liigi. Rektsiooniliikidena on esitatud objektirektsioon (toetama 

keda-mida), käänderektsioon (usk kellesse-millesse, kindel kelles-milles, erinevalt 

kellest-millest, tutvuma kellega-millega, peale kelle-mille, peale keda-mida), 

kaassõnarektsioon (viha kelle-mille vastu, kade kelle-mille peale, võitlema kelle- 

112

mille vastu), tegevusnimerektsioon (tahe mida teha, julge mida tegema, tahtma 

mida teha), lausungirektsioon (ütlema, et) ja üldine asendusrektsioon (sõitma kust 

kuhu, alates mis ajast). Rektsiooniliik on PSV andmebaasi üks olulisemaid 

komponente. 

Joonis 70. PSV andmebaasi rektsiooniliigid. 

Selline andmebaasi ülesehitus võimaldab rektsioonistruktuure esitada 

süstemaatiliselt, määrates nende asukoha põhja suhtes, fakultatiivsuse ja tüübi. Kui 

andmebaasi tasandil kodeeritakse rektsioonistruktuurid vastavate koodidega (obj, 

kn, ks, yld, inf ja kla), siis sõnastiku vaates esitatakse need 

näitekonstruktsioonidena: välja kirjutatakse objekti- ja käänderektsiooni 

käändeküsimused (kelle-mille, keda-mida, kellesse-millesse, kelles-milles jne), 

kaassõnafraas (nt kelle-mille peale), infinitiivide ja infinitiivi käändeliste vormide 

puhul vastavalt mida tegema, mida teha, mida tegemas, mida tegemast, mida 

tegemata, mida tegemaks. Lisaks järgneb igale rektsioonistruktuurile selle kasutust 

illustreeriv näitelause. 

Üheks teoreetiliseks küsimuseks rektsiooniploki väljatöötamisel oli küsimus, kas 

oleks otstarbekas käsitleda omaette rektsiooniliigina nn subjektirektsiooni 46 (nt 

hobune hirnub, konn krooksub). Kuid arvestades eesti leksikograafias 

väljakujunenud traditsiooni esitada subjektirektsioon leksikaalse info osana, 

esitatakse seda tüüpi suhteid kollokatsiooniplokis koodi N(S)+V ‘substantiiv 

subjekti funktsioonis + verb’ all (vt lähemalt ptk 5.2.2.2.). 

Joonis 71 illustreerib verbi eelistama esitust PSV andmebaasis ja küljendusvaates. 

Verbil on eksplitsiitselt esitatud objekti-, käände- ja infinitiivirektsioon, mis 

andmebaasis on vastavalt kodeeritud ja näitelausetega illustreeritud. 

46 Subjektirektsiooni omaette esitamisel on pikk traditsioon vene keele süntagmaatilistes 

sõnastikes, vt nt Tihhonov (2001). 

113

Joonis 71. Verb eelistama PSV andmebaasis: toimetamisala ja küljendusvaade. 

5.2.2.2. Kollokatsiooniplokk 

Kollokatsiooniploki põhielemendid on kollokatsioonigrupp, kollokatsiooni rühm, 

kollokatsioon, kollokatsiooni rektsioon (saab määrata fakultatiivsuse ja tüübi) ja 

kasutusnäited (näide ja selle seletus) (vt Joonis 69). 

Kollokatsioonigrupil on vaid üks atribuut, milleks on @c:kliik ‘kollokatsiooniliik’. 

PSV andmebaasis on järgmised kollokatsiooniliigid, mis on defineeritud sõnaliikide 

ja morfoloogiliste ning süntaktiliste kategooriate kaudu: 

N(S)+V substantiiv (subjekti funktsioonis) + verb, nt hobune hirnub, palavik 

tõuseb/langeb; 

N(O)+V substantiiv (objekti funktsioonis) + verb, nt arvutit sisse lülitama / 

välja lülitama; 

N(A)+V substantiiv (adverbiaali funktsioonis) + verb, nt aktsiatesse 

investeerima; 

Adj+V adjektiiv + verb, nt määravaks saama/osutuma; 

Adv+V adverb + verb, nt kiiresti jooksma; 

N+N substantiiv + substantiiv, nt ekspertide hinnang/arvamus; 

kullast/hõbedast ehted; 

Adj+N adjektiiv + substantiiv, nt hea/halb eeskuju; magusa/soolase maitsega; 

Num+N numeraal + substantiiv, nt sada protsenti/meetrit/kilo; 

Adv+N adverb + substantiiv, nt eile hommikul/õhtul; 

Adv+Adj adverb + adjektiiv, nt kergesti süttiv; 

Adv+Adv adverb + adverb, nt väga aeglaselt; 

Prep+N prepositsioon + substantiiv, nt enne/pärast/peale jõule; 

N+Post substantiiv + postpositsioon, nt interneti/raadio/ajalehe kaudu. 

114

Joonis 72. Substantiiv kohv PSV andmebaasis: toimetamisala ja küljendusvaade. 

5.2.2.3. Ühendite plokk 

Ühendite ploki põhielemendid on ühendigrupp, ühend ja kasutusnäited (näide ja 

selle seletus). Ühendil on vaid üks atribuut, milleks on @c:yk ‘ühendi kood’ (vt 

Joonis 73). PSV andmebaasis esitatakse selles plokis perifrastilised verbid, st 

ühend-, väljend-, ahelverbid ja tugiverbiühendid (vt ptk 3.5.3.). 

Joonis 73. PSV andmebaasi ühendite liigid. 

Joonis 74 näitab ahelverbide seisma jääma ja seisma jätma esitust PSV 

andmebaasis ja küljendusvaates. 

115

Joonis 74. Ahelverbid seisma jääma ja seisma jätma eesti keele põhisõnavara PSV 

andmebaasis: toimetamisala ja küljendusvaade. 

Perifrastiliste verbide esitamisel rakendatakse kolme erinevat strateegiat, esitades 

neid 1) ühendite plokis, 2) allmärksõna või 3) rektsioonistruktuurina. 

Ühendite plokis esitatakse eelkõige semantiliselt läbipaistvaid ühendeid, nt verbi ja 

seisundiadverbi / modaalsust väljendava adverbi ühendeid (katki minema, lahti 

tegema, tarvis minema, valmis saama). Ühendverbid, mille moodustusstruktuur on 

verb + orientatsiooniadverb või verb + perfektiivsusadverb, nt läbi astuma, sisse 

astuma, tagasi astuma, maha kirjutama, esitatakse vastavate verbide 

allmärksõnadena. Peamine põhjus seisneb selles, et tihti on seda tüüpi ühendverbid 

polüseemsed ja nende argumentstruktuur erineb põhiverbist. Võtame näiteks 

ühendverbi tagasi astuma tähenduses ‘mingist ametist loobuma’, mille puhul on 

vaja keeleõppijale eraldi näidata valikukitsendusi (kes võib tagasi astuda, nt 

valitsus, peaminister, president, valitsusjuht), samuti vabu laiendeid seoses millega, 

mille pärast. Verbi astuma süntagmaatika on sellest erinev. 

Ahel- ja tugiverbiühendite esitamisel võetakse arvesse, kas tegemist on 

produktiivselt tugiverbiühendeid ja ahelverbe (vt ptk 3.5.3.3. ja 3.5.3.4.) 

moodustava verbiga või verbiga, mis ei kombineeru piiramatu hulga tegevust 

väljendavate noomenite ja infiniitverbidega, vaid teatud semantilisse rühma 

kuuluvate noomenite ja infiniitverbidega. Produktiivselt ahel- ja tugiverbiühendeid 

moodustava verbi ühendid esitatakse rektsioonistruktuurina, nt võima mida teha; 

pidama mida tegema; näima mida tegevat; asuma mida tegema. Nende verbide, mis 

kombineeruvad vaid teatud semantilisse välja kuuluvate noomenite või 

infiniitverbidega, ühendid esitatakse eksplitsiitselt ühendite plokis, nt juttu ajama, 

habet (ära) ajama, asju ajama (vt Joonis 75). 

116

Joonis 75. Verbi ajama tugiverbiühendite esitus PSV andmebaasis: toimetamisala 

ja küljendusvaade. 

Andmebaasi selline ülesehitus avab võimalused sõnastiku materjali 

taaskasutamiseks. Nii saab andmebaasi alusel genereerida nt eraldi rektsiooni-, 

kollokatsiooni- ja perifrastiliste verbide sõnastikud (vt lähemalt Kallas, Langemets 

2012). Teiselt poolt võimaldab see teha erinevaid liht- ja komplekspäringuid, 

näiteks saab korraga valida kõik verbid, millele on omane infinitiivirektsioon, või 

substantiivid, mis kollokeeruvad adjektiividega jne. Neid andmeid saab kasutada eri 

tüüpi lingvistilise suunitlusega uurimistöös. 

5.2.3. Sõnavisandid kui leksikograafilise analüüsi lähtepunkt 

Selles peatükis näitan sõnavisandite kasutusvõimalusi PSV koostamisel. Käsitlen 

PSV kirjeldusobjektiks olevate rektsioonistruktuuride, kollokatsioonide ja 

püsiühendite tuvastamisega seotud küsimusi ning analüüsin sõnavisandite 

potentsiaali sisusõnade semantika, nimelt tähendusjaotuse ja laiendite semantiliste 

rollide uurimisel. 

5.2.3.1. Rektsioonistruktuurid 

PSV andmebaasis esitatakse objekti-, käände-, kaassõna-, tegevusnime-, lausungija 

üldine asendusrektsioon. 

Objektirektsiooni struktuuride valikul saab lähtuda sõnavisandi grammatika reegli 

object/object_of (vt Tabel 7) abil tuvastatud andmetest. 

Käänderektsiooni kirjeldamisel saab toetuda järgmiste reeglitega tuvastatud 

üksustele: 

1) substantiivi reeglid (vt Tabel 3) – osastav_modifier (kimp mida), 

sisseütlev_modifier (usk kellesse-millesse), seestütlev_modifier (unistus kellestmillest), 

alaleütlev_modifier (lootus kellele-millele), alaltütlev_modifier (kiri 

kellelt-millelt), saav_modifier (ettepanek milleks), rajav_modifier (tee milleni), 

kaasaütlev_modifier (abielu kellega); 

117

2) adjektiivi reeglid (vt Tabel 5) – sisseütlev_modifier (armunud kellesse-millesse), 

seesütlev_modifier (kindel kelles-milles), seestütlev_modifier (rikas millest), 

alaleütlev_modifier (iseloomulik kellele-millele), saav_modifier (sobiv milleks), 

kaasaütlev_modifier (sarnane kellega-millega); 

3) adverbi reeglid (vt Tabel 6) – osastav_modifier (palju keda-mida), 

seestütlev_modifier (sõltuvalt kellest-millest), kaasaütlev_modifier (kimpus 

millega), saav_modifier (valmis milleks), kaasaütlev_modifier (samaaegselt 

millega). 

4) verbi reeglid (vt Tabel 7) – adverbial_sisseütlev (armuma kellesse-millesse), 

adverbial_seesütlev (osalema milles), adverbial_seestütlev (unistama kellestmillest), 

adverbial_alaleütlev (lootma kellele-millele), adverbial_alalütlev 

(põhinema millel), adverbial_alaltütlev (küsima kellelt-millelt), adverbial_saav 

(valmistuma milleks), adverbial_rajav (jõudma kelleni-milleni), adverbial_olev 

(töötama kellena), adverbial_ilmaütlev (toime tulema milleta), 

adverbial_kaasaütlev (sõitma millega), predicate_Adj_saav/predicate_Adj_saav_of 

(värvima milliseks), predicate_Adj_olev/predicate_Adj_olev_of (surema millisena). 

Kaassõnarektsiooni kirjeldamisel (vt Tabel 3, Tabel 5, Tabel 6, Tabel 7) saab 

toetuda reeglitega N_PP, Adj_PP, Adv_PP ja V_PP tuvastatud üksustele. 

Infinitiivirektsiooni kirjeldamisel (vt Tabel 3, Tabel 5, Tabel 7) on olulised 

reeglitega N_Vma (meister mida tegema), N_Vda (soov mida teha), Adj_Vma (aldis 

mida tegema), Adj_Vda (tore mida teha), V_Vma (minema mida tegema), V_Vmaks 

(riskima mida tegemaks), V_Vmast (tulema mida tegemast), V_Vmas (käima mida 

tegemas), V_Vmata (jätma mida tegemata) ja V_Vda (tahtma mida teha) tuvastatud 

üksused. 

Sidendirektsiooni kirjeldamisel on abi kõrvallauset tuvastavatest reeglitest 

kõrvallause (vt Tabel 3, Tabel 5, Tabel 6, Tabel 7). 

Leksikograafilise analüüsi üheks probleemiks on mitmelaiendiliste 

konstruktsioonide tuvastamine, nt aitama kellel + mida teha. Hetkel on see 

võimalik vaid konkordantsiridade analüüsile toetudes. Joonis 76 näitab verbi aitama 

konkordantsiridu, kus verbi laiendiks on alalütlevas käändes substantiiv organism. 

Konkordantsiread osutavad selgelt, et üldjuhul järgneb alalütlevas substantiivile ka 

da-infinitiivis verb. Seega on tegemist mitmelaiendilise konstruktsiooniga. Seda 

tüüpi konstruktsioonide automaatne tuvastamine kuulub töö edasiarenduste hulka. 

118

Joonis 76. Konkordantsipõhine aitama kellel + mida teha konstruktsiooni 

tuvastamine. 

5.2.3.2. Kollokatsioonistruktuurid 

Kollokatsioonistruktuuride valikul saab samuti toetuda sõnavisanditele, kuna kõik 

PSV andmebaasis fikseeritavad kollokatsioonitüübid on sõnavisandite grammatika 

toel tuvastatavad. 

Substantiivse põhjaga kollokatsioonid on tuvastatavad reeglite 

Adj_modifier/modifies, Adj_comp_modifier/modifies, Adj_sup_modifier/modifies, 

Adj_käändumatu_modifier/modifies, participle_modifier, omastav_modifier/ 

omastav_modifies, osastav_modifier/osastav_modifies toel (vt Tabel 3). 

Adjektiivse põhjaga kollokatsioonid on tuvastatavad reeglite Adj_modifier/ 

Adj_modifies ja Adv_modifier/Adj_modifies toel (vt Tabel 5). 

Koodidega N(S)+V, N(O)+V, N(A)+V, Adj+V, Adv+V kollokatsioonid on 

tuvastatavad reeglite subject/subject_of, object/object_of, adverbial_sisseütlev, 

adverbial_seesütlev, adverbial_seestütlev, adverbial_alaleütlev, 

adverbial_alalütlev, adverbial_alaltütlev, adverbial_saav, adverbial_rajav, 

adverbial_olev, adverbial_ilmaütlev, adverbial_kaasaütlev, predicate_Adj_saav/ 

predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of toel (vt Tabel 7). 

Adpositsiooni ja substantiivi ning numeraali ja substantiivi kollokatsioonid on 

tuvastatavad reeglite ordinal_modifies/modifier, cardinal_modifies/modifier ja 

N_PP toel (vt Tabel 3). 

5.2.3.3. Perifrastilised verbid 

Afiksaaladverbe ja väljendverbide komponente tuvastatakse järgmiste reeglitega: 

afiksaaladverb/afiksaaladverb_of (vt ptk 3.5.3.2.), predicate_Adj_saav/ 

predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of (vt ptk 3.5.2.4.), 

väljendverb (vt ptk 3.5.3.1.). 

Teist tüüpi komponendid tulevad enamasti esile verbi objekti (läbirääkimisi 

pidama) (vt ptk 3.5.2.2.) või adverbiaali (hoogu sattuma) (vt ptk 3.5.2.3.) 

funktsioonis. 

119

5.2.3.4. Tähendusjaotus ja laiendite semantilised rollid 

Selle alapeatüki problemaatika kuulub pigem süntaksipõhise morfosemantika 

valdkonda. 47 Eesmärgiks on näidata võimalusi, mida pakuvad sõnavisandites 

tuvastatud grammatilised suhted sõna ja selle laiendite uurimisel. 

Korpuspõhise kirjelduse alusel on võimalik järeldada, et sõna ja mallid ehk 

tähendus ja süntaks on omavahel seotud (Hunston, Francis 2000: 80). Hunston ja 

Francis toovad esile kaks seaduspära: 1) sõna eri tähendusi on võimalik eristada, 

lähtudes erinevatest mallidest, milles sõna osaleb, ja 2) teatud mallid on 

iseloomulikud teatud tähendusega leksikaalsetele üksustele (2000: 80–107). Siin 

arendan seda mõtet edasi, näidates, et korpuspõhiselt tuvastatud verbide 

süntagmaatiliste suhete põhjal saab teha esialgseid järeldusi mitte ainult verbi 

tähendus(jaotus)te kohta üldiselt, vaid argumentide morfoloogilisele vormile 

tuginedes ka argumentide semantiliste rollide kohta. 

Tähendusjaotuste ja laiendite semantiliste rollide sõnavisandipõhisel uurimisel 

eristan kaht põhilist etappi: esiteks tuleb semantilised rollid identifitseerida 

(sõnavisandites esile tulnud grammatiliste kategooriate põhjal), seejärel analüüsida 

ja kategoriseerida nende leksikaalsed realisatsioonid, st sõnavisandis esitatud 

konkreetsed sõnad. 

Nii nagu süntaktilised funktsioonid, on ka semantilised rollid vaid üldistused, mida 

saab järeldada, toetudes konkreetse verbi argumentide morfoloogilisele 

vormistusele. Eesti keele argumentide semantilistest funktsioonidest ja nende 

morfoloogilisest vormistusest on kirjutanud Erelt (1979a, 2003a) ning Langemets jt 

(2005: 93). Erelti eesti keele süntaksi käsitluses on esitatud kompaktne ülevaade 

semantiliste rollide realiseerumisest morfoloogiliste käänete ja kaassõnade kujul 

(2003a: 98–101). Sõnavisandite interpreteerimiseks oleks aga vajalik põhjalik eesti 

keele funktsionaalne grammatika, kus oleksid lahti kirjutatud kõikide käänete 

semantilised funktsioonid. Tabel 9 illustreerib mõningate adverbiaalide semantiliste 

rollide morfoloogilist vormistust. 

Tabel 9. Adverbiaalide semantilised rollid (Erelt 2003a: 99–100 järgi). 

Vorm Semantiline roll Näited 

Nin/Nade KOHT Ta on toas. Ta on maal. 

Nill/Nall SIHTKOHT Ta läks tuppa. Ta läks maale. 

Nela/Nabl LÄHTEKOHT Ta tuli toast. Ta tuli maalt. 

(kuni +) Nter PIIR Ta jalutas (kuni) metsani. 

Ng + kaudu TEE Ta tuli Helsingi kaudu. 

läbi + Ng 

(koos +) Ncom 

ilma + Nabe 

120 

Ta tuli läbi metsa. 

KAASNEJA Ta saabus siia (koos) naisega. 

Ta oli teatris ilma naiseta. 

47 Süntaksipõhine morfosemantika ei ole välja kujunenud termin, vaid Haldur Õimuga suulises 

arutluses kasutatud esialgne töötermin, mis peaks vahendama analüüsi põhinemist eelkõige 

morfoloogilisel vormistusel.

Vorm Semantiline roll Näited 

Ntrl 

EESMÄRK Raha oli mõeldud ehituseks. 

Ng + jaoks/tarvis 

Raha oli mõeldud ehituse jaoks. 

Nade 

AEG Ta tuli õhtul / 5. jaanuaril. 

Nin 

Tema sünnipäev on jaanuaris. 

(kuni +) Nter 

Nad töötasid (kuni) hommikuni. 

Nela (+ saadik) 

Koosolek algab kella kolmest. Eilsest 

saadik pole siin elektrit. 

Sõnavisandipõhise uurimiskäigu illustreerimiseks analüüsin liikumisverbi 48 

saabuma laiendite semantilisi rolle (vt Joonis 77). Analüüs piirdub üksnes 

koondkorpusest tuvastatud üksustega ning kahe- ja kolmeliikmeliste suhetega, mitte 

kogu lausega, mistõttu sõnavisandite empiiriliste andmete analüüs võimaldab teha 

järeldusi üksikute laiendite kohta, aga sedakaudu kuigivõrd ka tähendusjaotuste 

kohta. 

Joonis 77. Verbi saabuma sõnavisand (minimaalne koosesinemise sagedus on 5). 

48 Leksikaalse semantika klassikalistes uurimustes (Talmy 1975; Miller, Johnson-Laird 

1976: 409–410; Apresjan 1995; vt ka Maisak, Rahhilina 1999: 53) käsitletakse liikumisverbidena 

lekseeme, mis tähistavad situatsiooni, milles subjekt ühel teatud hetkel asub punktis L1 ning 

teatud järgmisel hetkel punktis L2. L1 on seejuures liikumise lähte- ehk algpunkt, L2 on siht- ehk 

lõpppunkt. 

121

Esmalt analüüsin verbi saabuma subjekti ja adverbiaali funktsioonis tuvastatud 

sagedamaid substantiive, seejärel ka laienditena esinevaid adverbe ja 

kaassõnafraase. 

Sõnavisandist nähtub, et verbi saabuma sagedamaks laiendiks on subjekt (8041 

esinemisjuhtu), mille semantiline roll on TEEMA. Kõige sagedamad TEEMA rollis 

esinevad argumendid on aeg, teade, hetk ja surm. TEEMA rollis esinevad 

substantiivid moodustavad järgmised semantilised rühmad: 49 1) AEG (aeg, hetk, 

aasta, päev, tähtpäev); 2) ESITUS (teade, kiri, uudis); 3) ABSTRAKTNE ENTITEET 

(selgus, lahendus, vastus); 4) SEISUND (surm); 5) INIMENE (mees, naine, politsei, 

president); 6) ESE_INSTRUMENT (auto, laev). Selline statistiline jaotus osutab, et 

kõige sagedamini esineb verb saabuma koondkorpuses eelkõige tähenduses ‘kätte 

jõudma’, kus grammatiline subjekt on AEG. Sellele järgneb ülekandeline 

liikumistähendus 50 , kus grammatiliseks subjektiks on ESITUS või mingi 

ABSTRAKTNE ENTITEET. Lisaks nendele kahele tähendusele eristub selgelt tähendus, 

kus verb esineb otseses liikumistähenduses (INIMESE või TRANSPORDIVAHENDI 

asukohavahetus ruumis). Seda tüüpi analüüsist kooruvad välja verbi saabuma kaks 

põhilist tähendust: 1) ‘(ajaliselt) kätte jõudma’; 2) ‘(füüsiliselt) kohale jõudma’, 

mille all on nii ülekandelise kui ka otsese liikumise esinemisjuhud. 

Verbi saabuma adverbiaalidena reeglite adverbial_sisseütlev, adverbial_alaleütlev, 

adverbial_seestütlev, adverbial_alaltütlev, adverbial_seesütlev, adverbial_alalütlev 

(vt Tabel 7) abil tuvastatud üksuste käsitlemisel lähtun adverbiaalide semantiliste 

rollide morfoloogilisest vormistusest (vt Tabel 9). 1) AJA rollis esinevad 

nädalapäevad (367 koosesinemist 596st), samuti ka päeva osad (õhtu, hommik). 

2) SIHTKOHA leksikaalseteks realisatsioonideks on a) KOHT (kohale, 

sündmuskohale, tööle, kohtusse, politseisse, sadamasse, haiglasse, kirikusse, 

tehasesse, vanglasse); b) KOHT_SÜNDMUS (müügile, turule, finišisse); c) SÜNDMUS 

(visiidile, peole, pressikonverentsile). 3) VAHENDI semantilise rolli leksikaalsed 

realiseeringud on lennukiga/autoga/bussiga/laevaga/postiga. 4) Samas LÄHTEKOHT 

realiseerub süntaktiliselt üsna harva: välismaalt (9 esinemisjuhtu), komandeeringust 

(5 esinemisjuhtu). 

Järgmise etapina analüüsin verbi saabuma laiendavaid adverbi- ja kaassõnafraase. 

Jooniselt 78 nähtub, et adverbide hulgas eristub selgelt kaks semantilist rühma: 

KOHT (kohale) ja AEG (eile/täna/hiljem). Ka kaassõnafraaside analüüs näitab, et 

enamasti täidavad kaassõnafraasid semantilist funktsiooni AEG (septembri keskel / 

vastu ööd / ööpäeva jooksul / kesköö paiku / nädala pärast jm). Lisaks sagedusega 

49 Rühmad on järjestatud sageduse järgi, tuginedes sõnavisandite andmetele. Rühmade 

selgitamisel kasutan klasterdamise funktsiooni. Semantiliste rühmade määramisel lähtun 

Langemetsa (2010a) liigitusest. 

50 Ülekandelisest liikumistähendusest vt lähemalt Penjam (2005: 820). Penjami uurimuses on 

ülekandeliseks liikumistähenduseks peetud neid tarvitusi, kus seos liikumistähendusega on veel 

nii ilmne, et iseseisvat tähendust pole põhjust postuleerida, ent füüsilisest liikumisest siiski enam 

rääkida ei saa. 

122

esile tulnud semantilistele rollidele eristub verbi sündmusstruktuuri analüüsist ka 

KAASNEJA roll (saabuma kellegagi-millegagi koos / kellegi-millegi saatel). 

Joonis 78. Verbi saabuma laiendi funktsioonis esinevad adverbid ja 

kaassõnafraasid. 

Mida saab nendest andmetest järeldada sõna tähendusjaotuste kohta? TEEMA rollis 

esinevad leksikaalsed üksused osutavad selgelt sellele, mis tähendustes kasutatakse 

verbi kõige sagedamini. Adverbiaalide semantiline analüüs aitab rekonstrueerida 

verbi taga oleva sündmusstruktuuri komponente. Sõnavisand tuvastab vaid kahe- ja 

kolmeliikmelisi suhteid, mis ei võimalda näha lause semantilist freimi tervikuna. 

Küll aga saab statistilistele andmetele toetudes järeldada, et verbi saabuma 

sagedamad laiendite semantilised rollid on SIHTKOHT, AEG, VAHEND, KAASNEJA ja 

LÄHTEKOHT. 

Seda tüüpi analüüsi tulemustele toetudes saab leksikograaf kirjeldada verbi 

argumentüksuste semantilisi ja süntaktilisi funktsioone ning morfoloogilist 

vormistust. Teiseks aitab see oluliselt kaasa verbi tähendusjaotuste eristamisele. 

Peab aga kordama, et pakutud meetod sobib vaid esialgsete järelduste tegemiseks 

(statistilisele töötlusele tuginedes saab andmeid eelkõige sagedamini esinevate 

üksuste kohta). Statistilise analüüsi tulemusi mõjutavad oluliselt nn 

vaikimisargumendid (vt lähemalt Õim jt 2009: 494). Nt osutasid Maisaki (1999) 

uurimuse statistilised andmed sellele, et vene verbi уходить ‘ära minema’ 

valentsidest oli LÄHTEKOHA valents eksplitsiitselt esitatud 18,6% kõikidest 

juhtumitest, sihtkoha valents 13,95% kõikidest juhtumitest ja 67,4% juhtumites jäid 

mõlemad valentsid eksplitsiitselt esitamata. Samas on teada, et sellel verbil on nt 

LÄHTEKOHT üldjuhul kohustuslik valents. Maisaki (1999) uurimus näitas, et 

123

korpuspõhise analüüsi tulemus peegeldab vaid süntaktilisel tasandil realiseerunud 

sisusõnade distributiivseid omadusi. 

Teiseks tuleb korpusandmete analüüsi tulemuste interpreteerimisel alati silmas 

pidada, et tulemus on korrelatsioonis sisendteksti sisuga. Näiteks ajakirjanduslike 

tekstide korpuse analüüsi tulemus on vältimatult kallutatud ja statistiline analüüs 

peegeldab verbide distributiivseid omadusi just seda tüüpi tekstides. 

5.2.4. Näidisartiklid 

Peatükkides 5.2.1.–5.2.3. esitatud süntagmaatiliste suhete valiku printsiipide ja 

esitamise põhimõtete näiteks toon kaks sõnaartiklit, milleks on substantiiv abielu 

(vt Joonis 79) ja verb aitama (vt Joonis 80). 

Joonistelt 79 ja 80 on näha, et iga kollokatsiooni juures on esitatud selle kasutust 

illustreeriv lause. Lisaks süntagmaatilisele infole pakub PSV teavet selle sõna 

morfoloogia, tähenduse ja sõnamoodustuse kohta. Eksplitsiitselt on näidatud, et 

substantiiviga abielu saab moodustada selliseid liitsõnu nagu vabaabielu ja 

abielupaar. 

Joonis 79. Substantiivi abielu sõnaartikkel PSVs. 

Jooniselt 80 nähtub, et verbi aitama sõnaartiklis on eraldi välja toodud lekseemidele 

omased rektsioonistruktuurid. Rektsioon on esitatud kasutaja jaoks võimalikult 

lihtsal kujul: käändeküsimused, kaassõnad ja infinitiiv on eksplitsiitselt välja 

kirjutatud ning igale rektsioonistruktuurile järgneb selle kasutust illustreeriv lause. 

124

Joonis 80. Verbi aitama sõnaartikkel PSVs. 

Selline süntagmaatiliste suhete esitus peab aitama kasutajat eestikeelse teksti 

koostamisel, illustreerides sõna kasutuse erinevaid kontekste ja näidates 

eksplitsiitselt selle verbiga moodustatavate leksikogrammatiliste konstruktsioonide 

struktuuri. Kõikide süntagmaatiliste suhete esitamisel on võetud arvesse, et sõnad 

kuuluksid PSV märksõnastikku ja oleksid kõrge koosesinemise sagedusega 

üksused. 

125

6. KOKKUVÕTE 

Tekstikorpusi kasutatakse tänapäeval mitmetes teoreetilise ja rakenduslingvistika 

valdkondades. Leksikograafias tagab korpuste kasutuselevõtt materjali allikana 

selle, et sõnastikes ja andmebaasides registreeritud üksused ei ole oma olemuselt eri 

tüüpi tekstidest pärit juhunäited või leksikograafi introspektsiooni teel saadud 

üksused, vaid on autentne, keele tegelikku kasutust illustreeriv materjal. 

Korpusleksikograafiliste meetoditega on võimalik muuta korpuste andmetöötlust 

kiiremaks ja efektiivsemaks, aitamaks leksikograafe eri tüüpi üksuste 

(definitsioonide, grammatilise kasutusinfo, süntagmaatiliste suhete, 

leksikaalsemantiliste seoste, näitelausete) valikul. 

Siinse töö eesmärk on luua teoreetiline raamistik eesti keele sisusõnade 

süntagmaatiliste suhete korpus- ja õppeleksikograafiliseks käsitluseks. Selleks olen 

analüüsinud eesti keele substantiivide, adjektiivide, verbide ja adverbide – 

sisusõnade – süntagmaatiliste suhete automaattuvastamise võimalusi korpuspäringu 

tarkvara toel ja nende eksplitsiitse süstemaatilise esitamise võimalusi eesti keele 

õppesõnastikes. Töö rakenduslikeks tulemusteks on esiteks süntagmaatiliste suhete 

automaattuvastamist võimaldav arvutigrammatika (vt Lisa1). Eesti keele jaoks pole 

seda tüüpi grammatikat varem koostatud. Teiseks olen välja töötanud 

süntagmaatiliste suhete süstemaatilist esitust toetava õppeleksikograafilise 

andmebaasi mudeli ja määratlenud süntagmaatiliste üksuste valikukriteeriumid 

konkreetse keeleoskustasemega õppijale suunatud õppesõnastikes. Need rakendused 

on olulised eesti keele õppeleksikograafia, aga ka eesti keele kui teise ja võõrkeele 

metoodika arendamise seisukohalt. 

Mõistega süntagmaatilised suhted tähistan töös sõnade tähenduslikke ja statistiliselt 

esilduvaid kombinatsioone teiste leksikaalsete ja grammatiliste üksustega. 

Õppesõnastikes on süntagmaatiliste suhete eksplitsiitse esitamise eesmärk toetada ja 

suunata keeleõppijat võõrkeelse teksti koostamisel ehk sünteesil. 

Järgnevalt esitan väitekirja põhilised teadustulemused ja arutlen lahendamata 

jäänud probleemide ning uurimistöö edasiste arengusuundade üle. 

6.1. PÕHILISED TEADUSTULEMUSED 

Tänapäeva korpusleksikograafias kasutatakse süntagmaatiliste suhete tuvastamisel 

statistilisi ja kombinatoorseid meetodeid. 

Süntagmaatiliste suhete tuvastamiseks puhtstatistiliste meetoditega on välja töötatud 

ja testitud eri tüüpi statistikuid. Töös katsetasin t-skoori, vastastikuse informatsiooni 

väärtuse (MI), MI 3 -skoori, log-tõepära funktsiooni, minimaalse tundlikkuse ja 

esilduvuse (logDice) statistikute sobivust eesti keele sisusõnade süntagmaatiliste 

suhete tuvastamiseks. Katsed näitasid, et eesti keele jaoks saavutavad paremad 

tulemused eelkõige MI 3 -skoori, minimaalse tundlikkuse ja esilduvuse (logDice) 

126

statistikud ning halvemad tulemused on MI, t-skoori ja log-tõepära funktsiooni 

statistikutel. 

Sisusõnade süntagmaatiliste suhete süstemaatilisemat analüüsi võimaldavad 

meetodid, mis kombineerivad statistilist ja reeglipõhist lähenemist. Väitekirjas olen 

seda tüüpi meetodina rakendanud sõnavisandite grammatika meetodit (Kilgarriff jt 

2004). Selle meetodi järgi otsib arvutiprogramm spetsiaalse grammatika abil eri 

sõnaliikide süntagmaatilisi suhteid, töötleb neid statistiliselt ja teeb kasutaja jaoks 

kompaktse kokkuvõtte sõna kollokatiivsest ja süntaktilisest käitumisest. 

Grammatika formalismi reeglid on regulaaravaldised, mille atribuudid on 

sõnavorm, lemma, sõnaliik ja muutetunnused. 

Väitekirjas esitan morfoloogilise analüsaatori ESTMORF (Kaalep 1998) 

märgendussüsteemi põhjal koostatud eesti keele sõnavisandite grammatika ja 

katsetan seda leksikograafilise tarkvara Sketch Engine toel. 

Sõnavisandite grammatika aluseks on eesti keele traditsiooniliste (Rätsep 1978; 

Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007) ja formaalsete (Müürisep 2000; 

Puolakainen 2001; Roosmaa jt 2001) grammatikakirjelduste põhjal koostatud eesti 

substantiivide, adjektiivide, adverbide ja verbide süntagmaatiliste suhete tüüpide 

nimestik. Korpusanalüüsi tarvis olen suhete tüüpe kirjeldanud vormiklasside 

(sõnaliikide, fraasitüüpide) ja morfosüntaktiliste kategooriate kaudu. Selliseid 

kirjeldusi nimetan töös leksikogrammatilisteks konstruktsioonideks. Kokku olen 

välja toonud 32 substantiivi, adjektiivi, adverbi ja verbi leksikogrammatilist 

konstruktsiooni, mille tuvastamiseks olen koostanud 71 reeglit, mille hulgas on 4 

symmetric-tüüpi, 62 dual-tüüpi ja 5 trinary-tüüpi reeglit (vt Lisa 1). 

Substantiivide sõnavisandites tulevad reeglite Adj_modifier/modifies, 

Adj_comp_modifier/modifies, Adj_sup_modifier/modifies, Adj_käändumatu_modifier/ 

modifies; participle_modifier; omastav_modifier/omastav_modifies, 

osastav_modifier/osastav_modifies, sisseütlev_modifier, seesütlev_modifier, 

seestütlev_modifier, alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, 

saav_modifier, rajav_modifier, olev_modifier, ilmaütlev_modifier, 

kaasaütlev_modifier; ordinal_modifies/modifier, cardinal_modifies/modifier; 

Adv_modifier/N_modifies; Pron_modifier/modifies; N_PP; N_Vma, N_Vda; 

kõrvallause; predicate_N/predicate_N_of, predicate_Adj/predicate_Adj_of; ja/või, 

kui/nagu toel esile otsisõna adjektiivsed, partitsiipsed, substantiivsed, adverbilised, 

pronominaalsed kaasmoodustajad, laiendi funktsioonis esinevad 

adpositsioonifraasid ja infiniitverbid, laiendliikmeks olevate kõrvallausete alguses 

asuvad sidendid, predikatiivid ning rinnastus- ja võrdlustarindid. Lisaks 

tuvastatakse, milliste verbidega esineb otsisõna subjekti, objekti ja adverbiaali 

funktsioonis. 

Adjektiivide sõnavisandites tulevad reeglite Adj_modifier/Adj_modifies; 

omastav_modifier, sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier, 


rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier; 

127

Adv_modifier/Adj_modifies; Adj_PP; Adj_Vma, Adj_Vda; kõrvallause; ja/või, 

kui/nagu toel esile otsisõna adjektiivsed, substantiivsed, adverbilised 

kaasmoodustajad, laiendi funktsioonis esinevad adpositsioonifraasid ja 

infiniitverbid, laiendliikmeks olevate kõrvallausete alguses asuvad sidendid ning 

rinnastus- ja võrdlustarindid. 

Adverbide sõnavisandites tulevad reeglite Adv_modifier/ Adv_modifies; 

omastav_modifier, osastav_modifier, seestütlev_modifier, saav_modifier, 

rajav_modifier, olev_modifier, kaasaütlev_modifier; Adv_PP; kõrvallause; ja/või, 

kui/nagu toel esile otsisõna adverbilised ja substantiivsed kaasmoodustajad, laiendi 

funktsioonis esinevad kaassõnafraasid, laiendliikmeks olevate kõrvallausete alguses 

asuvad sidendid ning rinnastus- ja võrdlustarindid. 

Verbide sõnavisandites tulevad reeglite subject/subject_of, object/object_of; 

adverbial_sisseütlev, adverbial_seesütlev, adverbial_seestütlev, adverbial_alaleütlev, 

adverbial_alalütlev, adverbial_alaltütlev, adverbial_saav, adverbial_rajav, 

adverbial_olev, adverbial_ilmaütlev, adverbial_kaasaütlev; predicate_Adj_saav/ 

predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of; Adv_modifier/ 

V_modifies; V_PP; V_Vma, V_Vmaks, V_Vmast, V_Vmas, V_Vmata, V_Vda, 

V_Vdes; kõrvallause; ja/või, kui toel esile konkreetse verbi substantiivsed, 

adjektiivsed ja adverbilised kaasmoodustajad, laiendi funktsioonis esinevad 

adpositsioonifraasid ja infiniitverbid, laiendliikmeks olevate kõrvallausete alguses 

asuvad sidendid ning rinnastus- ja võrdlustarindid. Verbi ja selle substantiivsete 

laiendite grammatilisi suhteid on nimetatud sõnavisandite grammatikas 

morfosüntaktiliste kategooriate terminites. Eristatud on subjekt, objekt ja 

adverbiaal. 

Sõnavisandite grammatika reeglite afiksaaladverb/afiksaaladverb_of, ühendverb ja 

väljendverb abil on võimalik tuvastada ka väljend-, ühend-, ahelverbe ja 

tugiverbiühendeid. Omaette kategooriana tuvastab programm translatiivis ja essiivis 

esineva adjektiivi ja verbi (nt hulluks minema) ning verbi ja X-iks märgendatud sõna 

ühendeid (nt tähele panema). Väljendverbide ja tugiverbiühendite noomenitest 

komponendid tulevad esile verbi objekti (nt juttu ajama, läbirääkimisi pidama) või 

adverbiaalina (nt kokkuleppele jõudma, järeldusele jõudma). Ahelverbide 

komponentidena esinevaid infiniitverbe tuvastab süsteem reegli V_Vma abil. 

Ühendverbe moodustavaid afiksaaladverbe tuvastatakse etteantud loendi alusel. 

Loendis on sellised afiksaaladverbi funktsioonis esinevad sõnad nagu alla, alt, edasi, 

eemale, esile, ette, juurde, järele, kaasa, katki, kinni, kokku, kõrvale, külge, lahku, 

lahti, laiali, ligi, läbi, maha, mööda, otsa, peale, pealt, püsti, ringi, sisse, taga, tagant, 

tagasi, tarvis, täis, vahele, valmis, vastu, välja, ära, üle, üles, üleval, ümber. 

Lisaks sisaldab sõnavisandite grammatika 14 unary-tüüpi reeglit, mis võimaldavad 

analüüsida substantiivide ja adjektiivide morfoloogiliste vormide kasutussagedust. 

See info on abiks grammatikaliseerunud ja leksikaliseerunud sõnavormide 

uurimisel, aga ka vormimoodustusinfo esitamisel õppesõnastikes. Nendele 

andmetele toetudes saab teha valiku, mis morfoloogilisi vorme esitada, et mitte 

128

õpetada kasutajale grammatiliselt korrektseid, aga tegelikus keeles mitte 

kasutatavaid vorme. 

Sõnavisanditest koorub välja sõna esialgne leksikaalne profiil, mille alusel saab 

leksikograaf sõnaraamatu artikleid koostada. Tarkvarasüsteem Sketch Engine 

võimaldab sorteerida tulemusi nii koosesinemise sageduse kui ka esilduvuse 

(logDice) järgi. Koosesinemise sagedus toob ootuspäraselt esile kollokaadid, 

millele on iseloomulik kõrge eraldiesinemise sagedus. Esilduvus eelistab selliseid 

ühendeid, mille kollokaatide eraldiesinemise sagedus on korpuses üsna madal. 

Seega võimaldab esilduvus esile tuua harvemad konstruktsioonid. 

Eesti keele sõnavisandite kvantitatiivsel evalveerimisel kasutasin Kilgarriffi jt 

(2010a) väljatöötatud meetodit, milles palutakse leksikograafidel hinnata 

sõnavisandi iga tuvastatud kollokaadi leksikograafilist väärtust kaheastmelisel 

skaalal hea–halb. Hea ehk leksikograafiliselt relevantne kollokaat peab vastama 

sellistele kriteeriumidele nagu tähenduslikkus, terviklikkus ja kasulikkus sõna 

semantika ja grammatika uurimisel. Halb ehk leksikograafiliselt irrelevantne 

kollokaat on ilmselgelt vigane, st kollokatsioonil ei ole mingit tähendust või 

leksikograaf arvab, et tuvastatud kollokatsioon ei oma leksikograafilist väärtust. 

Evalveerimises osales 7 leksikograafi, kes hindasid 16 sõna 20 sagedamat 

kollokaati. Tulemuste hindamiseks kasutasin sellist näitajat nagu täpsus. 

Programmi evalveerimise käigus hindas enamik leksikograafe heaks 70% (kokku 

222 kollokaati) 320 kollokaadist. 8% kollokaatide puhul oli enamik leksikograafe 

ühel meelel, et tegemist on hea kollokaadiga, kuid väiksem osa evalveerijatest pidas 

samu kollokaate halvaks. Negatiivse hinnangu halb sai 71 kollokaati ehk 22% 

üldarvust. 

Evalveerimise tulemuste analüüs osutas, et eriarvamusel olid leksikograafid 

eelkõige nende kollokaatide suhtes, mille tekstiliigiline markeeritus oli väga tugev, 

st kollokaat illustreeris sõna kasutust mingis konkreetses allkorpuses (nt riigikogu 

stenogrammide 1995–2001. a tekstides). Sellest võib järeldada, et sõnavisandite 

evalveerimisel on otsustava tähtsusega ka selle korpuse sisu, mille põhjal on 

sõnavisandid genereeritud. Teine lahkarvamusi tekitav põhjus oli kollokaatide 

lemmale viimine, mis mõnikord muudab tuvastatud kollokatsiooni arusaamatuks 

ühendiks, nt täis raud, mille taga on tegelikult püsiväljend täie rauaga ‘nagu vähegi 

võimalik’. Need tähelepanekud osutavad, et edaspidi tasub eesti keele puhul 

kaaluda sõnavisandite sõnavormipõhist, mitte ainult lemmapõhist genereerimist. 

Suurema osa halvaks hinnatud tuvastatud üksustest põhjustasid sõnaliigi 

märgendamise ja lemmatiseerimise käigus tekkinud vead, mitmesõnaliste üksuste 

poolik tuvastamine ja reeglite seisukohalt õigesti tuvastatud, kuid leksikograafiliselt 

irrelevantseteks hinnatud eri tüüpi (ase)määrsõnalised laiendid. 

Programmi 70% täpsus osutab, et töös kasutatud meetod, mis kombineerib 

süntagmaatiliste suhete tuvastamisel statistilist ja reeglipõhist lähenemist, toimib. 

Edaspidi võimaldab sisendkorpuse täiendav märgendamine, eelkõige perifrastiliste 

129

verbide, fraasipiiride ning süntaktiline märgendamine, seda tulemust oluliselt 

parandada. 

Töös olen analüüsinud sisusõnade süntagmaatiliste suhete esitust tänapäeva 

leksikograafilistes andmebaasides ja õppesõnastikes, eraldi olen uurinud, kuidas ja 

milleks kasutatakse kombinatoorsete meetoditega (eelkõige sõnavisandite põhjal) 

saadud andmeid süntagmaatiliste õppesõnastike ja andmebaaside koostamisel. 

Tänapäeva inglise keele süntagmaatiliste sõnastike (MCD, OCDSE) analüüs osutas 

tendentsile loobuda leksikaalsete kollokatsioonide ja grammatiliste suhete 

eristamisest. Süntagmaatilisi suhteid kirjeldatakse õppesõnastikes teatud 

leksikogrammatiliste mallidena ja defineeritakse eelkõige sõnaliigi terminites, nt 

adj+N ‘adjektiiv + substantiiv’, verb+prep+noun ‘verb + prepositsioon + 

substantiiv’. Selline lähenemine võimaldab paremini kasutada 

korpusleksikograafilise analüüsi tulemusi. Kuna opereeritakse ühtede 

kategooriatega, on saanud võimalikuks tuvastatud üksuste poolautomaatne 

talletamine õppeleksikograafilistesse andmebaasidesse ja kollokatsioonisõnastikesse. 

Uued suunad süntagmaatiliste sõnastike koostamisel on sõnastike 

korpuspõhine automaatne genereerimine ja integratiivsete päringusüsteemide 

loomine (nt Tono 2011), kus üksuste valikul ei lähtuta ainult leksikograafilise 

tarkvara abil saadud andmetest, vaid analüüsi kaasatakse ka teisi allikaid, nt 

keeleoskustasemete sõnavaraloendeid ja õppetekste. 

Eesti leksikograafias ei ole eraldi kollokatsioonisõnaraamatute koostamise 

traditsiooni, leksikaalseid koosesinemisi esitatakse eesti keele üks- ja 

mitmekeelsetes sõnastikes üldjuhul kasutusnäidete tasandil, mitte süstemaatilise 

info osana. Teiselt poolt on pikk rektsioonisõnastike ja -valimike koostamise 

traditsioon, ulatudes 20. sajandi algusesse, mil eri sõnaliikide rektsioone esitati 

sõnastike lisana (Käbin, Pekarsky 1923), omaette abiraamatuna (Rajamaa 1936) või 

õigekeelsuse õpiku ja grammatika (Aavik 1936) osana. Ka 20. sajandi teisel poolel 

on rektsioonivalimik traditsiooniline eesti keele õpikute ja grammatikate osa (vt nt 

Vääri 1969: 91–92; Tauli 1980: 330–339; Erelt 2006: 35–40). Väitekirjas olen 

analüüsinud rektsioonistruktuuride valikut ja esitusviise Pooli (1999), Vaissi 

(2004), UNG-EE (2010) ja Mäearu (2011) sõnastikes. Rektsioonistruktuure 

esitatakse sõnastikes kas kodeeritud metakeeles (Vaiss 2004; UNG-EE 2010) või 

näitekonstruktsioonide vahendusel (Pool 1999; Mäearu 2011). Näitekonstruktsioone 

moodustatakse käändeküsimuste (armuma kellesse-millesse, kompetentne milles, 

hoolimata millest), infinitiivide (minema mida tegema, õigus mida teha), supiini 

käändevormide (käima mida tegemas) ja kaassõnaühendite (hoolitsema kelle-mille 

eest, vajadus mille järele) abil. Vaissi (2004) sõnastiku kirjeldusobjektiks on verbi 

objektirektsioon, UNG-EE (2010), Pooli (1999) ja Mäearu (2011) sõnastikes 

kirjeldatakse verbi objekti-, käände-, kaassõna-, tegevusnime- ja üldist 

asendusrektsiooni. Mäearu (2011) sõnastikus on esitatud lisaks substantiivide, 

adjektiivide, adverbide ja adpositsioonide rektsioonistruktuurid: substantiividel on 

näidatud käände-, kaassõna-, tegevusnime- ja substitutsioonirektsioon; 

130

adjektiividel – käände-, kaassõna- ja tegevusnimerektsioon; adverbidel ja 

adpositsioonidel – käänderektsioon. 

Väitekirja raames olen välja töötanud uut tüüpi eesti keele süntagmaatilise 

õppesõnastiku kontseptsiooni, mille eesmärk on mitte ainult rektsioonistruktuuride 

eksplitsiitne esitamine, vaid ka leksikaalsete kollokatsioonide ja eri tüüpi 

püsiühendite süstemaatiline esitamine. Seda tüüpi õppesõnastiku näiteks on eesti 

keele põhisõnavara sõnastik (PSV, ilmumas 2013). PSV sihtgrupp on A2- ja B1tasemete 

keeleõppijad ja märksõnade arv on ca 4500. Sõnastiku koostamise 

põhimõtteid võib pidada prototüüpseteks, nii et neid saab rakendada edaspidi ka 

teiste õppeleksikograafiliste andmebaaside ülesehitamisel ja eesti keele kui teise 

keele õppesõnastike koostamisel. 

Põhisõnavara sõnastiku XML-skeemis on eraldi rektsiooni-, kollokatsiooni- ja 

ühendite plokk. 

Rektsiooniploki põhielemendid on rektsioonigrupp, rektsioon ja kasutusnäited 

(näide ja selle seletus). Rektsioonigrupil on atribuut @c:koht ‘eel/järelrektsioon’, 

mis võimaldab määrata rektsiooni asukoha põhja suhtes. Rektsioonil endal on kolm 

atribuuti: @c:fak ‘fakultatiivne laiend’ – võimaldab määrata, kas tegemist on 

obligatoorse või fakultatiivse laiendiga; atribuut @c:var ‘variant’ – võimaldab 

esitada koos üht semantilist funktsiooni täitvaid rektsioonistruktuure; atribuut 

@c:rliik ‘rektsiooniliik’ – võimaldab määrata iga rektsioonistruktuuri liigi. 

Rektsiooniliikidena on esitatud objektirektsioon, käänderektsioon, 

kaassõnarektsioon, tegevusnimerektsioon, lausungirektsioon ja üldine 

asendusrektsioon. Selline PSV andmebaasi ülesehitus võimaldab 

rektsioonistruktuure esitada süstemaatiliselt, määrates nende asukoha põhja suhtes, 

fakultatiivsuse ja tüübi. Lisaks järgneb igale rektsioonistruktuurile selle 

kasutusnäide. 

Kollokatsiooniploki põhielemendid on kollokatsioonigrupp, kollokatsioonirühm, 

kollokatsioon ja kasutusnäited (näide ja selle seletus). Kollokatsioonigrupil on vaid 

üks atribuut @c:kliik ‘kollokatsiooniliik’. PSV andmebaasis on kolmteist 

kollokatsiooniliiki, mis on kirjeldatud vormiklasside ja morfosüntaktiliste 

kategooriate kaudu, nt Adv+V ‘adverb + verb’. 

Ühendite ploki põhielemendid on ühendigrupp, ühend ja kasutusnäited (näide ja 

selle seletus). Ühendil on vaid üks atribuut @c:yk ‘ühendi kood’. PSV andmebaasis 

esitatakse selles plokis perifrastilisi verbe, st ühend-, väljend-, ahelverbe ja 

tugiverbiühendeid. 

Andmebaasi selline ülesehitus tagab süntagmaatiliste üksuste süstemaatilise 

esitamise ja avab võimalusi sõnastiku materjali taaskasutamiseks. Nii saab 

andmebaasi alusel genereerida nt eraldi rektsiooni-, kollokatsiooni- ja perifrastiliste 

verbide sõnastikud (vt lähemalt Kallas, Langemets 2012). Teiselt poolt võimaldab 

see teha erinevaid liht- ja komplekspäringuid, näiteks saab korraga valida kõik 

verbid, millele on omane infinitiivirektsioon, või substantiivid, mis kollokeeruvad 

131

adverbidega jne. Neid andmeid saab kasutada eri tüüpi lingvistilise suunitlusega 

uurimistöös. 

Väitekirjas analüüsin eesti keele sõnavisandite kasutamise võimalusi PSV 

koostamisel. Toon välja, mis reeglite toel saab konkreetseid rektsioonistruktuure, 

kollokatsioonitüüpe ja püsiühendite liike tuvastada. Lisaks analüüsin sõnavisandite 

kasutust sisusõnade semantika, täpsemalt tähendusjaotuse ja laiendite semantiliste 

rollide uurimisel. Tähendusjaotuste ja laiendite semantiliste rollide 

sõnavisandipõhisel uurimisel eristan kaht põhilist etappi: esiteks tuleb semantilised 

rollid identifitseerida (sõnavisandites esile tulnud grammatiliste kategooriate 

põhjal), seejärel analüüsida ja kategoriseerida nende leksikaalsed realisatsioonid, st 

sõnavisandis esitatud konkreetsed sõnad. Uurimiskäiku illustreerin liikumisverbi 

saabuma sõnavisandi põhjal. Uurimus näitas, et verbi saabuma sagedamad laiendite 

semantilised rollid on SIHTKOHT, AEG, VAHEND, KAASNEJA ja LÄHTEKOHT. 

Seejuures on oluline märkida, et pakutud meetod sobib vaid esialgsete järelduste 

tegemiseks (statistilisele töötlusele tuginedes saab andmeid eelkõige sagedamini 

esinevate üksuste kohta). Teiseks tuleb korpusandmete analüüsi tulemuste 

interpreteerimisel alati silmas pidada, et tulemus on korrelatsioonis sisendteksti 

sisuga. Näiteks, kui tegemist on ajakirjandustekstide korpusega, siis on tulemus 

vältimatult kallutatud ja statistiline analüüs peegeldab verbide distributiivseid 

omadusi just selles allkeeles. 

Peale PSV andmebaasi mudeli olen välja töötanud ka süntagmaatiliste üksuste 

valikukriteeriumid konkreetsetele keeleoskustasemetele suunatud eesti keele 

õppesõnastike jaoks. Süntagmaatiliste üksuste valikul on aluseks 1) ametlikes 

keeleoskustasemete formaalsetes kirjeldustes esitatud nõuded (eelkõige sõnavara- ja 

grammatikapädevuse osas); 2) andmed süntagmaatilist üksust moodustavate sõnade 

esinemusest keeleoskustasemete sõnavaraloendites; 3) statistilise töötluse andmed 

(eelkõige koosesinemise sagedus ja esilduvuse väärtus). Töös olen neid kriteeriume 

rakendanud eesti keele põhisõnavara sõnastiku näitel. 

A2- ja B1-keeleoskustasemete formaalsetes kirjeldustes esitatud nõudmiste analüüs 

näitas, et süntagmaatiliste suhete esitamisel õppesõnastikus peaks tähelepanu 

pöörama eelkõige rektsioonistruktuuride (st verbi objekti-, infinitiivi-, käände-, 

kaassõna- ja sidendirektsioonile), kollokatsioonide ja perifrastiliste verbide 

(eelkõige väljend- ja ühendverbide) esitamisele. Lähtudes „Eesti keele 

funktsionaalse keeleoskuse määratlemises” esitatud andmetest, mille kohaselt 

ulatub eesti keelt algtasemel valdava inimese sõnavara 1500–2000 sõnani, keelt 

kesktasemel valdava inimese oma aga umbes 5000 sõnani (Kerge 1996), saab 

A2-tasemega keeleõppijatele suunatud sõnastike koostamisel toetuda Kerge jt 

(2008) ning Ehala jt (1997) koostatud sõnavaraloenditele. B1- ja B2-taseme jaoks ei 

ole seni eraldi loendit koostatud. Selle taseme sõnavaraloendina on võimalik 

käsitleda PSV märksõnade loendit (ca 4500 sõna) (vt lähemalt Kallas, Tuulik 

2011). Juhul, kui sõna ei kuulu PSV märksõnade loendisse, ei kasutata seda 

definitsiooni ja näitelausete ega süntagmaatiliste suhete esitamise tasandil. Selline 

filter aitab vältida harvem esinevate sõnade sattumist sõnastiku artiklitesse. Kui 

132

keeleõppija peaks puutuma kokku tema jaoks võõra sõnaga, on võimalus selle sõna 

tähendust samast sõnastikust järele vaadata. Statistiliste andmete (koosesinemise 

sageduse ja esilduvuse) võrdlus näitas, et koosesinemise sagedusega esile tulnud 

ühendid sobivad algajale keeleõppijale mõeldud sõnastikus esitamiseks. Samas B2- 

ja C1-tasemel tuleks tähelepanu pöörata eelkõige kõrge esilduvusega ühenditele. 

Nende kriteeriumide jälgimine süntagmaatiliste üksuste valikul tagab sõnastiku 

leksikaalse profiili vastavuse konkreetse keeleoskustasemega õppijate vajadusele ja 

võimaldab esitada süntagmaatilisi üksusi astmeliselt vastavalt sõnastiku sihtgrupi 

keeleoskustasemele. 

6.2. UURIMISTÖÖ EDASISED ARENGUSUUNAD 

Töö arengusuunad on seotud eesti keele keeletehnoloogilise arenguga üldiselt. 

Eelkõige puudutab see korpuslingvistiliste analüsaatorite (sh süntaksi ja semantika 

parserite) arengut ja uute korpuste loomist. Ideaalis peaks leksikograafidel olema 

võimalik toetuda materjali valikul nii kirjalike tekstide kui ka suulise kõne 

korpustele. Vajalikud on representatiivsed ja balansseeritud korpused, milles 

oleksid esindatud eri tüüpi tekstiklassid, millega keeleõppija tõenäoliselt 

igapäevaselt kokku puutub. Algtasemel on nendeks eelkõige erinevat tüüpi 

tarbetekstid, kesk- ja kõrgtasemel suureneb oluliselt ajakirjanduslike ning 

ilukirjanduslike tekstide osakaal. Selliste korpuste koostamisel võib toetuda nt 

prantsuse keele õppeotstarbelise sagedussõnastiku (Londsale, Le Bras 2009) jaoks 

koostatud korpuse kontseptsioonile. Selle korpuse suurus on 23 miljonit sõna, 

millest poole moodustavad suulise kõne ja poole kirjaliku kõne korpused. Suulise 

kõne korpuse tekstiklassid on vestlused, parlamendikõned, telefonikõned, 

intervjuud, dialoogid, monoloogid ja filmide pealelugemised. Kirjaliku kõne 

korpuses on esindatud ajakirjanduslikud, ilukirjanduslikud, populaarteaduslikud 

tekstid ja eri tüüpi tarbetekstid (manuaalid, kuulutused jm). Õppesõnastike 

koostamisel tuleks analüüsi kaasata ka õppijakorpuse andmestik. Suurte 

sõnaraamatute koostamiseks, nagu nt üheköiteline eesti keele sõnaraamat 

(Langemets jt 2010), oleks vaja suurt ilukirjandustekstide korpust. 

Vastavate parserite olemasolul saaks sõnavisandeid genereerida nii morfoloogiliste 

märgendite kui ka süntaktiliste ja semantiliste märgendite alusel. Inglise keele 

baasil on selliseid katseid juba tehtud ja meetodi efektiivsus on ilmne (McCarthy, 

Reddy 2011b; Reddy jt 2012; Kilgarriff jt 2012b). Süntaktiliste (eelkõige 

süvasüntaktiliste) ja semantiliste parserite kasutus korpusandmete automaattöötlusel 

avab korpusleksikograafia jaoks uusi perspektiive, võimaldades korpusandmete 

kompaktsemat kirjeldamist. Semantiline parser aitaks lahendada polüseemia 

probleemi, nt genereerides sõna hiir sõnavisandit, otsiks arvuti eraldi kollokaate 

sõna hiir tähenduses ‘loom’ ja hiir tähenduses ‘instrument’ jaoks. 

Oluline arengusuund on sõnavisandite grammatika täiendamine ja selle metakeele 

(näiteks grammatiliste kategooriate nimetuste) lihtsustamine. Tuleb täpsustada 

kontekstitingimusi, koostada täiendavaid leksikone ja uurida eri grammatiliste 

133

suhete jaoks optimaalset sõnadevahelist distantsi. Sõnavisandites välja toodud 

leksikogrammatiliste konstruktsioonide loendi koostamisel lähtusin eelkõige 

traditsioonilise grammatika substantiivi-, adjektiivi-, adverbi- ja verbisüntaksi 

kirjeldustest. Seega on tähelepanu keskmes sellised struktuurid, mis on määratud 

sõnade sõnaliigilise kuuluvusega. Edaspidi tuleks uurida konkordantsiridade alusel, 

mis tüüpi ebareeglipäraseid produktiivseid konstruktsioone saaks korpustest otsida. 

Kindlasti tuleb täiendada konstruktsioonide nimestikku ja lisada kolmeliikmelisi 

konstruktsioone. Näiteks Hunstoni ja Francise mallide grammatikas on verbide, 

substantiivide ja adjektiivide jaoks tuvastatud kokku 83 malli, mis sisaldavad väga 

palju just kolmeliikmelisi konstruktsioone, nt selliseid, kus verbile järgneb 

noomenifraas ja sellele omakorda substantiivi-, adjektiivi-, adpositsiooni- või 

adverbifraas, kõrvallause või infiniittarind, nt ‘V n n’ (I wrote him a letter), 

‘V n inf’ (She heard the man laugh), ‘V n prep/adv’ (Andrew chained the boat to 

the bridge), lisaks on terve hulk malle, mis algavad sõnaga it ‘see’, nt ‘it V clause’ 

(It doesn’t matter what you think) jt (2000: 51–58). Erinevaid kolme- ja 

neljaliikmelisi konstruktsioone oleks võimalik tuvastada sõnavisandite grammatikas 

colloc-tüüpi reeglitega. Tuvastada saaks selliseid substantiivse põhjaga 

sõnakolmikuid ja -nelikuid nagu uue aja kombed, luteri usu kirik; saja meetri jooks, 

kahe päeva toit; kolme meetri pikkune; keskmist kasvu mees, esimest aastat õpetaja, 

pikemat aega meister; kõrge kontsaga kingad, kuni kümme meetrit lai tee, üle valla 

kuulus sepp. Seda tüüpi ühendeid ja nende moodustusstruktuuri on põhjalikult 

analüüsinud Tauli (1980). Edaspidi tuleks Tauli grammatika sellest vaatenurgast 

läbi vaadata, ja selgitada kõik võimalikud kolmest ja neljast sõnast koosnevad 

moodustusstruktuurid. 

Sõnavisandite põhjal saab edaspidi demosõnastiku Forbetterenglish.com eeskujul 

genereerida korpuspõhiselt ka eesti keele süntagmaatilisi andmebaase, kus oleksid 

esitatud kollokatsioonid ja rektsioonistruktuurid koos näitelausetega. Selline 

rakendus eeldab aga Good Dictionary Example (GDEX) (Kilgarriff jt 2008a) 

funktsiooni edasiarendamist. See on kindlasti üks huvitavamaid valdkondi, kuna on 

vaja välja selgitada parameetrid, mille järgi saaks arvuti hinnata korpuslausete 

sobivust sõnastiku näitelauseteks. 

Üheks huvitavaks väljakutseks on eesti leksikograafia jaoks ka lausepõhiste 

sõnastike ja andmebaaside koostamine. Eeskujuks on nt Hanksi (2008) ja Babenko 

jt (2002) sõnaraamatud, samuti verbide argumentstruktuuri kirjeldavad 

andmebaasid LexIt 51 ja VALEX 52 . 

Kuna tänapäeva leksikograafias on üheks tendentsiks leksikograafilist tööd 

toetavate eri tüüpi programmide integreerimine (Kilgarriff, Kosem 2012d), siis 

tulevikus võiks kaaluda sõnastikusüsteemi EELex ja Sketch Engine’i taoliste 

programmide integreerimist. 

51 LexIt http://sesia.humnet.unipi.it/lexit/ (15.09.12). 

52 VALEX http://www.cl.cam.ac.uk/~alk23/subcat/lexicon.html (15.09.12). 

134

Sõnavisanditel on suur potentsiaal ka kõrvutavas ja kontrastiivses leksikograafias. 

Kakskeelsete ja mitmekeelsete sõnastike koostamisel saab Sketch Engine’i 

vahendusel lähtuda tähendusjaotuste piiritlemisel ja infoüksuste valikul eri keelte 

sõnavisanditest, võrreldes neid ja selgitades erinevusi ning sarnasusi sõnade 

kollokatiivses ja süntaktilises käitumises. See arengusuund haakub otseselt ka 

õppesõnastike koostamiseks sobivate suulise ja kirjaliku keele (paralleel)korpuste 

puudumise probleemiga. 

Oluliseks arengusuunaks on täiuslikumate leksikograafiliste andmebaaside 

koostamise põhimõtete väljatöötamine. Nii et analüüsitud ja kirjeldatud saaksid 

mitte ainult leksikogrammatilised konstruktsioonid, aga ka sõnade semantilised 

funktsioonid. Töö raames välja töötatud eesti keele süntagmaatiliste suhete 

süstemaatilist õppeleksikograafilist kirjeldamist võimaldav eesti keele põhisõnavara 

sõnastiku XML-põhise andmebaasi ülesehitus toetab vaid morfosüntaktilisel 

tasandil tuvastatavate leksikogrammatiliste konstruktsioonide esitamist. Edaspidi 

tuleb luua täiendavaid võimalusi ka semantilise info esitamiseks. Seda infot saaks 

tulevikus rakendada eri tüüpi leksikaalsemantiliste andmebaaside loomisel, nagu on 

nt PropBank (Palmer jt 2005), VerbNet (Kipper Schuler 2005) ja FrameNet 

(Ruppenhofer jt 2010). Lisaks saab programmi väljundit kasutada nt korpuspõhise 

grammatika koostamisel (vrd nt Biber jt 2002). 

Uurimistöö olulisimaks rakenduseks on töös esitatud põhimõtete järgi koostatud 

õppesõnastike sari. A2-, B1-tasemele suunatud „Eesti keele põhisõnavara sõnastik” 

ilmub 2013. aastal, järgmisena on plaanis koostada B2- ja C1-tasemele mõeldud 

õppesõnastik. Tulemuseks peaks olema õppesõnastike komplekt, mis, esitades 

eksplitsiitselt sõnade süntagmaatilisi ja leksikaalsemantilisi suhteid, aitaks 

keeleõppijal korrektseid eestikeelseid tekste produtseerida. Siinne töö analüüsib 

sõnastike potentsiaali keeleõppijate sõnavara- ja grammatikapädevuse arendamisel. 

Üks huvitavamaid valdkondi, millega tuleks edaspidi tegelda, on aga teiste 

suhtluspädevuse komponentide (eelkõige sotsiolingvistilise ja pragmaatilise 

pädevuse) ja ka üldpädevuse (sotsiokultuurilised teadmised, kultuuriteadlikkus jne) 

arendamine õppesõnastike infoüksuste kaudu. Üks võimalikke uurimistöö 

arengusuundi on elektroonilise õppekeskkonna loomine, milles oleksid koondatud 

eri tasemetele mõeldud omavahel lingitud leksikograafilised ressursid, nii et 

kasutaja saaks tuge nii eestikeelse teksti mõistmisel kui ka loomisel. 

135

VIITEALLIKAD 

AAVIK, J. 1936. Eesti õigekeelsuse õpik ja grammatika. Tartu: Noor-Eesti. 

APRESJAN 1995 = Апресян, Ю. Д. Избранные труды, том I. Лексическая семантика: 

синонимические средства языка. 2-е изд., испр. и доп. Москва. 

ATKINS, B. T. S. 2002. Bilingual dictionaries – Past, present and future. – M-H. Corréard 

(ed.). Lexicography and natural language processing: A festschrift in honour of 

B. T. S. Atkins. Euralex, 2–29. 

ATKINS, B. T. S., RUNDELL, M., SATO, H. 2003. The contribution of FrameNet to 

practical lexicography. – International Journal of Lexicography, 3, 333–357. 

ATKINS, B. T. S., RUNDELL, M. 2008. The Oxford guide to practical lexicography. 

Oxford: Oxford University Press. 

ATKINS, B. T. S., KILGARRIFF, A., RUNDELL, M. 2010. The DANTE database 

(Database of Analysed Texts of English). – A. Dykstra, T. Schoonheim (eds.). Proceedings 

of the XIV EURALEX international congress. Leeuwarden/Ljouwent: Fryske Akademy, 

293–295. 

AVERINA jt 1996 = Аверина, С. А. и др. Прикладное языкознание: учебник. Санкт- 

Петербург: Издательство Санкт-Петербургского университета. 

BABENKO jt 2002 = Русские глагольные предложения: Экспериментальный 

синтаксический словарь. Под ред. проф. Л. Г. Бабенко. Москва: Флинта. 

BARTSCH, S. 2004. Structural and functional properties of collocations in English. A 

corpus study of lexical and pragmatic constraints on lexical co-occurrence. Tübingen: 

Verlag Gunter Narr. 

BBI 2010 = Benson, M., Benson, E., Islon, R. 2010 [1984, 1997]. The BBI combinatory 

dictionary of English. Amsterdam, Philadelphia: John Benjamins. 

BENSON, M. 1986. Lexicographic description of English. Studies in language companion 

series 14. Amsterdam: John Benjamins. 

BENSON, M. 1989. The structure of the collocational dictionary. – International Journal of 

Lexicography, 2, 1–14. 

BENSON, M. 1990. Collocations and general-purpose dictionaries. – International Journal 

of Lexicography, 3, 23–34. 

BIBER, D., CONRAD, S., LEECH, G. 2002. Longman student grammar of spoken and 

written English. UK: Pearson Education Lmt. 

CHURCH, K. W., HANKS, P. 1989. Word association, norms, mutual information, and 

lexicography. – Proceedings of the 27th annual meeting of the association for computational 

linguistics. 26-29 June 1989, University of British Columbia, Vancouver, British Columbia, 

Canada. Association for Computational Linguistics, 76–83. 

COFFEY, S. 2011. A new pedagogical dictionary of English collocations. – International 

Journal of Lexicography, 3, 328–342. 

136

COBUILD = Collins Cobuild English language dictionary. 1987. London: HarperCollins 

Publishers. 

DE SCHRYVER, G.-M., DE PAUW, G. 2007. Dictionary Writing System (DWS) + Corpus 

Query Package (CQP): The case of TshwaneLex. – Lexikos, 17, 226–246. 

DUBITŠINSKI 2009 = Дубичинский, В. В. Лексикография русского языка. Москва: 

Наука. 

EE-VN = Eesti-vene sõnaraamat 1–5. 1997–2009. Eesti Keele Instituut. Tallinn: Eesti Keele 

Sihtasutus. 

EHALA, M., SAARSO, K., VARE, S., ÕISPUU, J. (koost) 1997. Eesti keele suhtluslävi. 

Kultuurikoostöö Nõukogu. Strasbourg: Council of Europe Publishing. 

EKG 1993 = Erelt, M., Kasik, R., Metslang, H., Rajandi, H., Ross, K., Saari, H., Tael, K., 

Vare, S. 1993. Eesti keele grammatika II. Süntaks. Tallinn: Eesti Teaduste Akadeemia Keele 

ja Kirjanduse Instituut. 

EKG 1995 = Erelt, M., Kasik, R., Metslang, H., Rajandi, H., Ross, K., Saari, H., Tael, K., 

Vare, S. 1995. Eesti keele grammatika I. Morfoloogia. Sõnamoodustus. Tallinn: Eesti 

Teaduste Akadeemia Keele ja Kirjanduse Instituut. 

EKSS = Eesti keele seletav sõnaraamat 1–6. 2009. („Eesti kirjakeele seletussõnaraamatu” 

(1988–2007) 2., täiendatud ja parandatud trükk.) M. Langemets, M. Tiits, T. Valdre, 

L. Veskis, Ü. Viks, P. Voll (toim). Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus. 

Internetis aadressil http://www.eki.ee/dict/ekss/. Vaadatud 15.09.2012. 

ERELT, M. 1979a. Eesti lihtlause probleeme. Tallinn: Eesti Raamat. 

ERELT, M. 1979b. Predikatiivne adjektiiv (lausemallid). Eesti NSV Teaduste Akadeemia. 

Tallinn: Eesti Raamat. 

ERELT, M. 1985. ma-, mas- ja mast-infinitiivist eesti keeles. – Ars Grammatica 1985. Eesti 

NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn: Valgus, 4–22. 

ERELT, M. 1986. Eesti adjektiivisüntaks. Tallinn: Valgus. 

ERELT, M. 2003a. Syntax. – Erelt, M. (ed.). Estonian language. Tallinn: Estonian Academy 

Publishers, 93–129. 

ERELT, M. 2003b. Süntaks. – M. Erelt (koost). Eesti keele uurimise analüüs. Emakeele 

Seltsi aastaraamat 48 (2002). Tallinn: Emakeele Selts, 63–97. 

ERELT, M. 2006. Lause õigekeelsus. Juhatused ja harjutused. Tartu. 

ERELT, M., ERELT, T., ROSS, K. 2007 [1997]. Eesti keele käsiraamat. Tallinn: Eesti 

Keele Sihtasutus. 

ESLON, P., ÕIM, K., KAIVAPALU, K., ARGUS, R., MATSAK, E. 2010. Kuidas uurida 

esimese ja teise keele omandamist. – Lähivõrdlusi. Lähivertailuja, 20, 11–48. 

ESTMORF = Eesti keele morfoloogiline analüsaator. Filosoft OÜ. Internetis aadressil 

http://www.filosoft.ee/html_morf_et/morfoutinfo.html. Vaadatud 15.09.2012. Vt ka Kaalep 

1998. 

137

EVERT, S. 2009. Corpora and collocations. – A. Ludeling, M. Kyto (eds.). Corpus 

linguistics. An international handbook. Handbooks of linguistics and communication science 

29. Berlin, New York: Mouton de Gruyter, 1212–1248. 

EVÕS 2011 = Eesti-vene õpilase ÕS. 2011. H. Leemets, T. Leemets (koost). Tallinn: Eesti 

Keele Sihtasutus. 

FRANCIS, G. 1995. Corpus-driven grammar and its relevance to the learning of English in a 

cross-cultural situation. – A. Pakir (ed.). English in education: Multicultural perspectives. 

Singapore: Unipress. 

HANKS, P. 2008. Lexical Patterns: from Hornby to Hunston and beyond. – E. Bernal, 

J. DeCesaris (eds.). Proceedings of the XIII EURALEX international congress. Barcelona: 

Universitat Pompeu Fabra, 89–129. 

HARTMANN, R. R. K. 2001. Teaching and researching lexicography. Applied linguistics 

in action. Harlow: Pearson Education. 

HARTMANN, R. R. K., JAMES, G. 2002 [1998]. Dictionary of lexicography. London, New 

York: Routledge. 

HAUSENBERG, A-R., ILVES, M., KAIVAPALU, A., KERGE, K., KERN, K., KITSNIK, M., 

KRALL, I., RUMMO, K., RÜÜTMAA, T. (koost) 2008. Iseseisev keelekasutaja: B1- ja B2taseme 

eesti keele oskus. Tartu: Riiklik Eksami- ja Kvalifikatsioonikeskus. 

HERBST, T., HEATH, D., ROE, F. I., GÖTZ, D. 2004. A valency dictionary of English: 

A corpus-based analysis of the complementation patterns of English verbs, nouns and 

adjectives. Topics in English linguistics 40. Berlin: Walter de Gruyter. 

HERBST, T., GÖTZ-VOTTELER, K. 2007. Valency: Theoretical, descriptive and cognitive 

issues. Trends in linguistics. Studies and monographs 187. Berlin, New York: Mouton de 

Gruyter. 

HUNSTON, S., FRANCIS, G. 2000. Pattern grammar: A corpus-driven approach to the 

lexical grammar of English. Studies in corpus linguistics 4. Amsterdam, Philadelphia: John 

Benjamins. 

HVELPLUND, H. 2011. Using Sketch Engine with IDM’s DPS for online dictionaries. – 

Sketch Engine Workshop, March 2011, Brighton, UK. Seminari materjalid 

. Vaadatud 16.07.2012. 

ILVES, M. 2008. Algaja keelekasutaja. A2-taseme eesti keele oskus. Tallinn: Eesti Keele 

Sihtasutus. 

JÜRVISTE, M., KALLAS, J., LANGEMETS, M., TUULIK, M., VIKS, Ü. 2011. Extending 

the functions of the EELex dictionary writing system using the example of the Basic 

Estonian Dictionary. – I. Kosem, K. Kosem (eds.). Electronic lexicography in the 21st 

century: New applications for new users. Proceedings of eLex 2011, Bled, 10-12 November 

2011. Ljubljana: Trojina, Institute for Applied Slovenian Studies, 106–112. 

KAALEP, H-J. 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. – Keel 

ja Kirjandus, 1, 22–29. Vt ka ESTMORF. 

KAALEP, H-J., MUISCHNEK, K. 2002. Eesti kirjakeele sagedussõnastik. Tartu: Tartu 

Ülikooli Kirjastus. 

138

KAALEP, H-J., MUISCHNEK, K. 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja 

kuidas. – Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 157–172. 

KALLAS, J., TUULIK, M. 2011. Eesti keele põhisõnavara sõnastik: ajalooline kontekst ja 

koostamispõhimõtted. – Eesti Rakenduslingvistika Ühingu aastaraamat, 7, 59–75. 

KALLAS, J., LANGEMETS, M. 2012. Automatic generation of specialized dictionaries 

using the dictionary writing system EELex. – A. Tavast, K. Muischnek, M. Koit (eds.). 

Human language technologies – The Baltic perspective. Proceedings of the fifth 

international conference Baltic HLT 2012. Frontiers in artificial intelligence and applications 

247. Amsterdam: IOS Press, 103–110. 

KARELSON, R. 2005. Taas probleemidest sõnaliigi määramisel. – Eesti 

Rakenduslingvistika Ühingu aastaraamat, 1, 53–70. 

KARLSSON, F., VOUTILAINEN, A., HEIKKILÄ, J. A, ANTTILA, A. (eds.) 1995. 

Constraint grammar: A language independent system for parsing unrestrected text. Natural 

language processing 4. Berlin, New York: Mouton de Gruyter. 

KASK, A. 1936. Mõningaid märkmeid eesti predikatiivi kohta. – Eesti keel, 1, 14–20. 

KERGE, K. 1996. Eesti keele funktsionaalse keeloskuse määratlemine. Tallinn: 

Haridusministeerium. 

KERGE, K. 2000. Eesti süntaks võõrkeeleõppe praktikule: käsiraamat. Tallinn: TEA 

Kirjastus. 

KERGE, K., PAJUPUU, H., ILVES, M. 2008. Esmane sõnastik. – M. Ilves. Algaja 

keelekasutaja. A2-taseme eesti keele oskus. Tallinn: Eesti Keele Sihtasutus, Tallinna Ülikool, 

Haridus- ja Teadusministeerium, 148–185. 

KHOKHLOVA 2010 = Хохлова, М. 2010. Исследование лексико-синтаксической 

сочетаемости в русском языке с помощью статистических методов (на базе 

корпусов текстов). Автореферат. Санкт-Петербург. 

KILGARRIFF, A., RUNDELL, M. 2002. Lexical profiling software and its lexicographic 

applications – A case study. – A. Braasch, C. Povlsen (eds.). Proceedings of the tenth 

Euralex international congress, Copenhagen, Denmark, August 13-17, 2002. Copenhagen: 

University of Copenhagen, 807–818. 

KILGARRIFF, A., RYCHLÝ, P., SMRZ, P., TUGWELL, D. 2004. The Sketch Engine. – 

G. Williams, S. Vessier (eds.). Proceedings of the 11th EURALEX international congress. 

Lorient, France: Université de Bretagne Sud, 105–115. 

KILGARRIFF, A., HUSÁK, M., McADAM, K., RUNDELL, M., RYCHLÝ, P. 2008a. 

GDEX: Automatically finding good dictionary examples in a corpus. – E. Bernal, 

J. DeCesaris (eds.). Proceedings of the XIII EURALEX international congress. Barcelona: 

Universitat Pompeu Fabra, 425–431. 

KILGARRIFF, A., GREFENSTETTE, G. 2008b. Introduction to the special issue on the 

Web as corpus. – T. Fontenelle (ed.). Practical lexicography. A reader. Oxford: Oxford 

University Press. 

KILGARRIFF, A., KOVAR, V., KREK, S., SRDANOVIC, I., TIBERIUS, C. A. 2010a. 

Quantitative evaluation of word sketches. – A. Dykstra, T. Schoonheim (eds.). Proceedings of 

the XIV EURALEX international congress. Leeuwarden/Ljouwent: Fryske Akademy, 372–379. 

139

KILGARRIFF, A., KOVÁR, V., RYCHLÝ, P. 2010b. Tickbox lexicography. – S. Granger, 

M. Paquot (eds.). eLexicography in the 21st century: New challenges, new applications. 

Proceedings of eLex 2009, Louvain-la-Neuve, 22-24 October 2009. Louvain-la-Neuve: 

Presses universitaires de Louvain, 411–418. 

KILGARRIFF, A., RYCHLÝ, P., KOVÁR, V., BAISA, V. 2012a. Finding multiwords of 

more than two words. – R. V. Fjeld, J. M. Torjusen (eds.). Proceedings of the XV EURALEX 

international congress, 7–11 August. Oslo, 693–700. 

KILGARRIFF, A., POMIKALEK, J., JAKUBÍČEK, M., WHITELOCK, P. 2012b. Setting 

up for corpus lexicography. – R. V. Fjeld, J. M. Torjusen (eds.). Proceedings of the XV 

EURALEX international congress, 7–11 August. Oslo, 778–785. 

KILGARRIFF, A., CHARALABOPOULOU, F., GAVRILIDOU, M., 

JOHANNESSEN, J. B., KHALIL, S., KOKKINAKIS, S. J., LEW, R., SHAROFF, S., 

VADLAPUDI, R., VOLODINA E. 2012c. Corpus-based vocabulary lists for language 

learners for nine languages. – Language Resources and Evaluation. (Ilmumas.) Internetis 

aadressil http://trac.sketchengine.co.uk/wiki/AK/Papers#. Vaadatud 06.01.2013. 

KILGARRIFF, A., KOSEM, I. 2012d. Corpus tools for lexicographers. – S. Granger, 

M. Paquot (eds.). Electronic lexicography. Oxford: Oxford University Press, 31–55. 

KIPPER SCHULER, K. 2005. VerbNet: A broad-coverage, comprehensive verb lexicon. 

PhD thesis. Computer and Information Science Dept., University of Pennsylvania. 

Philadelphia, PA. 

KOSEM, I., HUSAK, M., McCARTHY, D. 2011. GDEX for Slovene. – I. Kosem, 

K. Kosem (eds.). Electronic lexicography in the 21st century: New applications for new 

users. Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, Institute 

for Applied Slovenian Studies, 151–159. 

KÄBIN, T., PEKARSKY, N. 1923. Eesti-vene sõnastik grammatiliste vormide näitamisega. 

Narva. 

LANGEMETS, M. 2003. Kas ükskeelne või kakskeelne sõnaraamat? – M. Langemets, 

H. Sahkai, M-M. Sepper (toim). Toimiv keel I. Töid rakenduslingvistika alalt. Eesti Keele 

Instituudi toimetised 12. Tallinn: Eesti Keele Sihtasutus, 151–177. 

LANGEMETS, M., MÄGEDI, M., VIKS, Ü. 2005. Süntaktiline info sõnastikus: probleeme 

ja väljavaateid. – Eesti Rakenduslingvistika Ühingu aastaraamat, 1, 71–98. 

LANGEMETS, M., LOOPMANN, A., VIKS, Ü. 2006. The IEL dictionary management 

system of Estonian. – G-M. de Schryver (ed.). DWS 2006: Proceedings of the fourth 

international workshop on dictionary writing systems. Turin: Turin University, 11–16. 

LANGEMETS, M. 2010a. Nimisõna süstemaatiline polüseemia eesti keeles ja selle esitus 

eesti keelevaras. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus. 

LANGEMETS, M., TIITS, M., VALDRE, T., VOLL, P. 2010b. In spe: üheköiteline eesti 

keele sõnaraamat. – Keel ja Kirjandus, 11, 793–810. 

LANGEMETS, M., LOOPMANN, A., VIKS, Ü. 2010c. Dictionary management system for 

bilingual dictionaries. – S. Granger, M. Paquot (eds.). eLexicography in the 21st century: 

New challenges, new applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22-24 

October 2009. Louvain-la-Neuve: Presses universitaires de Louvain, 425–430. 

140

LAUR, M. 1998. Esimene verstapost. Eesti keele suhtluse algtase. Tallinn: REKK. 

LONDSALE, D., LE BRAS, Y. 2009. A frequency dictionary of French: Core vocabulary 

for learners. Routledge frequency dictionaries. London, New York: Routledge. 

LOOPMANN, A., SEIN, K., VIKS, Ü. 2006. Sõnastike haldussüsteem Eesti Keele 

Instituudis. – M. Koit, R. Pajusalu, H. Õim (toim). Keel ja arvuti. Tartu Ülikooli 

üldkeeleteaduse õppetooli toimetised 6. Tartu: Tartu Ülikooli Kirjastus, 246–258. 

LOOPMANN, A. 2007. Sõnastike haldussüsteem EELex. Magistritöö. Käsikiri Eesti Keele 

Instituudis. 

MAISAK 1999 = Майсак, Т. А. Ассиметрия валентностей у глаголов длижения: 

русский вариант. – Труды Международного семинара „Диалог’ 99” по компьютерной 

лингвистике и её приложениям. Т 1. Таруса. 

MAISAK, RAHHILINA 1999 = Майсак, Т. А., Рахилина, Е. В. Семантика и статистика: 

глагол идти на фоне других глаголов движения. – Логический анализ языка. Языки 

динамического мира. Дубна. 

McCARTHY, D., REDDY, S. 2011a. Semantic tagging. – Sketch Engine Workshop, March 

2011, Brighton, UK. Seminari materjalid . Vaadatud 16.07.2012. 

McCARTHY, D., REDDY, S. 2011b. Word Sketches from other parsers: CONLL format in 

Sketch Engine. – Sketch Engine Workshop, March 2011, Brighton, UK. Seminari materjalid 

. Vaadatud 16.07.2012. 

MCD 2010 = Macmillan collocations dictionary for learners of English. 2010. Macmillan. 

McENERY, T., WILSON, A. 2007. Corpus linguistics. Edingburgh: Edingburgh University 

Press. 

MED 2002 = Macmillan English dictionary for advanced learners. 2002. Macmillan. 

MIHKLA, K., RIIKOJA, E., ADMANN, A. 1974. Eesti keele lauseõpetuse põhijooned I. 

Lihtlause. Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn: Valgus. 

MILLER, G. A., JOHNSON-LAIRD P. N. 1976. Langauge and perception. Cambridge: 

Cambridge University Press. 

MUISCHNEK, K. 2005. Eesti keele tugiverbid ja nende mõju lause ehitusele. – Emakeele 

Seltsi aastaraamat, 50, 11–38. 

MUISCHNEK, K. 2006a. Eesti keele verbikesksed püsiühendid tekstikorpuses. – Emakeele 

Seltsi aastaraamat, 51, 80–105. 

MUISCHNEK, K. 2006b. Verbi ja noomeni püsiühendid eesti keeles. Dissertationes 

philologiae Estonicae Universitatis Tartuensis 17. Tartu: Tartu Ülikooli Kirjastus. 

MUISCHNEK, K. 2006c. Tugiverbist üldiselt ja intransitiivsest tugiverbikonstruktsioonist 

lähemalt. – Pille Penjam (toim). Lause argumentstruktuur: ettekandeid süntaksiseminarilt: 

10. mai 2005, Tartu. Tartu: Tartu Ülikooli eesti keele õppetool. 

MÄEARU, S. 1996. Valik rektsioone. – S. Mäearu (koost). Keelenõuanne soovitab. Tallinn: 

Eesti Keele Instituut, 1996. 

141

MÄEARU, S. 2011. Valik rektsioone. Tartu: Keelehooldekeskus. 

MÜÜRISEP, K. 2000. Eesti keele arvutigrammatika: süntaks. Dissertationes Mathematicae 

Universitatis Tartuensis 22. Tartu: Tartu Ülikooli Kirjastus. 

NOVIKOV 2002 = Новиков, Л. А. Типология учебных словарей. – Современный 

русский язык: Лексикология. Фразеология. Лексикография. Санкт-Петербург: Санкт- 

Петербургский Университет. 

OCDSE 2002 = Oxford collocations dictionary for students of English. 2002. Oxford: 

Oxford University Press. 

PAI, K. 2001. Essiivne ja translatiivne predikatiivadverbiaal. – R. Kasik (koost, toim). Keele 

kannul. Pühendusteos Mati Erelti 60. sünnipäevaks. Tartu Ülikooli eesti keele õppetooli 

toimetised 17. Tartu: Tartu Ülikooli Kirjastus, 232–249. 

PAJUPUU, H., KERGE, K., ALP, P. 2009. Sõnavara loomulik rikkus haritud keeleoskaja 

tekstides. – Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 187–196. 

PAJUSALU, R., TRAGEL, I., VEISMANN, A., VIJA, M. 2004. Tuumsõnade semantikat ja 

pragmaatikat. Tartu: Tartu Ülikooli Kirjastus. 

PALMER, M., GILDEA, D., KINGSBURY, P. 2005. The proposition bank: A corpus 

annotated with semantic roles. – Computational Linguistics, 31, 1, 71–106. 

PAQUOT, M. 2012. The LEAD dictionary-cum-writing aid: An integrated dictionary and 

corpus tool. – S. Granger, M. Paquot (eds.). Electronic lexicography. Oxford: Oxford 

University Press, 163–187. 

PENJAM, P. 2005. Liikumisverbide semantikast: tulema-verb XVII–XX sajandi eesti 

kirjakeeles. – Keel ja Kirjandus, 10, 818–830 

PIHLAK, A. 1985. Eesti ühendverbid ja perifrastilised verbid aspektitähenduse 

väljendajana. – Ars Grammatica 1985. Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse 

Instituut. Tallinn: Valgus, 62–93. 

PIHLAK, A. 1991. Eesti analüütilised versus vene sünteetilised verbid. Tallinn: Tallinna 

Pedagoogiline Instituut. 

POOL, R. 1999. Eesti keele verbirektsioone. Tartu: Tartu Ülikooli Kirjastus. 

PSV = Eesti keele põhisõnavara sõnastik. M. Jürviste, J. Kallas, K. Koppel, M. Tuulik 

(koost). Tallinn: Eesti Keele Sihtasutus. (Ilmumas 2013.) 

PUOLAKAINEN, T. 2001. Eesti keele arvutigrammatika: morfoloogiline ühestamine. 

Dissertationes Mathematicae Universitatis Tartuensis 27. Tartu: Tartu Ülikooli Kirjastus. 

PÄRN, H., SIMM, L. 1989. Eesti keele baassõnastik = Базовый словарь эстонского 

языка. Tallinn: Keele ja Kirjanduse Instituut. 

RAAG, R. 1987. Basic Estonian vocabulary 1. Uppsala: Finsk-ugriska institutionen. 

RAAMDOKUMENT 2007 = Euroopa keeleõppe raamdokument: õppimine, õpetamine, 

hindamine. 2007. Tartu: Haridus- ja Teadusministeerium. 

RAJAMAA, H. 1936. Kuidas tarvitada uusi sõnu? Eesti sõnade muuteline sõltuvus. Tartu: 

Kool. 

142

REDDY, S., KILGARRIFF, A., RYCHLÝ, P. 2012. Universal Sketch grammar. – 3rd 

Sketch Engine Workshop, March 2012, Brno, Czech Republic. Internetis aadressil 

http://sivareddy.in/papers/talks/Skew3-UWS.pdf. Vaadatud 06.01.2013. 

REITSAK, A. 1975. Valimik vene fraseologisme eesti vastetega. Tallinn: Valgus. 

RENOUF, A. 2003. WebCorp: Providing a renewable data source for corpus linguists. – 

S. Petch-Tyson, S. Granger (eds.). Extending the scope of corpus-based research: New 

applications, new Challenges. Language and computers 48. Amsterdam, New York: Rodopi, 

39–58. 

RICHARDS, J. C., SCHMIDT, R. 2002. Longman dictionary of language teaching and 

applied linguistics. UK: Pearson Education Limited. 

ROOSMAA, T., KOIT, M., MUISCHNEK, K., MÜÜRISEP, K., PUOLAKAINEN, T., 

UIBO, H. 2001. Eesti keele formaalne grammatika. Tartu: Tartu Ülikool. 

RUNDELL, M., ATKINS, S. 2011. The DANTE database: A user guide. – I. Kosem, K. 

Kosem (eds.). Electronic lexicography in the 21st century: New applications for new users. 

Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, Institute for 

Applied Slovenian Studies, 106–112. 

RUNDELL, M., KILGARRIFF, A. 2011. Automating the creation of dictionaries: Where 

will it all end? – F. Meunier, S. De Cock, G. Gilquin, M. Paquot (eds.) A taste for corpora. 

In honour of Sylviane Granger. Studies in corpus linguistics 45. Amsterdam, Philadelphia: 

John Benjamins. 

RUNDELL, M. 2012. How the dictionary was created? Internetis aadressil 

http://www.macmillandictionaries.com/features/how-dictionaries-are-written/macmillancollocations-dictionary/. 

Vaadatud 15.09.2012. 

RUPPENHOFER, J., ELLSWORTH, M., PETRUCK, M. R. L., JOHNSON, C. R., 

SCHECZYK, J. 2010. FrameNet II: Extended theory and practice. Technical report, 

International Computer Science Institute, Berkeley. Internetis aadressil 

http://framenet.icsi.berkeley.edu/. Vaadatud 15.09.2012. 

RÄTSEP, H. 1969. Ühendverbide rektsioonistruktuuride iseärasustest eesti keeles. – 

Emakeele Seltsi aastaraamat, 14-15, 59–77. 

RÄTSEP, H. 1978. Eesti keele lihtlausete tüübid. Tallinn: Valgus. 

RYCHLÝ, P. 2008. A lexicographer-friendly association score. – P. Sojka, A. Horák (eds.). 

Proceedings of 2nd workshop on recent advances in Slavonic natural languages RASLAN 

2008. Brno: Masaryk University, 6–9. 

SAHKAI, H., MUISCHNEK, K. 2010. Liitpredikaadid leksikoni-grammatika kontiinumil. – 

Eesti ja soome-ugri keeleteaduse ajakiri ESUKA / Journal of Estonian and Finno-Ugric 

Linguistics JEFUL, 1, 2, 295–316. 

SAHKAI, H. 2011. Teine grammatika. Eesti keele teonimede süntaks konstruktsioonipõhises 

perspektiivis. Tallinna Ülikooli humanitaarteaduste dissertatsioonid 25. Tallinn: Tallinna 

Ülikool. 

SCHERBA 1974 = Щерба, Л. В. Языковая система и речевая деятельность. 

Ленинград: Наука. 

143

SIEPMANN, D. 2005. Collocation, colligation and encoding dictionaries. Part I: 

Lexicological aspects. – International Journal of Lexicography, 18, 4, 409–443. 

SINCLAIR, J. M. 1991. Corpus, concordance, collocation. Oxford: Oxford University Press. 

SVENSÉN, B. 2009. A handbook of lexicography. The theory and practice of dictionarymaking. 

Cambridge: Cambridge University Press. 

ŠANSKI, N., BÕSTROVA, J., OKUNEVA, A., ROMET, A. 1983. Vene-eesti püsiühendite 

õppesõnastik. Tallinn: Valgus. 

TALMY, L. 1975. Semantics and syntax of motion. – J. P. Kimball (ed.). Syntax and 

semantics, vol. 4. New-York: Academic Press, 181–238. 

TARP, S. 2008. Lexicography in the borderland between knowledge and non-knowledge: 

General lexicographical theory with particular focus on learner's lexicography. Tübingen: 

Max Niemeyer Verlag. 

TAULI, V. 1980. Eesti grammatika II. Lauseõpetus. Uppsala: Finsk-ugrinska institutionen. 

THORNDIKE, E. L. 1991. The psychology of the school dictionary. – International Journal 

of Lexicography, 4, 1, 15–22. 

TIHHONOV 2001 = Комплексный словарь русского языка. Под ред. А. Н. Тихонова. 

Москва: Русский язык. 

TONO, Y. 2011. Bilingual lexicography in Japan. – Videoettekanne konverentsil Electronic 

lexicography in the 21st Century: New applications for new users. Bled, 10-12 November 

2011. Internetis aadressil http://videolectures.net/elex2011_bled/. Vaadatud 06.01.2013. 

UIBOAED, K. 2010. Statistilised meetodid murdekorpuse ühendverbide tuvastamisel. – 

Eesti Rakenduslingvistika Ühingu aastaraamat, 6, 307–326. 

UNG-EE 2010 = Ungari-eesti sõnaraamat [Magyar-észt szótár]. 2010. A. Kippasto, 

A. Nurk, T. Seilenthal (koost). Tallinn: Eesti Keele Sihtasutus. Internetis aadressil: 

http://www.ut.ee/Ural/UERS/. Vaadatud 15.09.2012. 

VAISS, N. 2004. Eesti keele aspekti väljendusvõimalusi vene keele taustal. Tallinn: Tallinna 

Pedagoogikaülikool. [Magistritöö.] 

VANEM, L. 2004. Eesti ühendverbide vasted vene keeles. Sõnastik ja didaktilisi soovitusi. 

Tallinn: Tallinna Pedagoogikaülikool. [Magistritöö.] 

VENDE, K. 2010. Краткий эстонско-русский словарь для изучающих эстонский язык: 

первая тысяча эстонских слов = Eesti-vene sõnastik algajale eesti keele õppijale. 

Esimesed tuhat sõna. Tallinn: TEA Kirjastus. 

VÄÄRI, E. 1969. Eesti keele õpik keskkoolile. Tallinn: Valgus. 

ÕIM, H., ORAV, H., TAREMAA, P. 2009. Lihtlause semantika: teoreetiline kontseptsioon 

ja arvutianalüüsi võimalused. – Keel ja Kirjandus, 7, 489–505. 

ÕIM, A. 2000. Fraseoloogiasõnaraamat. Tallinn: Eesti Keele Sihtasutus. 

ÕIM, A. 2008. Väljendiraamat. Tallinn: TEA Kirjastus. 

ÕIM, K., ÕIM, A. 2011. Eesti fraseoloogia leksikograafiline areng. – Keel ja Kirjandus, 11, 

842–863. 

144

LISA 1. SÕNAVISANDITE GRAMMATIKA 53 

Word Sketch Engine#Word Sketch Engine Sketch Grammar for Estonian 

# ver. 1.5 

*STRUCTLIMIT s 

*DEFAULTATTR tag 

*FIXORDER modifies Adj_modifier subject subject_of object object_of 

N_modifies Adj_modifies Adv_modifies V_modifies omastav_modifier 

omastav_modifies Adj_comp_modifier Adj_sup_modifier 

Adj_käändumatu_modifier ja/või kui/nagu predicate_N predicate_Adj 

osastav_modifier osastav_modifies predicate_of cardinal_modifies 

ordinal_modifies participle_modifier Pron_modifier kõrvallause Adv_modifier 

afiksaaladverb afiksaaladverb_of ühendverb väljendverb N_Vma N_Vda Adj_Vma 

Adj_Vda V_Vma V_Vda V_Vdes V_Vmaks V_Vmas V_Vmata V_Vmaks V_Vvat 

Adj_PP Adv_PP N_PP V_PP predicate_Adj_saav predicate_Adj_olev Pr_modifier 

Pr_modifies 

*CONSTRUCTION 

*UNARY 

=nimetav 

1:[tag="S"&features=".._n"] 

1:[tag="A"&features=".._n"] 

*CONSTRUCTION 

*UNARY 

=omastav 

1:[tag="S"&features=".._g"] 

1:[tag="A"&features=".._g"] 

*CONSTRUCTION 

*UNARY 

=osastav 

1:[tag="S"&features=".._p"] 

1:[tag="A"&features=".._p"] 

53 

Reeglites kasutatud lühendite selgitusi vt http://www.filosoft.ee/html_morf_et/morfoutinfo.html 

(24.01.2013). 

145

*CONSTRUCTION 

*UNARY 

=sisseütlev 

1:[tag="S"&features=".._ill"] 

1:[tag="A"&features=".._ill"] 

*CONSTRUCTION 

*UNARY 

=aditiiv 

1:[tag="S"&features="adt"] 

*CONSTRUCTION 

*UNARY 

=seesütlev 

1:[tag="S"&features=".._in"] 

1:[tag="A"&features=".._in"] 

*CONSTRUCTION 

*UNARY 

=seestütlev 

1:[tag="S"&features=".._el"] 

1:[tag="A"&features=".._el"] 

*CONSTRUCTION 

*UNARY 

=alaleütlev 

1:[tag="S"&features=".._all"] 

1:[tag="A"&features=".._all"] 

*CONSTRUCTION 

*UNARY 

=alalütlev 

1:[tag="S"&features=".._ad"] 

1:[tag="A"&features=".._ad"] 

*CONSTRUCTION 

*UNARY 

=alaltütlev 

1:[tag="S"&features=".._abl"] 

1:[tag="A"&features=".._abl"] 

146

*CONSTRUCTION 

*UNARY 

=saav 

1:[tag="S"&features=".._tr"] 

1:[tag="A"&features=".._tr"] 

*CONSTRUCTION 

*UNARY 

=rajav 

1:[tag="S"&features=".._ter"] 

1:[tag="A"&features=".._ter"] 

*CONSTRUCTION 

*UNARY 

=olev 

1:[tag="S"&features=".._es"] 

1:[tag="A"&features=".._es"] 

*CONSTRUCTION 

*UNARY 

=ilmaütlev 

1:[tag="S"&features=".._ab"] 

1:[tag="A"&features=".._ab"] 

*CONSTRUCTION 

*UNARY 

=kaasaütlev 

1:[tag="S"&features=".._kom"] 

1:[tag="A"&features=".._kom"] 

*CONSTRUCTION 

*UNARY 

=otsekõne 

1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&features!="nud"& 

features!="maks"&features!="mas"&features!="mast"&features!="mata"& 

features!="tud"&features!="des"&lemma!="olema"]2:[tag="Z"&word=":"] 

*CONSTRUCTION 

*DUAL 

=V_Vma 

[tag!="V"]*1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"& 


features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="ma"] 

[tag!="V"] 

147

*CONSTRUCTION 

*DUAL 

=V_Vmaks 

[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"& 


features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="maks"] 

*CONSTRUCTION 

*DUAL 

=V_Vmast 


eatures!="maks"&features!="mas"&features!="mast"&features!="mata"& 

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="mast"] 

*CONSTRUCTION 

*DUAL 

=V_Vmas 



features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"& features="mas"] 

*CONSTRUCTION 

*DUAL 

=V_Vmata 



features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="mata"] 

*CONSTRUCTION 

*DUAL 

=V_Vda 



features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="da"] 

[tag!="V"]? 

*CONSTRUCTION 

*DUAL 

=V_Vvat 



features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="vat"] 

[tag!="V"]? 

148

*CONSTRUCTION 

*DUAL 

=V_Vdes 

[tag!="V"]?1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"& 


features!="tud"&lemma!="olema"]2:[tag="V"&features="des"] 

*CONSTRUCTION 

*DUAL 

=N_Vma 

[tag="V"&lemma="olema"]1:[tag="S"&features=".._n"]2:[tag="V"& 

features="ma"][tag!="V"] 

*CONSTRUCTION 

*DUAL 

=Adj_Vma 

[tag="V"&lemma="olema"]1:[tag="A"&features=".._n"]2:[tag="V"& 

features="ma"][tag!="V"] 

*CONSTRUCTION 

*DUAL 

=N_Vda 

1:[tag="S"&features=".._n"]2:[tag="V"&features="da"][tag!="V"] 

*CONSTRUCTION 

*DUAL 

=Adj_Vda 

[tag="V"&lemma="olema"]1:[tag="A"&features=".._n"]2:[tag="V"& 

features="da"][tag!="V"] 

*CONSTRUCTION 

*DUAL 

=kõrvallause/kõrvallause 

2:[tag="S"&features=".._n"][word=","]1:[lemma="et"|lemma="kui"|lemma="nagu"| 

lemma="justkui"|lemma="otsekui"|lemma="kuigi"|lemma="sest"|lemma="ehhki"| 

lemma="kuna"|lemma="kuni"|lemma="kas"|lemma="ega"|lemma="kes"| 

lemma="mis"|lemma="milline"|lemma="missugune"|lemma="kumb"|lemma="kus"| 

lemma="kuhu"|lemma="kust"|lemma="millal"|lemma="mil"|lemma="miks"| 

lemma="milleks"|lemma="mistavis"|lemma="mismoodi"|lemma="mistõttu"| 

lemma="kuidas"|lemma="kuivõrd"] 

2:[tag="A"&features=".._n"][word=","]1:[lemma="et"|lemma="kui"| 

lemma="nagu"|lemma="justkui"|lemma="otsekui"|lemma="kuigi"|lemma="sest"| 

lemma="ehhki"|lemma="kuna"|lemma="kuni"|lemma="kas"|lemma="ega"| 

149

lemma="kes"|lemma="mis"lemma="milline"|lemma="missugune"| 

lemma="kumb"|lemma="kus"|lemma="kuhu"|lemma="kust"|lemma="millal"| 

lemma="mil"|lemma="miks"|lemma="milleks"|lemma="mistavis"| 

lemma="mismoodi"|lemma="mistõttu"|lemma="kuidas"|lemma="kuivõrd"] 

2:[tag="D"][word=","]1:[lemma="et"|lemma="kui"|lemma="nagu"| 

lemma="justkui"|lemma="otsekui"|lemma="kuivõrd"|lemma="kuna"| 

lemma="kuni"|lemma="kus"|lemma="kuhu"|lemma="kust"|lemma="millal"| 

lemma="mil"] 

2:[tag="V"][word=","]1:[lemma="kas"|lemma="kes"|lemma="mis"| 

lemma="milline"|lemma="missugune"|lemma="kuhu"|lemma="kus"|lemma="kust"| 

lemma="kuidas"|lemma="miks"|lemma="et"|lemma="millal"|lemma="nagu"| 

lemma="justnagu"|lemma="kui"|lemma="otsekui"|lemma="justkui"|lemma="sest"| 

lemma="kuni"|lemma="siis"|lemma="siiski"|lemma="kuna"|lemma="kustkadu"| 

lemma="mispärast"|lemma="mistõttu"|lemma="mismoodi"|lemma="misjaoks"| 

lemma="mistarvis"|lemma="seepärast"|lemma="sellepärast"|lemma="seetõttu"| 

lemma="selletõttu"] 

*SYMMETRIC 

=ja/või 

2:[tag="S"&features=".._n"][word="ja"|word="või"]1:[tag="S"&features=".._n"] 

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._g"] 

2:[tag="S"&features=".._p"][word="ja"|word="või"]1:[tag="S"&features=".._p"] 

2:[tag="S"&features=".._ill"][word="ja"|word="või"]1:[tag="S"&features=".._ill"] 

2:[tag="S"&features=".._in"][word="ja"|word="või"]1:[tag="S"&features=".._in"] 

2:[tag="S"&features=".._el"][word="ja"|word="või"]1:[tag="S"&features=".._el"] 

2:[tag="S"&features=".._all"][word="ja"|word="või"]1:[tag="S"&features=".._all"] 

2:[tag="S"&features=".._ad"][word="ja"|word="või"]1:[tag="S"&features=".._ad"] 

2:[tag="S"&features=".._abl"][word="ja"|word="või"]1:[tag="S"& 

features=".._abl"] 

2:[tag="S"&features=".._tr"][word="ja"|word="või"]1:[tag="S"&features=".._tr"] 

2:[tag="S"&features=".._ter"][word="ja"|word="või"]1:[tag="S"& 

features=".._ter"] 

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"& 


2:[tag="S"&features=".._es"][word="ja"|word="või"]1:[tag="S"&features=".._es"] 

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._es"] 

2:[tag="S"&features=".._ab"][word="ja"|word="või"]1:[tag="S"&features=".._ab"] 

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._ab"] 

2:[tag="S"&features=".._kom"][word="ja"|word="või"]1:[tag="S"& 

features=".._kom"] 

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"& 


150

2:[tag="A"&features=".._n"][word="ja"|word="või"]1:[tag="A"&features=".._n"] 

2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&features=".._g"] 

2:[tag="A"&features=".._p"][word="ja"|word="või"]1:[tag="A"&features=".._p"] 

2:[tag="A"&features=".._ill"][word="ja"|word="või"]1:[tag="A"&features=".._ill"] 

2:[tag="A"&features=".._in"][word="ja"|word="või"]1:[tag="A"&features=".._in"] 

2:[tag="A"&features=".._el"][word="ja"|word="või"]1:[tag="A"&features=".._el"] 

2:[tag="A"&features=".._all"][word="ja"|word="või"]1:[tag="A"features=".._all"] 

2:[tag="A"&features=".._ad"][word="ja"|word="või"]1:[tag="A"& 

features=".._ad"] 

2:[tag="A"&features=".._abl"][word="ja"|word="või"]1:[tag="A"& 


2:[tag="A"&features=".._tr"][word="ja"|word="või"]1:[tag="A"&features=".._tr"] 

2:[tag="A"&features=".._ter"][word="ja"|word="või"]1:[tag="A"& 


2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"& 


2:[tag="A"&features=".._es"][word="ja"|word="või"]1:[tag="A"&features=".._es"] 

2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&features=".._es"] 


features=".._ab"] 

2:[tag="A"&features=".._kom"][word="ja"|word="või"]1:[tag="A"& 




2:[tag="V"&features="n"&lemma!="olema"&word!="ei"][word="ja"|word="või"] 

1:[tag="V"& features="n"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="d"&lemma!="olema"&word!="ei"][word="ja"|word="või"] 

1:[tag="V"& features="d"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="b"&lemma!="olema"&word!="ei"][word="ja"|word="või"] 

1:[tag="V"& features="b"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="me"&lemma!="olema"&word!="ei"][word="ja"| 

word="või"]1:[tag="V"& features="me"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="te"&lemma!="olema"&word!="ei"][word="ja"|word="või"] 

1:[tag="V"& features="te"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="vad"&lemma!="olema"&word!="ei"][word="ja"| 

word="või"]1:[tag="V"& features="vad"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="ma"&lemma!="olema"&word!="ei"][word="ja"| 

word="või"]1:[tag="V"& features="ma"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="da"&lemma!="olema"&word!="ei"][word="ja"| 

word="või"]1:[tag="V"& features="da"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="nud"&lemma!="olema"&word!="ei"][word="ja"| 

151

word="või"]1:[tag="V"& features="nud"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="tud"&lemma!="olema"&word!="ei"][word="ja"| 

word="või"]1:[tag="V"& features="tud"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="des"&lemma!="olema"&word!="ei"][word="ja"| 

word="või"]1:[tag="V"& features="des"&lemma!="olema"&word!="ei"] 

2:[tag="V"&features="ks"&lemma!="olema"&word!="ei"][word="ja"| 

word="või"]1:[tag="V"& features="ks"&lemma!="olema"&word!="ei"] 

2:[tag="D"] [word="ja"|word="või"]1:[tag="D"] 

2:[tag="K"] [word="ja"|word="või"]1:[tag="K"] 

*SYMMETRIC 

=kui/nagu 

[word!="nii"]1:[tag="S"&features=".._n"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._n"] [tag!="S"] 

[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._g"] 

[word!="nii"]1:[tag="S"&features=".._p"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._p"] 

[word!="nii"]1:[tag="S"&features=".._ill"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._ill"] 

[word!="nii"]1:[tag="S"&features=".._in"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._in"] 

[word!="nii"]1:[tag="S"&features=".._el"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._el"] 

[word!="nii"]1:[tag="S"&features=".._all"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._all"] 

[word!="nii"]1:[tag="S"&features=".._ad"][word="kui"|word="nagu"]2:[tag="S"& 


[word!="nii"]1:[tag="S"&features=".._abl"][word="kui"|word="nagu"]2:[tag="S"& 


[word!="nii"]1:[tag="S"&features=".._tr"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._tr"] 



[word!="nii"]1:[tag="S"&features=".._es"][word="kui"|word="nagu"]2:[tag="S"& 

features=".._es"] 



[word!="nii"]1:[tag="S"&features=".._ab"][word="kui"|word="nagu"]2:[tag="S"& 


[word!="nii"]1:[tag="S"&features=".._kom"][word="kui"|word="nagu"] 

2:[tag="S"&features=".._kom"] 

152



[word!="nii"]1:[tag="A"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"] 

[tag="Z"] 

[word!="nii"]1:[tag="C"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"] 

[tag="Z"] 

[word!="nii"]1:[tag="U"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"] 

[tag="Z"] 

[word!="nii"]1:[tag="D"] [word="kui"|word="nagu"]2:[tag="D"] [tag="Z"] 

*SYMMETRIC 

=kui 

[word!="nii"]1:[tag="V"] [word="kui"]2:[tag="V"] [tag="Z"] 

*SYMMETRIC 

=seriaalkonstruktsioon 

2:[tag="V"&features="n"]1:[tag="V"&features="n"] 

2:[tag="V"&features="o"]1:[tag="V"&features="o"] 

*DUAL 

=Adj_modifier/modifies 

2:[tag="A"&features=".._n"][tag="A"&features=".._n"]?1:[tag="S"& 

features=".._n"] 

2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"& 


2:[tag="A"&features=".._p"][tag="A"&features=".._p"]?1:[tag="S"& 


2:[tag="A"&features=".._ill"][tag="A"&features=".._ill"]?1:[tag="S"& 


2:[tag="A"&features=".._in"][tag="A"&features=".._in"]?1:[tag="S"& 


2:[tag="A"&features=".._el"][tag="A"&features=".._el"]?1:[tag="S"& 


2:[tag="A"&features=".._all"][tag="A"&features=".._all"]?1:[tag="S"& 


2:[tag="A"&features=".._ad"][tag="A"&features=".._ad"]?1:[tag="S"& 


2:[tag="A"&features=".._abl"][tag="A"&features=".._abl"]?1:[tag="S"& 


2:[tag="A"&features=".._tr"][tag="A"&features=".._tr"]?1:[tag="S"& 


153









*DUAL 

=Adj_modifier/Adj_modifies 

1:[tag="A"&lemma!="olnud"]2:[tag="A"&features=".._n"][tag!="S"] 

*DUAL 

=Adj_comp_modifier/modifies 

2:[tag="C"&features=".._n"][tag="C"&features=".._n"]?1:[tag="S"& 


2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"& 


2:[tag="C"&features=".._p"][tag="C"&features=".._p"]?1:[tag="S"& 


2:[tag="C"&features=".._ill"][tag="C"&features=".._ill"]?1:[tag="S"& 


2:[tag="C"&features=".._in"][tag="C"&features=".._in"]?1:[tag="S"& 


2:[tag="C"&features=".._el"][tag="C"&features=".._el"]?1:[tag="S"& 


2:[tag="C"&features=".._all"][tag="C"&features=".._all"]?1:[tag="S"& 


2:[tag="C"&features=".._ad"][tag="C"&features=".._ad"]?1:[tag="S"& 


2:[tag="C"&features=".._abl"][tag="C"&features=".._abl"]?1:[tag="S"& 


2:[tag="C"&features=".._tr"][tag="C"&features=".._tr"]?1:[tag="S"& 










154

*DUAL 

=Adj_sup_modifier/modifies 

2:[tag="U"&features=".._n"][tag="U"&features=".._n"]?1:[tag="S"& 


2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"& 


2:[tag="U"&features=".._p"][tag="U"&features=".._p"]?1:[tag="S"& 


2:[tag="U"&features=".._ill"][tag="U"&features=".._ill"]?1:[tag="S"& 


2:[tag="U"&features=".._in"][tag="U"&features=".._in"]?1:[tag="S"& 


2:[tag="U"&features=".._el"][tag="U"&features=".._el"]?1:[tag="S"& 


2:[tag="U"&features=".._all"][tag="U"&features=".._all"]?1:[tag="S"& 


2:[tag="U"&features=".._ad"][tag="U"&features=".._ad"]?1:[tag="S"& 


2:[tag="U"&features=".._abl"][tag="U"&features=".._abl"]?1:[tag="S"& 


2:[tag="U"&features=".._tr"][tag="U"&features=".._tr"]?1:[tag="S"& 










*DUAL 

=ordinal_modifies/modifier 

2:[tag="O"] [tag="O"]?1:[tag="S"] 

*DUAL 

=cardinal_modifies/modifier 

2:[tag="N"] [tag="N"]?1:[tag="S"] 

*DUAL 

=Adj_käändumatu_modifier/modifies 

2:[tag="G"]1:[tag="S"] 

155

*DUAL 

=participle_modifier 

[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"& 

features="nud"]1:[tag="S"] 


features="tud"]1:[tag="S"] 


features="tav"]1:[tag="S"] 


features="mata"]1:[tag="S"] 

*DUAL 

=omastav_modifier/omastav_modifies 

2:[tag="S"&features=".._g"] [tag="A"]{0,2}1:[tag="S"&features!="pl_p"] 

*DUAL 

=omastav_modifier 

[tag!="K"]2:[tag="S"&features=".._g"]1:[tag="A"&features=".._n"] 

2:[tag="S"&(lemma="jumal"|lemma="kurat"|lemma="pagan"|lemma="jaanuar"| 

lemma="veebruar"|lemma="märts"|lemma="aprill"|lemma="mai"|lemma="juuni"| 

lemma="juuli"|lemma="august"|lemma="september"|lemma="oktoober"| 

lemma="november"|lemma="detsember"|lemma="esmaspäev"|lemma="teisipäev"| 

lemma="kolmapäev"|lemma="neljapäev"|lemma="reede"|lemma="laupäev"| 

lemma="pühapäev"|lemma="sajand")&features="sg_g"]1:[tag="D"& 

lemma!="kõige"&lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"& 

lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="just"& 

lemma!="kus"&lemma!="miks"&lemma!="millal"&lemma!="ära"& 

lemma!="juba"&lemma!="välja"&lemma!="ette"] 

*DUAL 

=osastav_modifier/osastav_modifies 

1:[tag="S"&(lemma="liiter"|lemma="meeter"|lemma="tonn"|lemma="kilo"| 

lemma="kilogramm"|lemma="gramm"|lemma="hektar"|lemma="kraad"| 

lemma="paar"|lemma="minut"|lemma="veerand"|lemma="kolmveerand"| 

lemma="päev"|lemma="aasta"|lemma="sekund"|lemma="tund"|lemma="hetk"| 

lemma="jupp"|lemma="jagu"|lemma="grupp"|lemma="nädal"|lemma="hulk"| 

lemma="tükk"|lemma="enamus"|lemma="enamik"|lemma="klaas"| lemma="tass"| 

lemma="klaasike"|lemma="tassike"|lemma="pudel"|lemma="kann"| lemma="kast"| 

lemma="kott"|lemma="hunnik"|lemma="viil"|lemma="sari"|lemma="rühm"| 

lemma="purk"|lemma="punt"|lemma="kari"|lemma="parv"|lemma="kimp"| 

lemma="ports"|lemma="pakk"|lemma="osa"|lemma="kuhi"|lemma="kiht"| 

lemma="rida"|lemma="virn"|lemma="valik")][tag="A"]{0,2}2:[tag="S"& 

features=".._p"][tag!="V"] 

156

*DUAL 

=osastav_modifier 

1:[tag="D"&lemma!="veel"&lemma!="juba"&lemma!="ju"&lemma!="ka"& 

lemma!="siin"&lemma!="seal"&lemma!="täna"&lemma!="siia"&lemma!="kui"& 

lemma!="kas"&lemma!="küll"&lemma!="kus"]2:[tag="S"&features=".._p"] 

*DUAL 

=sisseütlev_modifier 

1:[tag="S"&features!=".._ill"]2:[tag="S"&features=".._ill"] [tag!="V"]? 

2:[tag="S"&features=".._ill"]1: [tag="A"] 

*DUAL 

=seesütlev_modifier 

1:[tag="S"&features!=".._in"]2:[tag="S"&features=".._in"] [tag!="V"]? 

2:[tag="S"&features=".._in"]1: [tag="A"] 

*DUAL 

=seestütlev_modifier 

2:[tag="S"&features=".._el"]1:[tag="S"] 

1:[tag="S"&features!=".._el"]2:[tag="S"&features=".._el"] [tag!="V"] 

2:[tag="S"&features=".._el"]1: [tag="A"] 

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._el"] [tag!="S"& tag!="V"] 

*DUAL 

=alaleütlev_modifier 

1:[tag="S"&features!=".._all"]2:[tag="S"&features=".._all"] [tag!="V"]? 

2:[tag="S"&features=".._all"]1:[tag="A"] 

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._all"] [tag!="S"& tag!="V"] 

*DUAL 

=alalütlev_modifier 

1:[tag="S"&features!=".._ad"]2:[tag="S"&features=".._ad"] [tag!="V"]? 

2:[tag="S"&features=".._ad"]1:[tag="A"] 

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._ad"] [tag!="S"& tag!="V"] 

*DUAL 

=alaltütlev_modifier 

2:[tag="S"&features=".._abl"]1:[tag="S"] 

1:[tag="S"&features!=".._abl"]2:[tag="S"&features=".._abl"] [tag!="V"]? 

2:[tag="S"&features=".._abl"]1: [tag="A"] 

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._abl"] [tag!="S"& tag!="V"] 

157

*DUAL 

=saav_modifier 

2:[tag="S"&features=".._tr"]1:[tag="S"] 

1:[tag="S"&features!=".._tr"]2:[tag="S"&features=".._tr"] [tag!="V"]? 

2:[tag="S"&features=".._tr"]1: [tag="A"] 

2:[tag="S"&features=".._tr"]1:[tag="V"&features="nud"|features="tud"| 

features="tav"] 

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._tr"] [tag!="S"& tag!="V"] 

2:[tag="S"&features=".._tr"]1:[tag="D"&lemma!="kõige"&lemma!="ja"& 

lemma!="ka"&lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"& 

lemma!="kuidas"&lemma!="just"&lemma!="kus"&lemma!="miks"& 

lemma!="millal"&lemma!="ära"&lemma!="juba"&lemma!="välja"& 

lemma!="ette"] 

*DUAL 

=rajav_modifier 

1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._ter"] [tag!="V"]? 

2:[tag="S"&features=".._ter"]1: [tag="A"] 

2:[tag="S"&features=".._ter"]1:[tag="V"&features="nud"|features="tud"| 


2:[tag="S"&features=".._ter"]1:[tag="D"&lemma!="kõige"&lemma!="ja"& 



lemma!="millal"&lemma!="ära"&lemma!="juba"&lemma!="välja"& 

lemma!="ette"] 

*DUAL 

=olev_modifier 

2:[tag="S"&features=".._es"]1:[tag="S"] 

1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._es"][tag!="V"]? 

2:[tag="S"&features=".._es"]1: [tag="A"] 

2:[tag="S"&features=features=".._es"]1:[tag="V"&features="nud"|features="tud"| 


*DUAL 

=ilmaütlev_modifier 

2:[tag="S"&features=".._ab"]1:[tag="S"] 

1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._ab"][tag!="V"]? 

2:[tag="S"&features=".._ab"]1: [tag="A"] 

158

*DUAL 

=kaasaütlev_modifier 

2:[tag="S"&features=".._kom"]1:[tag="S"&features=".._n"]1:[tag="S"& 

features!=".._g"]2:[tag="S"&features=".._kom"][tag!="V"]?2:[tag="S"& 

features=".._kom"]1:[tag="D"&lemma!="kõige"&lemma!="ja"&lemma!="ka"& 

lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"& lemma!="just"& 

lemma!="kuidas"&lemma!="kus"&lemma!="miks"&lemma!="millal"& 

lemma!="ära"&lemma!="juba"&lemma!="välja"&lemma!="ette"] 

2:[tag="S"&features=".._kom"]1: [tag="A"] 

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._kom"] [tag!="S"&tag!="V"] 

*DUAL 

=Pr_modifier/Pr_modifies 

2:[tag="H"&features=".._g"]1:[tag="S"] 

*DUAL 

=Adv_modifier/N_modifies 

2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"& 

lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"& 

lemma!="just"&lemma!="kus"&lemma!="kust"&lemma!="kuhu"& 

lemma!="miks"&lemma!="millal"&lemma!="mil"&lemma!="nüüd"& 

lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"& 

lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"& 

lemma!="eks"&lemma!="alla"&lemma!="alt"&lemma!="edasi"& 

lemma!="eemale"&lemma!="esile"&lemma!="ette"&lemma!="juurde"& 

lemma!="järele"&lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"& 

lemma!="kõrvale"&lemma!="külge"&lemma!="lahku"&lemma!="lahti"& 

lemma!="ligi"&lemma!="läbi"&lemma!="maha"&lemma!="mööda"& 

lemma!="otsa"&lemma!="peale"&lemma!="pealt"&lemma!="ringi"& 

lemma!="sisse"&lemma!="taga"&lemma!="tagant"&lemma!="tagasi"& 

lemma!="täis"&lemma!="vahele"&lemma!="vastu"&lemma!="välja"& 

lemma!="ära"&lemma!="üle"&lemma!="üles"&lemma!="üleval"& 

lemma!="ümber"&lemma!="täna"&lemma!="eile"&lemma!="homme"& 

lemma!="üleeile"&lemma!="ammu"&lemma!="kaua"&lemma!="kauaks"& 

lemma!="varsti"&lemma!="sageli"&lemma!="tihti"&word!="harva"& 

lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="S"&features=".._n"] 

159

DUAL 

=Adv_modifier/Adj_modifies 



lemma!="just"&lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"& 


lemma!="eks")]1:[tag="A"] [tag!="S"] 

*DUAL 

=Adv_modifier/Adv_modifies 



















lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="D"&(lemma!="ja"& 



lemma!="millal")][tag!="V"] 

*DUAL 

=Adv_modifier/V_modifies 










160










lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="V"& 

lemma!="olema"&word!="ei"&features!="tud"] 

*DUAL 

=subject/subject_of 

2:[tag="S"&features=".._n"][tag="D"]?[word="ei"]?1:[tag="V"& 

lemma!="olema"&features!="ta.*"&features!="tu.*"&features!="ti.*"& 

features!="da"&features!="nud"&features!="tud"&features!="des"& 

features!="ma"&features!="maks"&features!="mas"&features!="mast"& 

features!="mata"][tag!="V"&tag!="Х"&word!="alla"&word!="alt"& 

word!="edasi"&word!="eemale"&word!="esile"&word!="ette"&word!="juurde"& 

word!="järele"&word!="kaasa"&word!="kinni"&word!="kokku"& 

word!="kõrvale"&word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"& 

word!="läbi"&word!="maha"&word!="mööda"&word!="otsa"&word!="peale"& 

word!="pealt"&word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"& 

word!="tagasi"&word!="täis"&word!="vahele"&word!="vastu"&word!="välja"& 

word!="ära"&word!="üle"&word!="üles"&word!="üleval"&word!="ümber"] 

1:[tag="V"&lemma!="olema"&word!="ei"&features!="ta.*"&features!="tu.*"& 

features!="ti.*"&features!="da"&features!="nud"]2:[tag="S"&features=".._n"] 

[tag!="V"&tag!="Х"&word!="alla"&word!="alt"&word!="edasi"& 

word!="eemale"&word!="esile"&word!="ette"&word!="juurde"&word!="järele"& 

word!="kaasa"&word!="kinni"&word!="kokku"&word!="kõrvale"& 

word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"&word!="läbi"& 

word!="maha"&word!="mööda"&word!="otsa"&word!="peale"&word!="pealt"& 

word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"&word!="tagasi"& 

word!="täis"&word!="vahele"&word!="vastu"&word!="välja"&word!="ära"& 

word!="üle"&word!="üles"&word!="üleval"&word!="ümber"] 

161

*DUAL 

=object/object_of 

2:[tag="S"&features=".._n"]1:[tag="V"&(features="ti"|features="takse")] 

1:[tag="V"&lemma!="olema"&lemma!="andma"&(features="ge"|features="gem"| 

features="gu")]2:[tag="S"&features=".._n"][word!="alla"&word!="alt"& 

word!="edasi"&word!="eemale"&word!="esile"&word!="ette"&word!="juurde"& 

word!="järele"&word!="kaasa"&word!="kinni"&word!="kokku"& 

word!="kõrvale"&word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"& 

word!="läbi"&word!="maha"&word!="mööda"&word!="otsa"&word!="peale"& 

word!="pealt"&word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"& 

word!="tagasi"&word!="täis"&word!="vahele"&word!="vastu"&word!="välja"& 

word!="ära"&word!="üle"&word!="üles"&word!="üleval"&word!="ümber"] 

1:[tag="V"&word!="ei"&lemma!="olema"&(features!="gem"&features!="ge"& 

features!="gu"&features!="neg.*"&features!="nud"&features!="o"& 

features!="ta.*"&features!="tu.*"&features!="ti"&features!="ma.*"& 

features!="da")][tag="A"]{0,1}[tag="S"&features=".._g"]{0,1}2:[tag="S"& 

features=".._g"] [tag="Z"] 

1:[tag="V"&lemma!="olema"&lemma!="ei"&features!="nud"&features!="tud"] 

2:[tag="S"&features=".._p"][tag!="D"&tag!="K"&tag!="V"&tag!="Х"& 

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"& 

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"& 

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"& 

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"& 

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"& 

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"& 

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"& 

word!="üleval"&word!="ümber"] 

2:[tag="S"&features=".._p"]1:[tag="V"&(features="ti"|features="takse")] 

*DUAL 

=adverbial_sisseütlev 

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"& 

features!="des"&features!="da"&features!="vat"&features!="tav"& 

features!="ma.*"]2:[tag="S"&features=".._ill"][tag!="V"&tag!="Х"& 











162

features!="ma.*"]2:[tag="S"&features=".._adt"][tag!="V"&word!="kinni"& 

word!="lahti"&word!="kokku"&word!="viltu"&word!="läbi"&word!="maha"] 

*DUAL 

=adverbial_seesütlev 



features!="ma.*"]2:[tag="S"&features=".._in"][tag!="V"&tag!="Х"& 









*DUAL 

=adverbial_seestütlev 



features!="ma.*"]2:[tag="S"&features=".._el"][tag!="V"&tag!="Х"& 









*DUAL 

=adverbial_alaleütlev 



features!="ma.*"]2:[tag="S"&features=".._all"][tag!="V"&tag!="Х"& 









163

*DUAL 

=adverbial_alalütlev 



features!="ma.*"]2:[tag="S"&features=".._ad"][tag!="V"&tag!="Х"& 









*DUAL 

=adverbial_alaltütlev 



features!="ma.*"]2:[tag="S"&features=".._abl"][tag!="V"&tag!="Х"& 









*DUAL 

=adverbial_saav 



features!="ma.*"]2:[tag="S"&features=".._tr"][tag!="V"&tag!="Х"& 









164

*DUAL 

=adverbial_rajav 



features!="ma.*"]2:[tag="S"&features=".._ter"][tag!="V"&tag!="Х"& 









*DUAL 

=adverbial_olev 



features!="ma.*"]2:[tag="S"&features=".._es"][tag!="V"&tag!="Х"& 









*DUAL 

=adverbial_ilmaütlev 



features!="ma.*"]2:[tag="S"&features=".._ab"][tag!="V"&tag!="Х"& 








word!="üleval"& word!="ümber"] 

165

*DUAL 

=adverbial_kaasaütlev 



features!="ma.*"]2:[tag="S"&features=".._kom"][tag!="V"&tag!="Х"& 









*DUAL 

=Pron_modifier/modifies 

2:[tag="P"&lemma!="see"&lemma!="mina"&lemma!="sina"&lemma!="tema"& 

lemma!="meie"&lemma!="teie"&lemma!="nemad"&lemma!="kes"& 

lemma!="mis"]1:[tag="S"] 

*DUAL 

=predicate_N/predicate_N_of 

1:[tag="S"&features=".._n"][tag="V"&lemma="olema"][tag="A"&features=".._n"] 

?2:[tag="S"& features=".._n"][tag!="H"] 

*DUAL 

=predicate_Adj/predicate_Adj_of 

1:[tag="S"&features=".._n"][tag="V"&lemma="olema"]2:[tag="A"& 

features=".._n"][tag!="S"& tag!="V"]? 

[tag="V"&lemma="olema"]1:[tag="S"&features=".._n"]2:[tag="A"& 

features=".._n"] [tag!="S"] 

*DUAL 

=predicate_Adj_saav/predicate Adj_saav_of 

1:[tag="V"&lemma!="ei"&features!="maks"&features!="mas"&features!="mast"& 

features!="mata"&features!="tud"&lemma!="ole.*"][tag="S"]?2:[tag="A"& 

features=".._tr"][tag!="V"] 

*DUAL 

=predicate_Adj_olev/predicate Adj_olev_of 

1:[tag="V"&lemma!="ei"&features!="maks"&features!="mas"&features!="mast"& 

features!="mata"&features!="tud"&lemma!="ole.*"][tag="S"]?2:[tag="A"& 

features=".._es"][tag!="V"] 

166

*DUAL 

=afiksaaladverb/afiksaaladverb_of 

[tag!="V"]*2:[tag="D"&(word="alla"|word="alt"|word="edasi"|word="eemale"| 

word="esile"|word="ette"|word="juurde"|word="järele"|word="kaasa"| 

word="kinni"|word="kokku"|word="kõrvale"|word="külge"|word="lahti"| 

word="ligi"|word="läbi"|word="lahku"|word="maha"|word="mööda"|word="otsa"| 

word="peale"|word="pealt"|word="ringi"|word="sisse"|word="taga"| 

word="tagant"|word="tagasi"|word="täis"|word="vahele"|word="vastu"| 

word="valmis"|word="viltu"|word="välja"|word="ära"|word="üle"|word="üles"| 

word="üleval"|word="ümber"|word="valmis"|word="püsti"|word="laiali"| 

word="katki"|word="tarvis")]1:[tag="V"&word!="ei"&features!="maks"& 

features!="mas"&features!="mast"&features!="mata"&features!="tud"& 

lemma!="olema"] 

1:[tag="V"&word!="ei"&features!="maks"&features!="mas"&features!="mast"& 

features!="mata"&features!="tud"&lemma!="olema"][tag="S"]?2:[tag="D"& 

(word="alla"|word="alt"|word="edasi"|word="eemale"|word="esile"|word="ette"| 

word="juurde"|word="järele"|word="kaasa"|word="kinni"|word="kokku"| 

word="kõrvale"|word="külge"|word="lahti"|word="ligi"|word="läbi"| 

word="lahku"|word="maha"|word="mööda"|word="otsa"|word="peale"| 

word="pealt"|word="ringi"|word="sisse"|word="taga"|word="tagant"| 

word="tagasi"|word="täis"|word="vahele"|word="vastu"|word="valmis"| 

word="viltu"|word="välja"|word="ära"|word="üle"|word="üles"|word="üleval"| 

word="ümber"|word="valmis"|word="püsti"|word="laiali"|word="katki"| 

word="tarvis")][tag!="V"] 

*DUAL 

=väljendverb/väljendverb 

2:[tag="V"&features!="tud"]1:[tag="X"] [tag!="V"] 

[tag!="V"]?1:[tag="X"]2:[tag="V"] 

*SEPARATEPAGE N_PP 

*TRINARY 

=N_PP_%s 

1:[tag="S"]2:[tag="S"] 3:[tag="K"] 

1:[tag="S"] 3:[tag="K"]2:[tag="S"] 

*SEPARATEPAGE Adj_PP 

*TRINARY 

=Adj_PP_%s 

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._g"]3:[tag="K"&(word="ees"| 

word="eest"|word="järele"|word="peale"|word="poolest"|word="puhul"| 

word="seas"|word="suhtes"|word="vastu"|word="üle")] [tag!="S"] 

167

*SEPARATEPAGE Adv_PP 

*TRINARY 

=Adv_PP_%s 

2:[tag="S"]3:[tag="K"]1:[tag="D"&lemma!="ja"&lemma!="ka"&lemma!="nii"& 

lemma!="kui"&lemma!="kas"&lemma!="veel"&lemma!="kuidas"& 

lemma!="just"&lemma!="kus"&lemma!="miks"&lemma!="millal"& 

lemma!="alla"&lemma!="alt"&lemma!="edasi"&lemma!="eemale"& 

lemma!="esile"&lemma!="ette"&lemma!="juurde"&lemma!="järele"& 

lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&lemma!="kõrvale"& 

lemma!="külge"&lemma!="lahku"&lemma!="lahti"&lemma!="ligi"& 

lemma!="läbi"&lemma!="maha"&lemma!="mööda"&lemma!="otsa"& 

lemma!="peale"&lemma!="pealt"&lemma!="ringi"&lemma!="sisse"& 

lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&lemma!="täis"& 

lemma!="vahele"&lemma!="vastu"&lemma!="välja"&lemma!="ära"& 

lemma!="üle"&lemma!="üles"&lemma!="üleval"&lemma!="ümber"& 

lemma!="kui"&lemma!="kas"&lemma!="nii"&lemma!="ka"&lemma!="kuidagi"& 

lemma!="kas"&lemma!="väga"&lemma!="juba"&lemma!="siis"] 

*SEPARATEPAGE V_PP 

*TRINARY 

=V_PP_%s 

1:[tag="V"&features!="maks"&features!="mas"&features!="mast"& 

features!="mata"&features!="tud"&features!="nud"&lemma!="olema"& 

lemma!="ei"]2:[tag="S"]3:[tag="K"&word!="allapoole"&word!="altpoolt"& 

word!="eespool"&word!="enne"&word!="hoolimata"&word!="ilma"& 

word!="keset"&word!="kesk"&word!="koos"&word!="kuni"&word!="piki"& 

word!="põiki"&word!="päri"&word!="risti"&word!="sealpool"& 

word!="sealtpoolt"&word!="seespool"&word!="siiapoole"&word!="siinpool"& 

word!="siitpoolt"&word!="sinnapoole"&word!="sissepoole"&word!="teispool"& 

word!="teispoole"&word!="tänu"&word!="väljapoole"&word!="väljaspool"& 

word!="väljaspoolt"&word!="ülalpool"&word!="ülaltpoolt"&word!="ülespoole"& 

word!="ülevalpool"&word!="ülevaltpoolt"&word!="läbi"&word!="mööda"& 

word!="tükkis"&word!="ühes"&word!="üle"][tag!="V"&tag!="X"& 









168

1:[tag="V"]3:[tag="K"&(word="allapoole"|word="altpoolt"|word="eespool"| 

word="enne"|word="hoolimata"|word="ilma"|word="keset"|word="kesk"| 

word="koos"|word="kuni"|word="piki"|word="põiki"|word="päri"|word="risti"| 

word="sealpool"|word="sealtpoolt"|word="seespool"|word="siiapoole"| 

word="siinpool"|word="siitpoolt"|word="sinnapoole"|word="sissepoole"| 

word="teispool"|word="teispoole"|word="tänu"|word="väljapoole"| 

word="väljaspool"|word="väljastpoolt"|word="ülalpool"|word="ülaltpoolt"| 

word="ülespoole"|word="ülevalpool"|word="ülevaltpoolt"|word="läbi"| 

word="mööda"|word="tükkis"|word="ühes"|word="üle")]2:[tag="S"][tag!="V"& 

tag!="X"&word!="alla"&word!="alt"&word!="edasi"&word!="eemale"& 

word!="esile"&word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"& 

word!="kinni"&word!="kokku"&word!="kõrvale"&word!="külge"& 

word!="lahku"&word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"& 

word!="mööda"&word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"& 

word!="sisse"&word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"& 

word!="vahele"&word!="vastu"&word!="välja"&word!="ära"&word!="üle"& 

word!="üles"&word!="üleval"&word!="ümber"][tag!="V"] 

*SEPARATEPAGE ühendverb 

*TRINARY 

=PP_%s_ühendverb 

[tag!="V"]1:[tag="V"&word!="ei"&features!="maks"&features!="mas"& 

features!="mast"&features!="mata"&features!="tud"&lemma!="ole.*"]2:[tag="S"] 

3:[tag="D"&(word="alla"|word="alt"|word="edasi"|word="eemale"|word="esile"| 

word="ette"|word="juurde"|word="järele"|word="kaasa"|word="kinni"| 

word="kokku"|word="kõrvale"|word="külge"|word="lahku"|word="lahti"| 

word="ligi"|word="läbi"|word="maha"|word="mööda"|word="otsa"|word="peale"| 

word="pealt"|word="ringi"|word="sisse"|word="taga"|word="tagant"| 

word="tagasi"|word="täis"|word="vahele"|word="vastu"|word="välja"|word="ära"| 

word="üle"|word="üles"|word="üleval"|word="ümber")][tag!="V"]? 

169

SUMMARY 

SYNTAGMATIC RELATIONSHIPS OF ESTONIAN CONTENT 

WORDS IN CORPUS AND PEDAGOGICAL LEXICOGRAPHY 

The purpose of this thesis is to provide a methodological framework for corpusbased 

lexicographic analysis of the syntagmatic relations of Estonian nouns, 

adjectives, adverbs, and verbs and to suggest options for presentation of 

syntagmatic information in lexicographic databases and in dictionaries compiled for 

learners of Estonian as a second or foreign language. 

The Longman Dictionary of Language Teaching and Applied Linguistics (Richards, 

Schmidt 2002: 534) defines syntagm as a structurally significant combination of 

two or more units in a language and syntagmatic relations as a relationship that 

linguistic units (e.g. words, clauses) have with other units because they may occur 

together in a sequence. For example, a word may be said to have syntagmatic 

relations with the other words which occur in the sentence in which it appears. 

In this thesis the syntagmatic relations of Estonian content words are identified on 

the basis of traditional (Tauli 1980; EKG 1993; Kerge 2000; Erelt 2003a; Erelt et al. 

2007) and formal (Müürisep 2000; Puolakainen 2001; Roosmaa et al. 2001) 

Estonian language grammar descriptions. Syntagmatic relations of content words 

are described as lexico-grammatical constructions defined by means of 

morphosyntactic categories (phrase type, part of speech, inflectional categories). 

The structure of the thesis is as follows. An introductory chapter provides an 

overview of the general principles and methodology used to research the topic and 

evaluate the results. Main aims and objectives are identified. 

In the second chapter the methods (statistical and rule-based) used in modern 

corpus lexicography for automatic acquisition of syntagmatic relations are analysed. 

The main focus is on rule-based method used within the lexicographic tool Sketch 

Engine 54 to produce word sketches (one-page automatic, corpus-based summaries 

of a word’s grammatical and collocational behaviour) (Kilgarriff et al. 2004). The 

main principles of compilation of Estonian sketch grammar (a set of rules that 

describe the grammatical relations in a particular language) are outlined. 

54 See http://www.sketchengine.co.uk/ (15.10.12). The main features of Sketch Engine are 

concordance lines, word sketches, thesaurus (providing a lexicographer with a list of potential 

[near] synonyms), Sketchdiff (comparing word sketches for two words, showing the collocations 

that they have in common and those they do not) and Good Dictionary Example (GDEX), which 

attempts to automatically sort the sentences in a concordance according to how likely they are to 

be good dictionary examples (Kilgarriff, Kosem 2012d, see also Kilgarriff et al. 2004, Kilgarriff 

et al. 2008). 

170

The third chapter provides a list of the syntagmatic relations of Estonian content 

words. The sketch grammar used for their acquisition and the system's quantitative 

evaluation results are presented. 

The fourth chapter explores how advanced features of modern corpus lexicography 

have influenced the production of syntagmatic dictionaries and which 

methodologies are used for (semi-)automatic generation of lexicographic databases. 

Also, various formats for presenting syntagmatic information (mostly constructions 

and collocations) are described. 

The fifth chapter gives an overview of what kind of information is presented 

traditionally in syntagmatic dictionaries of Estonian. Using the example of the 

corpus-based active Basic Estonian Dictionary (the dictionary is being compiled for 

Estonian language learners at the beginner and lower-intermediate levels) the author 

suggests choice criteria for syntagmatic information; develops an innovative model 

for a dictionary database which allows systematic description of syntagmatic 

relations of headwords; and demonstrates how word sketches can be used for 

learners’ dictionary production. 

The final chapter presents the most important conclusions of the thesis, addresses 

unsolved problems and considers different research perspectives. 

For automatic acquisition of lexicographically relevant co-constituents of noun, 

verb, adverb and adjective headwords corpus lexicography uses statistical and rulebased 

methods. The statistical tools involved are primarily used to identify 

collocations and other instances of regularly co-occurring lexical items in a text 

corpus. Words located within a certain distance on either side of the word that is 

being investigated are retrieved and listed in order of significance (Svensén 2009: 

451). Various statistics are used to measure collocational strength. Rule-based 

methods are more restrictive. The system deals only with grammatically related cooccurrences. 

For Estonian there are two online corpus tools that allow analysis of syntagmatic 

relationships. These are Kollokatsioonide tuvastaja 55 and the Estonian module of 

Sketch Engine 56 (Kilgarriff et al. 2004). Kollokatsioonide tuvastaja allows a part-ofspeech 

filter to be used and provides statistics in order to find statistically 

significant co-occurrences. The system identifies salient collocates according to 

log-likelihood, mutual information (MI) and minimum sensitivity scores. Sketch 

Engine employs both approaches. First, it allows collocates to be identified 

according to t-score, MI, MI 3 -score, log-likelihood, minimum sensitivity and 

logDice scores. Comparison of various statistics has indicated that useful collocate 

candidates for lexicographic analysis are offered by MI 3 -score, minimum sensitivity 

55 See http://www.rabauti.ee/clc (20.06.12). 

56 Sketch Engine's Estonian module uses the Estonian Reference Corpus of 250 million words as 

input. The corpus had previously been annotated morphologically, lemmatized, partially 

disambiguated and annotated by clause by Filosoft LLC. 

171

and logDice statistics. Collocate candidates offered by MI and t-score are not useful 

to lexicographers as many frequent functional words and other noise (punctuation 

marks) dominate the list. Secondly, the rule-based method allows the acquisition of 

grammatically related statistically significant collocates. Kilgarriff and Kosem 

(2012d: 41) define pure statistical methods of finding collocates as “grammatically 

blind” and point out that lexicographically interesting collocates are, in most cases, 

words occurring in a particular grammatical relation to the node word. In this thesis 

a method for generating word sketches that was developed within the Sketch 

Engine (Kilgarriff et al. 2004) is implemented. For word sketches to be built, the 

system must be told what the grammatical relations are for the language, and where 

in the corpus they are instantiated. There are two ways to do this. The input corpus 

may already be parsed, with grammatical relations given in the input corpus. The 

other way is to define the grammatical relations (compile a sketch grammar), and 

parse the corpus, within the tool. To do this, the input corpus must be tagged for 

parts of speech. Then each grammatical relation is defined as a regular expression 

over part-of-speech tags, using corpus query language (Kilgarriff, Kosem 2012d: 

45). 

Estonian sketch grammar is geared towards the specification of the Estonian 

Reference Corpus and it contains 85 rules. 

For nouns the system searches for modifying adjectives, participles, oblique-case 

substantives, adverbs, pronouns, prepositional phrases, non-finite verbs and (by 

identifying conjunctive words) subordinate clauses. 

For adjectives the system searches for modifying adjectives, adverbs, oblique-case 

substantives, prepositional phrases, non-finite verbs and (by identifying conjunctive 

words) subordinate clauses. 

For adverbs the system searches for modifying adverbs, oblique-case substantives, 

prepositional phrase and (by identifying conjunctive words) subordinate clauses. 

For verbs the system searches for substantives that function as subjects, objects and 

adverbials, and also for modifying adjectives, adverbs, prepositional phrases, nonfinite 

verbs, gerundives and (by identifying conjunctive words) subordinate clauses. 

Multiword verbs: particle verbs (verb + adverb particle, e.g. alla kukkuma ʽfall 

downʼ); expression verbs (verb + noun/adjective phrase, e.g. aru saama 

ʽunderstandʼ); catenative verbs (verb + non-finite verb, e.g. käima panema ʽstartʼ, 

lit. ʽmake [the engine] workʼ); and support verb constructions (e.g. läbirääkimisi 

pidama ʽnegotiateʼ) are considered separately. 

Since adverbial particles are tagged in the corpus as regular adverbs, a list of 

adverbial particles was compiled. The system identifies the most frequent adverbial 

particles used with a particular verb. This feature has great value when 

lexicographers need to choose what kind of particle verbs should be presented in the 

dictionary. Secondly, it is possible to see components of expression verbs on 

condition that the component concerned has the part-of-speech tag X. Other 

172

components of multiword verbs are identified as objects, adverbials or modifying 

non-finite verbs. 

Also constructions with conjunctions ja/või ‘and/or’, kui/nagu ‘as’ can be found for 

all content words. For nouns the system searches also for predicatives 

(complements of the copula-like verb olema ‘be’). 

Figure 81 shows the word sketch for the noun diskussioon ‘discussion’. 

Figure 81. Word sketch of the noun diskussioon ‘discussion’ in the Estonian 

Reference Corpus. 

Word Sketch offers the lexicographer the most frequent collocates that occur as 

adjectival modifiers (e.g. avalik ʽpublicʼ, poliitiline ʽpoliticalʼ, elav ʽlivelyʼ, tõsine 

ʽseriousʼ, pikk ʽlongʼ, avatud ʽopenʼ), various oblique-case substantive modifiers 

(e.g. diskussiooni objekt/teema/tulemus ʽobject/topic/result of discussionʼ) and in 

the ʽand/orʼ (e.g. diskussioon ja arutelu ʽdiscussion and debateʼ) relation to the 

node word. Also identified are relations where the node word functions as subject 

and object, e.g. diskussioon käib/tekib/jätkub ʽdiscussion takes 

place/starts/continuesʼ, diskussiooni alustama/algatama/jätkama/avama 

ʽstart/initiate/continue/open a discussionʼ. 

173

As Rundell and Kilgarriff (2011) point out, though originally seen as a useful 

supplementary tool, the sketches provide a compact and revealing snapshot of a 

wordʼs behaviour and uses and have, in most cases, become the preferred starting 

point in the process of analysing complex headwords. 

For evaluation of Estonian word sketches the method proposed in Kilgarriff et al. 

(2010a) was used. Kilgarriff et al. (2010a: 375) emphasize that the quality of the 

word sketches depends on the quality and size of the corpus, lemmatizer, part-ofspeech 

tagger, sketch grammar and statistics. The evaluation implicitly evaluates all 

components. However, from the user's perspective the evaluation needs to tell 

potential users – here, lexicographers – if the system is good enough to help their 

task: in this case, making dictionaries. 

Precision (the percentage of the answers given that are correct) is calculated as 

follows. For a sample of words, for each collocate in the word sketch the 

lexicographer has to assess whether a particular collocate is lexicographically 

relevant, whether it is useful for lexicographic analysis of the word's collocational 

and grammatical behaviour or not. A customised version of the Sketch Engine was 

prepared, in which word sketches contained 20 collocates for each word, and in 

which each collocate was associated with a menu with the item good or bad. A 

screenshot of the interface is shown in Figure 82. 

174

Figure 82. Screenshot of word sketch evaluatorsʼ interface. 

Seven lexicographers from the Institute of the Estonian Language were asked to 

assess word sketches. The total number of collocations assessed by all evaluators 

was 320. 

The analysis of evaluation revealed that all evaluators agreed that 70% (222 

collocates) were good and 22% (71 collocates) were bad. While 8% (27 collocates) 

were assessed as good by the majority of evaluators, some lexicographers 

considered them bad. This means that two thirds or more of collocations were 

assessed by lexicographers as lexicographically relevant. Sources of bad collocates 

175

were part-of-speech tagging, lemmatization errors and multiword items. Where 

lexicographers did not agree was mostly on collocates which had very contextspecific 

markedness and were very frequent in particular subcorpora. This 

explanatory remark emphasizes the importance of corpus size and coverage. 

As Paquot (2012: 164–165) states, using corpora as the basis for the description of 

words and phrases has become widely established as state-of-the-art dictionary 

making practice in pedagogical lexicography. Lexicographers have made use of 

corpus data to select the words they want to include in a learners’ dictionary, 

describe their meaning and illustrate their preferred environment in context. 

In modern corpus-based pedagogical lexicography there is a clear tendency towards 

automatic generation of entries (Kilgarriff et al. 2008). Another tendency is towards 

direct transfer of collocations from corpus tool to dictionary entry (Kilgarriff, 

Kosem 2012d). Strong connection between corpus tools and dictionary writing 

systems has also influenced the way syntagmatic relations are analysed and 

described in corpus-based syntagmatic dictionaries. 

According to Svensén (2009: 30) the syntagmatic information provided in a 

dictionary is concerned with the behaviour of the lemma in combination with other 

words, both grammatically and lexically, and syntagmatic dictionaries are 

concerned with the relations between lexical items and other items with which they 

can be combined. In dictionary typology proposed by Bo Svensén (2009: 30) there 

are three main types of syntagmatic dictionary: construction or valency dictionaries, 

collocation dictionaries and idiom dictionaries. As Hunston and Francis (2000: 28) 

point out, the traditional description of English makes a clear separation between 

lexis and grammar. This issue is also reflected in Svensénʼs (2009: 30) typology. 

On the other hand, Sinclair (1991: 114) insists that the evidence of corpuslinguistics 

points to the falsity of the distinction between lexis and grammar. 

Sinclairʼs ideas were developed by different scholars who proposed to describe 

language not in terms of grammar and lexis, but in terms of lexico-grammatical 

patterns. Hunston and Francis (2000: 32) define the patterns of a word as all the 

words and structures which are regularly associated with the word and which 

contribute to its meaning. A pattern can be identified if a combination of words 

occurs relatively frequently, if it is dependent on a particular word choice, and if 

there is a clear meaning associated with it. The same strategy is used in modern 

pedagogical dictionaries of English collocations, e.g. in the Macmillan Collocations 

Dictionary for Learners of English (2012). In this dictionary the various collocates 

within each entry (or sub-entry) are grouped in the first instance according to the 

lexico-grammatical structure formed by the collocational phrase. These structures 

are indicated by brief labels, with capital letters representing the base item (the 

headword) within each phrase. At the entry for the noun design, for example, the 

lexico-grammatical groups or collocational patterns are adj+N and N+n (Coffey 

2011: 329). The use of such kinds of collocational pattern eliminates the necessity 

to analyse grammatical and lexical items separately. 

176

Another essential feature of modern pedagogical lexicography is the use of 

multifunctional lexicographic databases, which allow each item to be analysed from 

different points of view. The Tono 2011 collocation database not only provides 

information about frequency and collocation statistics, but also shows on which 

CEFR (Common European Framework of Reference for Languages) level a 

particular item should be used and whether or not collocation is presented in junior 

high school English textbooks in Japan. This approach makes the information 

presented in syntagmatic dictionaries more manageable, more reliable and more 

finely adjusted to target usersʼ needs. 

At the moment there are no syntagmatic specialized dictionaries of Estonian 

language which would provide information about grammatical and collocational 

properties of lexemes of different parts of speech. A brief overview of the kind and 

manner of syntactic information in Estonian language dictionaries is presented in 

Langemets et al. (2005: 72). The authors emphasize that syntactic constructions 

have been described in several Estonian dictionaries, but mostly implicitly, by 

means of case examples, as no general syntactic encoding system has yet been 

elaborated. However, there are a few specialized dictionaries which explicitly 

provide information about government patterns (e.g. Pool 1999; Vaiss 2004; UNG- 

EE 2010; Mäearu 2011). An analysis of government patternsʼ presentation formats 

revealed that information is presented either in coded metalanguage or by means of 

dead examples. A dead example is an invented example containing only those 

elements that are indispensable for conveying the grammatical information 

(Svensén 2009: 147). Mostly cases, infinitives and prepositional phrases are used 

(e.g. õnnelik mille üle ʽhappy with sthʼ). As a rule all syntactic information is also 

illustrated on the level of authentic or adapted examples. 

Analysis of the information which is typically presented in Estonian L2 dictionary 

entries (see also Kallas, Tuulik 2011) indicated that lexicographers of the Estonian 

language as a second language need to elaborate a new format for explicit 

presentation of syntagmatic information in dictionary entries. 

In the thesis a theoretical conception of a Basic Estonian Dictionary is presented. It 

is a comprehensive print and online dictionary of contemporary Estonian compiled 

for learners of Estonian as a second or foreign language (A2, B1 proficiency level). 

In order to support the development of lexical and grammatical competence the 

dictionary aims to present explicitly syntagmatic relations of Estonian substantives, 

adjectives, adverbs and verbs. 

The author proposes basic principles that should be considered while compiling 

learner dictionaries of Estonian as a second or foreign language. First, there is a 

need to take into consideration the basic linguistic competence components 

described by the CEFR (Hausenberg et al. 2008; Ilves 2008). The CEFR 

emphasizes the importance of government patterns, collocations and phrasal verbs. 

Secondly, in order to guarantee the suitability of a dictionary profile for users of a 

certain linguistic proficiency, there is a need to use existing vocabulary profile 

descriptions. Finally, statistical information can be very useful. Statistics provide 

177

evidence that while compiling dictionaries for basic users, it is reasonable to choose 

constructions on the basis of raw co-occurrence. Sorting collocations according to 

salience brings forward a greater number of rare collocates that may be more 

appropriate for independent and proficient users. 

The database of the Basic Estonian Dictionary is organized into several fields: 

lemma, pronunciation, inflectional information, definition, word formation, 

government, collocation, multiword patterns and semantically related words 

(synonyms, antonyms). 

The government pattern field contains data about the government pattern together 

with attributes for the type of government (object, case, adposition, infinitive 

government, etc.), as well as position of the complements, obligatory complements 

and complementation variability. For example, mitu ʽmanyʼ requires object 

government of keda-mida ʽsb-sth-Pʼ as in the usage example: Mitu last sul on? 

ʽHow many children do you have?ʼ; kukkuma ʽto fall downʼ is described by the 

pattern (kust) + kuhu meaning that the complement kuhu ʽwhere-ILLʼ is obligatory 

while kust ʽwhere-ELAʼ is optional as in the example: Kivi kukkus vette ʽThe stone 

fell into the waterʼ. 

The collocation pattern field contains data about the collocation pattern together 

with attributes for the type of the collocation. Collocation patterns are described by 

means of categorical and functional-relational labels. For example, the collocation 

ajakirja tellima ʽto subscribe to a journalʼ belongs to the N(O)+V (ʽNoun (object) + 

Verbʼ) type of the collocation as in the usage example of Ta tellib välismaalt 

teaduslikke ajakirju ʽajakiri-PL.Pʼ ʽHe/She subscribes to scientific journals from 

abroadʼ ʽjournal-PL.Pʼ. 

The multiword pattern field is meant for the presentation of particle, expression and 

catenative verbs, and support verb constructions. 

In the thesis the author shows how the most frequent government and collocational 

patterns can be identified on the basis of word sketches. Also, the potential of word 

sketches for syntax-semantic interface is analysed. Using the example of the verb 

saabuma, ʽarriveʼ the author illustrates a method developed for verb meaning 

analysis, division into senses and identifying the semantic roles of dependents. 

In conclusion it should be emphasized that corpus lexicography is quite a young 

scientific discipline which has great potential for development. The symbiosis of 

corpus and pedagogical lexicography is certainly one of the most promising fields 

for future research. 

178

ELULOOKIRJELDUS 

Nimi: Jelena Kallas 

Sünniaeg ja -koht: 21. oktoober 1976, Narva 

Kodakondsus: Eesti 

Haridus 

2011 täiendkoolitus: 16.–17.03.2011 Brighton, Inglismaa 

2010 täiendkoolitus: 06.–11.06.2010 Ljubljana Ülikool, Sloveenia 

2002 täiendkoolitus: 15.–19.07.2002 Brightoni Ülikool, Inglismaa 

2003–2013 Tallinna Ülikool, doktoriõpe 

2000–2003 Tallinna Pedagoogikaülikool, Magister artium kraad eesti keele 

erialal 

1996–2000 Tallinna Pedagoogikaülikool, Baccalaureus artium kraad eesti keele 

kui võõrkeele ja kultuuriloo erialal; lisaeriala põhikooli inglise keele 

õpetaja 

Teenistuskäik 

05.01.2011– Eesti Keele Instituut, teadur 

01.04.2010–05.01.2011 Eesti Keele Instituut, leksikograaf 

2003–05.01.2011 Eesti Keele Instituut, erakorraline teadur 

2000–2003 Eesti Keele Instituut, assistent 

Teadustegevus 

Põhilised uurimisvaldkonnad on teoreetiline ja praktiline leksikograafia, eesti keele 

kui teise keele õpetamise metoodika. 

Eesti Rakenduslingvistika Ühingu ja rahvusvahelise leksikograafide ühingu 

EURALEX liige. 

179

CURRICULUM VITAE 

Name: Jelena Kallas 

Date and place of birth: 21 October, 1976, Narva 

Citizenship: Estonian 

Education 

2011 2nd International Sketch Engine Workshop, 16.–17.03.2011 

Brighton, England 

2010 Lexicom International Workshop in Lexicography and Lexical 

Computing, 06.–11.06.2010 Ljubljana University, Slovenia 

2002 Lexicom International Workshop in Lexicography and Lexical 

Computing, 15.–19.07.2002 Brighton University, England 

2003–2013 Tallinn University, PhD studies 

2000–2003 Tallinn Pedagogical University, MA studies (specialisation: 

Estonian Philology) 

1995–2000 Tallinn Pedagogical University, BA studies (specialisation: 

Estonian Philology) 

Employment 

05.01.2011– Institute of the Estonian Language, researcher 

01.04.2010–05.01.2011 Institute of the Estonian Language, lexicographer 

2003–05.01.2011 Institute of the Estonian Language, extraordinary researcher 

2000–2003 Institute of the Estonian Language, assistant 

Research activity 

Field of research: theoretical and practical lexicography, Estonian as a Second 

Language teaching methodology. 

Member of the Estonian Association for Applied Linguistics and of the European 

Association for Lexicography (EURALEX). 

180





1. СЕРГЕЙ ДОЦЕНКО. Проблемы поэтики А. М. Ремизова. Автобиографизм как 

конструктивный принцип творчества. Таллинн: Изд-во ТПУ, 2000. 162 стр. Таллиннский 

педагогический университет. Диссертации по гуманитарным наукам, 1. ISSN 

1406-4391. ISBN 9985-58-135-0. 

2. MART KIVIMÄE. Ajaloomõtlemise kolm strateegiat ja nende dialoogisuhted minevikuga 

(lisades tõlgitud R. Koselleck, J. Rüsen, E. Nolte). Historismi muutumise, arendamise, 

ületamise probleemid. Tallinn: TPÜ kirjastus, 2000. 201 lk. Tallinna Pedagoogikaülikool. 

Humanitaarteaduste dissertatsioonid, 2. ISSN 1406–4391. ISBN 9985-58-164-4. 

3. НАТАЛЬЯ НЕЧУНАЕВА. Минея как тип славяно–греческого средневекового 

текста. Таллинн: Изд-во ТПУ, 2000. 177 стр. Таллиннский педагогический 

университет. Диссертации по гуманитарным наукам, 3. ISSN 1406-4391. ISBN 

9985-58-125-3. 

4. ОЛЕГ КОСТАНДИ. Раннее творчество В. Каверина как литературный и 

культурный феномен. Таллин: Изд-во ТПУ, 2001. 142 стр. Таллиннский 

педагогический университет. Диссертации по гуманитарным наукам, 4. ISSN 1406– 

4391. ISBN 9985-58-180-6. 

5. LAURI LINDSTRÖM. Album Academicum Universitatis Tartuensis 1918–1944. Rahvus, 

sugu, sünnikoht ja keskhariduse omandamise koht üliõpilaskonna kujunemist ja 

kõrghariduse omandamist mõjutavate teguritena. Tallinn: TPU Press, 2001. 92 p. Tallinn 

Pedagogical University. Dissertations on Humanities Sciences, 5. ISSN 1406-4391. ISBN 

9985-58-190-3. 

6. AУРИКA MEЙMPE. Руccкиe литератoры-эмигрaнmы в Эcmoнии 1918–1940. Нa 

матepиaлe пеpиoдическoй печaти. Таллин: Изд-во ТПУ, 2001. 165 стр. 

Таллиннский педагогический университет. Диссертации по гуманитарным 

наукам, 6. ISSN 1406-4391. ISBN 9985-58-205-5. 

7. AIVAR JÜRGENSON. Siberi eestlaste territoriaalsus ja identiteet. Tallinn: TPÜ 

kirjastus, 2002. 312 lk. Tallinna Pedagoogikaülikool. Humanitaarteaduste 

dissertatsioonid, 7. ISSN 1406–4391. ISBN 9985-58-239-X. 

8. DAVID VSEVIOV. Kirde-Eesti urbaanse anomaalia kujunemine ning struktuur 

pärast Teist maailmasõda Tallinn: TPÜ kirjastus, 2002. 104 lk. Tallinna 

Pedagoogikaülikool. Humanitaarteaduste dissertatsioonid, 8. ISSN 1406-4391. ISBN 

9985-58-242-X. 

9. ROMAN KALLAS. Eesti kirjanduse õpetamise traditsioon XX sajandi vene õppekeelega 

koolis. Tallinn: TPÜ kirjastus, 2003. 68 lk. Tallinna Pedagoogikaülikool. 

Humanitaarteaduste dissertatsioonid, 9. ISSN 1406–4391. ISBN 9985-58-256-X. 

181

10. KRISTA KERGE. Keele variatiivsus ja mine-tuletus allkeelte süntaktilise keerukuse 

tegurina. Tallinn: TPÜ kirjastus, 2003. 246 lk. Tallinna Pedagoogikaülikool. 

Humanitaarteaduste dissertatsioonid, 10. ISSN 1406-4391. ISBN 9985-58-265-9. 

11. АННА ГУБЕРГРИЦ. Русская драматургия для детей как элемент субкультуры: 

1920–1930-е годы. Таллинн: Изд-во ТПУ, 2004. 168 стр. Таллиннский 

педагогический университет. Диссертации по гуманитарным наукам, 11. ISSN 1406– 

4391. ISBN 9985-58-302-7. 

12. VAHUR MÄGI. Inseneriühendused Eesti riigi ülesehituses ja kultuuriprotsessis (1918– 

1940). Tallinn: TPÜ kirjastus, 2004. 146 lk. Tallinna Pedagoogikaülikool. 


13. HEIKKI OLAVI KALLIO. Suomen ja Viron tiedesuhteet erityisesti Viron 

miehitysaikana vuosina 1940–1991. Tallinn: Tallinnan Pedagogisen Yliopiston 

kustantamo, 2004. 243 lk. Tallinnan Pedagogisen Yliopiston. Humanististen tieteiden 

väitöskirjat, 13. ISSN 1406-4391. ISBN 9985-58-350-7. 

14. ÜLLE RANNUT. Keelekeskkonna mõju vene õpilaste eesti keele omandamisele ja 

integratsioonile Eestis. Tallinn: TLÜ kirjastus, 2005. 215 lk. Tallinna Ülikool. 


15. MERLE JUNG. Sprachspielerische Texte als Impulse für schriftliche Textproduktion im 

Bereich Deutsch als Fremdsprache. Tallinn: Verlag der Universität Tallinn, 2006. 186 

S. Universität Tallinn. Dissertationen in den Geisteswissenschaften, 15. ISSN 1406- 

4391. ISBN 9985-58-409-0 

16. ANDRES ADAMSON. Hertsog Magnus von Holmsteini roll Läänemere-ruumis 

Liivi sõja perioodil. Tallinn: TLÜ kirjastus, 2005. 156 lk. Tallinna Ülikool. Humanitaarteaduste 

dissertatsioonid, 16. ISSN 1736-3624. ISBN 9985-58-427-9. 

17. АИДА ХАЧАТУРЯН. Роман В.С. Маканина «Андеграунд, или Герой нашего 

времени»: Homo urbanis в поле «усреднения». Таллинн: Изд-во ТПУ, 2006. 146 стр. 

Таллиннский педагогический университет. Диссертации по гуманитарным 

наукам, 17. ISSN 1736–3624. ISBN-10 9985-58-435-X. ISBN-13 987-9985-58-435-4. 

18. JULIA TOFANTŠUK. Construction of Identity In The Fiction of Contemporary British 

Women Writers (Jeanette Winterson, Meera Syal, and Eva Figes). Tallinn: Tallinn 

University Press, 2001. 160 p. Tallinn University. Dissertations on Humanities Sciences, 

18. ISSN 1736-3624. ISBN 978-9985-58-479-8. 

19. REILI ARGUS. Eesti keele muutemorfoloogia omandamine. Tallinn: TLÜ kirjastus, 

2007. 242 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 19. ISSN 1736- 

3624. ISBN 978-9985-58-543-6. 

20. ÕNNE KEPP. Identiteedi suundumusi Eesti luules. Tallinn: TLÜ kirjastus, 2008. 

222 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 20. ISSN 1736-3624. 

ISBN 978-9985-58-574-0. 

21. ANNELI KÕVAMEES. Itaalia eesti reisikirjades: Karl Ristikivi „Itaalia 

Capriccio” ja Amée Beekmani „Plastmassist südamega madonna”. Tallinn: TLÜ 

kirjastus, 2008. 141 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 21. ISSN 

1736-3624. ISBN 978-9985-58-543-6. 

22. ENE ALAS. The English Language National Examination Validity Defi ned By Its Oral 

Profi ciency Interview Interlocutor Behaviour. Tallinn: Tallinn University, 2010. 232 p. 

182

Tallinn University. Dissertations on Humanities Sciences, 22. ISSN 1736-3621. ISBN 978- 

9949-463-03-9. 

23. MERLE TALVIK. Ajakirjagraafi ka 1930. aastate Eestis: Stereotüübid ja ideoloogia. 

Tallinn: Tallinna Ülikool, 2010. 203 lk. Tallinna Ülikool. Humanitaarteaduste 

dissertatsioonid, 23. ISSN 1736-3624. ISBN 978-9949-463-31-2. 

24. TÕNIS LIIBEK. Fotograafiakultuur Eestis 1839-1895. Tallinn: Tallinna Ülikool, 2010. 286 

lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 24. ISSN 1736-24. ISBN 978- 

9949-463-52-7. 

25. HEETE SAHKAI. Teine grammatika. Eesti keele teonimede süntaks 

konstruktsioonipõhises perspektiivis. Tallinn. Tallinna Ülikool, 2011. 182 lk. Tallinna 

Ülikool. Humanitaarteaduste dissertatsioonid, 25. ISSN 1736-3624. ISBN 978-9949-463- 

98-5. 

26. MAARJA VAINO. Irratsionaalsuse poeetika A. H. Tammsaare loomingus. Tallinn. 

Tallinna Ülikool, 2011. 181 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 

26. ISSN 1736-3624. ISBN 978-9949-29-017-8. 

27. ANNIKA KILGI. Tõlkekeele dünaamika piibli esmaeestinduse käigus: verbi 

morfosüntaksi areng ja lõplik toimetamisfaas. Tallinn. Tallinna Ülikool, 2012. 222 lk. 

Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 27. ISSN 1736-3624. ISBN 978- 

9949-29-050-5. 

28. ELVIRA KÜÜN. Dissertatsioon esitatud kaitsmisele. 

29. PEETER KAASIK. Nõukogude Liidu sõjavangipoliitika Teise maailmasõja ajal ja 

sõjajärgsetel aastatel: sõjavangide kinnpidamissüsteem Eesti näitel ja hinnang 

sõjavangide kohtlemisele rahvusvahelise õiguse järgi. Tallinn. Tallinna Ülikool, 2012. 

631 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 29. ISSN 1736-3624. 

ISBN 978-9949-29-055-0. 

30. KADRI SEMM. Milieus in Neighbourhood Place-Making. Tallinn. Tallinna Ülikool, 

2012. 210 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 30. ISSN 1736- 

3624. ISBN 978-9949-29-066-6. 

31. AVE MATTHEUS. Eesti laste- ja noortekirjanduse genees: küsimusepüstitusi ja 

uurimisperspektiive. Tallinn. Tallinna Ülikool, 2012. 260 lk. Tallinna Ülikool. 

Humanitaarteaduste dissertatsioonid, 31. ISSN 1736-3624. ISBN 978-9949-29-070-3. 

ILMUNUD VEEBIVÄLJAANDENA 

http://e-ait.tlulib.ee/ 

1. ИННА АДАМСОН. Модальный смысл дезидеративности: от семантической 

зоны к семантической типологии высказываний (на материале русского языка). 

Таллинн: Изд-во ТЛУ, 2006. 131 стр. Таллиннский педагогический университет. 

Диссертации по гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-455-2. 

2. MARIS SAAGPAKK. Deutschbaltische Autobiographien als Dokumente des zeit- und 

selbstempfindens: vom ende des 19. Jh. Bis zur umsiedlung 1939. Tallinn: Verlag der 

Universität Tallinn, 2006. 163 S. Universität Tallinn. Dissertationen in den 

Geisteswissenschaften. ISSN 1736-5031. ISBN 978-9985-58-469-9. 

3. JANIS EŠOTS.Mullā Sadrā’s Teaching on Wujūd: A Synthesis of Mysticism and 

Philosophy. Tallinn: Tallinn University Press, 2007. 150 p. Tallinn University. 

Dissertations on Humanities Sciences. ISSN 1736-5031. ISBN 978-9985-58-492-7. 

183

4. ГРИГОРИЙ УТГОФ. Проблема синтактического темпа. Таллинн: Изд-во ТЛУ, 

2007. 145 стр. Таллиннский педагогический университет. Диссертации по 

гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-507-8. 

5. ДИМИТРИЙ МИРОНОВ. Глагольность в сфере имен: к проблеме семантического 

описания девербативов (на материале русского языка). Изд-во ТЛУ, 2008. 98 стр. 

Таллиннский педагогический университет. Диссертации по гуманитарным наукам. 

ISSN 1736-5031. ISBN 978-9985-58-563-4 

6. INNA PÕLTSAM-JÜRJO. Liivimaa väikelinn varase uusaja lävel. Uurimus Uus-Pärnu 

ajaloost 16. sajandi esimesel poolel. Tallinn: TLÜ kirjastus, 2008. 257 lk. Tallinna 

Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-570-2. 

7. TIIT LAUK. Džäss Eestis 1918–1945. Tallinn: TLÜ kirjastus, 2008. 207 lk. Tallinna 

Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-594-8. 

8. ANDRES ADAMSON. Hertsog Magnus ja tema “Liivimaa kuningriik”. Tallinn: TLÜ 

kirjastus, 2009. 173 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 

1736-5031. ISBN 978-9985-58-615-0. 

9. ОЛЕСЯ ЛАГАШИНА. Марк Алданов и Лев Толстой: к проблеме рецепции. 

Таллинн: Изд-во ТЛУ, 2009. 151стр. Таллиннский педагогический университет. 

Диссертации по гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-654-9. 

10. MARGIT LANGEMETS. Nimisõna süstemaatiline polüseemia eesti keeles ja selle 

esitus eesti keelevaras. Tallinn: TLÜ kirjastus, 2009. 259 lk. Tallinna Ülikool. 

Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-651-8. 

11. LEO LUKS. Ei kogemine nihilismi mõtlemises filosoofia ja kirjanduse ühtesulamisel. 

Tallinn. Tallinna Ülikool, 2010. 147 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. 

ISSN 1736-5031. ISBN 978-9949-463-55-8. 

12. JELENA RUDNEVA. Сказание о черноризском чине" Кирилла Туровского: опыт 

лингвотекстологического исследования. Tallinn. Tallinna Ülikool, 2011. 227 lk. 

Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978- 

9949-463-92-3. 

13. ELO LINDSALU. Naisekuju modelleerimine XX sajandi alguskümnendite eesti 

kirjanduses. Tallinn. Tallinna Ülikool, 2012. 236 lk. Tallinna Ülikool. 


14. ANTON KÜÜNAL. Специфика оперного либретто как текста: на примере опер 

на библейские сюжеты (Россия вторая половина XIX b.) Tallinn. Tallinna Ülikool, 

2012. 234 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. 

ISBN 978-9949-29-069-7. 

15. EINAR VÄRÄ. Kaubandussidemed Soome suurvürstiriigi ja Eesti alade vahel aastail 

1809–1865. Tallinn. Tallinna Ülikool, 2012. 158 lk. Tallinna Ülikool. 


DISSERTATSIOONINA KAITSTUD MONOGRAAFIAD 

(ilmunud iseseisva väljaandena) 

1. ANNE VALMAS. Eestlaste kirjastustegevus välismaal 1944–2000. I-II. Tallinn: Tallinna 

Pedagoogikaülikooli kirjastus, 2003. 205, 397 lk. Tallinna Pedagoogikaülikool. ISBN 9985- 

58-284-5. ISBN 9985-58-285-3. 

184

2. ANNE LANGE. Ants Oras. Monograafia. Tartu: Ilmamaa, 2004. 493 lk. ISBN 9985-77- 

163-X. 

3. KATRI AASLAV-TEPANDI. Eesti näitlejanna Erna Villmer. Monograafia. Tallinn: 

Eesti Teatriliit, 2007. 495 lk. ISBN 78-9985-860-41-0. 

4. KRISTA ARU. Üks kirg, kolm mõõdet. Peatükke eesti toimetajakesksest ajakirjandusest: 

K. A. Hermann, J. Tõnisson, K. Toom. Monograafia. Tartu: Eesti Kirjandusmuuseumi 

Teaduskirjastus 2008. 479 lk ISBN 9789949446254. 

185

Download (9Mb) - E-Ait

Create successful ePaper yourself

Delete template?

Save as template?