31.07.2013 Views

Download (9Mb) - E-Ait

Download (9Mb) - E-Ait

Download (9Mb) - E-Ait

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

TALLINNA ÜLIKOOL<br />

HUMANITAARTEADUSTE DISSERTATSIOONID<br />

TALLINN UNIVERSITY<br />

DISSERTATIONS ON HUMANITIES<br />

32<br />

1


JELENA KALLAS<br />

EESTI KEELE SISUSÕNADE SÜNTAGMAATILISED<br />

SUHTED KORPUS- JA ÕPPELEKSIKOGRAAFIAS<br />

Tallinn 2013<br />

3


TALLINNA ÜLIKOOL<br />

HUMANITAARTEADUSTE DISSERTATSIOONID<br />

TALLINN UNIVERSITY<br />

DISSERTATIONS ON HUMANITIES<br />

32<br />

Jelena Kallas<br />

EESTI KEELE SISUSÕNADE SÜNTAGMAATILISED SUHTED KORPUS- JA<br />

ÕPPELEKSIKOGRAAFIAS<br />

Eesti Keele ja Kultuuri Instituut, Tallinna Ülikool, Tallinn, Eesti<br />

Dissertatsioon on lubatud kaitsmisele filosoofiadoktori (lingvistika) kraadi taotlemiseks<br />

Tallinna Ülikooli humanitaarteaduste doktorinõukogu poolt 4. veebruaril 2013. aastal<br />

Juhendajad: Asta Õim, filosoofiadoktor, Eesti Kirjandusmuuseumi vanemteadur<br />

Margit Langemets, filosoofiadoktor, Eesti Keele Instituudi teadur<br />

Oponendid: Raili Pool, filosoofiadoktor, Tartu Ülikooli lektor<br />

Kadri Muischnek, filosoofiadoktor, Tartu Ülikooli dotsent<br />

Kaitsmine toimub 4. aprillil 2013. aastal algusega kell 12 Tallinna Ülikooli auditooriumis<br />

A-242, Narva mnt 29, Tallinn<br />

Doktoritöö valmimist on toetanud Euroopa Sotsiaalfondi projekt „Doktorikool: keeleteadus,<br />

filosoofia, semiootika” ning doktoriõppe ja rahvusvahelistumise programm „DoRa”<br />

Autoriõigus: Jelena Kallas, 2013<br />

Autoriõigus: Tallinna Ülikool, 2013<br />

ISSN 1736-3624 (trükis)<br />

ISBN 978-9949-29-078-9 (trükis)<br />

ISSN 1736-5031 (online, pdf)<br />

ISBN 978-9949-29-079-6 (online, pdf)<br />

Tallina Ülikool<br />

Narva mnt 25<br />

10120 Tallinn<br />

www.tlu.ee<br />

4


SISUKORD<br />

DISSERTANDI TEEMAKOHASED PUBLIKATSIOONID ................................................ 7<br />

EESSÕNA ............................................................................................................................... 8<br />

LÜHENDID ............................................................................................................................ 9<br />

1. SISSEJUHATUS ............................................................................................................... 10<br />

1.1. Töö eesmärgid ........................................................................................................... 13<br />

1.2. Analüüsimaterjal ja uurimismeetodid ........................................................................ 13<br />

1.3. Töö ülesehitus ............................................................................................................ 15<br />

2. SÜNTAGMAATILISED SUHTED KORPUSLEKSIKOGRAAFIAS ............................ 16<br />

2.1. Korpusleksikograafia areng ....................................................................................... 16<br />

2.2. Süntagmaatiliste suhete tuvastamise meetodid .......................................................... 18<br />

2.2.1. Statistilised meetodid ......................................................................................... 18<br />

2.2.2. Kombinatoorsed meetodid ................................................................................. 23<br />

2.3. Sõnavisandite grammatika meetod ............................................................................ 26<br />

3. EESTI KEELE SUBSTANTIIVIDE, ADJEKTIIVIDE, ADVERBIDE JA VERBIDE<br />

SÜNTAGMAATILISED SUHTED NING NENDE TUVASTAMINE<br />

KORPUSEPROGRAMMI SKETCH ENGINE EESTI MOODULI NÄITEL ..................... 31<br />

3.1. Eesti keele sõnavisandite grammatika koostamise põhimõtted .................................. 31<br />

3.2. Substantiivi süntagmaatilised suhted ......................................................................... 35<br />

3.2.1. Leksikogrammatilised konstruktsioonid ............................................................. 35<br />

3.2.2. Sõnavisandid ...................................................................................................... 37<br />

3.2.3. Kokkuvõtteks: substantiivid ............................................................................... 50<br />

3.3. Adjektiivi süntagmaatilised suhted ............................................................................ 52<br />

3.3.1. Leksikogrammatilised konstruktsioonid ............................................................. 52<br />

3.3.2. Sõnavisandid ...................................................................................................... 53<br />

3.3.3. Kokkuvõtteks: adjektiivid .................................................................................. 58<br />

3.4. Adverbi süntagmaatilised suhted ............................................................................... 59<br />

3.4.1. Leksikogrammatilised konstruktsioonid ............................................................. 59<br />

3.4.2. Sõnavisandid ...................................................................................................... 60<br />

3.4.3. Kokkuvõtteks: adverbid ..................................................................................... 63<br />

3.5. Verbi süntagmaatilised suhted ................................................................................... 64<br />

3.5.1. Lihtverbi leksikogrammatilised konstruktsioonid .............................................. 64<br />

3.5.2. Lihtverbi sõnavisandid ....................................................................................... 66<br />

3.5.3. Perifrastilised verbid ja nende tuvastamine ........................................................ 73<br />

3.5.4. Kokkuvõtteks: verbid ......................................................................................... 80<br />

3.6. Sõnavisandite hindamine ........................................................................................... 82<br />

3.6.1. Hindamise metoodika ......................................................................................... 82<br />

3.6.2. Tulemused .......................................................................................................... 85<br />

3.6.3. Tulemuste analüüs .............................................................................................. 85<br />

4. SÜNTAGMAATILISED SUHTED ÕPPELEKSIKOGRAAFIAS .................................. 88<br />

4.1. Traditsiooniline ja korpusleksikograafia .................................................................... 89<br />

4.2. Süntagmaatiliste suhete esitusviisid ........................................................................... 90<br />

4.3. Süntagmaatiliste üksuste valikukriteeriumid ............................................................. 97<br />

4.4. Kokkuvõtteks: süntagmaatiline info tänapäeva õppesõnastikes ja<br />

õppeleksikograafilistes andmebaasides ............................................................................. 99<br />

5


5. SÜNTAGMAATILISED SUHTED EESTI KEELE ÕPPESÕNASTIKES JA<br />

ANDMEBAASIDES ........................................................................................................... 100<br />

6<br />

5.1. Seni ilmunud eesti keele rektsioonisõnastikud......................................................... 101<br />

5.2. Eesti keele põhisõnavara sõnastik ............................................................................ 104<br />

5.2.1. Süntagmaatiliste üksuste valikukriteeriumid .................................................... 104<br />

5.2.2. Süntagmaatilised üksused andmebaasis ........................................................... 111<br />

5.2.3. Sõnavisandid kui leksikograafilise analüüsi lähtepunkt ................................... 117<br />

5.2.4. Näidisartiklid .................................................................................................... 124<br />

6. KOKKUVÕTE ................................................................................................................ 126<br />

6.1. Põhilised teadustulemused ....................................................................................... 126<br />

6.2. Uurimistöö edasised arengusuunad .......................................................................... 133<br />

VIITEALLIKAD ................................................................................................................. 136<br />

LISA 1. SÕNAVISANDITE GRAMMATIKA .................................................................. 145<br />

SUMMARY ........................................................................................................................ 170<br />

ELULOOKIRJELDUS ........................................................................................................ 179<br />

CURRICULUM VITAE ..................................................................................................... 180


DISSERTANDI TEEMAKOHASED<br />

PUBLIKATSIOONID<br />

I. Jelena Kallas, Margit Langemets 2012. Automatic generation of specialized<br />

dictionaries using the dictionary writing system EELex. – A. Tavast, K. Muischnek,<br />

M. Koit (eds.). Human language technologies – The Baltic perspective. Proceedings<br />

of the fifth international conference Baltic HLT 2012. Frontiers in artificial<br />

intelligence and applications 247. Amsterdam: IOS Press, 103–110.<br />

II. Jelena Kallas, Maria Tuulik, Madis Jürviste 2012. Leksikograafilise tarkvara Sketch<br />

Engine eesti keele moodul. – Eesti ja soome-ugri keeleteaduse ajakiri ESUKA /<br />

Journal of Estonian and Finno-Ugric Linguistics JEFUL, 3–2, 57–77.<br />

III. Madis Jürviste, Jelena Kallas, Margit Langemets, Maria Tuulik, Ülle Viks 2011.<br />

Extending the functions of the EELex dictionary writing system using the example of<br />

the Basic Estonian Dictionary. – I. Kosem, K. Kosem (eds.). Electronic lexicography<br />

in the 21st century: New applications for new users. Proceedings of eLex 2011, Bled,<br />

10-12 November 2011. Ljubljana: Trojina, Institute for Applied Slovenian Studies,<br />

106–112.<br />

IV. Jelena Kallas, Maria Tuulik 2011. Eesti keele põhisõnavara sõnastik: ajalooline<br />

kontekst ja koostamispõhimõtted. – Eesti Rakenduslingvistika Ühingu aastaraamat,<br />

7, 59–75.<br />

V. Jelena Kallas 2010. The development of scholary lexicography of the Estonian<br />

language as a second language in a historical and a theoretical perspective. –<br />

A. Dykstra, T. Schoonheim (eds.). Proceedings of the XIV EURALEX international<br />

congress. Leeuwarden/Ljouwent: Fryske Akademy, 648–651.<br />

VI. Елена Каллас 2009. Лексикографическая реализация средств выражения<br />

пространственных отношений функционально-семантического поля<br />

локативности в эстонском языке. – Функциональная семантика языка,<br />

семиотика знаковых систем и методы их изучения. Москва: Российский<br />

университет дружбы народов, 64–69.<br />

7


EESSÕNA<br />

Õppeleksikograafia on minu huviks olnud alates 2000ndate algusest, kui pärast<br />

TLÜ lõpetamist liitusin Eesti Keele Instituudi eesti-vene sõnaraamatu töörühmaga.<br />

Korpusleksikograafia valdkonnaga puutusin põhjalikumalt kokku, kui osalesin<br />

suvekoolis „The 2002 Lexicom International Workshop in Lexicography and<br />

Lexical Computing”, mis toimus Brightoni Ülikoolis Inglismaal. Vahepealsel ajal<br />

olen saanud jälgida korpusleksikograafia kiiret arengut olukorrani, kui<br />

keeletehnoloogiliste vahenditega on võimalik eri tüüpi sõnaraamatute automaatne<br />

korpuspõhine genereerimine (ja seda isegi tähendusjaotuste ja definitsioonide<br />

tasandil). Väitekiri tegeleb vaid korpuste kasutamise ühe aspektiga (sisusõnade<br />

süntagmaatiliste seoste automaattuvastamisega), aga usun, et sellele järgneb hulk<br />

põnevaid uurimistöid, mis muudavad eesti keele korpuste kasutuse veelgi<br />

mitmepalgelisemaks.<br />

Olen väga tänulik kõigile inimestele, kes on mind sel teel toetanud ja inspireerinud.<br />

Suur tänu juhendajatele, retsensentidele, toimetajatele, kolleegidele Eesti Keele<br />

Instituudis, Tallinna Ülikoolis ja Tartu Ülikoolis. Eriline tänu reedeklubi liikmetele.<br />

Suur aitäh ka minu perele ja sõpradele, kes on mulle kogu aeg kaasa elanud.<br />

Doktoritöö valmimist on toetanud Euroopa Sotsiaalfondi projekt „Doktorikool:<br />

keeleteadus, filosoofia, semiootika” ning doktoriõppe ja rahvusvahelistumise<br />

programm „DoRa”.<br />

Tallinnas<br />

21. jaanuaril 2013<br />

8


LÜHENDID<br />

A adverbiaal<br />

abe abessiiv<br />

abl ablatiiv<br />

ade adessiiv<br />

Adj adjektiiv<br />

Adv adverb<br />

all allatiiv<br />

com komitatiiv<br />

comp komparatiiv<br />

da da-infinitiiv<br />

des gerundiiv<br />

ela elatiiv<br />

ess essiiv<br />

g genitiiv<br />

ill illatiiv<br />

in inessiiv<br />

inf infinitiiv<br />

KL kõrvallause<br />

ma ma-infinitiiv<br />

maks maks-vorm<br />

mas mas-vorm<br />

mata mata-vorm<br />

N substantiiv<br />

nom nominatiiv<br />

Num numeraal<br />

O objekt<br />

p partitiiv<br />

pl pluural<br />

Post postpositsioon<br />

PP adpositsioonifraas<br />

Pr prooprium<br />

Pred predikatiiv<br />

Prep prepositsioon<br />

Pron pronoomen<br />

Ptcp partitsiip<br />

S subjekt<br />

sg singular<br />

sup superlatiiv<br />

ter terminatiiv<br />

trl translatiiv<br />

V verb<br />

vat vat-vorm<br />

9


1. SISSEJUHATUS<br />

Süntagmaatiliste suhete korpus- ja õppeleksikograafiline käsitlus on tänapäeva<br />

rakenduslingvistika üks aktuaalsemaid valdkondi. Siinne väitekiri on esimesi<br />

katseid analüüsida eesti keele leksikaalsemantilise sisuga sõnade ehk sisusõnade 1<br />

süntagmaatilisi suhteid korpusleksikograafiliste meetoditega ja rakendada saadud<br />

tulemusi eesti keele õppesõnastike koostamisel. Töös analüüsin eraldi<br />

substantiivide, adjektiivide, adverbide ja verbide klassi moodustavate sisusõnade<br />

süntagmaatilisi suhteid.<br />

„Longman Dictionary of Language Teaching & Applied Linguistics” (Richards,<br />

Schmidt 2002: 534) defineerib süntagmat (syntagm) 2 kui kahe või enama üksuse<br />

struktuuriliselt olulist kombinatsiooni ja süntagmaatilisi suhteid (syntagmatic<br />

relationships) kui ühe keelelise üksuse (nt sõna, klausi) suhet teise üksusega, mis<br />

põhineb sellel, et nad esinevad koos mingi järjendi sees.<br />

Siinses töös tähistan mõistega süntagmaatilised suhted sisusõnade tähenduslikke ja<br />

statistiliselt esilduvaid kombinatsioone teiste leksikaalsete ja grammatiliste<br />

üksustega, eelkõige seda, mis tüüpi laienditega ja milliste konkreetsete sõnadega<br />

teatud leksikaalne üksus koos esineb. Uurin eesti keele sisusõnade süntagmaatiliste<br />

suhete formaalse kirjeldamise võimalusi korpusanalüüsi jaoks ja nende suhete<br />

esitamist õppeleksikograafilistes andmebaasides ja sõnastikes. Korpusanalüüsi<br />

tarvis kirjeldan suhete tüüpe vormiklasside (sõnaliikide, fraasitüüpide) ja<br />

morfosüntaktiliste kategooriate (käänded) kaudu, kuna lähtekohaks on<br />

morfoloogiliselt märgendatud korpus. Selliseid kirjeldusi nimetan töös<br />

leksikogrammatilisteks konstruktsioonideks ja konstruktsiooni moodustajaid<br />

kaasmoodustajateks.<br />

Leksikograafia teoorias (Svensén 2009: 7) on süntagmaatilised suhted omaette<br />

leksikograafilise kirjelduse objekt. Sisusõnade süntagmaatiliste suhete eksplitsiitse<br />

esitamise eesmärk on toetada ja suunata keeleõppijat võõrkeelse teksti koostamisel<br />

ehk sünteesil. Kasutajale antakse infot iga konkreetse lekseemi leksikaalsetest ja<br />

grammatilistest kombinatoorsetest omadustest. Sõltuvalt sellest, kas tegemist on<br />

leksikaalse või grammatilise suhtega, eristatakse kaht süntagmaatilise suhte liiki:<br />

1) süntagmaatilised leksikaalsed suhted, mille hulka kuuluvad kollokatsioonid,<br />

püsiühendid ja idioomid; 2) süntagmaatilised grammatilised ehk semantilismorfosüntaktilised<br />

suhted, mille hulka kuuluvad täistähenduslike sõnaliikide<br />

valents (nii semantiline kui ka süntaktiline) ja eri tüüpi grammatilised<br />

konstruktsioonid.<br />

Leksikaalsete ja grammatiliste süntagmaatiliste suhete eristus kajastub ka<br />

süntagmaatiliste sõnastike üldtüpoloogias (vt nt Svensén 2009: 21–37), kus<br />

leksikograafilise kirjelduse objektiks olevate süntagmaatiliste seoste tüübi järgi<br />

1 EKGs (1995: 15, 18) kasutatakse terminit täistähenduslik ehk autosemantiline sõna.<br />

2 Siin ja edaspidi on sulgudes termini ingliskeelne vaste, kui ei ole osutatud teisiti.<br />

10


eristatakse kolme liiki süntagmaatilisi sõnastikke: 1) valentsisõnastik (kirjeldab<br />

lemmade süntaktiliselt võimalikke seotud ja vabade laiendite tüüpe ning nende<br />

laiendite esinemist reguleerivaid semantilisi piiranguid); 2) kollokatsioonisõnastik<br />

(kirjeldab lemmade semantiliselt läbipaistvaid koosesinemisi teiste sõnadega);<br />

3) idioomisõnastik.<br />

Teiselt poolt on tänapäeva leksikograafias teooriaid, mis väldivad leksika ja<br />

grammatika lahushoidmist ja käsitlevad leksikogrammatilisi üksusi tervikuna<br />

(nt Hunston, Francis 2000). Gill Francis (1995) rõhutab, et<br />

kommunikatsiooniprotsess ei toimu nii, et kõigepealt valitakse süntaktiline<br />

struktuur ja alles seejärel sellega sobiv leksikaalne üksus. Vastupidi, me valime<br />

leksikaalseid üksusi, millega kaasnevad süntaktilised struktuurid, kuhu nad<br />

loomulikult ja grammatiliselt korrektselt sobivad. Selliseid üksusi nimetatakse eri<br />

teooriates malliks (pattern) (nt Hunston, Francis 2000), konstruktsiooniks<br />

(construction) (Atkins, Rundell 2008), leksikogrammatiliseks malliks (lexicogrammatical<br />

pattern) (Coffey 2011) või kollokatsiooniks (collocation) (Bartsch<br />

2004; Siepmann 2005; Kilgarriff, Kosem 2012d). Sofia Bartsch (2004: 11)<br />

defineerib kollokatsioone kui kahe või enama sõna suhteliselt püsivaid, sageli<br />

korduvaid süntagmaatilisi kombinatsioone, mida reguleerivad süntaksi ja semantika<br />

kombinatoorsed reeglid. Dirk Siepmanni (2005: 438) järgi on kollokatsioon<br />

igasugune holistiline leksikaalne, leksikogrammatiline või semantiline üksus, mis<br />

reeglina koosneb kahest või enamast sõnast ja millele on omane minimaalne<br />

korduvus teatud kontekstis. Adam Kilgarriffi ja Iztok Kosemi (2012d: 40) käsitluses<br />

hõlmab kollokatsiooni mõiste teatud grammatilises seoses olevaid otsisõna (node<br />

word) ja selle kollokaatide statistiliselt esilduvaid koosesinemisi.<br />

Seega on teoreetilises ja praktilises leksikograafias mitu lähenemist, kuidas<br />

süntagmaatilisi suhteid kirjeldada ja milliste parameetrite järgi keelematerjali<br />

analüüsida. Leksikograafilist rakendust on leidnud sellised teooriad nagu<br />

grammatiliste ja leksikaalsete kollokatsioonide teooria (Benson 1986, 1989, 1990),<br />

valentsiteooria (Herbst jt 2007), freimisemantika (Atkins jt 2003), mallide<br />

grammatika (Hunston, Francis 2000; Hanks 2008). Nende teooriate põhimõtetest<br />

lähtudes on koostatud eri tüüpi süntagmaatilisi sõnastikke ja andmebaase, nagu<br />

„BBI Dictionary of English Word Combinations” (BBI 2010), FrameNet 3 , „Pattern<br />

Dictionary of English Verbs” (Hanks 2008), „A Valency Dictionary of English”<br />

(Herbst jt 2004).<br />

Teooriate põhiline erinevus seisneb eelkõige kirjeldusobjektis. Põhiküsimus on, kas<br />

leksikograafiline kirjeldus piirdub vaid süntaktilisel tasandil tuvastatavate üksustega<br />

või on analüüsi aluseks sõnade semantilised funktsioonid. Näiteks eeldab<br />

freimisemantiline lähenemine (Atkins 2002: 16–19) leksikograafilise analüüsi<br />

eeletapina iga verbi freimielementide tuvastamist ja nendele elementidele vastavate<br />

üksuste morfoloogilist ja süntaktilist analüüsi. Nii kujuneb lekseemile iseloomulik<br />

nn valentsivalem (valence formula), millest leksikograaf konkreetse kirje<br />

3 FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (20.01.12).<br />

11


koostamisel lähtub. Sellist leksikaalsete üksuste mitmetasandilist (semantika–<br />

süntaks–morfoloogia) analüüsi ja kirjeldust peetakse oluliseks igasuguse leksikaalse<br />

andmebaasi koostamisel (vt nt Langemets jt 2005: 94–95).<br />

Siinses töös arutlen, kuidas ja mil määral saaks morfoloogiliselt märgendatud<br />

korpuse andmeid kasutada sõnade semantika uurimisel ja süntagmaatiliste<br />

omaduste esitamisel eesti keele õppeleksikograafilistes andmebaasides ja<br />

õppesõnastikes.<br />

Tegemist on interdistsiplinaarse uurimusega, mis analüüsib süntagmaatiliste suhete<br />

käsitlust tänapäeva korpus- ja õppeleksikograafias ja uurib nende kahe distsipliini<br />

kokkupuutepunkte. Korpusleksikograafia (corpus lexicography, computational<br />

lexicography, computer-based lexicography) on arvuti- ja korpuslingvistikaga<br />

tihedalt seotud leksikograafia haru, mis uurib korpusmaterjalide kasutamise<br />

võimalusi sõnastike ja andmebaaside koostamisel. Õppeleksikograafia (pedagogical<br />

lexicography) on teise keele ja võõrkeele õpetamise didaktikaga seotud distsipliin,<br />

mis tegeleb õppesõnastike (pedagogical dictionary), sõnavaraloendite (vocabulary<br />

profile) ja sõnavara omandamisele suunatud õppematerjalide koostamise<br />

teoreetiliste ja praktiliste küsimustega (Dubitšinski 2009: 339).<br />

Reinhard R. K. Hartmann ja Gregory James (2002: 107) defineerivad<br />

õppesõnastikku kui teatmeteost, mis on koostatud spetsiaalselt keeleõpetajate<br />

ja -õppijate praktiliste didaktiliste vajaduste rahuldamiseks. Võrreldes<br />

mitteõppeotstarbelistel eesmärkidel koostatud sõnastikega, avaldub õppesõnastiku<br />

spetsiifika (Averina jt 1996: 312–313; Novikov 2002: 453–455) järgmises:<br />

1) märksõnastiku sihikindlas didaktiliselt põhjendatud valikus (õppesõnastike<br />

märksõnastiku aluseks peavad olema keeleoskustasemete ja sõnavarastatistikaga<br />

tegelevate spetsialistide koostöös valminud sõnavaraloendid);<br />

2) lekseemide seletusviisis ehk definitsioonis (eeltingimuseks on spetsiaalse ehk<br />

kontrollitud definitsioonisõnavara loendi koostamine);<br />

3) süntagmaatiliste ja paradigmaatiliste suhete esitusviisis [siinse töö autori<br />

rõhutus].<br />

Õppesõnastike valdkonnas peetakse ideaalseks saavutuseks õppesõnastike süsteemi<br />

(komplekti) loomist, mis võimaldab infot esitada mitmes eri keerukusastmes<br />

(Dubitšinski 2009: 341; vt ka Langemets 2003: 183). Selline ühtne leksikograafiline<br />

süsteem peab rajanema nn graduaalsuse printsiibil (algselt defineeris juba 1928.<br />

aastal ameerika pedagoog ja psühholoog Edward L. Thorndike (1991: 19)), mille<br />

kohaselt on õppeleksikograafia ülesanne koostada erinevatele keeleoskustasemetele<br />

orienteeritud õppesõnastike komplekt: iga järgnev sõnaraamat peab pakkuma<br />

märksõnade kohta eelmisest suuremat infomahtu, ka sõnaraamatute metakeel peab<br />

muutuma lihtsamast keerulisemaks.<br />

Seda tüüpi õppesõnastike komplekti koostatakse Eesti Keele Instituudis. Komplekti<br />

esimeseks sõnastikuks on A2- ja B1-keeleoskustasemega õppijatele mõeldud<br />

ükskeelne eesti keele põhisõnavara sõnastik (edaspidi PSV, ilmumas 2013), mille<br />

12


märksõnade hulk on ca 4500. Järgmise etapina on kavas koostada B2- ja C1tasemele<br />

mõeldud sõnastik. Siinses töös käsitlen lähemalt eesti keele sisusõnade<br />

süntagmaatiliste suhete süstemaatilise esitamise võimalusi PSV sõnastiku näitel.<br />

1.1. TÖÖ EESMÄRGID<br />

Töö ülesanded võib tinglikult jaotada teoreetilisteks (eesti keele substantiivide,<br />

adjektiivide, adverbide ning verbide (sh perifrastiliste verbide) süntagmaatiliste<br />

suhete korpus- ja õppeleksikograafilise käsitluse teoreetilise raamistiku loomine) ja<br />

rakenduslikeks (süntagmaatiliste suhete automaatne korpuspõhine tuvastamine ja<br />

nende esitus õppeotstarbelises eesti keele sõnastikus).<br />

Täpsemad eesmärgid on järgmised:<br />

koostada eesti keele substantiivide, adjektiivide, adverbide ja verbide<br />

leksikogrammatiliste konstruktsioonide nimestik, mis on aluseks nende<br />

sõnaliikide süntagmaatiliste suhete korpusest ekstraheerimise grammatika ja<br />

õppeleksikograafilise esituse põhimõtete väljatöötamisel;<br />

toetudes eesti keele morfoloogiaanalüsaatori ESTMORF (Kaalep 1998)<br />

märgendussüsteemile, koostada süntagmaatiliste suhete automaatseks<br />

analüüsiks ja tuvastuseks sobiv grammatika, käsitleda grammatika kirjutamise<br />

käigus tekkinud probleeme, testida grammatikat leksikograafilise tarkvara<br />

Sketch Engine baasil ja analüüsida saadud tulemusi;<br />

analüüsida süntagmaatiliste suhete õppeleksikograafilist käsitlust muude keelte<br />

(eeskätt inglise) ja seni ilmunud eesti keele süntagmaatilistes sõnastikes ja<br />

andmebaasides;<br />

töötada välja süntagmaatiliste suhete formaalne kirjeldus eesti keele<br />

õppeleksikograafiliste andmebaaside tarbeks ja rakendada seda sõnastike<br />

haldussüsteemis EELex eesti keele põhisõnavara sõnastiku andmebaasis;<br />

töötada välja süntagmaatiliste üksuste valiku põhimõtted eesti keele A2- ja B1keeleoskustasemega<br />

eesti keele kui teise ja/või võõrkeele õppijatele mõeldud<br />

sõnastikes (tagamaks lekseemi süntagmaatiliste omaduste eksplitsiitse esituse<br />

ning hõlbustamaks nende omandamist).<br />

1.2. ANALÜÜSIMATERJAL JA UURIMISMEETODID<br />

Sisusõnade süntagmaatiliste suhete automaattuvastamist katsetan siinses töös<br />

korpusleksikograafilise tarkvara Sketch Engine 4 abil. Sketch Engine’i<br />

4 Sketch Engine http://www.sketchengine.co.uk/ (15.09.12). Tänapäeval kasutavad sõnaraamatute<br />

loomisel seda programmi sellised kirjastused nagu Oxford University Press, Cambridge<br />

University Press, Collins, Le Robert ja Cornelsen Verlag ning seda rakendati ka inglise keele<br />

leksikaalse andmebaasi DANTE (Database of Analysed Texts of English; Atkins jt 2010)<br />

13


põhifunktsioonideks on konkordantsi koostamine ja selle mitmekülgne töötlemine,<br />

statistikapõhine kollokaatide leidmine, korpusest sagedusloendite koostamine,<br />

sõnavisandite (word sketch) genereerimine ja heade sõnastikunäidete (Good<br />

Dictionary Example, GDEX) valimine.<br />

Tarkvara valik on tingitud eelkõige sellest, et Sketch Engine’i sõnavisandite moodul<br />

võimaldab süntagmaatiliste suhete automaattuvastamist. Spetsiaalse nn<br />

sõnavisandite grammatika (sketch grammar) põhjal otsib programm koostaja poolt<br />

määratud grammatilises suhtes olevaid sõnapaare ja -kolmikuid, töötleb andmeid<br />

statistiliselt ja teeb leksikograafi jaoks sõna süntaktilisest ja kollokatiivsest<br />

käitumisest kompaktse kokkuvõtte, mida nimetatakse sõnavisandiks (Kilgarriff jt<br />

2004).<br />

Tarkvara eesti mooduli sisendiks on eesti keele koondkorpus 5 (u 250 mln sõnet),<br />

mille OÜ Filosoft on morfoloogiliselt märgendanud, osaliselt ühestanud ja<br />

osalausestanud. Koondkorpus sisaldab ajalehtede ja ajakirjade tekste, ilukirjandus-,<br />

seadus- ja teadustekste, riigikogu stenogramme ning uue meedia (jututubade,<br />

foorumite) tekste.<br />

Sisusõnade leksikogrammatiliste konstruktsioonide nimestiku ja nende<br />

automaattuvastamist võimaldavate reeglite väljatöötamisel lähtun eesti keele<br />

traditsioonilistest (Rätsep 1978; Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007)<br />

ja formaalsetest (Müürisep 2000; Roosmaa jt 2001; Puolakainen 2001)<br />

grammatikakirjeldustest. Sõnavisandite grammatika reeglid toetuvad<br />

morfoloogiaanalüsaatori ESTMORF (Kaalep 1998) märgenditele.<br />

Sõnavisandite evalveerimisel kasutan Kilgarriffi jt (2010a) väljatöötatud<br />

sõnavisandite kvantitatiivse evalveerimise meetodit. Tulemuste hindamiseks on<br />

kasutatud sellist näitajat nagu täpsus (precision), mis näitab õigesti tuvastatud<br />

kollokaatide osakaalu kõigist tuvastatud kollokaatidest. Meetodis palutakse<br />

leksikograafidel hinnata iga tuvastatud kollokaadi leksikograafilist väärtust<br />

kaheastmelisel skaalal hea–halb. Hea kollokaat peab vastama kriteeriumidele<br />

tähenduslikkus, terviklikkus ja kasulikkus sõna semantika ja grammatika uurimisel.<br />

Halb on kollokaat, mille puhul on ilmselgelt tegemist veaga, st tuvastatud sõnapaar<br />

või -kolmik ei ole tähenduslik ega terviklik või kasulik sõna semantika ja<br />

grammatika uurimisel.<br />

Õppeleksikograafia küsimusi käsitlevates peatükkides olen näitematerjalina<br />

kasutanud inglise ja eesti keele õppesõnastike, eelkõige rektsiooni- ja<br />

kollokatsioonisõnastike kirjeid.<br />

väljatöötamisel. Eestis kasutatakse Sketch Engine’it Eesti Keele Instituudis kahe sõnastiku<br />

koostamisel: need on „Eesti keele seletav sõnaraamat” (EKSS; vt Langemets jt 2010b) ja „Eesti<br />

keele põhisõnavara sõnastik” (PSV; vt Kallas, Tuulik 2011).<br />

5<br />

Eesti keele koondkorpus http://www.cl.ut.ee/korpused/segakorpus/index.php?lang=et<br />

(15.09.12).<br />

14


Töös väljatöötatud süntagmaatiliste seoste formaalset kirjeldust rakendan Eesti<br />

6<br />

Keele Instituudi sõnastike haldussüsteemis<br />

(edaspidi EELex; vt<br />

Langemets jt 2006, 2010c; Loopmann jt 2006; Loopmann 2007; Jürviste jt 2011) eesti<br />

keele põhisõnavara sõnastiku andmebaasis. EELex on veebipõhine leksikograafi<br />

töökeskkond, mis ühendab sõnastike koostajatele ja toimetajatele vajaliku tarkvara ja<br />

ressursid, toetab rühmatööd ja pakub eesti keele tuge. EELexi keskkonnas on<br />

valminud või tegemisel ligi 40 eri tüüpi ja mitmesuguse struktuuriga sõnastikku:<br />

ükskeelsed, tõlkesõnastikud, terminibaasid jne. Sõnastikuandmed paiknevad<br />

tsentraalses veebiserveris XML-vormingu kujul (vt lähemalt Loopmann 2007).<br />

1.3. TÖÖ ÜLESEHITUS<br />

Väitekiri koosneb sissejuhatusest, neljast osast ja kokkuvõttest. Sissejuhatuses<br />

määratlen töö peamised eesmärgid ja annan ülevaate töös kasutatud materjalist ja<br />

uurimismeetoditest. Teises osas käsitlen teoreetilisi küsimusi, mis on seotud<br />

süntagmaatiliste suhete käsitlusega korpusleksikograafias. Annan lühiülevaate<br />

korpusleksikograafia ajaloost, esitan tänapäeva korpusleksikograafilise tarkvara<br />

tüpoloogia ning analüüsin erinevaid lähenemisi, mida rakendatakse tänapäeva<br />

leksikograafias süntagmaatiliste suhete kirjeldamisel, ja meetodeid, mida<br />

kasutatakse nende automaattuvastamisel. Kolmandas osas kirjeldan<br />

leksikogrammatilisi konstruktsioone, mis on iseloomulikud eesti keele<br />

substantiividele, adjektiividele, adverbidele ja verbidele, käsitlen nende<br />

grammatiliste suhete automaattuvastamiseks kirjutatud reegleid (vt Lisa 1),<br />

illustreerin reeglite väljundit, esitan sõnavisandite kvantitatiivse evalveerimise<br />

tulemused ja annan ülevaate evalveerimise käigus esile kerkinud probleemidest.<br />

Neljandas osas on uurimisobjektiks eri tüüpi formaalsed kirjeldused, mida on<br />

kasutatud sõnastikes ja andmebaasides süntagmaatiliste suhete esitamiseks, ning<br />

süntagmaatiliste üksuste valikukriteeriumid. Viiendas osas analüüsin seni ilmunud<br />

eesti keele süntagmaatiliste sõnastike ülesehitust ja süntagmaatiliste suhete<br />

esitusviise. Eesti keele põhisõnavara sõnastiku andmebaasi näitel kirjeldan<br />

süntagmaatiliste üksuste valikukriteeriume A2- ja B1-keeleoskustasemega eesti<br />

keele kui teise ja/või võõrkeele õppijatele mõeldud sõnastikes, pakun välja nende<br />

üksuste süstemaatilist esitamist võimaldava andmebaasi ülesehituse, näitan<br />

sõnavisandite kasutusvõimalusi sisusõnade süntaksi ja semantika uurimisel ja esitan<br />

eesti keele põhisõnavara sõnastiku näidisartiklid. Kokkuvõtvas osas toon välja<br />

väitekirjas esitatud peamised teadustulemused, lahendamata jäänud probleemid ja<br />

arutlen uurimistöö edasiste arengusuundade üle.<br />

6<br />

EELex http://eelex.eki.ee/, dokumentatsiooni vt http://eelex.dyn.eki.ee/edoc/edoc.html<br />

(15.09.12).<br />

15


2. SÜNTAGMAATILISED SUHTED<br />

KORPUSLEKSIKOGRAAFIAS<br />

Korpusleksikograafia põhiülesanne on erinevat tüüpi leksikograafiliste üksuste<br />

korpuspõhine automaattuvastamine. Uurimisobjektiks on sõnade definitsioonid,<br />

grammatiline kasutusinfo, süntagmaatilised suhted, leksikaalsemantilised suhted,<br />

näitelausete valik, lausemallid (subkategorisatsioonimallid) jm.<br />

Perspektiivis on korpuse päringusüsteemid (Corpus Query System)<br />

sõnastikusüsteemide (Dictionary Writing System) lahutamatu osa. Näitena võib tuua<br />

ühe progressiivsema sõnastikusüsteemi TshwaneLex (De Schryver, De Pauw 2007).<br />

Artikli pealkirjast „Dictionary Writing System (DWS) + Corpus Query Package<br />

(CQP): The Case of TshwaneLex” selgub kohe ka selle sõnastikusüsteemi<br />

funktsionaalne eripära: sõnastikusüsteem ja korpuse päringusüsteem on ühendatud,<br />

leksikograafi tööks on valida sobiv näitematerjal ja see lisatakse automaatselt teatud<br />

kirje vastavasse kohta.<br />

2.1. KORPUSLEKSIKOGRAAFIA ARENG<br />

Kilgarriff jt (2004: 106–107) on eristanud korpusleksikograafia arengus 7 kolm<br />

põhilist etappi.<br />

Esimene on arvutieelne periood, kui leksikograafide allikmaterjaliks olid eelkõige<br />

sõnasedelid. Teine periood algas 1970ndate lõpus seoses COBUILD (Collins<br />

Birmingham University International Language Database) projektiga, mille<br />

eesmärk oli luua korpuspõhised leksikonid inglise keele kui võõrkeele õppijate<br />

jaoks. Alates sellest projektist on konkordantsist saanud põhiline leksikograafi<br />

tööriist. Seejärel hakati looma programme, mis kergendaksid konkordantsis<br />

sisalduva informatsiooni töötlemist, nt WordSmith Tools 8 , MonoConc Pro 9 , IMC<br />

Corpus Workbench 10 (vt kirjeldust McEnery, Wilson 2007: 209–213), AntConc 11 .<br />

Kolmas periood on seotud leksikaalse statistika meetodite kasutuselevõtuga.<br />

Lähtekohaks peetakse Ken Churchi ja Patrick Hanksi 1989. aastal ilmunud artiklit,<br />

milles autorid tegid ettepaneku kasutada sõnadevahelise seose tugevuse mõõtmiseks<br />

vastastikuse informatsiooni väärtuse MI statistikut. Churchi ja Hanksi (1989) järgi<br />

tuleb sõnapaare, millele on omane kõrge vastastikuse informatsiooni väärtuse<br />

indeks, käsitleda kollokatsioonidena. 2000ndate alguses toimus leksikograafilise<br />

tarkvara Sketch Engine (Kilgarriff jt 2004) loomisega järjekordne kvalitatiivne<br />

7<br />

Ülevaateid korpusleksikograafia ajaloost vt ka Kilgarriff, Grefenstette (2008b: 90–93); Rundell,<br />

Kilgarriff (2011: 1–5).<br />

8<br />

WordSmith Tools http://www.lexically.net/wordsmith/index.html (20.06.12).<br />

9<br />

MonoConc Pro http://www.athel.com/mono.html (20.06.12).<br />

10<br />

IMC Corpus Workbench http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/<br />

(20.06.12).<br />

11<br />

AntConc http://www.antlab.sci.waseda.ac.jp/software.html (20.06.12).<br />

16


hüpe: süntagmaatiliste seoste automaattuvastamisel võeti aluseks morfoloogilise<br />

analüsaatori tulemused (sõnaliik ja grammatilised tunnused) ning kombinatsioonis<br />

statistiliste meetoditega osutus selline lähenemine efektiivseks.<br />

Tänapäeval kasutatakse eri tüüpi korpusleksikograafilist tarkvara, mis hõlbustab<br />

keeleandmete töötlemist ja aitab leksikograafil materjali sorteerida ja analüüsida.<br />

Kilgarriff ja Kosem (2012: 34–35) on välja pakkunud selle valdkonna tarkvara<br />

tüpoloogia.<br />

1) Eristatakse n-ö arvutipõhiselt (computer-based) ja online-režiimis töötavaid<br />

programme. Arvutipõhine tarkvara on näiteks WordSmith Tools, MonoConc Pro,<br />

IMC Corpus Workbench, AntConc. Neid programme saab kas tasuta või teatud tasu<br />

eest arvutisse installeerida ja programmi funktsioonide abil tekste analüüsida.<br />

Online-programmid on nt Sketch Engine (Kilgarriff jt 2004), taani keele<br />

mitmekülgset analüüsi võimaldav KorpusDK 12 ja Brighami Ülikooli professori<br />

Mark Daviese loodud corpus.byu.edu 13 . Eesti keele korpusi saab online-režiimis<br />

analüüsida Keeleveebi 14 , Tartu Ülikooli koondkorpuse kollokatsioonide tuvastaja 15<br />

ja Sketch Engine’i eesti keele mooduli kaudu.<br />

2) Korpusepäringu tarkvara võib olla loodud mingi konkreetse korpuse töötlemiseks<br />

(corpus-related tool), nt XAIRA 16 või KorpusDK, või moodustada süsteemi,<br />

võimaldades integreerida erinevaid korpuseid (corpus-independent tools), nt Sketch<br />

Engine, IMC Corpus WorkBench, WordSmithTools, MonoConc Pro ja AntConc.<br />

3) Tarkvara, mis käsitleb korpusena veebis olevaid tekste töötlemata kujul, nt<br />

Google. Kuigi veeb ei ole loodud lingvistilise ja leksikograafilise analüüsi jaoks,<br />

võib selle analüüs siiski kasulikuks osutuda. Spetsiaalsed programmid võimaldavad<br />

analüüsida veebi konkordantsi kujul, näiteks võib tuua programmi Webcorp 17<br />

(Renouf 2003).<br />

4) Eristatakse lihtsat (simple) ja täiustatud (advanced) tarkvara. Lihtsa tarkvara<br />

põhifunktsioonideks on konkordantsi koostamine ja kollokatsioonide (otsitakse<br />

statistiliste meetoditega) ning võtmesõnade tuvastamine. Viimase arengujärgu<br />

programmide lisafunktsioonid on sõnavisandi genereerimine ja otsing CQLpäringukeele<br />

(Contextual Query Language) abil, aga ka näitelausete automaatne<br />

valik, tesauruste koostamine jm.<br />

Sõltuvalt uurimise eesmärgist kasutatakse eri tüüpi tarkvaras sõnade<br />

süntagmaatiliste suhete automaattuvastamiseks erinevaid meetodeid, mis võib<br />

jaotada kahte suurde gruppi: puhtstatistilised meetodid ja kombinatoorsed meetodid.<br />

Stefan Everti (2009: 1215, 1220–1223, vt ka Uiboaed 2010: 310–312) uurimuses on<br />

12 KorpusDK http://ordnet.dk/korpusdk_en/?set_language=en (20.06.12).<br />

13 corpus.byu.edu http://corpus.byu.edu/corpora.asp (20.06.12).<br />

14 Keeleveeb www.keeleveeb.ee (20.06.12).<br />

15 Kollokatsioonide tuvastaja http://www.rabauti.ee/clc (20.06.12).<br />

16 XAIRA http://xaira.sourceforge.net/ (20.06.12).<br />

17 Webcorp http://www.webcorp.org.uk/live/ (25.10.12). Tarkvara töötab ka eesti keele jaoks.<br />

17


kirjeldatud ja võrreldud kolme põhilist lähenemist, mida rakendatakse<br />

süntagmaatiliste suhete tuvastamisel.<br />

1) Kindlas naabruses koosesinevaks (surface co-occurrence) peetakse kahte sõna,<br />

kui nad esinevad sageli koos teatavas kauguses ehk samas aknas (collocational<br />

span), mida arvestatakse kahe sõna vahele jäävate sõnade järgi.<br />

2) Tekstiliselt koosesinevaks (textual co-occurrence) peetakse sõnu, kui nad<br />

esinevad koos samas tekstiüksuses, tavaliselt lauses, osalauses või lausungis.<br />

3) Süntaktiliselt koosesinevaks (syntactic co-occurrence) peetakse sõnu ainult<br />

juhul, kui nende vahel on kindel süntaktiline seos, näiteks verb koos subjekti või<br />

objektiga.<br />

Kaks esimest lähenemist eeldavad statistiliste meetodite rakendamist. Kolmas<br />

lähenemine eeldab kombinatoorsete meetodite väljatöötamist, lisaks statistilisele<br />

analüüsile kasutatakse siin süntagmaatiliste suhete tuvastamisel ka teisi filtreid, nt<br />

morfoloogilisi või süntaktilisi märgendeid.<br />

Võrreldes kolme lähenemist, osutab Evert (2009: 1223–1224), et kindlas naabruses<br />

koosesinemise otsing osutus väga kasulikuks eelkõige korpuslingvistikas ja<br />

leksikograafias. Selle lähenemise puhul on tegemist teatud kompromissiga<br />

kitsendatud (restricted) süntaktilise koosesinemise (eriti kui arvesse on võetud<br />

ainult üks konkreetne süntaktiline seos) ja väga laia tekstilise koosesinemise vahel.<br />

Sel meetodil saadud sõnapaaride loendeid on kergem hallata, võrreldes loenditega,<br />

mis on saadud tekstilise koosesinemise mõõtmise meetodiga. Tekstiliste<br />

koosesinemiste otsingu väljund on liiga mahukas ja väljakutseks isegi arvutile.<br />

Süntaktiline koosesinemine esitab eri tüüpi sagedasti esinevaid grammatilises<br />

seoses olevaid ühendeid eraldi ning selle väljund on palju puhtam. Evert märgib, et<br />

eriti kasulik on see meetod mitmesõnaliste püsiühendite (multiword expression)<br />

tuvastamisel ja möönab, et otsingu tulemus on vastavuses süntaktilise analüsaatori<br />

täpsusega (ibid.).<br />

Järgnevalt kirjeldan lähemalt statistiliste ja kombinatoorste meetodite põhimõtteid<br />

ja analüüsin nende rakendamisvõimalusi eesti keele sisusõnade süntagmaatiliste<br />

suhete tuvastamisel.<br />

2.2. SÜNTAGMAATILISTE SUHETE TUVASTAMISE MEETODID<br />

2.2.1. Statistilised meetodid<br />

Süntagmaatiliste suhete tuvastamiseks statistiliste meetoditega on välja töötatud ja<br />

testitud eri tüüpi statistikuid (association measures). Statistikud võimaldavad<br />

arvutada kahe sõna seose tugevuse väärtuse korpuses, mille põhjal võib otsustada,<br />

kas tegemist on püsiühendiga või mitte. Statistikute kasutamise eelis on, et arvesse<br />

ei võeta ainult sõnade koosesinemise, vaid ka ühendit moodustavate sõnade<br />

eraldiesinemise sagedusi (Uiboaed 2010: 307). Statistiliste kollokaatide leidmiseks<br />

18


kasutatakse leksikograafias selliseid statistikuid nagu t-skoor (T-score), vastastikuse<br />

informatsiooni väärtus (mutual information, MI), MI 3 -skoor (MI 3 -score), logtõepära<br />

funktsioon (log-likelihood), minimaalne tundlikkus (minimum sensitivity),<br />

Dice’i koefitsient (Dice coefficient) ja sellel põhinev esilduvuse statistik logDice<br />

(logDice score).<br />

Näiteks Dice arvutatakse järgmise valemi põhjal:<br />

,<br />

kus fA – otsisõna (node word) eraldiesinemise sagedus korpuses; fB − kollokaadi<br />

(collocate) eraldiesinemise sagedus korpuses; fAB – otsisõna ja kollokaadi<br />

koosesinemise sagedus 18 .<br />

Eesti keele analüüsiks on olemas kaks online-režiimis töötavat programmi, mille<br />

abil saab statistiliselt esilduvaid kollokatsioone otsida. Tartu Ülikoolis loodud<br />

kollokatsioonide tuvastaja 19 käsitleb kollokatsioonidena selliseid sõnapaare, mille<br />

liikmed esinevad üksteise naabruses sagedamini, kui võiks eeldada nende<br />

üksindaesinemise sageduse põhjal. Tüüpilised kollokatsioonid on püsiühendid,<br />

näiteks ühendverbid või idiomaatilised väljendid. Programmi sisendkorpused on<br />

Eesti keele koondkorpus ja Tasakaalus korpus 20 .<br />

TÜ kollokatsioonide tuvastaja kasutab kolme statistikut: log-tõepära funktsioon,<br />

vastastikuse informatsiooni väärtus (MI) ja minimaalne tundlikkus; võrdluseks saab<br />

otsida ka lihtsalt esinemissageduse järgi järjestatud sõnapaare. Programm<br />

võimaldab otsida lemmade või sõnavormide statistiliselt esilduvaid kollokaate,<br />

lisaks saab päringut täpsustada kollokaadi sõnaliigilise kuuluvuse määramisega.<br />

Joonisel 1 on illustreeritud päring, millega tuvastatakse substantiivi päike tasakaalus<br />

korpuses esinevaid adjektiivseid kollokaate. Kollokaadid on järjestatud log-tõepära<br />

funktsiooni väärtuse järgi.<br />

18 Teiste statistikute valemeid vt nt Rychlý (2008).<br />

19 Kollokatsioonide tuvastaja http://www.rabauti.ee/clc (11.01.13).<br />

20 Eesti keele koondkorpus, Tasakaalus korpus vt<br />

http://www.cl.ut.ee/korpused/grammatikakorpus/ (11.01.13).<br />

19


Joonis 1. TÜ kollokatsioonide tuvastaja kasutajaliides (substantiivi päike kõrgeima<br />

log-tõepära funktsiooni väärtusega adjektiivsed kollokaadid).<br />

Jooniselt 1 nähtub, et substantiivi päike tuvastatud kõrgeima log-tõepära<br />

funktsiooni väärtusega adjektiivsed kollokaadid on loojuv/loojunud/ere/tõusev/<br />

kuum jne.<br />

Teiseks saab statistilisi koosesinemisi tuvastada programmi Sketch Engine eesti<br />

keele mooduli collocations-funktsiooni abil. Kollokaatide otsingul kasutab Sketch<br />

Engine koosesinemise sagedust ja kuut statistikut: t-skoor, vastastikuse<br />

informatsiooni väärtus (MI), MI 3 -skoor, log-tõepära funktsioon, minimaalne<br />

tundlikkus ja esilduvus (logDice). Kollokaate saab otsida sõnavormi, lemma ja<br />

grammatiliste tunnuste järgi, määrates täpselt ka otsitavate kollokatsioonide akna<br />

ning järjestusaluseks oleva statistiku. Joonisel 2 on akna suuruseks viis sõna, st<br />

uuritava sõna vasakule ja paremale poole arvestatakse viis sõna.<br />

20


Joonis 2. Programmi Sketch Engine kollokatsioonide otsingu aken.<br />

Nt kui otsilemmaks on päike, siis esitab programm erinevaid statistikuid kasutades<br />

selle statistiliselt relevantsed kollokaadid. Joonisel 3 on lemma päike statistilised<br />

kollokaadid järjestatud esilduvuse statistiku logDice väärtuse järgi.<br />

Joonis 3. Substantiivi päike statistilised kollokaadid järjestatuna esilduvuse<br />

(logDice) väärtuse järgi.<br />

21


Jooniselt 3 nähtub, et logDice väärtuse järgi on sagedamad kollokaadid<br />

käes/paistma/loojuma/särama/tõusev/päike/pilv jt. Kollokaat päike on hea näide<br />

puhtstatistilise analüüsi puudusest. Kollokaatide tuvastamisel ei arvesta programm<br />

osalause piiridega ning võtab arvesse juhtumid, kus otsisõna ja kollokaat on küll<br />

ühes kollokatsiooni aknas, kuid on eri osalausete liikmed, nt lauses Seal on palju<br />

rohkem päikest, aga põhjamaal on päikest vähem ja ka mängureeglid on<br />

teistsugused loetakse sõnad päikest ja päikest kollokaatideks. Üsna sarnase<br />

tulemuse saab, reastades kollokatsiooni kandidaadid minimaalse tundlikkuse ja<br />

MI 3 -skoori statistiku alusel.<br />

Koosesinemise sageduse, MI, t-skoori ja log-tõepära funktsiooniga saadud<br />

tulemused on mürarikkamad, kuna väljundisse sattub palju kirjavahemärke ja<br />

sagedamaid sõnu, mis ei paku leksikograafilist huvi (vrd Joonis 4).<br />

Joonis 4. Substantiivi päike statistilised kollokaadid järjestatuna t-skoori väärtuse<br />

järgi.<br />

Joonisel 4 on väljundis kirjavahemärgid, mittetähenduslikud sõnad<br />

ja/kui/ei/et/ka/mis, asesõnad tema/mina. Leksikograafilist huvi pakuvad nendest<br />

vaid käes ja paistma.<br />

Seega kindlas naabruses koosesinemiste tuvastamisel saavutavad nendest seitsmest<br />

statistikust eesti keele jaoks paremad tulemused eelkõige MI 3 -skoori, minimaalse<br />

tundlikkuse ja esilduvuse (logDice) statistikud.<br />

22


2.2.2. Kombinatoorsed meetodid<br />

Hübriidmeetodis kombineeritakse statistilist ja reeglipõhist lähenemist. Nagu<br />

igasuguse reeglipõhise lähenemise puhul, iseloomustavad seda parem arusaadavus,<br />

ülevaatlikkus ja kohaldatavus ‒ uurijal on võimalik tulemusi otseselt mõjutada,<br />

kuna iga reegli efektiivsust saab eraldi hinnata ja seda vajadusel korrigeerida<br />

(vrd Roosmaa jt 2001: 11).<br />

Kombinatoorsete meetodite rakendamine korpuspäringu tarkvaras on seotud<br />

sisendkorpuse andmetüüpidega – lemmatiseerimine; morfoloogilised, süntaktilised<br />

märgendid; osalausestamine jm. Nendele üksustele toetutakse arvutigrammatika<br />

kirjutamisel. Meetod eeldab eeltööna tuvastatavate üksuste analüüsi, tuleb täpselt<br />

määrata, mis tüüpi suhteid hakkab programm tuvastama. Nimestiku loomisel saab<br />

rakendada kahte lähenemist: empiirilist ehk korpusainesest lähtuvat ja lingvistilist<br />

ehk traditsioonilisest grammatikakirjeldusest lähtuvat.<br />

1. Korpusandmete empiiriline analüüs aitab tuvastada leksikogrammatilisi<br />

konstruktsioone, mida ei saa indekseerida traditsioonilise sõnaliigimärgendiga ning<br />

mille konstruktsioonispetsiifilist tähendust ja grammatikat ei saa esitada märksõna<br />

leksikaalsete omadustena (vt nt Sahkai 2011).<br />

Empiirilise lähenemise metodoloogilisi aluseid on kirjeldatud nt mallide<br />

grammatika teoorias (Hunston, Francis 2000), kus süntagmaatiliste suhete tüüpe<br />

nimetatakse mallideks (pattern), neid kirjeldatakse vormiklasside (form class)<br />

kaudu ja tuvastatakse eelkõige konkordantsiridade analüüsile toetudes järgmiselt:<br />

1) valitakse juhuslik hulk konkordantsiridu, nt Hunston ja Francis (2000)<br />

analüüsivad iga sõna (substantiiv, verb, adjektiiv, adverb) ca 50 konkordantsirida;<br />

2) valik järjestatakse parema või vasaku naabri suhtes. Hunston ja Francis (2000: 37)<br />

ka põhjendavad sorteerimist, nt kui substantiive sorteerida parempoolsete naabrite<br />

suhtes, siis saab tuvastada tüüpilisi järellaiendeid, vasaku naabri suhtes sorteerides<br />

tulevad esile eeslaiendid;<br />

3) tuvastatud koosesinemisi kirjeldatakse formaalselt vormiklassi terminites.<br />

Põhilised vormiklassid on ‘verbi grupp’, ‘noomeni grupp’, ‘adjektiivi grupp’,<br />

‘adverbi grupp’.<br />

Beryl T. Sue Atkins ja Michael Rundell (2008: 330–359) käsitlevad Oxfordi<br />

leksikograafia käsiraamatus analoogse meetodiga tuvastatud üksusi<br />

leksikograafiliselt relevantsete konstruktsioonidena. Nende käsiraamatus kirjeldatud<br />

meetodi kohaselt tuvastatakse süntagmaatiliste suhete tüüpe konkordantsiridade<br />

analüüsi põhjal. Esiteks tuleb analüüsida konkordantsiridu, seejärel tuvastada<br />

konkreetsele sõnaliigile (eelkõige substantiivile, adjektiivile, verbile ja adverbile)<br />

omased konstruktsioonid ja lõpuks esitada nende konstruktsioonide nimestik.<br />

Kaasmoodustajad on defineeritud kas sõnaliigi või fraasitüübi kaudu, lisaks<br />

osutatakse vajadusel ka kaasmoodustaja süntaktilisele funktsioonile (subjekt,<br />

objekt, adverbiaal).<br />

23


Järgnevalt rakendan kirjeldatud empiirilist lähenemist eesti substantiivi diskussioon<br />

näitel. Joonisel 5 on selle substantiivi 20 esimest konkordantsirida (otsisõnaga<br />

seotud sõnad on alla joonitud).<br />

Joonis 5. Sõna diskussioon konkordantsiread programmis Sketch Engine (ridade<br />

üldarv on 5934).<br />

Konkordantsiridade analüüsist kooruvad välja sellele sõnale iseloomulikud<br />

konstruktsioonid. On näha, et 1) diskussiooni iseloomu ja tüüpi on täpsustatud<br />

adjektiivide suur, äge, laialdane, pingne, põhimõtteline, juriidiline abil; 2) laiendiks<br />

on postpositsioonifraas millegi üle, millegi ümber ja postpositsioonilaadne ühend<br />

mingitel teemadel; 3) laiendiks on komitatiivis substantiiv, st diskussioon kellegagi;<br />

4) otsisõna on verbide tekkima, toimuma (subjekti funktsioonis) ja jälgima (objekti<br />

funktsoonis) laiendiks.<br />

Neid tuvastatud konstruktsioone kirjeldades saab järgneva tabeli (näitelausete<br />

allikas on eesti keele koondkorpus).<br />

Tabel 1. Substantiivi diskussioon konstruktsioonid.<br />

1 KONSTRUKTSIOON ADJ<br />

NÄITELAUSE Kuid ka see on avaliku diskussiooni objekt.<br />

2 KONSTRUKTSIOON PP-üle<br />

NÄITELAUSE Jätkame diskussiooni muudatusettepanekute üle.<br />

3 KONSTRUKTSIOON PP-ümber<br />

NÄITELAUSE Diskussioon eelnõu ümber on viinud mind segadusse.<br />

....<br />

24


Kui võrrelda diskussiooni kirjet seni ilmunud eesti keele sõnastikes, siis on näha, et<br />

just need konstruktsioonid on sõnastikes fikseeritud. Võrdleme nt kirjet diskussioon<br />

EKSSis (vt Joonis 6) ja sõnastikus „Valik rektsioone” (Mäearu 2011) (vt Joonis 7).<br />

Joonis 6. Kirje diskussioon EKSSis.<br />

Joonis 7. Kirje diskussioon sõnastikus „Valik rektsioone” (Mäearu 2011).<br />

Mõlemas sõnastikus on esitatud konstruktsioon diskussioon + PP (diskussioon mille<br />

üle, mille ümber, ja postpositsioonilaadsed mis teemal, mis küsimuses), lisaks on<br />

EKSSis ka konstruktsioon Adj + diskussioon (elav, huvitav, poliitiline, teaduslik,<br />

äge diskussioon). Järelikult on olulisemad konstruktsioonid korpusest tuvastatavad<br />

küllalt väikese hulga konkordantsiridade põhjal.<br />

Sellel teel saadud konstruktsioonide nimestik on aluseks korpusandmete<br />

automaatanalüüsi võimaldava arvutigrammatika reeglite kirjutamisel.<br />

2. Lingvistiline meetod eeldab, et lingvistiliste nähtuste kirjeldamisel lähtutakse<br />

akadeemiliste ja süntaktiliste (eelkõige fraasisüntaksi) grammatikate<br />

põhiseisukohtadest ja seejärel uuritakse nende nähtuste esinemist korpuses<br />

(Khokhlova 2010). Eesmärk on traditsioonilistes grammatikates fikseeritud<br />

täistähenduslike sõnaliikide (substantiivide, adjektiivide, adverbide ja verbide)<br />

süntagmaatiliste suhete tüüpide süstemaatiline kirjeldamine.<br />

Traditsioonilised grammatikakirjeldused on suureks abiks arvutigrammatika<br />

algversioonide loomisel. Kirjeldustele toetumine aitab juba uuritud keelenähtuste<br />

(antud töö puhul sisusõnade süntagmaatiliste suhete tüüpide) käsitlemist<br />

arvutigrammatikas.<br />

Siinses töös rakendan eesti keele sisusõnade süntagmaatiliste suhete<br />

automaattuvastamisel kombinatoorset sõnavisandite grammatika meetodit, mida on<br />

25


edukalt rakendatud leksikograafilises tarkvaras Sketch Engine sõnavisandite<br />

genereerimisel (Kilgarriff jt 2004). Järgmises peatükis tutvustan valitud meetodi<br />

põhimõtteid.<br />

2.3. SÕNAVISANDITE GRAMMATIKA MEETOD<br />

Meetod seisneb selles, et spetsiaalse arvutigrammatika (nn sõnavisandite<br />

grammatika) põhjal otsib programm koostaja poolt määratud grammatilistes suhetes<br />

olevaid sõnapaare ja -kolmikuid, töötleb andmeid statistiliselt ja teeb leksikograafi<br />

jaoks sõna süntaktilisest ja kollokatiivsest käitumisest kompaktse kokkuvõtte, mida<br />

nimetatakse sõnavisandiks. Sõnadevahelise seose tugevuse mõõtmisel kasutab<br />

programm logDice statistikut, lisaks mõõdetakse sõnade koosesinemise sagedust<br />

(raw frequency).<br />

Sõnavisandite grammatika formalismi reeglid on regulaaravaldised, mille<br />

atribuudid on sõnavorm („word”), lemma („lemma”), sõnaliik („tag”) ja<br />

muutetunnused („features”) 21 .<br />

Sõnavisandite grammatikas on nelja liiki grammatilisi suhteid 22 : 1) üheliikmeline<br />

suhe (unary) on defineeritud ühe konkreetse morfoloogilise kategooria kaudu ning<br />

see suhe annab infot ühe kindla grammatilise vormi kohta, nt mis käändes esineb<br />

konkreetse noomeni lemma kõige sagedamini; 2) sümmeetriline suhe (symmetric)<br />

puudutab eelkõige rinnastusseoses olevaid sõnu; 3) kaheliikmelised suhted (dual)<br />

võimaldavad otsida kahe sõna seoseid; 4) kolmeliikmelised suhted (trinary)<br />

võimaldavad leida seoseid kolme erineva sõna vahel (nt verbiga koos esinevaid<br />

adpositsioonifraase). Lisaks on veel reegli tüüp colloc, mis võimaldab otsida<br />

mitmest, nt kolmest ja enamast sõnast koosnevaid grammatilises seoses olevaid<br />

üksusi.<br />

Symmetric-, dual-, trynary- ja colloc-tüüpi reeglid on mõeldud sõnavisandite<br />

grammatikas defineeritud sõnapaaride, -kolmikute ja -nelikute tuvastamiseks, mille<br />

komponendid paiknevad tekstis üksteise suhtes kindlalt defineeritud naabruses<br />

(üldiselt on kontekstina vaadeldud osalauset).<br />

Reegliga colloc saab tuvastada selliseid kolmeliikmelisi konstruktsioone, kus<br />

laiendil on omakorda laiend, näiteks eesti keele substantiivse põhjaga<br />

sõnakolmikuid ja -nelikuid nagu uue aja kombed, luteri usu kirik, saja meetri jooks,<br />

kahe päeva toit, kolme meetri pikkune, keskmist kasvu mees, esimest aastat õpetaja,<br />

pikemat aega meister, kõrge kontsaga kingad; kuni kümme meetrit lai tee, üle valla<br />

21 Eesti keeles on muutetunnusteks noomeni arvu- ja käändetunnused, võrdlusastmete tunnused,<br />

verbi arvu-, isiku-, aja-, kõneviisi-, tegumoe- ja kõneliigitunnused, samuti infiniitsete<br />

verbivormide tunnused.<br />

22 Vt täpsemat kirjeldust Sketch Engine Trac – Grammatical relation definitions<br />

http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying#wordsketchdefs (28.08.12).<br />

26


kuulus sepp 23 . Selliste sõnakolmikute ja -nelikute nimestiku koostamine on omaette<br />

uurimisteema ning antud töös seda tüüpi suhteid ei käsitleta.<br />

Järgnevalt toon näiteks sõnavisandite grammatika meetodiga tuvastatud substantiivi<br />

päike 20 kollokaati, mis on järjestatud koosesinemise sageduse (vt Joonis 8) ja<br />

esilduvuse (vt Joonis 9) järgi. Jooniste esimeses veerus on esitatud otsisõna<br />

kollokaadid, teises veerus on grammatilise suhte nimetus (vt lähemalt ptk 3.2–3.5.),<br />

kolmandas on koosesinemiste arv ja neljandas on esilduvuse väärtus.<br />

Joonis 8. Substantiivi päike kollokaadid järjestatuna koosesinemise sageduse järgi.<br />

23 Näidete allikas on Tauli (1980).<br />

27


Joonis 9. Substantiivi päike kollokaadid järjestatuna esilduvuse (logDice) väärtuse<br />

järgi.<br />

Jooniste 8 ja 9 võrdlusest nähtub, et koosesinemise sagedus toob esile need<br />

kollokaadid, mille üksindaesinemise sagedus on kõrge (paistma, tõusma, loojuma<br />

jm), suurem osa nendest kollokaatidest kuulub eesti keele sagedussõnastiku<br />

(Kaalep, Muischnek 2002) 3000 sagedama sõna hulka. Esilduvus toob nähtavale<br />

eelkõige need kollokaadid, mille üksindaesinemise sagedus on madal (nt lemmade<br />

seniit, taevavõlv, varjutama üksindaesinemise sagedus on korpuses madalam kui<br />

20), kuid mis on olulised otsisõna süntagmaatika uurimise seisukohalt. Esilduvus<br />

toob nähtavale sellised sõnaühendid nagu päike seniidis, päike taevavõlvil (nt lauses<br />

Elu on täiesti võimalik ka päikest taevavõlvil edasi lükkamata), päikest varjutama<br />

jmt.<br />

Joonistel 3, 4, 8 ja 9 esitatud andmete võrdlusest on näha, et kombineeritud<br />

meetodiga (antud uurimuses sõnavisandite grammatika meetodiga) saadud tulemus<br />

on puhtam ja leksikograafil ei ole vaja kulutada aega eri tüüpi müra (nt<br />

kirjavahemärkide, vt Joonis 4) filtreerimisele. Puhtstatistilise meetodiga tuvastatud<br />

koosesinemiste puhul saavutavad eesti keele jaoks paremad tulemused eelkõige<br />

MI 3 -skoori, minimaalse tundlikkuse ja esilduvuse (logDice) statistikud.<br />

Koosesinemise sageduse, MI, t-skoori ja log-tõepära funktsiooniga saadud<br />

tulemused on mürarikkamad, kuna väljundisse satub palju kirjavahemärke ja<br />

sagedamaid sõnu, mis ei paku leksikograafilist huvi. Sõnavisandite grammatika<br />

28


meetodiga tuvastatud grammatiliste suhete puhul on kasulik vaadata nii<br />

koosesinemise sageduse kui ka esilduvuse põhjal tuvastatud kollokaate. Esimene<br />

näitab, mis kollokatiivses ümbruses ja mis kontekstides kasutatakse sõna kõige<br />

sagedamini, teine aitab tuvastada harvem ette tulevaid koosesinemisi.<br />

Tarkvara Sketch Engine’i sõnavisandi moodulis on laiendatud päringuga (advanced<br />

options, vt Joonis 10) võimalik määrata grammatiliste suhete tuvastamise<br />

lisatingimusi:<br />

valida olemasoleva korpuse failidest need, mis hakkavad kuuluma allkorpusesse<br />

(subcorpus);<br />

määrata suhte minimaalne esinemissagedus (minimum frequency);<br />

määrata grammatilise suhte minimaalne esilduvuse väärtus (minimum salience)<br />

(vt lähemalt Rychlý 2008). Väärtuse tõlgendamise põhimõte on järgmine:<br />

kõrged väärtused osutavad sõnadevahelisele tugevale seosele, väiksed ja<br />

negatiivsed väärtused sellele, et sõnad pigem välistavad üksteisega<br />

koosesinemise (Evert 2009: 2016);<br />

määrata ühe kategooria kuvatavate üksuste hulk (maximum number of items in<br />

grammatical relations);<br />

järjestada kollokaate esilduvuse väärtuse või koosesinemiste arvu järgi (sort<br />

collocations according to salience/raw frequency);<br />

kasutada funktsiooni Tickbox Lexicography template, mis pakub eri<br />

kollokatsioonidele (GDEXi sätete kohaselt) teatud arvu nn parimaid näitelauseid<br />

(vt lähemalt Kilgarriff jt 2008a);<br />

klasterdada kollokatsioone (cluster collocations);<br />

määrata minimaalne sarnasus klasterdatavate üksuste vahel (minimal similarity<br />

between cluster collocations);<br />

järjestada kollokaate grammatilise suhte liigi järgi (structure word sketch by<br />

gramrels);<br />

genereerida mitmesõnalisi sõnavisandeid (show links to multiword sketches);<br />

valida grammatilise suhte tüüp (select gramrels).<br />

29


Joonis 10. Sõnavisandi kasutajaliides: laiendatud päring.<br />

30


3. EESTI KEELE SUBSTANTIIVIDE, ADJEKTIIVIDE,<br />

ADVERBIDE JA VERBIDE SÜNTAGMAATILISED<br />

SUHTED NING NENDE TUVASTAMINE<br />

KORPUSEPROGRAMMI SKETCH ENGINE EESTI<br />

MOODULI NÄITEL<br />

3.1. EESTI KEELE SÕNAVISANDITE GRAMMATIKA KOOSTAMISE<br />

PÕHIMÕTTED<br />

Korpusanalüüsi tarbeks kirjeldan eesti keele sisusõnade süntagmaatiliste suhete<br />

tüüpe vormiklasside (sõnaliikide, fraasitüüpide) ja morfosüntaktiliste kategooriate<br />

(käänete) kaudu. Selline lähenemine on tingitud asjaolust, et korpusanalüüsi<br />

lähtekohaks on morfoloogiliselt märgendatud korpus ja sõnavisandite grammatika<br />

atribuudid on korpuses märgendatud sõnavormid, lemmad, sõnaliigid ja<br />

muutetunnused (vt lähemalt ptk 2.3.). Selliseid kirjeldusi nimetan töös<br />

leksikogrammatilisteks konstruktsioonideks. Konstruktsiooni moodustajaid käsitlen<br />

kaasmoodustajatena.<br />

Kaasmoodustaja on otsisõnaga süntagmaatilises suhtes olev sõna, ta võib olla nii selle<br />

sõna laiend kui ka põhi, mida otsisõna laiendab. Näiteks otsides substantiivi<br />

diskussioon süntagmaatilisi suhteid, on leksikograafi jaoks oluline näha nii neid<br />

suhteid, kus diskussioon on laiendi funktsioonis (nt diskussiooni teema) kui ka neid,<br />

kus diskussioon on põhja funktsioonis (nt äge diskussioon). Seejuures on oluline<br />

märkida, et kirjeldatud konkreetsete sisusõnade leksikogrammatilised<br />

konstruktsioonid ei ole sama mis nende sisusõnade fraasitüübid. Eriti oluline on see<br />

märkus substantiivi leksikogrammatiliste konstruktsioonide juures (vt Tabel 3), kus<br />

on välja toodud konstruktsioon numeraal + substantiiv. Tegemist on arvsõnafraasiga.<br />

Kuid moodustusstruktuuri põhjal kirjeldamine võimaldab arvsõnafraase käsitleda ka<br />

substantiivi leksikogrammatiliste konstruktsioonide hulgas.<br />

Konstruktsioonide loendi koostamisel olen otsustanud lingvistilise meetodi kasuks.<br />

Edaspidi võib kaaluda ka korpusainesest lähtuvate empiiriliste meetodite<br />

rakendamist, mis täiendaks sõnavisandite grammatikat.<br />

Eesti keele sõnavisandite grammatika koostamiseks tuli lahendada järgmised<br />

küsimused.<br />

1) Koostada eesti keele traditsiooniliste (Rätsep 1978; Tauli 1980; EKG 1993;<br />

Kerge 2000; Erelt jt 2007) ja formaalsete (Müürisep 2000; Roosmaa jt 2001;<br />

Puolakainen 2001) grammatikakirjelduste põhjal eesti substantiivide, adjektiivide,<br />

adverbide ja verbide süntagmaatiliste suhete nimestik. Kokku olen välja toonud 32<br />

substantiivide, adjektiivide, adverbide ja verbide leksikogrammatilist<br />

konstruktsiooni (vt Tabel 3, Tabel 5, Tabel 6 ja Tabel 7).<br />

2) Analüüsida olemasolevate eesti keele morfoloogiliste analüsaatorite sõnaliikide<br />

ja morfoloogiliste tunnuste märgendussüsteemi.<br />

31


Siinse töö raames koostatud sõnavisandite grammatika põhineb<br />

morfoloogiaanalüsaatori ESTMORF (Kaalep 1998) märgendussüsteemil 24 , millega<br />

on märgendatud eesti keele koondkorpus. ESTMORFi märgendussüsteem erineb<br />

paljuski teistes eesti keele morfoloogilistes analüsaatorites kasutatud märgenditest,<br />

toon tabelis 2 näiteks sõnaliikide käsitluse ESTMORFis, eesti keele kitsenduste<br />

grammatikas (edaspidi ESTKG) (Roosmaa jt 2001) ja Eesti Keele Instituudi (EKI)<br />

morfoloogilises analüsaatoris 25 .<br />

Tabel 2. Sõnaliikide käsitlus ESTMORFi (Kaalep 1998), ESTKG (Roosmaa jt<br />

2001) ja EKI morfoloogilises analüsaatoris.<br />

ESTMORF ESTKG EKI<br />

_S_ nimisõna<br />

_H_ pärisnimi<br />

_A_ omadussõna –<br />

algvõrre<br />

_S_ nimisõna<br />

_S_ nimisõna<br />

_H_ pärisnimi<br />

_C_ omadussõna –<br />

keskvõrre<br />

_U_ omadussõna –<br />

ülivõrre<br />

_A_ omadussõna _A_ omadussõna<br />

_G_ genitiivatribuut _G_ genitiivatribuut _G_ genitiivatribuut e<br />

(käändumatu<br />

omastavaline<br />

omadussõna)<br />

(pärisnimekujuline)<br />

täiend<br />

_D_ määrsõna _D_ määrsõna _D_ määrsõna<br />

_I_ hüüdsõna _I_ hüüdsõna _I_ hüüdsõna<br />

_J_ sidesõna _J_ sidesõna _J_ sidesõna<br />

_K_ kaassõna _K_ kaassõna _K_ kaassõna<br />

_N_ põhiarvsõna<br />

_N_ põhiarvsõna<br />

_O_ järgarvsõna _N_ arvsõna<br />

_O_ järgarvsõna<br />

_P_ asesõna _P_ asesõna _P_ asesõna<br />

32<br />

_V_ tegusõna _V_ tegusõna _V_ tegusõna<br />

_X_ verbi juurde<br />

kuuluv sõna, millel<br />

eraldi sõnaliigi tähistus<br />

puudub, nt plehku<br />

– –<br />

_Y_ lühend, nt USA _Y_ lühend, nt USA –<br />

_Z_ lausemärk, nt -, /, _Z_ lausemärk, nt -, /, –<br />

24<br />

ESTMORFi kirjeldus http://www.filosoft.ee/html_morf_et/morfoutinfo.html (28.08.12).<br />

25<br />

Eesti Keele Instituudi morfoloogiline analüsaator http://www.eki.ee/tarkvara/morf_lisa.html<br />

(28.08.12).


ESTMORF märgendab omaette sõnaliikideks alg-, kesk- ja ülivõrdes adjektiivid,<br />

üld- ja pärisnimisõnad, põhi- ja järgarvsõnad ning ei erista selliseid sõnaliike nagu<br />

modaal-, afiksaal- ja proadverbid (vrd EKG 1993: 18). Roosmaa jt arvates oleks<br />

selgem selline märgendus, kus sõltumata sellest, kas adjektiiv on alg-, kesk- või<br />

ülivõrdes, on kasutusel ikkagi sama märgend, mis ütleb, et tegu on adjektiiviga, ja<br />

lisaks veel märgend, mis näitab võrdlusastet (2001: 25–27). Nii on ESTKGs kolme<br />

eri adjektiivi märgendi (A, C ja U) asemel kasutusele võetud üksainus märgend (A)<br />

ning võrdlusastet näitavad märgendid pos (algvõrre), comp (keskvõrre) ja super<br />

(ülivõrre). Samal põhjusel on võetud pärisnime (H) ja üldnime (S) märgendid<br />

kokku üheks nimisõna märgendiks (S); põhiarvsõna (N) ja järgarvsõna (O)<br />

märgendid aga üheks arvsõna märgendiks (N). Lisamärgenditeks on põhi- ja<br />

järgarvsõnade märgendid (card ja ord) ning põhi-, modaal- ja abiverbide märgendid<br />

(main, mod, aux). Lisaks on ESTKGs ka adpositsioonide lisamärgendid, mis täpselt<br />

määravad, kas tegu on pre- või postpositsiooniga (vt kirjeldust Roosmaa jt 2001:<br />

121–158). Kuna ESTMORF pre- ja postpositsioone ei erista, siis tuli sõnavisandite<br />

grammatika tarbeks koostada spetsiaalsed pre- ja postpositsioonide loendid.<br />

EKI morfoloogilise analüsaatori süsteem sarnaneb sõnaliikide märgendamisel<br />

ESTMORFi ja ESTKG omaga, eraldi sõnaliigina märgendatakse pärisnimesid;<br />

adjektiivi võrdlusastmeid omaette sõnaliikideks ei märgendata.<br />

Kõigi kolme analüsaatori puuduseks on perifrastiliste verbide ja teist tüüpi<br />

püsiühendite puudulik märgendamine (eelkõige afiksaaladverbide märgendamine<br />

iseseisvateks adverbideks ja väljendverbide nominaalsete komponentide<br />

märgendamine iseseisvateks substantiivideks), kuid see puudus korvatakse ilmselt<br />

juba lähiaastatel (vt Kaalep, Muischnek 2009: 157–173). Põhilised probleemid on<br />

piiritletud samuti formaalses grammatikas (Roosmaa jt 2001: 26): nii ESTMORFis<br />

kui ka ESTKGs analüüsitakse predikaadi koosseisu kuuluvaid substantiivseid ja<br />

adverbilisi komponente eraldi (Roosmaa jt 2001: 29) ning eeltöötluse ja<br />

morfoloogilise analüüsi käigus neid ära ei tunta. Nagu ESTKG loojad märgivad,<br />

nõuaks liitpredikaadi adverbiliste ja substantiivsete komponentide täpsem analüüs<br />

semantilise info olemasolu ning väga mahukat väljend- ja ühendverbide<br />

arvutisõnastikku. Teiseks probleemiks on adverbialiseerunud ja adjektiviseerunud<br />

üksuste sõnaliigi määramine, nt käes, tasuta jne. Need vormid lemmatiseeritakse ja<br />

märgendatakse üldjuhul iseseisva substantiivina.<br />

Lähtuvalt morfoloogiaanalüsaatori ESTMORF märgendite süsteemist on eesti keele<br />

sõnavisandite grammatikasse kirjutatud reeglid selliste sõnaliikide jaoks nagu S<br />

(substantiiv); A (ka C, U ja G, st tuli kirjutada eraldi reeglid kõikide nende<br />

adjektiivivormide jaoks); D (adverb) ja V (verb). Kuid analüüsi on kaasatud ka<br />

sellised sõnaliigid nagu K (adpositsioon), P (pronoomen), N (kardinaal), O<br />

(ordinaal) ja X (Xiga on märgendatud verbi juurde kuuluv sõna, millel eraldi<br />

sõnaliigi tähistus puudub). Koondkorpuses on Xiks märgendatud järgmised sõnad:<br />

pärit (32278) 26 , tähele (7878), andeks (2690), parata (2135), mahti (1310), kihla (807),<br />

26 Sulgudes on esitatud andmed nende sõnade eraldiesinemise sageduse kohta koondkorpuses.<br />

33


plehku (492), säru (145), vehkat (76), peksa (70), lulli (62), amokki (41), tuupi (35),<br />

putket (28), luuslanki (24), luuri (16), lakku (6) ja rooki (1).<br />

3) Koostada konkreetsed sõnavisandite grammatika reeglid.<br />

4) Seejärel reegleid korpuse päringukeelt kasutades testida ja vaadata, kas nad<br />

töötavad. Oluline vaheetapp on iga reegli kontekstitingimuste täpsustamine ja<br />

vajadusel reeglit täpsustava leksikoni koostamine. Eraldi loendid koostasin<br />

sidendite, afiksaaladverbide, substantiivsete kvantorite ja prepositsioonide jaoks.<br />

Kontekstitingimuste määramisel ja loendite koostamisel toetusin eesti keele<br />

traditsiooniliste (Rätsep 1978; Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007) ja<br />

formaalsete (Müürisep 2000; Roosmaa jt 2001; Puolakainen 2001) grammatikate ja<br />

tasakaalus- ning koondkorpuse andmetele. Afiksaaladverbide loendi koostamisel<br />

kasutasin EKSSi ja EE-VN ühendverbide loendeid. Korpusandmeid kasutasin kõige<br />

rohkem siis, kui oli vaja otsustada, kas teatud grammatilise suhte puhul on mõtet<br />

otsida konkreetse sisusõna neid laiendeid, mis asuvad otsisõna paremas kontekstis,<br />

vasakus kontekstis või mõlemas. Toon näite: otsisõnaks on adjektiiv ja<br />

tuvastamisobjektiks on selle infinitiivsed laiendid (ahne sööma). Infinitiivsed<br />

laiendid on reeglina järellaiendid. Samas korpusandmed 27 osutavad sellele, et<br />

mõnikord esineb ma-infinitiivis verb ka adjektiiviks märgendatud sõnade ees, nt<br />

konstruktsioonides mõtlema kutsuv, lagunema/ununema kippuv jmt. Siiski on<br />

selliste konstruktsioonide esinemissagedus üsna madal ning neid on otstarbekam<br />

otsida päringukeele abil. Reegli lisamisel satuksid väljundisse juhuslikud verbi ja<br />

adjektiivi koosesinemised (nt saama õiget, domineerima tühjad jmt). Sel põhjusel<br />

seda tüüpi konstruktsioone tuvastavat reeglit (*Vma_Adj) ei ole koostatud.<br />

Eesti keele sõnavisandite grammatika versioon 1.5 koosneb 85 reeglist, mille hulgas<br />

on 14 unary-tüüpi, 4 symmetric-tüüpi, 62 dual-tüüpi ja 5 trinary-tüüpi reeglit<br />

(vt Lisa 1).<br />

Unary-tüüpi reeglid tuvastavad, mis käändes esineb konkreetne substantiiv või<br />

adjektiiv kõige sagedamini. See info on kasulik grammatikaliseerunud ja<br />

leksikaliseerunud vormide uurimisel. Nt korpuse andmed näitavad, et substantiivi<br />

tasu on kasutatud ilmaütlevas käändes 28 933 korda, teistes käänetes aga tunduvalt<br />

vähem (osastavas 5152 korda, omastavas 5077 korda, nimetavas 2558 korda). Selle<br />

info põhjal võib järeldada, et sõnavorm tasuta on adverbialiseerumas. Teiseks<br />

osutub see info kasulikuks morfoloogiliste vormide kasutussageduse uurimisel.<br />

Näiteks adjektiivi võimalik andmed näitavad, et omastavat vormi võimalike on<br />

kasutatud 6433 korda, samas vorm võimalikkude esineb vaid kaks korda. See teave<br />

on eriti oluline vormimoodustusinfo esitamisel õppesõnastikes. Nendele andmetele<br />

toetudes saab teha valiku, mis morfoloogilisi vorme esitada, et mitte koormata<br />

õppijat grammatiliselt lubatavate, aga tegelikus keeles mitte kasutatavate<br />

vormidega.<br />

27<br />

Konstruktsioonid on leitud päringuga 2:[ tag="V"&features="ma"] 1: [tag="A"&<br />

features=".._n"].<br />

34


Symmetric-tüüpi reeglid on koostatud eelkõige substantiivide, adjektiivide,<br />

adverbide ja verbide rinnastus- ja võrdlustarindite tuvastamiseks (vt lähemalt ptk<br />

3.2.2.10., 3.3.2.7., 3.4.2.5. ja 3.5.2.9.).<br />

Kahe- ja kolmeliikmeliste leksikogrammatiliste konstruktsioonide tuvastamiseks olen<br />

koostanud 67 reeglit. Peatükkides 3.2.–3.5. käsitlen ja võimalusel lahendan nende<br />

reeglite koostamisel tekkinud probleeme ja analüüsin saadud tulemusi. Igas peatükis<br />

on kaks osa: sõnaliigi leksikogrammatiliste konstruktsioonide nimestik (vt Tabel 3,<br />

Tabel 5, Tabel 6, Tabel 7) ja nende konstruktsioonide käsitlus sõnavisandite<br />

grammatikas. Tabelites osutan konkreetset konstruktsiooni tuvastava reegli<br />

nimetusele. Grammatika praeguses versioonis 1.5 on reeglite nimetustes kasutatud<br />

mitmete teiste keelte jaoks (nt Khokhlova 2010) koostatud sõnavisandite<br />

grammatikate traditsioonilist terminiaparaati. Neist suurem osa on ingliskeelsed<br />

terminid, nt subject ʽsubjektʼ, object ʽobjektʼ, adverbial ʽadverbiaalʼ, predicate<br />

ʽpredikatiivʼ, participle ʽpartitsiipʼ jt. Sõltuvussuhteid on näidatud sõnade modifier<br />

ʽlaiendʼ, modifies ʽlaiendabʼ ja prepositsiooni of abil. Grammatika metakeele<br />

arendamine nõuab täiendavaid kasutajauuringuid ning edaspidi saab seda kohandada<br />

eri sihtgruppide (leksikograafide, lingvistide, keeleõppijate) soovidele vastavaks.<br />

Tabelites toodud näited on võetud kas grammatikatest (Tauli 1980; EKG 1993;<br />

Kerge 2000; Erelt jt 2007) või eesti keele koondkorpusest.<br />

3.2. SUBSTANTIIVI SÜNTAGMAATILISED SUHTED<br />

3.2.1. Leksikogrammatilised konstruktsioonid<br />

Substantiivi süntagmaatiliste suhete nimestiku koostamisel lähtusin järgmistest<br />

grammatilistest käsitlustest: Valter Tauli 1980: 156–188; EKG 1993: 114–129;<br />

Krista Kerge 2000: 27–31, 78–83; Mati Erelt 2003a: 112–116. Sõnavisandite<br />

grammatika kirjutamisel kasutasin ka Kaili Müürisepa (2000: 62–68) väitekirja<br />

täiendigrammatika peatükis kirjeldatud põhimõtteid.<br />

Eesti substantiivifraasi moodustusstruktuuri kirjeldades osutab Erelt (2003a: 112, vt<br />

ka Erelt jt 2007: 531), et eesti keeles on tüüpilise/prototüüpse substantiivifraasi<br />

laiendite positsioon fikseeritud fraasi peasõna suhtes. Suurem osa laienditest esineb<br />

substantiivile eelnevas positsioonis: 1) demonstratiivid, nt see mees, kõik kohad,<br />

oma inimene; 2) adjektiivid, nt vana mees; 3) kvantorid, nt kaks meest;<br />

4) partitsiibid ja mata-ühendid relatiivsete klausidena, nt jalutav mees, rabisev<br />

vihm, hinnatav saavutus, möödunud päev, kõigi poolt oodatud inimene, hommikust<br />

saadik pesemata käed; 5) genitiivis laiendid, nt venna raamat, eesti keel; 6) mõned<br />

obliikvakäändes substantiivsed laiendid, nt puust maja, nokaga müts;<br />

7) järgarvsõnad, nt kümnes klass; 8) ja-tegijanimed relatiivsete klausidena, nt<br />

mõtleja inimene, hauduja kana. Lisaks loetletule substantiivi-, adjektiivi- ja<br />

kavantori(fraasi)dele esinevad substantiivi laienditena ka adverb(ifraas)id (kikkis<br />

kõrvad, raagus puud), adpositsioonifraasid (uhkus kodumaa üle), infinitiiv(ifraas)id<br />

35


(soov õppida, kavatsus abielluda) ja kõrvallaused (nt Muidugi jääb küsimus, kas see<br />

isik on sotsiaalselt kindlustatud) (vt Kerge 2000: 78–81).<br />

Tabelis 3 on esitatud sõnavisandite grammatikas tuvastatavad substantiivi<br />

leksikogrammatilised konstruktsioonid.<br />

Tabel 3. Substantiivi leksikogrammatilised konstruktsioonid.<br />

Kaasmoodus<br />

36<br />

taja kood<br />

Kaasmoodustaja<br />

Näited Konstruktsiooni tuvastava<br />

reegli nimetus SkE eesti<br />

moodulis<br />

Adj adjektiiv väike poiss, punane roos Adj_modifier/modifies<br />

Adj_comp_modifier/modifies<br />

Adj_sup_modifier/modifies<br />

Adj_käändumatu_modifier/ modifies<br />

Ptcp partitsiip<br />

(v-kesksõna,<br />

tav-kesksõna,<br />

nud-kesksõna,<br />

tud-kesksõna)<br />

N obliikvakäändes<br />

substantiiv<br />

jalutav mees,<br />

möödunud päev<br />

venna raamat, sõbra<br />

pruut, panga juhataja,<br />

ülikooli nõukogu;<br />

meeter riiet, pudel vett,<br />

paanikas mees, abielus<br />

naine, rauast uks,<br />

lendurist abikaasa,<br />

rinnuni rohi, lasteta<br />

perekond, iseloomuga<br />

naine;<br />

usk jumalasse, osavõtt<br />

koosolekust, lootus<br />

vabadusele, kiri sõbralt,<br />

ettepanek lõunasöögiks,<br />

tee suhkruta, abielu<br />

pankuriga, ämber veega<br />

Num arvsõna<br />

Eesti Vabariik, Euroopa<br />

Liit<br />

esimene armastus, sada<br />

kilomeetrit<br />

Adv adverb raagus puud,<br />

gripis/sarlakites laps,<br />

alasti jõnglane, kummuli<br />

pann, kohevil tainas,<br />

omaette tuba; palju<br />

pahandust, vähe vigu,<br />

natuke aega<br />

Pron pronoomen need lilled, mõlemad<br />

lapsed<br />

participle_modifier<br />

omastav_modifier/omastav_<br />

modifies<br />

osastav_modifier/osastav_<br />

modifies<br />

sisseütlev_modifier<br />

seesütlev_modifier<br />

seestütlev_modifier<br />

alaleütlev_modifier<br />

alalütlev_modifier<br />

alaltütlev_modifier<br />

saav_modifier<br />

rajav_modifier<br />

olev_modifier<br />

ilmaütlev_modifier<br />

kaasaütlev_modifier<br />

Pr_modifier/Pr_modifies<br />

ordinal_modifies/modifier<br />

cardinal_modifies/modifier<br />

Adv_modifier/N_modifies<br />

Pron_modifier/modifies


Kaasmoodus-<br />

taja kood<br />

Kaasmoodustaja<br />

PP adpositsioonifraas<br />

Vinf verb ma- või<br />

da-infinitiivis<br />

KL kõrvallause<br />

(tuvastusobjekt<br />

on kõrvallause<br />

alguses olev<br />

sidend)<br />

N ja/või N<br />

N kui/nagu N<br />

rinnastustarind<br />

võrdlustarind<br />

(nagu-tarind,<br />

kui-tarind)<br />

Näited Konstruktsiooni tuvastava<br />

reegli nimetus SkE eesti<br />

ülespoole põlve kleit, üle<br />

küla mees, elu üle<br />

mõtleja; hirm vanemate<br />

ees, vastutus laste eest,<br />

saatekiri arsti juurde<br />

meister valetama, soov<br />

laulda, harjumus õppida<br />

Mees, kes valetas.<br />

Küsimus, mis eile kerkis.<br />

See on fakt, et ta valetas.<br />

Mul tekkis kahtlus, kas ta<br />

mitte ei valeta.<br />

Mul on tunne, nagu oleks<br />

mul energiakriis.<br />

päike ja tuul,<br />

elu kui kabaree,<br />

mees nagu orkaan<br />

moodulis<br />

N_PP<br />

N_Vma<br />

N_Vda<br />

kõrvallause<br />

ja/või<br />

kui/nagu<br />

Pred predikatiiv Naine on ilus. predicate_N/predicate_N_of<br />

predicate_Adj/predicate_Adj_of<br />

3.2.2. Sõnavisandid<br />

3.2.2.1. Adjektiiv kaasmoodustajana<br />

Sõnavisandite grammatika versioonis 1.5 (vt Lisa 1) on adjektiivsete atribuutide<br />

tuvastamiseks neli reeglit (vt Tabel 3): Adj_modifier/modifies,<br />

Adj_comp_modifier/modifies, Adj_sup_modifier/modifies,<br />

Adj_käändumatu_modifier/modifies. See on tingitud ESTMORFi eripärast, et<br />

adjektiivi alg-, kesk- ja ülivõrded ning käändumatud adjektiivid on märgendatud<br />

omaette sõnaliikideks (vt ka ptk 3.1.).<br />

Grammatikas on arvesse võetud ainult sellised struktuurid, kus täiend on põhja ees.<br />

Tingimuseks on seatud, et täiend ühildub põhjaga käändes (v.a neli viimast käänet)<br />

ja arvus ning asub substantiivi vasakus kontekstis. Adjektiivseid järeltäiendeid<br />

programm hetkel ei otsi. Nagu märgitakse Erelti jt (2007: 532) käsiraamatus,<br />

kasutatakse eesti keeles järelasendit täiendi esiletõstmiseks peamiselt<br />

ilukirjanduskeeles ja emotsionaalses kõnes (vrd nt Tauli (1980: 159) näidet: Juba<br />

lapsena igatsesin merd ääretut (Friedebert Tuglas)). Järeltäiendi tuvastamiseks<br />

oleks vaja esiteks järeltäiendi grammatika põhjalikumat uurimist, ja teiseks, kuna<br />

seda tüüpi täiend esineb sagedamini ilukirjanduskeeles ja emotsionaalses kõnes, on<br />

nende automaattuvastamiseks vajalikud piisavalt suured vastavate allkeelte<br />

märgendatud korpused, vastasel juhul ei ole väljund representatiivne.<br />

37


Toon näiteks substantiivide päike (vt Joonis 11) ja ühiskond (vt Joonis 12)<br />

sõnavisandites tuvastatud (algvõrdes esinevad) eestäiendid. Siin ja edaspidi on<br />

sõnavisandi jooniste ülemisel real nähtavad grammatilise suhte nimetus<br />

sõnavisandite grammatikas, tuvastatud sõnade üldine koosesinemiste arv (overall<br />

frequency) ja esilduvuse (logDice) üldväärtus (overall score). Jooniste esimeses<br />

veerus on nähtavad lemmale viiduna otsisõna kollokaadid, teises veerus on iga<br />

konkreetse sõnapaari- või kolmiku koosesinemiste arv (frequency), kolmandas<br />

veerus on esilduvuse väärtus (score). Väärtuse tõlgendamise põhimõte on järgmine:<br />

kõrged väärtused osutavad sõnadevahelisele tugevale seosele, väiksed ja<br />

negatiivsed väärtused sellele, et sõnad pigem välistavad üksteisega koosesinemise<br />

(Evert 2009: 2016) (vt arutelu ptk-is 2.2.1. ja 2.2.2.). Joonistel on lemmad<br />

järjestatud koosesinemise sageduse järgi. Nii tulevad esile sõnad, mille<br />

eraldiesinemise sagedus korpuses on kõrge. Selline materjali esitusviis toetab eriti<br />

alg- ja kesktasemele suunatud süntagmaatiliste õpikute koostamist (vt arutelu ptk-is<br />

5.2.1.3.).<br />

Joonis 11. Substantiivi päike Joonis 12. Substantiivi ühiskond<br />

adjektiivatribuudid. adjektiivatribuudid.<br />

Joonisel 11 olevast infost nähtub, et reegli Adj_modifier alusel tuvastas programm<br />

lemma päike 2240 adjektiivset laiendit, millest kõige sagedam kollokaat on tõusev<br />

(271 koosesinemist), järgnevad ere/loojuv/lõõskav jt. Sõnapaari tõusev päike<br />

esilduvuse väärtus on 10.7; sõnapaari loojuv päike esilduvuse väärtus on sellest<br />

kõrgem (10.93), mis osutab, et sõnade loojuv ja päike seos on statistiliselt tugevam.<br />

Seevastu substantiivi ühiskond kõige sagedam adjektiivne eestäiend demokraatlik<br />

(914 koosesinemist) on ühtlasi kõrgeima esilduvuse väärtusega (10.66) adjektiivne<br />

kollokaat.<br />

3.2.2.2. Partitsiip kaasmoodustajana<br />

Partitsiipsete kaasmoodustajate tuvastamiseks on sõnavisandite grammatikas reegel<br />

participle_modifier (vt Tabel 3). Otsitakse substantiivi vasakus kontekstis esinevaid<br />

v-, tav-, nud- ja tud-kesksõnu. Seega tuvastab programm substantiivi ja partitsiibi<br />

38


ühendeid, milles partitsiip esineb eestäiendi funktsioonis. Joonis 13 näitab sõna<br />

kohv ja Joonis 14 sõna artikkel partitsiipseid eestäiendeid.<br />

Joonis 13. Substantiivi kohv Joonis 14. Substantiivi artikkel<br />

atribuudid. atribuudid.<br />

Substantiivi kohv sõnavisandis on sellised ühendid nagu jahvatatud/röstitud/<br />

jahtunud jne. Substantiivi artikkel sagedamad kaasmoodustajad on nud-partitsiip<br />

ilmunud ja tud-partitsiibid avaldatud/nimetatud/kirjutatud jt.<br />

3.2.2.3. Substantiiv kaasmoodustajana<br />

Obliikvakäändeliste substantiivsete atribuutide tuvastamiseks on kirjutatud eraldi<br />

reeglid iga käände jaoks. Seega toob süsteem esile substantiivi genitiiv- (venna<br />

raamat), partitiiv- (kimp lilli) ja adverbiaalatribuudid (usk jumalasse).<br />

3.2.2.3.1. Genitiivatribuut<br />

Genitiivatribuudi reegel omastav_modifier/omastav_modifies (vt Tabel 3) tuvastab<br />

substantiive, mis asuvad vahetult otsitava substantiivi vasakus kontekstis ja on<br />

genitiivis. Ka selle suhte puhul otsitakse vaid eestäiendiga ühendeid. Tauli (1980:<br />

166) on osutanud, et sellised konstruktsioonid, kus genitiivatribuut järgneb<br />

substantiivile, on samuti eesti keeles võimalikud, nt Kes olen mees ma koidu?<br />

(Gustav Suits), kuid need on pigem erandlikud ja esinevad üldjuhul luules.<br />

Programm otsib nii neid juhtumeid, kus otsitava lemma laiendiks on teine genitiivis<br />

substantiiv, kui ka neid, kus otsitav lemma esineb ise genitiivatribuudi funktsioonis.<br />

Joonisel 15 on lemma eesmärk genitiivatribuudid (omastav_modifier):<br />

eelnõu/projekti/seaduse eesmärk; samuti need ühendid, kus eesmärk ise esineb<br />

genitiivatribuudi funktsioonis (omastav_modifies): eesmärgi saavutamine/täitmine/<br />

seadmine jne.<br />

39


Joonis 15. Substantiiv eesmärk fraasi põhja ja genitiivatribuudi funktsioonis.<br />

Lisaks tuvastab programm reegli Pr_modifier/Pr_modifies (vt Tabel 3) abil<br />

genitiivis pärisnimede ja üldnimede koosesinemisi. Nt substantiivi vabariik<br />

sõnavisandis tulevad esile atribuudid Eesti/Lõuna-Aafrika/Läti jmt.<br />

3.2.2.3.2. Partitiivatribuut<br />

Partitiivatribuudid esinevad eelkõige substantiivsetes kvantorifraasides (vt ka Kerge<br />

2000: 25–26), nt kari mullikaid. Seda tüüpi kaasmoodustajate tuvastamiseks on<br />

kirjutatud reegel osastav_modifier/osastav_modifies, vt Tabel 3.<br />

Reegliga saab tuvastada otsisõna ainsuse ja mitmuse partitiivis olevaid<br />

järeltäiendeid. Programm otsib ainult loendina etteantud sõnade järeltäiendeid.<br />

Põhjus on selles, et muidu tuvastaks programm kõik võimalikud substantiivi<br />

koosesinemised teise partitiivis esineva substantiiviga, nt lauses Teise tsitaadi<br />

autorit ma täpselt ei mäleta või Mis loogika see õieti on, mille alusel kodanikel<br />

vahet tehakse?<br />

Loendis on sõnad aasta, enamik, enamus, gramm, grupp, hektar, hetk, hulk, hunnik,<br />

jagu, jupp, kann, kari, kast, kiht, kilogramm, kilo, kimp, klaas, klaasike,<br />

kolmveerand, kott, kraad, kuhi, liiter, meeter, minut, nädal, osa, paar, pakk, parv,<br />

põlvkond, ports, pudel, punt, purk, päev, rida, rühm, sari, sekund, tass, tassike, tilk,<br />

tonn, tund, tükk, valik, veerand, viil, virn. 28<br />

Jooniselt 16 nähtub, et substantiivi tass sagedamad partitiivatribuudid<br />

(osastav_modifier) on kohv/tee/vesi.<br />

28 Loendi koostamisel lähtusin päringuga 1:[tag="S"] [tag="A"]{0,2} 2:[tag="S"&<br />

features=".._p"][tag!="V"] saadud konkordantside analüüsist.<br />

40


Joonis 16. Substantiivi tass partitiivatribuudid.<br />

3.2.2.3.3. Adverbiaalatribuut<br />

Eraldi reeglid on kirjutatud kõikide adverbiaalkäändeliste täiendite tuvastamiseks<br />

(vt Tabel 3): sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier,<br />

alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, saav_modifier,<br />

rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier.<br />

Tauli (1980: 158–173), Kerge (2000: 27–31) ja Erelti (2003a: 114–115) eesti keele<br />

süntaksi uurimused näitavad, et nii substantiivile eelnevad kui ka järgnevad<br />

adverbiaalatribuudid võivad esineda kõikides adverbiaalkäänetes (vt Tabel 4).<br />

Tabel 4. Adverbiaalatribuutide asukoht põhja suhtes.<br />

Moodustusstruktuur<br />

Eestäiend Järeltäiend<br />

N+Nill eeskotta minek, Austraaliasse<br />

sõit<br />

usk jumalasse, sõit linna, vaade õue<br />

N+Nin paanikas inimene, tiisikuses käänak jutuajamises, äike<br />

mees, abielus naine,<br />

veebruaris, seisukohad<br />

küünaldes kuusk<br />

keeleküsimustes<br />

N+Nela rauast uks, lambanahast<br />

kasukas, kunstnikust vend<br />

unistus armastusest, osa päevast<br />

N+Nall luurele minek, trepile tulek lootus õnnele, rünnak kindlusele<br />

N+Nade naerul suu, hüppel loom, kõnelus sel teemal, meister omal<br />

veskil käik<br />

alal, võistlus ajavahemikul<br />

N+Nabl rahvuselt soomlane, elukutselt<br />

õpetaja, kontserdilt kojuminek<br />

küsimus kolleegilt, kiri õelt<br />

N+Ntrl sõduriks minek, minutiks tagatis eduks, juhend esmaabiks,<br />

äraminek<br />

soov puhkuseks<br />

N+Nter laeni kuusk, rinnuni rohi,<br />

maani palitu<br />

tee mõistmiseni<br />

N+Ness turistina sõit üritus tervikuna, osavõtt külalisena<br />

N+Nabe lasteta perekond, nokata müts,<br />

tasuta tsirkus<br />

pidu temata<br />

41


Moodustusstruktuur<br />

Eestäiend Järeltäiend<br />

N+Ncom nokaga müts, habemega mees,<br />

prillidega naine<br />

vestlus sõbraga, ämber veega<br />

Ühendeid noomen + noomen adverbiaalkäändes põhjalikult analüüsinud Tauli<br />

(1980: 167–173) märgib, et seda tüüpi ühendite üldine sõnajärg on, et laiend<br />

järgneb põhisõnale. Laiend on põhisõna ees, kui põhisõnaks on sõnad käik, minek,<br />

olek, panek, tulek, osalt püük ja sõit. Ka korpuse andmed osutavad, et järeltäiend<br />

esineb palju sagedamini kui eestäiend. Sõnavisandite grammatika reeglid otsivad<br />

hetkel seestütlevas, alalütlevas, alaltütlevas, saavas, olevas, ilmaütlevas ja<br />

kaasaütlevas käändes esinevaid eestäiendeid ja kõikides käänetes järeltäiendeid.<br />

Adverbiaalatribuutide reeglite puhul on problemaatiline see, et süsteem otsib<br />

osalause piires kõiki võimalikke laiendeid paremas ja vasakus kontekstis ning üsna<br />

sageli sattuvad väljundisse laiendid, mis pole otsilemmaga seotud. Toon näiteks<br />

lemma kiri sõnavisandis esile tulnud adverbiaalatribuudid (vt Joonis 17).<br />

Joonis 17. Substantiivi kiri adverbiaalatribuudid.<br />

Sõnavisandite grammatika alusel tuvastas programm sellised ühendid nagu kiri<br />

peaministrile/valitsusele/presidendile (vt veergu alaleütlev_modifier); kiri<br />

aadressilt/rindelt (vt alaltütlev_modifier); kiri pudelis (vt seesütlev_modifier); kiri<br />

aadressil/teemal, kirja alusel/teel (vt alalütlev_modifier); kiri palvega/<br />

42


teatega/ettepanekuga (vt kaasaütlev_modifier); kiri postkastist/arvutist/pangast (vt<br />

seestütlev_modifier); kirja saatjaks/ajendiks, vastuseks kirjale (vt saav_modifier) jt.<br />

Loetletud üksused pakuvad leksikograafilist huvi (moodustavad tähenduslikke<br />

seoseid ja näitavad kollokatiivset ümbrust), kuid väljundis on ka palju vigast infot,<br />

nt kiri paremuselt (vt veergu alaltütlev_modifier). Lemma kiri puhul on see tingitud<br />

suures osas asjaolust, et väljundisse sattuvad iseseisva substantiivina sellised<br />

vormid, mis on tegelikult väljendverbide nominaalsed komponendid. Näiteks on<br />

suur hulk vigadest tingitud väljendverbidest kirja panema (nt lauses Muidu saab<br />

igaüks end kandidaadina kirja panna ja piinata rahvast lubadustega, ..), kirjas<br />

olema (nt lauses Nüüd olen tööotsijana kirjas ja käin heakorratöödel, ..), kirja<br />

minema (nt lauses Korraldajad andsid läbi mikrofoni käitumisjuhiseid et üritus<br />

rekordina kirja läheks, ..), kirja saama (nt lauses Viimase jooksu võitis Nazarov ja<br />

sai kirja paremuselt kolmanda aja ..) jt. Ühendid nagu kandidaadina/tööotsijana/<br />

rekordina kiri (vt veergu olev_modifier) on tingitud väljendverbi olemasolust<br />

lauses; vigane ühend kiri paremuselt (vt alaltütlev_modifier) on tingitud sellest, et<br />

programm otsib paremas kontekstis asuvat naabrit, paremuselt on aga<br />

väljendverbile järgneva substantiivifraasi osa (paremuselt kolmas aeg). Seega<br />

toodud näited pole mitte substantiivi kiri adverbiaalatribuudid, vaid vastavate<br />

väljendverbide komponendid või kõrval asuvate substantiivifraaside laiendid. Et<br />

seda tüüpi vigu vältida, oleks vaja otsingut mitte ainult osalausete piires, vaid fraasi<br />

piires. 29<br />

Adverbiaalatribuudi reeglid tuvastavad paremini eelkõige neid ühendeid, mille<br />

puhul on tegemist rektsioonistruktuuridega. Kuna programmi kasutajaliides<br />

võimaldab valida, mis tüüpi suhteid otsida, siis ei pea iga sõna kõikide esile tulnud<br />

veergude sisu üle vaatama. Kasutaja võib täpselt määrata, mis adverbiaalkäändes<br />

atribuudid teda huvitavad. Nt kui lemmaks on usk ja kasutajat huvitab, millesse või<br />

kellesse usutakse, siis saab otsida ainult sisseütlevas käändes esinevaid laiendeid ja<br />

väljundis kuvatakse ainult illatiivseid atribuute, st usk jumalasse/õiglusse/imesse jne<br />

(vt Joonis 18).<br />

29 Eesti keele nimisõnafraaside eristamiseks on loodud spetsiaalne programm Eestikeelsete<br />

nimisõnafraaside filtreerija (EstNPTool), vt kirjeldust<br />

http://www.eki.ee/keeletehnoloogia/projektid/EstNPTool/ (28.08.12).<br />

43


Joonis 18. Substantiivi usk illatiivsed adverbiaalatribuudid.<br />

3.2.2.4. Pronoomen kaasmoodustajana<br />

Pronoomenite ja substantiivide koosesinemisi tuvastav reegel<br />

Pron_modifier/modifies (vt Tabel 3) otsib, milliste substantiividega esineb<br />

konkreetne pronoomen kõige sagedamini. Korpuse andmetel on sagedamad ühendid<br />

järgmised (vt Joonis 19, väljund on viidud lemmadele).<br />

Joonis 19. Pronoomeni ja substantiivi sagedamad koosesinemised.<br />

Toon näiteks pronoomeni mitu sõnavisandi (vt Joonis 20), milles tulevad esile<br />

sellised substantiivid nagu kord/aasta/kuu jne.<br />

44


Joonis 20. Pronoomeni mitu substantiivsed kaasmoodustajad.<br />

3.2.2.5. Numeraal kaasmoodustajana<br />

EKG (1993: 140) järgi on kvantorifraas eksotsentriline nagu adpositsioonifraas:<br />

põhi tingib laiendi olemasolu. Reeglid ordinal_modifies/modifier,<br />

cardinal_modifies/modifier (vt Tabel 3) tuvastavad substantiivi ja numeraali<br />

ühendeid, seejuures otsib programm eraldi põhiarvsõna ja substantiivi ning<br />

järgarvsõna ja substantiivi ühendeid. Toon näiteks numeraalide kaks (vt Joonis 21)<br />

ja esimene (vt Joonis 22) sõnavisandid, kus on näha lemmade kaks ja esimene<br />

tuvastatud kaasmoodustajad, nt kaks aastat/korda/nädalat jne ning esimene<br />

kord/päev/kvartal jne.<br />

Joonis 21. Kardinaali kaks Joonis 22. Ordinaali esimene<br />

kaasmoodustajad. kaasmoodustajad.<br />

45


3.2.2.6. Adverb kaasmoodustajana<br />

Müürisep (2000: 66) märgib, et adverbilised täiendid esinevad väga harva ning neid<br />

on raske määrata. Sõnavisandite grammatika reegel Adv_modifier/N_modifies (vt<br />

Tabel 3) otsib selliseid konstruktsioone, kus substantiivi vasakus kontekstis esineb<br />

adverb. Eesmärk on tuvastada eelkõige viisi- ja seisundimäärsõnu.<br />

Kontekstipiiranguna on reeglisse kirjutatud sellised adverbiks märgendatud sõnad<br />

nagu ikka, kuigi, ja, ju, juba, just, ka, kas, kui, kuidas, kus, miks, millal, nagu, nii,<br />

nüüd, siis, siiski, vaid, veel, muidugi, palju, kust, kuhu, mil, aga ka sagedamad<br />

ajamäärsõnad alati, ammu, eile, harva, kaua, kauaks, sageli, tihti, täna, varsti,<br />

üleeile ja afiksaaladverbide funktsioonis esinevad adverbid (vt loendit ptk 3.5.3.2.).<br />

Näiteks adverbiga omaette moodustavad ühendi sellised substantiivid nagu<br />

küsimus/teema/eesmärk/probleem/väärtus jne (vt Joonis 23).<br />

Joonis 23. Adverbi omaette ja substantiivi sagedamad ühendid.<br />

3.2.2.7. Adpositsioonifraas kaasmoodustajana<br />

Reegli N_PP abil otsib süsteem sõnakolmikuid, milles substantiivi laiendiks on<br />

kahest komponendist koosnev adpositsioonifraas. Otsitakse nii selliseid<br />

konstruktsioone, kus otsisõnale järgneb adpositsioon ja sellele järgneb substantiiv<br />

(prepositsioonide puhul), nt löök allapoole vööd, kui ka neid, kus otsisõnale järgneb<br />

teine substantiiv ja sellele järgneb omakorda adpositsioon (postpositsioonide<br />

puhul), nt armastus ema vastu 30 .<br />

Joonisel 24 on näidatud substantiivi viha laienditena esinevad adpositsioonifraasid,<br />

nt viha kelle-mille vastu (211 lauset) / peale (20 lauset) / pärast (19 lauset) / suhtes<br />

(6 lauset).<br />

30 Neljast ja rohkemast komponendist koosnevate kaassõnafraaside otsing (nt vajadus uue korteri<br />

järele) eeldab colloc-tüüpi reeglite kirjutamist (vt ptk 2.3.).<br />

46


Joonis 24. Substantiivi viha laiendavad adpositsioonifraasid.<br />

Oluline on märkida, et süsteem otsib ainult substantiivile järgnevaid<br />

adpositsioonifraase ja ei arvesta juhtumeid, kus adpositsioonifraas eelneb<br />

substantiivile. Selliste konstruktsioonide sõnajärge analüüsinud Tauli toob näiteid<br />

juhtumitest, kus adpositsioonifraas on lauses substantiivi ees, nt .. mööda koridori<br />

mineku sammude kerge kaja .. (August Mälk), Aer vaatas talle korraks otsa ja nägi<br />

ilma hirmuta musti silmi (Juhan Smuul). Kuid samas märgib Tauli, et seda tüüpi<br />

konstruktsioonid esinevad teatud semantiliste piirangute korras, nt kui põhjaks on<br />

substantiivid minek, tulek või kui prepositsiooniks on ilma (1980: 178–181). Sel<br />

põhjusel piirdub reegel vaid nende juhtumite otsimisega, kus adpositsioonifraas<br />

esineb järellaiendi funktsioonis.<br />

Joonisel 25 on näidatud fraasi viha kelle-mille vastu konkordantsiread, millest on<br />

näha, et programm otsib adpositsioonifraase vaid substantiivi paremast kontekstist.<br />

Joonis 25. Konstruktsiooni viha kelle-mille vastu kasutust illustreerivad<br />

konkordantsiread.<br />

47


3.2.2.8. Infiniitne verb kaasmoodustajana<br />

Infiniitsetest verbidest võivad substantiivi laiendi funktsioonis esineda ma-infinitiiv,<br />

mas-vorm (nt lauses Pildi nimeks on „Poiss õngitsemas”), mast-vorm (nt lauses<br />

Suur tänu mind aitamast), mata-vorm (söömata roog, kirjutamata seadus), maksvorm<br />

(eeldused mõistmaks) ja da-infinitiiv (lust tantsida) (Tauli 1980: 188–193).<br />

Eeslaiendi funktsioonis esinevaid verbivorme otsitakse partitsiipe tuvastava reegli<br />

participle_modifier (vt Tabel 3) abil, kus partitsiipidest on sisse võetud v-, tav-,<br />

nud- ja tud-kesksõnad (vt ptk 3.2.2.2.).<br />

Reeglid N_Vma, N_Vda (vt Tabel 3) otsivad ainult ma- ja da-infinitiivis olevaid<br />

järellaiendeid. Joonisel 26 on tuvastatud substantiivi soov da-infinitiivsed laiendid:<br />

säilitada/vabaneda/vältida jne. Joonisel 27 on substantiivi meister ma-infinitiivsed<br />

laiendid: grillima/leiutama/vihjama jne.<br />

Joonis 26. Substantiivi soov Joonis 27. Substantiivi meister<br />

da-infinitiivis laiendid. ma-infinitiivis laiendid.<br />

3.2.2.9. Kõrvallause laiendina<br />

EKG kohaselt liigituvad kõrvallaused kolmeks põhitüübiks: komplementlause,<br />

adverbiaallause ja relatiivlause. Komplementlaused on pealause predikaadi vm<br />

liikme seotud laiendid, mis täiendavad sisuliselt vastavat sõna või sõnade ühendit.<br />

Relatiivlaused on kõrvallaused, mille pronoomenist või adverbist sidend on<br />

korrelaadi vahendusel või ilma selleta viiteseoses kas pealause substantiivi(fraasi)ga<br />

või erandjuhul pealause kui tervikuga. Adverbiaallaused on pealause predikaadi vm<br />

lauseelemendi vabad laiendid (1993: 281–282).<br />

Reegel kõrvallause (vt Tabel 3) tuvastab substantiivile järgneva kõrvallause alguses<br />

asuvaid sidendeid etteantud loendi alusel. Loend on koostatud Tauli (1980: 228–<br />

240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest ning loendis on<br />

sidendina toimivad sõnad ega, ehkki, et, justkui, kas, kes, kuhu, kui, kuidas, kuigi,<br />

48


kuivõrd, kumb, kuna, kuni, kus, kust, miks, mil, millal, milleks, milline, mis,<br />

mismoodi, missugune, mistarvis, mistõttu, nagu, otsekui ja sest.<br />

Joonisel 28 on näidatud sõna küsimus laiendavate kõrvallausete alguses olevad<br />

sidendid. Nendest sagedamad on küsimus, mis … (nt lauses Need on küsimused, mis<br />

tuleb seaduses reguleerida, ..), küsimus, kas … (nt lauses Nüüd tekib jälle küsimus,<br />

kas peaks kartma olla rikas), küsimus, et … (nt lauses Teine küsimus, et kui asi on<br />

lausa vastupidi) jt.<br />

Joonis 28. Substantiivi küsimus laiendavate kõrvallausete alguses asuvad sidendid.<br />

Ühesõnaliste sidendite tuvastamine õnnestub selle reegliga hästi, kuid probleeme<br />

tekib selliste ühenditega nagu mis ajal, mis ajani, mis põhjusel, mil(lisel) kombel,<br />

kui palju, kui pikk jne (vt lähemalt EKG 1993: 291). Hetkel tuvastab süsteem ainult<br />

ühest sõnast koosnevaid sidendeid. Ühenditena esinevate sidendite tuvastamine jääb<br />

sõnavisandite grammatika edasiarenduseks.<br />

3.2.2.10. Rinnastus- ja võrdlustarindid<br />

Reeglite ja/või, kui/nagu (vt Tabel 3) abil tuvastatakse koordinatsiooniseoses<br />

olevaid substantiive ning kui- ja nagu-võrdlustarindeid. Tegemist on sümmeetrilisel<br />

suhtel põhineva ehk symmetric-tüüpi reeglitega. Joonisel 29 on näidatud sõnaga<br />

päike rinnastusseoses olevad substantiivid: tuul ja päike (nt lauses Tuul ja päike on<br />

praeguseks põllumaa pea kõikjal kuivatanud), vihm ja päike (Juulis on aga vihma<br />

ja päikest parasjagu).<br />

49


Joonis 29. Substantiivi päike rinnastustarindid.<br />

3.2.2.11. Predikatiiv<br />

Eesti keeleteaduses eristatakse predikatiive ja predikatiivadverbiaale (vt lähemalt<br />

Erelt 2003b: 73; predikatiivadverbiaale on uurinud Pai 2001). Predikatiivideks<br />

peetakse nominatiivset või partitiivset noomenit (lisaks ka da-infinitiivi ja<br />

partitsiipi) verbi olema laiendina (nt EKG 1993: 10), mõnes käsitluses ka verbide<br />

saama, näima laiendina (nt Kask 1936). Siinse töö raames käsitlen predikatiivina<br />

verbi olema partitiivis või nominatiivis substantiivset või adjektiivset laiendit.<br />

Translatiivis ja essiivis adjektiivseid verbilaiendeid käsitletakse<br />

predikatiivadverbiaalidena (vt lähemalt ptk 3.5.2.4.).<br />

Sõnavisandite reeglitega predicate_N/predicate_N_of, predicate_Adj/<br />

predicate_Adj_of (vt Tabel 3) tuvastatakse konstruktsioone, kus predikatiivi<br />

funktsioonis on nominatiivis või partitiivis substantiiv või adjektiiv, nt Hunt on tark<br />

loom. Poiss on tubli jne. Näiteks tuvastab süsteem, et lemma hunt sagedam<br />

predikatiivi funktsioonis esinev substantiiv on loom. Joonisel 30 on näidatud<br />

vastavad konkordantsiread.<br />

Joonis 30. Substantiivi hunt ja tema predikatiivi loom illustreerivad<br />

konkordantsiread.<br />

3.2.3. Kokkuvõtteks: substantiivid<br />

Substantiivide sõnavisandites tulevad esile adjektiivsed, partitsiipsed,<br />

pronominaalsed, adverbiaalsed ja substantiivsed kaasmoodustajad, laiendi<br />

funktsioonis esinevad infiniitverbid ja adpositsioonifraasid, kõrvallausete alguses<br />

50


asuvad sagedamad sidendid, predikatiivid, rinnastus- ja võrdlustarindid, lisaks<br />

tuvastatakse, milliste verbidega esineb otsisõna subjekti, objekti ja adverbiaali<br />

funktsioonis (vt ptk 3.5.2.1.–3.5.2.3.). Seega koorub sõnavisanditest välja sõna<br />

esialgne leksikaalne profiil, mille alusel saab leksikograaf sõnaraamatu artikleid<br />

koostada. Toon näiteks sõna diskussioon sõnavisandi (vt Joonis 31).<br />

Joonis 31. Substantiivi diskussioon sõnavisand.<br />

Sõnavisandist saab vajaliku materjali sõnaartikli koostamiseks:<br />

avalik/poliitiline/elav .. diskussioon. Diskussioon käib/tekib/toimub .. Diskussiooni<br />

alustama/tekitama/algatama .. Diskussiooni objekt/teema/tulemus .. Diskussioon ja<br />

arutelu. Diskussioon teemal, diskussiooni tulemusel. Diskussioon<br />

ajakirjanduses/komisjonis/ühiskonnas. Diskussioon on elav/mõttetu/vajalik ..<br />

Diskussioon millegi ümber / millegi üle.<br />

51


3.3. ADJEKTIIVI SÜNTAGMAATILISED SUHTED<br />

3.3.1. Leksikogrammatilised konstruktsioonid<br />

Adjektiivikonstruktsioonide nimestiku koostamisel on aluseks Erelti (1979b, 1986),<br />

Tauli (1980: 158–193), EKG (1993: 129–136) ja Kerge (2000: 31–35) käsitlused.<br />

EKG järgi võib adjektiivifraasi laiendliikmeteks olla: 1) substantiiv(ifraas), nt<br />

kirjatarkuses osav; 2) adpositsioonifraas, nt poja üle uhke, külaliste vastu viisakas;<br />

3) infinitiiv(ifraas), nt ahne sööma; 4) adjektiiv(ifraas), nt põhjatu rikas, igavene<br />

suur; 5) kvantorifraas, nt viie päeva vanune; 6) adverb(ifraas), nt tõsiselt haige;<br />

7) kõrvallause, nt Ta tütar oli ilusam(,) kui ta ise (nooruses oli) (1993: 129–130).<br />

Tabelis 5 on esitatud sõnavisandite grammatikas tuvastatavad adjektiivi<br />

leksikogrammatilised konstruktsioonid.<br />

Tabel 5. Adjektiivi leksikogrammatilised konstruktsioonid.<br />

Kaasmoodustaja<br />

kood<br />

52<br />

Kaasmoodustaja<br />

Näited Konstruktsiooni<br />

tuvastava reegli<br />

nimetus SkE eesti<br />

moodulis<br />

Adj adjektiiv igavene suur Adj_modifier/Adj_modifies<br />

N obliikvakäändes<br />

substantiiv<br />

sõbratari sarnane;<br />

kõrvuni armunud,<br />

südamepõhjani<br />

solvunud; söögiks<br />

kõlbmatu;<br />

õpetajana hinnatud<br />

Adv adverb väga aeglane, eriti<br />

kiire, silmatorkavalt<br />

hea, parajasti<br />

rumal, iseloomult<br />

raske, seest toores<br />

omastav_modifier<br />

sisseütlev_modifier<br />

seesütlev_modifier<br />

seestütlev_modifier<br />

alaleütlev_modifier<br />

alalütlev_modifier<br />

alaltütlev_modifier<br />

saav_modifier<br />

rajav_modifier<br />

olev_modifier<br />

ilmaütlev_modifier<br />

kaasaütlev_modifier<br />

Adv_modifier/Adj_modifies


Kaasmoodustaja<br />

kood<br />

Kaasmoodustaja<br />

PP adpositsioonifraas<br />

Vinf verb ma- või dainfinitiivis<br />

KL kõrvallause<br />

(tuvastusobjekt<br />

on kõrvallause<br />

alguses olev<br />

Adj ja/või Adj<br />

Adj kui/nagu N<br />

sidend)<br />

rinnastustarind,<br />

võrdlustarind<br />

(nagu-tarind,<br />

kui-tarind)<br />

Näited Konstruktsiooni<br />

tuvastava reegli<br />

nimetus SkE eesti<br />

poja üle uhke,<br />

kingituste üle<br />

rõõmus, hull raha<br />

järele, maavarade<br />

poolest rikas,<br />

mantli kohta lühike,<br />

juristi jaoks liiga<br />

aeglane, iseloomu<br />

poolest hea,<br />

matkast saadik<br />

tõbine<br />

ahne sööma, ilus<br />

vaadata, raske<br />

mõista, sobilik<br />

asendama<br />

hea, kui ...<br />

huvitav, kas ...<br />

ilus ja noor,<br />

must kui öö,<br />

valge kui lumi,<br />

must nagu süsi<br />

moodulis<br />

Adj_PP<br />

Adj_Vma<br />

Adj_Vda<br />

kõrvallause<br />

ja/või<br />

kui/nagu<br />

3.3.2. Sõnavisandid<br />

Sõnavisandite grammatikas on adjektiivide süntagmaatiliste suhete tuvastamiseks<br />

kokku 20 reeglit. Nagu substantiivi kirjelduses, arvestab grammatika versioon 1.5<br />

adjektiivi substantiivsete, adjektiivsete ja adverbiliste laiendite puhul eelkõige<br />

eeslaiendeid, adpositsioonifraasi, infiniitse verbi ja kõrvallause korral aga ainult<br />

järelpositsioonis olevaid laiendeid.<br />

3.3.2.1. Adjektiiv kaasmoodustajana<br />

Reegel Adj_modifier/Adj_modifies (vt Tabel 5) otsib adjektiivi adjektiivseid<br />

laiendeid, mis asuvad vahetult selle vasakus kontekstis (nt igavene suur). Joonisel<br />

32 on näidatud sagedamad adjektiivid, mille laiendiks on lemma jube:<br />

raske/hea/kallis jne.<br />

53


Joonis 32. Sõna jube adjektiivse kaasmoodustajana.<br />

3.3.2.2. Substantiiv kaasmoodustajana<br />

Adjektiivifraasi substantiivne kaasmoodustaja võib esineda genitiivis (sõbratari<br />

sarnane) ja adverbiaalkäänetes. Sõnavisandite grammatika alusel (reeglid<br />

omastav_modifier, sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier,<br />

alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, saav_modifier,<br />

rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier, vt Tabel 5)<br />

otsib programm adjektiivi omastavas (jumala hea), sisseütlevas (eetrisse minev),<br />

seesütlevas (arvutivõrgus kättesaadav), seestütlevas (ametist lahkuv), alaleütlevas<br />

(nõuetele vastav), alalütlevas (välismaal elav), alaltütlevas (tähtsuselt järgmine),<br />

saavas (tööks sobiv), rajavas (kõrvuni armunud), olevas (õpetajana töötav),<br />

ilmaütlevas (tingimusteta vaba) ja kaasaütlevas (seadusega ettenähtud) käändes<br />

substantiivseid kaasmoodustajaid.<br />

Reeglid omastav_modifier, sisseütlev_modifier, seesütlev_modifier,<br />

seestütlev_modifier, laleütlev_modifier, alalütlev_modifier, alaltütlev_modifier,<br />

saav_modifier, rajav_modifier, olev_modifier, ilmaütlev_modifier,<br />

kaasaütlev_modifier tuvastavad kõige paremini rektsiooniliste laienditega suhteid,<br />

nt kellega-millega sarnane, kellele-millele lähedane jmt.<br />

3.3.2.3. Adverb kaasmoodustajana<br />

Reegel Adv_modifier/Adj_modifies (vt Tabel 5) tuvastab adverbe, mis esinevad<br />

otsisõna eeslaiendi funktsioonis. Kontekstipiiranguna on reeglisse kirjutatud<br />

sellised adverbiks märgendatud sõnad nagu ja, ka, nii, kui, kas, veel, kuidas, just,<br />

nagu, ju, ikka, vaid, siis, siiski, muidugi, palju, eks ja kuigi. Joonisel 33 on näha<br />

lemma hea adverbilised kaasmoodustajad: väga/päris/eriti/piisavalt.<br />

54


Joonis 33. Adjektiivi hea adverbilised laiendid.<br />

3.3.2.4. Adpositsioonifraas kaasmoodustajana<br />

Adpositsiooniliste laiendite tuvastamise reegli Adj_PP (vt Tabel 5) abil otsib<br />

programm hetkel vaid adjektiivi postpositsioonifraasina esinevaid järellaiendeid, nt<br />

jõle/range kelle vastu, tähelepanelik/nõudlik/tundlik mille suhtes jms. Otsitakse<br />

postpositsioonidega ees, eest, järele, peale, poolest, puhul, seas, suhtes, vastu ja üle<br />

fraase. 31 Reegel töötab kõige paremini rektsioonistruktuuride tuvastamisel. Näiteks<br />

tuvastab süsteem, et lemma vihane sagedamaks laiendiks on postpositsioonifraas<br />

kelle-mille peale (vt Joonis 34).<br />

Joonis 34. Adjektiivi vihane postpositsionifraasina esinev laiend.<br />

Joonisel 35 on seda grammatilist suhet illustreerivad konkordantsiread.<br />

31 Loendi koostamisel lähtusin päringuga 1:[tag="A"&features=".._n"] 2:[tag="S"] 3:[tag="K"]<br />

[tag!="S"] saadud konkordantside analüüsist. Loendis olevad postpositsioonid on sagedad<br />

rektsioonistruktuuride moodustamisel.<br />

55


Joonis 35. Konstruktsiooni vihane kelle-mille peale kasutust illustreerivad<br />

konkordantsiread.<br />

3.3.2.5. Infiniitne verb kaasmoodustajana<br />

Nagu ka substantiivi puhul (vt ptk 3.2.2.8.), tuvastavad reeglid Adj_Vma, Adj_Vda<br />

(vt Tabel 5) adjektiivi laiendiks olevaid ma- ja da-infinitiive, nt ilus vaadata, raske<br />

mõista jmt. Joonisel 36 on näha lemma ilus tuvastatud laiendeid: ilus<br />

vaadata/öelda/teha jne, nt lauses Lääneliku tava järgi on ilus elada väikeses<br />

rahulikus linnas.<br />

Joonis 36. Adjektiivi ilus da-infinitiivis kaasmoodustajad.<br />

3.3.2.6. Kõrvallause laiendina<br />

Reegel kõrvallause (vt Tabel 5) tuvastab adjektiivile järgnevate kõrvallausete<br />

alguses olevaid sidendeid etteantud loendi alusel. Loend on koostatud lähtuvalt<br />

Tauli (1980: 228–240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest<br />

ning loendis on sellised sidendina toimivad sõnad nagu ega, ehkki, et, justkui, kas,<br />

kes, kuhu, kui, kuidas, kuigi, kuivõrd, kumb, kuna, kuni, kus, kust, miks, mil, millal,<br />

milleks, milline, mis, mismoodi, missugune, mistarvis, mistõttu, nagu, otsekui ja<br />

sest.<br />

56


Joonisel 37 on näidatud adjektiivi selge laiendavate osalausete alguses asuvad<br />

sidendid. Nendest sagedamad on selge, et ... (nt lauses On täiesti selge, et<br />

konventsiooni põhieesmärgid tuleb täita .. ), selge, kas ... (nt lauses Arve puhul on<br />

selge, kas ta on pangast läbi käinud), selge, mis ... (nt lauses Päriselt ei ole siiski<br />

selge, mis see töötulu on) jt.<br />

Joonis 37. Adjektiivi selge laiendavate kõrvallausete alguses asuvad sidendid.<br />

3.3.2.7. Rinnastus- ja võrdlustarindid<br />

Reegli (ja/või, kui/nagu, vt Tabel 5) abil tuvastatakse koordinatsiooniseoses olevaid<br />

substantiive ning kui- ja nagu-võrdlustarindeid. Tegemist on sümmeetrilisel suhtel<br />

põhineva ehk symmetric-tüüpi reegliga. Joonisel 38 näidatakse lemmaga hele<br />

koordinatsiooniseoses olevaid adjektiive: hele ja/või tume (nt lauses Tegelikult ei<br />

olene ju sellest, kas tüdruk on tumeda või heleda peaga, mitte midagi), hele ja<br />

rõõmus (Ta soovitab rõõmsates ja heledates toonides kardinaid) jne.<br />

Joonis 38. Adjektiivi hele rinnastustarindid.<br />

57


3.3.3. Kokkuvõtteks: adjektiivid<br />

Adjektiivide sõnavisandites tulevad esile selle adjektiivsed, substantiivsed,<br />

adverbilised kaasmoodustajad, laiendi funktsioonis esinevad infiniitverbid ja<br />

postpositsioonifraasid, kõrvallausete alguses asuvad sagedamad sidendid ning<br />

rinnastus- ja võrdlustarindid. Lisaks tulevad esile ühendid, kus adjektiiv ise ei esine<br />

mitte põhja, vaid laiendi funktsioonis.<br />

Toon näiteks adjektiivi rikas sõnavisandi (vt Joonis 39).<br />

Joonis 39. Adjektiivi rikas sõnavisand.<br />

Siit saab vajaliku materjali sõnaartikli koostamiseks: rikas riik/inimene/mees/maa ..<br />

Rikas ja suur, rikas ja kuulus, rikas ja vaene .. Väga/piisavalt rikas. Predikatiivsed<br />

laused: ajalugu/keel/linn on rikas. Predikatiivadverbiaaliga ühendid: (ratsa) rikkaks<br />

saama, rikkana näima/surema/sündima. Postpositsioonifraas: rikas kelle-mille<br />

poolest, nt lauses See piirkond on rikas maavarade poolest.<br />

58


3.4. ADVERBI SÜNTAGMAATILISED SUHTED<br />

3.4.1. Leksikogrammatilised konstruktsioonid<br />

Sõnavisandite grammatikas on adverbide süntagmaatiliste suhete tuvastamiseks<br />

kokku 12 reeglit (vt Tabel 6). Nagu ka substantiivi ja adjektiivide kirjelduses,<br />

tuvastab sõnavisandite grammatika adverbi substantiivsete, adjektiivsete ja<br />

adverbiliste laiendite puhul ainult eeslaiendeid, adpositsioonifraasi, infiniitse verbi<br />

ja kõrvallause korral aga ainult järelpositsioonis olevaid laiendeid.<br />

Adverbikonstruktsioonide nimestiku koostamisel on aluseks Tauli (1980: 158–193),<br />

EKG (1993: 136–137) ja Kerge (2000: 31–34) käsitlused. Adverbifraasi<br />

laiendliikmeks võib olla: 1) adverb, nt väga hästi; 2) substantiivi käändevorm, nt<br />

uksest siinpool, teistest paremini; 3) adpositsioonifraas, nt selja pealt katki;<br />

4) kvantorifraas, nt paar päeva hiljem, mitu kilomeetrit kaugemal; 5) kõrvallause, nt<br />

Ta rääkis kauem, kui mina seda tegin (EKG 1993: 136).<br />

Tabelis 6 on esitatud sõnavisandite grammatikas tuvastatavad adverbi<br />

leksikogrammatilised konstruktsioonid.<br />

Tabel 6. Adverbi leksikogrammatilised konstruktsioonid.<br />

Kaasmoodustaja<br />

kood<br />

Kaasmoodustaja<br />

Adv adverb väga aeglaselt,<br />

silmatorkavalt hästi,<br />

harjumatult rumalalt,<br />

igavesti suurelt,<br />

parasjagu/parajasti<br />

N obliikvakäändes<br />

substantiiv<br />

PP adpositsioonifraas<br />

Näited Konstruktsiooni<br />

tuvastava reegli<br />

nimetus SkE eesti<br />

moodulis<br />

rumalalt<br />

kuradi kiiresti, jumala<br />

äkki, pagana kahju;<br />

ideid täis; uksest<br />

siinpool, teistest<br />

paremini; olenevalt<br />

tingimustest;<br />

partneriga<br />

vaheldumisi, rahadega<br />

kimpus; kõrvuni<br />

armunult, surmani<br />

solvunult; isa surmaga<br />

samaaegselt<br />

selja pealt lõhki,<br />

puusade ümbert pingul,<br />

kulmu kohalt marraskil<br />

Adv_modifier/Adv_modifies<br />

omastav_modifier<br />

osastav_modifier<br />

seestütlev_modifier<br />

saav_modifier<br />

rajav_modifier<br />

olev_modifier<br />

kaasaütlev_modifier<br />

Adv_PP<br />

59


Kaasmoodustaja<br />

kood<br />

60<br />

Kaasmoodustaja<br />

KL kõrvallause<br />

(tuvastusobjekt<br />

on<br />

kõrvallause<br />

alguses olev<br />

Adv ja/või Adv<br />

Adv kui/nagu N<br />

3.4.2. Sõnavisandid<br />

sidend)<br />

rinnastustarind<br />

võrdlustarind<br />

Näited Konstruktsiooni<br />

tuvastava reegli<br />

nimetus SkE eesti<br />

moodulis<br />

Ta rääkis kauem, kui<br />

mina seda tegin.<br />

See viib niikaugele,<br />

et ...<br />

hästi ja kiiresti,<br />

kergelt kui õhk,<br />

mustalt nagu süsi,<br />

valgelt kui lumi<br />

kõrvallause<br />

ja/või<br />

kui/nagu<br />

3.4.2.1. Adverb kaasmoodustajana<br />

Reegel Adv_modifier/Adv_modifies (vt Tabel 6) tuvastab neid adverbe, mis esinevad<br />

otsitava adverbi eeslaiendi funktsioonis. Kontekstipiiranguna on reeglisse kirjutatud<br />

sellised adverbiks märgendatud sõnad nagu ikka, ja, ju, just, ka, kas, kui, kuidas, kus,<br />

miks, millal, nagu, nii, nüüd, vaid, veel, juba, kuigi, kust, kuhu, muidugi, palju, siis,<br />

siiski, eks, aga ka sagedamad ajamäärsõnad nt alati, ammu, eile, harva, homme, kaua,<br />

kauaks, sageli, tihti, täna, varsti, üleeile ja afiksaaladverbide funktsioonis esinevad<br />

adverbid (vt loendit ptk 3.5.3.2.). Joonisel 40 on näha lemma hästi adverbilised<br />

kaasmoodustajad: väga/päris/eriti/üsna/ piisavalt.<br />

Joonis 40. Adverbi hästi adverbilised laiendid.


3.4.2.2. Substantiiv kaasmoodustajana<br />

Programm otsib omastavas (jumala äkki, pagana kahju), osastavas (ideid täis),<br />

seestütlevas (teisest paremini), saavas (esitamiseks valmis), rajavas (kõrvuni<br />

armunult) ja kaasaütlevas (isa) surmaga samaaegselt) käändes kaasmoodustajaid.<br />

Omastavas kaasmoodustajaid tuvastab programm etteantud loendi alusel. Loendis<br />

on sellised sõnad nagu jumal, pagan, kurat, sajand, lisaks ka kõikide kuude ja<br />

nädalapäevade nimetused.<br />

Adverbi substantiivse kaasmoodustaja reeglid omastav_modifier, osastav_modifier,<br />

seestütlev_modifier, rajav_modifier, saav_modifier, kaasaütlev_modifier (vt Tabel 6)<br />

tuvastavad kõige paremini neid suhteid, kus on tegemist rektsiooniliste laienditega,<br />

nt kellega-millega sarnaselt, kellele-millele omaselt, milleks valmis jt.<br />

Joonis 41. Adverbi valmis translatiivis Joonis 42. Adverbi vähe partitiivis<br />

laiendid. laiendid.<br />

Joonisel 41 on esitatud lemma valmis saavas käändes olevad laiendid: valmis<br />

vastuvõtmiseks/vastamiseks/ühinemiseks, lisaks ajafraasid valmis (mingiks) ajaks /<br />

tähtajaks / hetkeks. Joonisel 42 on näha lemma vähe partitiivis laiendid<br />

raha/aega/tähelepanu.<br />

3.4.2.3. Adpositsioonifraas kaasmoodustajana<br />

Kaassõnaliste laiendite tuvastamise reegli Adv_PP (vt Tabel 6) abil otsib programm<br />

adverbi kaassõnalisi eeslaiendeid, nt selja pealt lõhki. Selle reegli oluliseks<br />

probleemiks on, et enamasti on seda tüüpi konstruktsioonid neljaliikmelised.<br />

Sagedamate konstruktsioonide hulgas on nt (mitme) protsendi / krooni võrra<br />

rohkem / vähem, (mitme) sammu võrra ees, (millegi) lõppemise tõttu pooleli. Seega<br />

edaspidi tuleks see reegel muuta colloc-tüüpi reegliks.<br />

61


Joonis 43. Lemma lõhki laiendi funktsioonis esinevad postpositsioonifraasid.<br />

Joonisel 43 on näha lemma lõhki laiendi funktsioonis esinevaid adpositsioonifraase:<br />

rinna kohalt / selja pealt / külje pealt / selja taga / kubeme juurest.<br />

3.4.2.4. Kõrvallause laiendina<br />

Reegel (kõrvallause, vt Tabel 6) tuvastab adverbile järgnevate kõrvallausete alguses<br />

olevaid sidendeid etteantud loendi alusel. Loend on koostatud lähtuvalt Tauli<br />

(1980: 228–240), EKG (1993: 282–295) ja Erelti jt (2007: 506) kirjeldustest ning<br />

loendis on sellised sidendina toimivad sõnad nagu et, justkui, kuhu, kui, kuivõrd,<br />

kuna, kuni, kus, kust, mil, millal, nagu, otsekui.<br />

Joonisel 44 on näidatud sõna niipalju laiendavate osalausete alguses asuvad<br />

sagedamad sidendid niipalju, et ... (nt lauses Kommentaariks niipalju, et ettepanek<br />

ei ole küll üdini halb, aga ..), niipalju, kui ... (nt lauses Raha on täpselt niipalju, kui<br />

seda on vaja).<br />

Joonis 44. Adverbi niipalju laiendavate kõrvallausete alguses asuvad sidendid.<br />

62


3.4.2.5. Rinnastus- ja võrdlustarindid<br />

Reegli (ja/või, kui/nagu, vt Tabel 6) abil tuvastatakse rinnastusseoses olevaid<br />

adverbe ning kui/nagu-võrdlustarindeid. Tegemist on symmetric-tüüpi reegliga.<br />

Joonisel 45 näidatakse lemmaga vähe rinnastusseoses olevaid substantiive: vähe või<br />

palju (nt lauses Teine analüüs näitab, kas raha on palju või vähe), mõõdukalt või<br />

vähe (.. s.o tööstuskaupade kollektsiooni, mille puhul impordipiiranguid<br />

tollitariifide näol kasutatakse maailmas mõõdukalt või vähe).<br />

Joonis 45. Adverbi vähe rinnastustarindid.<br />

3.4.3. Kokkuvõtteks: adverbid<br />

Kokkuvõtteks võib öelda, et adverbide sõnavisandites tulevad esile otsisõna<br />

adverbilised ja substantiivsed kaasmoodustajad, laiendi funktsioonis esinevad<br />

adpositsioonifraasid, laiendliikmeks olevate kõrvallausete alguses asuvad sidendid<br />

ning rinnastus- ja võrdlustarindid. Lisaks tulevad esile konstruktsioonid, kus adverb<br />

ise ei esine mitte põhja, vaid laiendi funktsioonis.<br />

Toon näiteks adverbi omaette sõnavisandi (vt Joonis 46).<br />

Joonis 46. Adverbi omaette sõnavisand.<br />

63


Lemma omaette sõnavisandis tulevad esile järgmised ühendid: omaette<br />

küsimus/teema/eesmärk. Omaette ja vaikselt .. Miski on omaette eesmärgiks/<br />

väärtuseks (nt lauses Raha on muutunud eesmärgiks omaette, pole enam ainult<br />

vahend).<br />

3.5. VERBI SÜNTAGMAATILISED SUHTED<br />

Verbide leksikogrammatiliste konstruktsioonide kirjeldamisel on lähtekohaks Tauli<br />

(1980: 41–158) ja Kerge (2000: 42–44) uurimused. Verbi laiendite kirjeldamisel<br />

järgin teoreetilist seisukohta, et verbi finiitvorm on lause struktuuriline keskus,<br />

põhielement, mis koondab enda ümber enamiku muudest lauseelementidest ja<br />

määrab paljudel juhtudel ka nende vormi (Rätsep 1978: 10–13). Eesti keele<br />

verbidele omaste lausemallide fikseerimine näitas, et verbid tingivad seotud<br />

laienditena kas noomenite või verbide kindlaid morfoloogilisi vorme või kindla<br />

üldise grammatilise tähendusega morfoloogiliste vormide rühmi (Rätsep<br />

1978: 212). Seejuures võivad eesti keeles vormiklassidena esineda kõik substantiivi<br />

käändevormid, mõned adjektiivi käänded ja teatud hulk kaassõnaühendeid (Rätsep<br />

1978: 214).<br />

Verbi laiendite süntaktilise kategooria määramisel lähtun põhimõttest, millega on<br />

arvestatud ka nt kitsenduste grammatika väljatöötamisel – süntaksi alustalaks on<br />

morfoloogia, eriti igale keelele ainuomane morfoloogiliste tunnuste süsteem, ning<br />

süntaktilised kategooriad on üldistused, mis näitavad, kuidas sõnavormid, mis on<br />

moodustatud kui morfoloogiliste tunnuste kompleksid, võivad teatud sõnajärje<br />

korral esineda ja milliseid loomulikke klasse, ‘süntaktilisi funktsioone’ saab<br />

eristada ja järeldada sellistest sõnajärgedest (vt Karlsson jt 1995: 37, viidatud<br />

Müürisep 2000: 23 kaudu).<br />

3.5.1. Lihtverbi leksikogrammatilised konstruktsioonid<br />

Tabelis 7 on esitatud sõnavisandite grammatikas tuvastatavad verbi<br />

leksikogrammatilised konstruktsioonid.<br />

Tabel 7. Verbi leksikogrammatilised konstruktsioonid.<br />

Kaasmoodustaja<br />

kood<br />

64<br />

Kaasmoodustaja<br />

(vajadusel<br />

fraasitüüp ja<br />

moodustaja<br />

grammatiline<br />

funktsioon)<br />

N(S) substantiiv<br />

nominatiivis subjekti<br />

funktsioonis<br />

(partsiaalsubjekti<br />

programm eraldi<br />

kategooriana ei<br />

tuvasta)<br />

Näited Konstruktsiooni<br />

tuvastava reegli<br />

nimetus SkE eesti<br />

moodulis<br />

Lapsed laulavad.<br />

subject/subject_of


Kaasmoodustaja<br />

kood<br />

Kaasmoodustaja<br />

(vajadusel<br />

fraasitüüp ja<br />

moodustaja<br />

grammatiline<br />

funktsioon)<br />

N(O) substantiiv<br />

nominatiivis,<br />

genitiivis ja<br />

partitiivis objekti<br />

funktsioonis<br />

N(A) substantiiv<br />

adverbiaalkäändes<br />

adverbiaali<br />

funktsioonis<br />

Adj adjektiiv<br />

predikatiivadverbiaali<br />

funktsioonis<br />

Adv adverb adverbiaali<br />

funktsioonis<br />

PP adpositsioonifraas<br />

adverbiaali<br />

funktsioonis<br />

Vinf infiniitverb ma-,<br />

mas-, mast-, mata-,<br />

vat- ja da-vormis<br />

Näited Konstruktsiooni<br />

tuvastava reegli<br />

nimetus SkE eesti<br />

moodulis<br />

Tehke otsus.<br />

Ma teen järgmise<br />

ettepaneku.<br />

Ta tahab jätkata tööd<br />

õpetajana.<br />

Ma lähen kooli.<br />

Ta käib poes iga päev.<br />

Ta rääkis tööst.<br />

Ma andsin sõbrale raha.<br />

Ta käskis lastel õue minna.<br />

Laenasin tuttavalt raha.<br />

Ta tahab saada lenduriks.<br />

Ta jõudis metsani.<br />

Ta töötab õpetajana.<br />

Ta töötas prillideta.<br />

Ta käib tööl jalgrattaga.<br />

Ta värvis seinad punaseks.<br />

Ta näis väsinuna.<br />

object/object_of<br />

adverbial_sisseütlev<br />

adverbial_seesütlev<br />

adverbial_seestütlev<br />

adverbial_alaleütlev<br />

adverbial_alalütlev<br />

adverbial_alaltütlev<br />

adverbial_saav<br />

adverbial_rajav<br />

adverbial_olev<br />

adverbial_ilmaütlev<br />

adverbial_kaasaütlev<br />

predicate_Adj_saav/<br />

predicate_ Adj_saav_of<br />

predicate_Adj_olev/<br />

predicate_ Adj_olev_of<br />

Ta jooksis kiiresti. Adv_modifier/V_modifies<br />

Ta tuli minu juurde. V_PP<br />

Ta läks ujuma.<br />

Ta käib ujumas.<br />

Ta tuli ujumast.<br />

Ta lahkus maksmata.<br />

Tahan juua.<br />

V_Vma<br />

V_Vmaks<br />

V_Vmast<br />

V_Vmas<br />

V_Vmata<br />

V_Vda<br />

Vdes gerundiiv Süües kasvab isu. V_Vdes<br />

KL kõrvallause<br />

Ma kuulsin, et sa oled kõrvallause<br />

(tuvastusobjekt on haige. Ta küsis, kas ma<br />

kõrvallause alguses<br />

olev sidend)<br />

olen nõus.<br />

V ja/või V rinnastustarind kirjutama ja lugema, ja/või<br />

V kui V võrdlustarind (parem) karta kui kahetseda kui<br />

65


3.5.2. Lihtverbi sõnavisandid<br />

Verbide sõnavisandite genereerimisel on suureks probleemiks asjaolu, et<br />

morfoloogiline analüsaator ei erista liht- ja perifrastilisi verbe. Et seda puudust<br />

korvata, koostasin käsitsi eesti keele sagedamate afiksaaladverbide loendi (vt<br />

lähemalt ptk 3.5.3.2.). Teiseks teoreetiliseks küsimuseks on vajadus eristada<br />

grammatikas finiit- ja infiniitverbe. Finiitverbi kontekstitingimuseks on, et tegemist<br />

ei tohi olla infinitiivi (da- ja vat-), supiini (ma-, mas-, mast-, maks- ja mata-),<br />

gerundiivi (des-) ega partitsiibi (v-, tav-, nud- ja tud-) vormidega. Programm otsib<br />

ainult finiitverbide subjekte, objekte, adverbiaale ja predikatiivadverbiaale.<br />

3.5.2.1. Subjekt<br />

Eesti keeles võib subjektiks olla substantiiv, pronoomen ja numeraal nominatiivis<br />

ning partitiivis, kvantorina talitlev adverb, da-infinitiiv (Müürisep 2000: 50) ning<br />

osalause, kui seda saab asendada substantiivse subjekti kombel käituva<br />

pronoomeniga (EKG 1993: 39). Sõnavisandite grammatikas loetakse verbi<br />

subjektiks nominatiivis substantiive, mis asuvad lauses vahetult enne või pärast<br />

verbi. Kontekstipiiranguteks on, et tegemist peab olema finiitverbiga ja verb ei tohi<br />

olla umbisikulise tegumoe vormis. Reegel subject/subject_of (vt Tabel 7) töötleb<br />

ainult normaallauseid (Mees ehitab maja).<br />

Huvitavaks siinse uurimise käigus lahendamata jäänud teoreetiliseks probleemiks<br />

on eksistentsiaallauses (Peenral kasvab lilli) partsiaalsubjekti funktsioonis esinevate<br />

substantiivide tuvastamine. Kuna partsiaalsubjektiga laused on võimalikud ainult<br />

intransitiivverbide puhul (EKG 1993: 42–45), saaks selle probleemi osaliselt<br />

lahendada, kui intransitiivsetel verbidel oleks intransitiivsust tähistav märgend.<br />

3.5.2.2. Objekt<br />

Eesti keeles võib objektiks olla substantiiv, pronoomen ja numeraal nominatiivis,<br />

genitiivis ja partitiivis, da-infinitiiv, vat-infinitiiv, adverb kvantorifraasi põhjana<br />

(Müürisep 2000: 53) ja osalause (EKG 1993: 46). Sõnavisandite grammatikas<br />

loetakse verbi objektiks 1) singulari ja pluurali nominatiivis substantiive.<br />

Kontekstitingimuseks on, et predikaat on käskiva kõneviisi või umbisikulise<br />

tegumoe vormis (nt lausetes Hääled loetakse avalikult kohe pärast hääletamise<br />

lõppemist, Unustagem hirmutamine). Kindlas kõneviisis verbiga esinevaid<br />

mitmuslikke totaalobjekte (Ostsin saapad, Kinkisin talle lilled) sõnavisandite<br />

grammatika praegune versioon 1.5 ei tuvasta, see kuulub edasiarenduste hulka.<br />

Seda tüüpi objektide tuvastamist toetaksid verbi intransitiivust/transitiivsust<br />

tähistavad märgendid; 2) singulari genitiivis substantiive (nt lauses Ma teen<br />

järgmise ettepaneku). Kontekstipiiranguteks on, et predikaat ei tohi olla eitavas<br />

kõnes, umbisikulises tegumoes ja infiniitses vormis; 3) singulari ja pluurali<br />

partitiivis substantiive, mis asuvad verbi paremas või vasakus kontekstis.<br />

66


Joonis 47 näitab, kuidas tuvastatakse partitiivis olevaid objekte.<br />

Joonis 47. Verbi ja selle objekti tuvastamist illustreerivad konkordantsiread.<br />

Joonisel 47 allajoonitud sõnad tuvastatakse vastava verbi objektina, nt jätkama<br />

tööd, saavutama edu, andma hinnangut jne.<br />

Objekte tuvastava reegli probleemiks on väljendverbide nominaalsed komponendid,<br />

mis on märgendatud iseseisvate substantiividena, nt aru saama. Joonisel 48 on näha<br />

(konkordantside esimene rida, allajoonitud), et sõna aru on märgendatud kui sg_p<br />

‘ainsuse partitiivi’ vormis olev substantiiv, järelikult käsitleb programm substantiivi<br />

aru verbi saama objektina. Seda probleemi saaks edaspidi lahendada vaid<br />

morfoloogilises analüsaatoris oleva väljendverbide leksikoni abil, nii et<br />

väljendverbide komponendid oleksid vastavalt märgendatud.<br />

Joonis 48. Väljendverbi aru saama komponentide morfoloogiline märgendamine<br />

Sketch Engine'i sisendkorpuses.<br />

3.5.2.3. Adverbiaal<br />

Nagu märgib Mati Erelt (2003b: 72–73), on adverbiaali küllaltki detailse kirjelduse<br />

esitanud Karl Mihkla jt (1974) ning EKG (1993), kuid süvauurimusi on tehtud<br />

vähe. Verbi laiendavad adverbiaalid võivad esineda kõigis käändeis. Sõnavisandite<br />

grammatikas loetakse adverbiaalideks kõiki neid verbilaiendeid, mis pole<br />

grammatilistes käänetes (nominatiivis, genitiivis või partitiivis) ja mis asuvad verbi<br />

paremas kontekstis ühe osalause piires. Adverbiaaliks olev substantiiv võib esineda:<br />

1) illatiivis (uskuma/armuma kellesse-millesse; nakatuma millesse); 2) inessiivis<br />

(kahtlema/eksima kelles-milles); 3) elatiivis (kuulma/rääkima kellest-millest);<br />

67


4) allatiivis (lootma kellele-millele); 5) adessiivis (peatuma/baseeruma/põhinema<br />

millel, vedama kellel); 6) ablatiivis (küsima kellelt); 7) translatiivis (tunnistama<br />

kelleks-milleks); 8) terminatiivis (jõudma kelleni-milleni); 9) essiivis (töötama<br />

kellena); 10) komitatiivis (abielluma kellega, uhkeldama millega); 11) abessiivis<br />

(toime tulema milleta).<br />

Reeglid sisseütlev_adverbial, seesütlev_adverbial, seestütlev_adverbial,<br />

alaleütlev_adverbial, alalütlev_adverbial, alaltütlev_adverbial, saav_adverbial,<br />

rajav_adverbial, olev_adverbial, ilmaütlev_adverbial, kaasaütlev_adverbial (vt<br />

Tabel 7) tuvastavad kõige paremini neid suhteid, kus on tegemist rektsiooniliste<br />

laienditega, nt armuma kellesse-millesse.<br />

Adverbiaali automaatse tuvastamise probleemiks on, et programm otsib ainult<br />

kaheliikmelisi suhteid, kuid sageli on verbikonstruktsioon mitme laiendiga, nt<br />

aitama kellelgi + mida teha, alustama mida + millega, süüdistama keda + milles jt.<br />

Selliste mitmelaiendiliste konstruktsioonide tuvastamine kuulub grammatika<br />

edasiarenduste hulka.<br />

Kui objekti puhul on probleemiks grammatilises käändes substantiivse<br />

komponendiga väljendverbid, nt aru saama, siis adverbiaalide tuvastamises on<br />

veaallikaks adverbiaalkäändes substantiivist ja verbist koosnevad väljendverbid, nt<br />

silmas pidama, meelde tuletama. Seda tüüpi noomenitest komponendid tulevad<br />

esile adverbiaalide hulgas.<br />

Omaette uurimisteemaks on ka kogeja- (Jaanile meeldib tantsida. Jaani huvitab<br />

muusika. Jaani haaras hirm. Jaanil hakkas halb), omaja- (Jaanil on auto) ja<br />

tulemuslause (Jaanist sai hea sportlane) adverbiaalide tuvastamine. Seda tüüpi<br />

partitiiv-, allatiiv-, adessiiv- ja elatiivadverbiaalide tuvastamine kuulub grammatika<br />

edasiarenduste hulka. Neid saaks tuvastada vastavate olemasolu-, kogeja-, omaja- ja<br />

tulemuslausete sagedamate predikaatverbide loendi alusel.<br />

3.5.2.4. Predikatiivadverbiaal<br />

Predikatiivadverbiaalina käsitleb programm verbi translatiivis ja essiivis esinevaid<br />

adjektiivseid laiendeid. Reeglid predicate_Adj_saav/predicate_Adj_saav_of,<br />

predicate_Adj_olev/predicate_ Adj_olev_of (vt Tabel 7) tuvastavad verbi laiendiks<br />

oleva essiivis ja translatiivis adjektiivi.<br />

Eesti keele koondkorpuse analüüs näitab (vt Joonist 49), et sagedamad<br />

translatiivadverbiaali ja verbi ühendid on vajalikuks/õigeks/võimalikuks/oluliseks<br />

pidama, kindlaks määrama, kindlaks/teatavaks tegema, selgeks/võimalikuks/<br />

saatuslikuks/tuntuks saama, kehtetuks tunnistama, erapooletuks/arusaamatuks/<br />

viimaseks jääma, heaks kiitma ja omaks võtma.<br />

68


Joonis 49. Sagedamad translatiivadverbiaali ja verbi ühendid.<br />

Sagedamad essiivadverbiaali ja verbi ühendid on püsima muutumatuna/stabiilsena/<br />

tugevana, seisma tühjana, tunduma uskumatuna/võimatuna/kummalisena.<br />

Käsitlemata on jäänud nominatiivis predikatiivadverbiaal, nt Ta nägi hea välja.<br />

Seda tüüpi predikatiivadverbiaale on vaja veel uurida, et selgitada, mis verbidega<br />

koos see võib esineda.<br />

3.5.2.5. Adverb kaasmoodustajana<br />

Reegel Adv_modifier/V_modifies (vt Tabel 7) tuvastab adverbe, mis esinevad<br />

otsitava verbi laiendi funktsioonis. Kontekstipiiranguna on reeglisse pandud sellised<br />

adverbiks märgendatud sõnad nagu ikka, ja, ju, just, ka, kas, kui, kuidas, kus, miks,<br />

millal, nagu, nii, nüüd, vaid, veel, kuigi, palju, muidugi, kust, kuhu, siis, siiski, eks,<br />

afiksaaladverbide funktsioonis esinevad adverbid (vt loendit ptk 3.5.3.2.) ja mõned<br />

ajamäärsõnad. Joonisel 50 on näha lemma sõitma adverbilised kaasmoodustajad:<br />

koha- kohale/sinna, aja- praegu/seejärel ja viisimäärsõnad kiiresti/hästi.<br />

69


Joonis 50. Verbi sõitma adverbilised laiendid.<br />

3.5.2.6. Adpositsioonifraas kaasmoodustajana<br />

Kaassõnaliste laiendite tuvastamise reegel V_PP (vt Tabel 7) otsib verbi<br />

laiendavaid adpositsioonifraase, nagu kelle-mille eest võitlema, põgenema,<br />

hoolitsema, kaitsma; mille järele haisema; kelle-mille hulka kuuluma; mille kallal<br />

nokitsema, töötama; kelle-mille kohta kehtima, teatama, teadma, kirjutama; kellemille<br />

peale haukuma, vihastama, kaebama; mille poole püüdlema, pürgima,<br />

püüdma; mille poolest erinema, sarnanema; mille puhul õnnitlema; mille pärast<br />

tülitsema; kelle-mille tõttu kannatama; kelle-mille vastu võitlema; kelle-mille vahel<br />

jagama; kelle-mille üle rõõmustama jmt (vt ka EKG 1993: 68–70).<br />

Reegel käsitleb prepositsioonidena adpositsioone allapoole, altpoolt, eespool, enne,<br />

hoolimata, ilma, keset, kesk, koos, kuni, läbi, mööda, piki, põiki, päri, risti,<br />

sealpool, sealtpoolt, seespool, siiapoole, siinpool, siitpoolt, sinnapoole, sissepoole,<br />

teispool, teispoole, tänu, tükkis, väljapoole, väljaspool, väljastpoolt, ühes, ülalpool,<br />

ülaltpoolt, üle, ülespoole, ülevalpool, ülevaltpoolt. Ülejäänud adpositsioonid on<br />

käsitletud postpositsioonidena.<br />

Joonisest 51 nähtuvad verbi hääletama laiendavad sagedamad adpositsioonifraasid:<br />

kelle-mille poolt (sagedamad on liitumise/eelnõu/umbusalduse/seaduse poolt), kellemille<br />

vastu (sagedamad on otsuse/eelarve/eelnõu/ettepaneku vastu) ja mille teel<br />

(sagedamad on kirja/posti/interneti/telefoni teel).<br />

70


Joonis 51. Verbi hääletama laiendavad sagedamad adpositsioonifraasid.<br />

3.5.2.7. Infiniitne verb kaasmoodustajana<br />

Sõnavisandite grammatikas on eraldi reeglid verbi infinitiivi, gerundiivi ja supiini<br />

vormis laiendite tuvastamiseks. Programm tuvastab (vt Tabel 7): 1) infinitiivis<br />

laiendeid (V_Vda, V_Vvat); 2) supiinis ja käändelistes vormides laiendeid (V_Vma,<br />

V_Vmas, V_Vmast, V_Vmaks, V_Vmata); 3) gerundiivis laiendeid (V_Vdes). Kõige<br />

suurem infiniitsete laiendite tuvastamise probleem on, et võimatu on eristada<br />

juhtumeid, kus infiniitne verbivorm talitleb subjekti, objekti, adverbiaali,<br />

predikatiivi või vaba laiendina (vt EKG 1993: 237–246), nendest juhtumitest, kus<br />

infiniitverb moodustab mingi finiitverbiga liitpredikaadi, st kui tegemist on mingit<br />

tüüpi perifrastilise verbiga (vt EKG 1993: 246–248). Hetkel kuvatakse infiniitsed<br />

verbivormid ühes veerus ning leksikograafil tuleb neid analüüsides eristada, kas<br />

tegemist on lihtverbi laiendite või perifrastiliste verbidega. Selle probleemi saab<br />

lahendada ainult morfoloogilise analüsaatori abil, eeldusel, et morfoloogiline<br />

analüsaator märgendab perifrastiliste verbide komponendid eraldi märgenditega.<br />

ma-, mas- ja mast-infinitiivi on eesti keeles põhjalikult käsitlenud Erelt (1985).<br />

Infinitiivirektsiooni puhul on raske otsustada, kas tegemist on regulaarse<br />

sõnamoodustusmalli või idiomaatilise püsiühendi, nt ahelverbiga. Traditsiooniliselt<br />

eristatakse järgmisi infinitiivirektsiooni tüüpe: finiitverb + 1) ma-infinitiiv (minema,<br />

saatma, jooksma mida tegema); 2) maks-vorm (kasutama mida tegemaks); 3) masvorm<br />

(käima mida tegemas); 4) mast-vorm (tulema mida tegemast); 5) mata-vorm<br />

(jätma mida tegemata); 6) da-infinitiiv (tahtma mida teha); 7) vat-vorm (paistma<br />

mida tegevat).<br />

Joonisel 52 on esitatud lemma ütlema kombinatsioonid gerundiivi ja matavormidega:<br />

ütlema naerdes/naeratades/muiates/naljatades/ohates/lahkudes ja<br />

ütlema keerutamata/häbenemata.<br />

71


Joonis 52. Verbi ütlema ühendid des- ja mata-vormis infiniitverbidega.<br />

3.5.2.8. Kõrvallause laiendina<br />

Sõnavisandite grammatika tuvastab kõrvallausete alguses olevaid sidendeid<br />

etteantud loendi alusel, mis on koostatud lähtuvalt Tauli (1980: 228–240), EKG<br />

(1993: 282–295), Erelti jt (2007: 506) kirjeldustest.<br />

Loendis on järgmised sidenditena toimivad sõnad: et, justkui, justnagu, kas, kes,<br />

kuhu, kui, kuidas, kuna, kuni, kus, kust, kustkaudu, miks, millal, milline, mis,<br />

misjaoks, mismoodi, mispärast, missugune, mistarvis, seepärast, sellepärast,<br />

mistõttu, nagu, otsekui, seetõttu, selletõttu, sest, siis, siiski.<br />

Joonisel 53 on näidatud verbi ütlema laiendavate osalausete alguses asuvad sidendid.<br />

Nendest sagedamad on ütlema, et ... (nt lauses Nüüd ma pean ütlema, et ma ei näe<br />

neid täiendusi), ütlema, kas ... (nt lauses Ma ei oska öelda, kas seda on liiga vähe või<br />

liiga palju), ütlema, mis ... (nt lauses Ma muidugi ei oska öelda, mis saab aastal 2200,<br />

aga me võime olla rahulikud, kellegi silmad meist seda aastat ei näe).<br />

Joonis 53. Verbi ütlema laiendavate kõrvallausete alguses asuvad sidendid.<br />

Nii nagu ka teiste sõnaliikide puhul, õnnestub ühesõnaliste sidendite tuvastamine<br />

selle reegliga hästi. Problemaatiline on ühendite tuvastamine, nt mis ajal, mis ajani,<br />

mis põhjusel, mil(lisel) kombel, kui palju, kui pikk jne (vt lähemalt EKG 1993: 291).<br />

72


Hetkel tuvastab süsteem ainult ühest sõnast koosnevaid sidendeid. Ühendina<br />

esinevate sidendite tuvastamine jääb grammatika edasiarenduste hulka.<br />

3.5.2.9. Rinnastus- ja võrdlustarindid<br />

Reegli ja/või ja kui (vt Tabel 7) abil tuvastatakse rinnastusseoses olevaid verbe ning<br />

kui-võrdlustarindeid. Tegemist on symmetric-tüüpi reegliga. Reegli toel tuvastab<br />

süsteem selliseid konstruktsioone nagu laulma ja tantsima, laulma ja mängima,<br />

laulma ja rääkima. Teiseks tuvastab süsteem võrdlustarindeid, nagu (parem/pigem)<br />

karta kui kahetseda, pigem nutta kui naerda jmt.<br />

3.5.3. Perifrastilised verbid ja nende tuvastamine<br />

Siinses peatükis käsitlen lühidalt eesti keele perifrastiliste verbide<br />

moodustusstruktuuri ja analüüsin, mis tüüpi komponente saab ESTMORFi<br />

märgendussüsteemile toetudes sõnavisandite grammatikas tuvastada. Nagu märgib<br />

Erelt (2003b: 70), on predikaadi puhul põhiküsimus olnud predikaadi ja vaba<br />

sõnaühendi piiri määramine. EKGs on leksikaal-analüütilised konstruktsioonid<br />

koondatud kategooriasse nimega „perifrastilised verbid”, mille alla kuuluvad:<br />

1) ühendverbid (finiitverbi ühendid afiksaaladverbiga), 2) väljendverbid (finiitverbi<br />

ühendid noomeniga) ja 3) ahelverbid (finiitverbi ühendid infiniidiga) (EKG 1993:<br />

18–22). Nendest on kõige rohkem uuritud verbi ja noomeni püsiühendeid, sh<br />

väljendverbe ja tugiverbiühendeid (Pai 2001; Muischnek 2005, 2006a, 2006b,<br />

2006c; Sahkai, Muischnek 2010), ühendverbe ja väljendverbe on käsitlenud Rätsep<br />

(1969, 1978), Pihlak (1985, 1991) ja Vanem (2004).<br />

Eesti leksikograafias ei ole välja kujunenud perifrastiliste verbide esitamise<br />

traditsiooni ning iga sõnaraamat käsitleb neid erinevalt vastavalt sellele, mis on<br />

sõnastiku profiil. Kui ühendverbe esitatakse enamasti (all)märksõnadena, siis<br />

väljend-, ahelverbe ja tugiverbiühendeid esitatakse üldjuhul kas märksõna<br />

tähendusploki näitelausetes või fraseologismidena. Selline lähenemine on kooskõlas<br />

EKG seisukohaga (1993: 19), et kuigi perifrastilised verbid moodustavad<br />

süntaktilise terviku, ei ole see siiski mitmeosaline sõna, vaid ikkagi sõnade ühend,<br />

mille komponendid kuuluvad eri sõnaliiki.<br />

Samas olen arvamusel, et leksikograafiliselt tuleb perifrastilist verbi pidada pigem<br />

mitmeosaliseks sõnaks kui sõnade ühendiks, kuna perifrastilisel verbil on iseseisev<br />

terviktähendus ja argumentstruktuur. Samasugust perifrastiliste verbide käsitlust<br />

rõhutavad ka arvutilingvistid Heiki-Jaan Kaalep ja Kadri Muischnek, kes käsitlevad<br />

seda tüüpi üksusi püsiühendina (multiword expression), st kahe või enama<br />

sõna(vormi) ühendina, mida mingi tähenduse väljendamiseks on tavaks koos<br />

kasutada. Uurijad märgivad, et kui morfoloogia tasandil ehk võibki käsitleda iga<br />

tühikutevahelist stringi omaette analüüsiüksusena, mis saab oma sõnaliigi ja<br />

grammatiliste kategooriate analüüsi, siis edasi, süntaktilise ja semantilise analüüsi<br />

jaoks, on oluline mitmesõnalise leksikaalse üksuse või mitmesõnalise minimaalse<br />

semantilise üksuse tunnistamine ja äratundmine (2009: 157–158).<br />

73


Korpusleksikograafilise analüüsi otstarbeks on oluline perifrastiliste verbide<br />

moodustusstruktuuri analüüs.<br />

3.5.3.1. Väljendverbid (noomen(ifraas) + verb)<br />

EKG (1993: 20) järgi on väljendverb selline perifrastiline verb, mille sisuliseks<br />

tuumaks on noomen(id).<br />

Väljendverbi võimalikud moodustusstruktuurid on:<br />

1) substantiiv (sise- ja väliskohakäändes) + verb, nt silma hakkama, korrale<br />

kutsuma, mõttesse langema; omaette rühmana võib tuua ka kolmikparadigmasid<br />

moodustavaid verbe: meelest (ära) minema – meeles olema – meelde tulema.<br />

Rudolf Karelson (2005) märgib, et nominaalse komponendi puhul pole alati kerge<br />

otsustada, kas tegu on uue sisuga (st mitte substantiivi käändevormi, vaid nt adverbi<br />

või adpositsiooniga) või siiski substantiivile omase erilise käändetähendusega.<br />

Sellised sõnakujud nagu lukkus, lokkis, sompus, tükkis, pilves; lukku (Pani ukse<br />

lukku), pilve (Ilm läks pilve), tükki (Suhkur on tükki sulanud), tompu (Padjasuled<br />

lähevad tompu) on ilma kahtluseta adverbid. Kuid traditsiooniliselt käsitletakse neid<br />

ikkagi väljendverbide käändsõnalise komponendina (2005: 62–63);<br />

2) substantiiv (grammatilises käändes) + verb, nt nägu tegema, aru saama, lugu<br />

pidama, muret tundma; seejuures võib noomenist komponendi kääne kasutuses<br />

varieeruda;<br />

3) adjektiiv (translatiivis, essiivis) + verb, nt araks lööma, pahaks panema;<br />

4) pronoomen (partitiivis, translatiivis) + verb, nt end tundma, end tundma andma,<br />

paljuks pidama;<br />

5) ainult ühendites esinev komponent + verb, nt tähele panema, peksa saama, pärit<br />

olema. Need on sõnad, mida ESTMORF analüüsib osaliselt X-ina, st verbi juurde<br />

kuuluva sõnana, millel eraldi sõnaliigi tähistus puudub (vt ptk 3.1.). Tänapäeva<br />

keele seisukohast on enamik nendest kivinenud sõnavormidest adverbid (nt andeks,<br />

plehku, pärit). Samas on sõnavorme, mis esinevad ainult ühendites ja mille<br />

sõnaliigilist kuuluvust on raske määrata, nt peksa, kihla. Sel põhjusel käsitlen<br />

siinses töös (ja ka sõnavisandite grammatikas) verbi ja X-iks märgendatud sõnade<br />

ühendeid väljendverbidena;<br />

6) adverbialiseerunud käändevorm + verb, nt nõus olema. Seda tüüpi ühendite<br />

noomenist komponent ei esine iseseisva märksõnana ning tavaliselt esitatakse<br />

ühend vastava substantiivi kirjes (nt EKSSis on nõus olema substantiivi nõu kirjes).<br />

7) Mõnikord on väljendverbi ja ahelverbi verbaalseks komponendiks ka ühendverb,<br />

nt arust ära olema, puust ette tegema.<br />

Sõnavisandite grammatika abil saab hetkel korpusest otsida omaette kategooriana<br />

vaid translatiivis ja essiivis esinevaid predikatiivadverbiaale (reeglid<br />

predicate_Adj_saav/predicate_Adj_saav_of, predicate_Adj_olev/<br />

predicate_Adj_olev_of, vt Tabel 7).<br />

74


Lisaks on eraldi reegel väljendverb, mis otsib korpusest verbi ja X-iks märgendatud<br />

sõna koosesinemisi. Sagedamad neist on pärit olema, tähele panema ja andeks<br />

andma.<br />

Ülejäänud väljendverbide noomenitest komponente süsteem eraldi ei otsi, vaid need<br />

tulevad esile verbi objekti (nt aru saama, juttu ajama) (vt ptk 3.5.2.2.) või<br />

adverbiaalina (nt silma paistma) (vt ptk 3.5.2.3.).<br />

3.5.3.2. Ühendverbid (afiksaaladverb + verb)<br />

EKG (1993: 20) järgi on ühendverbid perifrastilised verbid, mille sisuliseks<br />

tuumaks on verb, komplekteerivaks komponendiks on orientatsiooni, perfektiivsust<br />

või seisundit, üksikjuhtudel ka modaalsust väljendav afiksaaladverb. Seega võib<br />

ühendverbid moodustusstruktuuri järgi jaotada neljaks rühmaks (vt ka Rätsep 1978:<br />

29–39):<br />

1) verb + orientatsiooniadverb (alla, all, alt, ette, ees, eest jmt);<br />

2) verb + perfektiivsusadverb (maha, täis, valmis, ära jmt);<br />

3) verb + seisundiadverb (püsti, kokku, laiali, kinni, lahti, katki jmt);<br />

4) verb + modaalsust väljendav afiksaaladverb (tarvis jmt).<br />

Lisaks on juhtumeid, kus orientatsiooniadverb esineb koos perfektiivsusadverbiga,<br />

nt Mees võttis kala otsast ära, või mitu orientatsiooniadverbi esineb kõrvuti, nt<br />

Majad ajavad tuld seest välja.<br />

Orientatsiooniliste afiksaaladverbidega ühendverbid (Rätsep 1978: 28; EKG 1993:<br />

21; Kaalep, Muischnek 2009: 160) jaotuvad ainukordseteks (peale käima, üle<br />

ajama, maha võtma, üles lööma) ja korrapärasteks (alla/üles/sisse/välja<br />

tulema/minema/jooksma) ühendverbideks. Ainukordsed ühendverbid moodustavad<br />

süntaktilise terviku, millest sõltuvad seotud laiendid. Korrapärased ühendverbid ei<br />

ole valmis sõnastikuüksused nagu ainukordsed verbid. Mõlemad ühendi osised<br />

säilitavad tähendusliku iseseisvuse. Vaatamata sellele moodustavad ka korrapärased<br />

ühendverbid süntaktiliselt lahutamatu terviku. Lausemalli ei määra siin finiitverb,<br />

vaid verb koos afiksaaladverbiga.<br />

Traditsiooniliselt esitatakse eesti keele sõnastikes nii korrapärased kui ka ainukordsed<br />

ühendverbid kas alusverbi sõnaartiklis allmärksõnana (nt EKSS, EE-VN) või omaette<br />

märksõnana (nt EVÕS, vt joonis 54).<br />

75


Joonis 54. Ühendverbide esitus EVÕSis (2011).<br />

Afiksaaladverbe tuvastab sõnavisandite grammatika loendi alusel (reegel<br />

afiksaaladverb/afiksaaladverb_of). Loend on koostatud EKSSi ja EE-VN<br />

sagedamate eesti keele ühendverbide loendi põhjal. Loendis on järgmised<br />

afiksaaladverbid: alla, alt, edasi, eemale, esile, ette, juurde, järele, kaasa, katki,<br />

kinni, kokku, kõrvale, külge, lahku, lahti, laiali, ligi, läbi, maha, mööda, otsa, peale,<br />

pealt, püsti, ringi, sisse, taga, tagant, tagasi, tarvis, täis, vahele, valmis, vastu,<br />

välja, ära, üle, üles, üleval, ümber. Grammatika koostamispõhimõte on, et kui ühe<br />

osalause piires on verb ja selles loetelus olev afiksaaladverb, siis on tegemist<br />

ühendverbiga.<br />

Joonis 55 näitab sagedamaid verbi lööma ja abiksaaladverbide ühendeid: kaasa<br />

lööma, läbi lööma, välja lööma, maha lööma, kokku lööma ja lahku lööma.<br />

Joonis 55. Verbiga lööma esinevad afiksaaladverbid.<br />

3.5.3.3. Ahelverbid (infiniitverb + finiitverb)<br />

Ahelverbid on perifrastilised verbid, mille sisuliseks tuumaks on infiniit. Finiitverb<br />

väljendab infiniidiga tähistatud situatsiooni modaalsust, aspekti, kausatiivsust või<br />

viisi (EKG 1993: 19). EKGs on eristatud ahelverbide neli tüüpi:<br />

76


1) modaalverb + infiniitverb. Sellised ahelverbid on võima, tohtima, saama dainfinitiiviga,<br />

pidama supiiniga ning näima, paistma ja tunduma vat-infinitiiviga;<br />

2) tegevuse faasi (algust või lõppu) tähistav verb + supiinivorm. Sellised ahelverbid<br />

on hakkama, asuma, minema, tulema, jääma, kukkuma, lööma, kargama, süttima<br />

koos supiini illatiiviga; lakkama koos supiini elatiiviga;<br />

3) tegevuse põhjustamist tähistav kausatiivverb + infiniitverb. Näiteks panema,<br />

ajama, jätma, laskma, lööma, vajutama, keerama koos supiini illatiiviga;<br />

4) tegevuse viisi tähistav verb + infiniitverb. Näiteks paukuma, nähvama koos dainfinitiiviga.<br />

Nagu tugiverbid (vrd Muischnek 2006c), võib ka ahelverbid jaotada kahte rühma:<br />

1) produktiivselt ahelverbe moodustavad verbid; siia kuuluvad modaalverbid ja ka<br />

mõned faasi tähistavad verbid, nt hakkama, lakkama; 2) finiitverbid, mis<br />

kombineeruvad tegevust väljendavate infiniitverbidega, mida saab esitada teatud<br />

semantilisse välja kuuluvatena, nt ajama, panema, lööma jt. Esimese rühma verbid<br />

kombineeruvad piiramatu hulga tegevust väljendavate infiniitverbidega. Teise<br />

rühma finiitverbid moodustavad teatud kindlat tegevust väljendavate<br />

infiniitverbidega püsiühendeid, kus finiitverbi panus püsiühendi tähendusse on<br />

minimaalne. Sellistes ühendites osalevaid infiniitverbe saab tavaliselt esitada mingi<br />

semantilise välja liikmetena. Toon näiteks verbide ajama, panema, lööma ja<br />

minema mõningad infiniitverbidest komponentide rühmad (ahelverbide allikas on<br />

Pihlak 1991):<br />

1) (inimese) füsioloogilise ja psühholoogilise seisundi muutuse verbid:<br />

a) ajama haigutama, ~ iiveldama, ~ kipitama, ~ luksuma, ~ magama, ~ naerma,<br />

~ oksendama, ~ õhetama, ~ öökima;<br />

b) panema armuma, ~ ehmuma, ~ heldima, ~ häbenema, ~ hämmelduma,<br />

~ imestama, ~ imetlema, ~ itsitama, ~ jahmuma, ~ kiruma, ~ kisama, ~ kõhklema,<br />

~ naerma, ~ röökima;<br />

c) lööma kartma, ~ kihama, ~ kohkuma, ~ kõhklema, ~ särama;<br />

2) seisundi muutuse verbid:<br />

a) ajama hõõguma, ~ keema, ~ põlema, ~ vahutama;<br />

b) panema hapnema, ~ kollendama, ~ kütma, ~ põlema;<br />

c) lööma klirisema, ~ leekima, ~ põlema, ~ mädanema, ~ pulbitsema;<br />

d) minema haisema, ~ hallitama, ~ idanema, ~ kasvama, ~ käärima, ~ mädanema,<br />

~ paisuma, ~ õitsema;<br />

3) sotsiaalse interaktsiooni verbid:<br />

a) ajama kihama, ~ tülitsema;<br />

b) minema kaklema, ~ kiskuma, ~ vaidlema.<br />

Verbi minema tähenduses ‘alustama, hakkama’ uurinud Heete Sahkai (2011) on<br />

märganud, et nende ühendite puhul on tegemist kas püsiühenditega või osaliselt<br />

produktiivsete idiomaatiliste mallidega, mida ei saa esitada minema rektsioonina, nt<br />

kujul [minema + ma-infinitiiv], sest nad on piiratud kindlate tähendusrühmadega<br />

77


või verbi kindla vormiga. Seega esineb verb minema tähenduses ‘alustama, algama,<br />

hakkama’ ainult kindlates konstruktsioonides (2011: 180). See on väga oluline<br />

tähelepanek ahelverbide leksikograafilise, eelkõige õppeleksikograafilise esituse<br />

seisukohalt, mis osutab sellele, et ka ahelverbe tuleks sõnastikus esitada<br />

eksplitsiitselt omaette üksusena (võimalusel koos definitsiooni ja näitelausega),<br />

mitte näidete tasandil, sest keeleõppija jaoks ei pruugi nende tähendus olla<br />

läbipaistev.<br />

Sõnavisandite grammatika ei otsi ahelverbide komponente eraldi, vaid neid<br />

tuvastatakse reeglite V_Vma abil (vt Tabel 7). Joonisel 56 on sagedamad ahelverbid<br />

verbiga ajama: ajama naerma/iiveldama/minema/nutma/higistama.<br />

Joonis 56. Sagedamad ahelverbid verbiga ajama.<br />

3.5.3.4. Tugiverbiühendid<br />

Eesti keele tugiverbiühendite moodustusstruktuuri on põhjalikult uurinud Kadri<br />

Muischnek (2005, 2006a, 2006b: 18–22, 2006c).<br />

Tugiverbikonstruktsiooniks nimetatakse sellist verbist ja noomenist või<br />

noomenifraasist koosnevat struktuuri, mille tähenduse annab noomen(ifraas) ja<br />

verbi osaks on jäänud ainult grammatilised funktsioonid: väljendada aega, isikut,<br />

tegumoodi jms ning siduda tegevust väljendav noomen, mis semantiliselt on lauses<br />

predikaadiks, selle lause muude osalistega. Tüüpiliselt on tegevust väljendav<br />

noomen formaalselt objekti positsioonis (teeb tööd, annab tõuke, peab kõne),<br />

harvem muu argumendi positsioonis (jõuab järeldusele) (Muischnek 2006a: 82).<br />

Tugiverbid võib Muischneki (2006c) järgi jaotada kahte rühma:<br />

1) produktiivselt tugiverbiühendeid moodustavad verbid, nt tegema, tegelema,<br />

sooritama, käima, juhtuma, toimuma jt;<br />

2) tugiverbid, mis kombineeruvad tegevust väljendavate noomenitega, mida saab<br />

esitada teatud semantilisse välja kuuluvatena, nt ajama, pidama, laskma, lööma,<br />

andma.<br />

78


Esimese rühma verbid kombineeruvad piiramatu hulga tegevust väljendavate<br />

noomenitega, millele seatakse küll mõningaid süntaktilisi ja semantilisi piiranguid.<br />

Teise rühma verbid moodustavad teatud kindlate tegevust väljendavate<br />

noomenitega püsiühendeid, kus verbi panus püsiühendi tähendusse on minimaalne.<br />

Sellistes ühendites osalevaid noomeneid saab tavaliselt esitada mingi semantilise<br />

välja liikmetena, näiteks: ajab poliitikat/äri/asju jne; ajavad juttu/lora; ajab<br />

jonni/joru/kiusu jne; peab kõne/ettekande/loengu jne; peavad läbirääkimisi/kõnelusi<br />

jne; A peab B-ga sõda/diskussiooni jne; peavad pidu/sünnipäeva jne.<br />

Muischneki (2005, 2006a, 2006b: 18–22, 2006c) uurimuste põhjal võib teha<br />

üldistava järelduse, et eesti keele tugiverbiühendite moodustusstruktuur on<br />

järgmine:<br />

1) verb + noomen (grammatilises käändes, sagedamini partitiivis), nt kõnet pidama,<br />

asju ajama;<br />

2) verb + noomen (adverbiaalkäändes), nt järeldusele jõudma.<br />

Nagu ka väljendverbide noomenitest komponente, ei otsi süsteem hetkel<br />

tugiverbiühendite nominaalseid komponente eraldi. Grammatilistes käänetes<br />

noomenitest komponendid tulevad esile verbi objektina (vt pkt 3.5.2.2.),<br />

adverbiaalkäänetes esinevad komponendid adverbiaalidena (vt ptk 3.5.2.3.).<br />

Joonisel 57 on perifrastilised verbid, mille üheks komponendiks on finiitverb<br />

ajama. Jooniselt nähtub, et tugiverbiühendid ja väljendverbid (juttu/asju/korda/<br />

habet ajama) on tuvastatud objektidena, afiksaaladverbidega ühendverbid<br />

(taga/läbi/välja/ära/kokku ajama) on tuvastatud omaette, kuid seisundiadverbidega<br />

ühendverbid (segi/segamini/püsti/laiali/lõhki ajama) on tuvastatud kui tavalised<br />

adverbidest laiendid. Ahelverbid (ajama naerma/iiveldama/nutma/higistama) on<br />

tuvastatud reegliga V_Vma (vt Tabel 7). Lisaks on reegliga predicate_Adj_saav<br />

tuvastatud adjektiivse komponendiga väljendverbid (hulluks/suureks/pahaks ajama jt).<br />

79


Joonis 57. Verbi ajama sõnavisandis esinevad perifrastilised verbid.<br />

Nende probleemide ainukeseks lahendamisviisiks on perifrastiliste verbide<br />

märgendamine omaette leksikaalsete üksustena. Perifrastilisi verbe märgendatakse<br />

omaette sõnaliigina nt leksikograafilises andmebaasis DANTE. Sõnaliigi märgend<br />

‘phr_v’ on sellistel perifrastilistel verbidel, mille komponentideks on lisaks verbile<br />

1) afiksaaladverb (adverb particle), nt get up, point out; 2) prepositsioon<br />

(prepositional particle), nt see through (someone’s plans); 3) afiksaaladverb ja<br />

prepositsioon (verbs with both types of particle), nt make off with, refer back to<br />

(Rundell, Atkins 2011: 235).<br />

3.5.4. Kokkuvõtteks: verbid<br />

Verbide sõnavisandid näitavad konkreetse verbi substantiivseid, adjektiivseid ja<br />

adverbilisi kaasmoodustajaid, laiendi funktsioonis esinevaid adpositsioonifraase,<br />

infiniitverbe, laiendliikmeks olevate kõrvallausete alguses asuvaid sidendeid ning<br />

rinnastus- ja võrdlustarindeid. Verbi ja selle substantiivsete laiendite grammatilisi<br />

suhteid on nimetatud sõnavisandite grammatikas morfosüntaktiliste kategooriate<br />

terminites. Eristatud on subjekt, objekt ja adverbiaalkäänetes esinevad<br />

substantiivsed adverbiaalid.<br />

Sõnavisandite grammatika reeglite abil on võimalik tuvastada ka selliseid<br />

perifrastilisi verbe nagu väljend-, ühend-, ahelverbid ja tugiverbiühendid. Omaette<br />

kategooriana tuvastab programm translatiivis ja essiivis esinevate adjektiivide ja<br />

verbide ühendeid (nt hulluks minema) ning verbi ja X-iks märgendatud sõnade<br />

koosesinemisi (nt tähele panema). Väljendverbide ja tugiverbiühendite noomenitest<br />

komponendid tulevad esile verbi objekti (nt aru saama, juttu ajama, läbirääkimisi<br />

pidama) või adverbiaalina (nt silma paistma, järeldusele jõudma). Ahelverbide<br />

komponentidena esinevaid infiniitverbe tuvastab süsteem eraldi reegli V_Vma abil.<br />

Ühendverbe moodustavaid afiksaaladverbe tuvastab sõnavisandite grammatika<br />

loendi alusel. Loendis on järgmised afiksaaladverbid: alla, alt, edasi, eemale, esile,<br />

80


ette, juurde, järele, kaasa, katki, kinni, kokku, kõrvale, külge, lahku, lahti, laiali,<br />

ligi, läbi, maha, mööda, otsa, peale, pealt, püsti, ringi, sisse, taga, tagant, tagasi,<br />

tarvis, täis, vahele, valmis, vastu, välja, ära, üle, üles, üleval, ümber.<br />

Toon näiteks verbide hoolitsema (vt Joonis 58) 32 ja tooma (vt Joonis 59)<br />

sõnavisandid.<br />

Joonis 58. Verbi hoolitsema sõnavisand.<br />

Verbi hoolitsema sõnavisandist (vt Joonis 58) nähtub grammatiline klass subjekt<br />

(sagedamad on riik/valitsus, firma, mees/inimene/naine, ema/isa/vanaema), lisaks<br />

laiendi funktsioonis esinevad adpositsioonifraasid (hoolitsema kelle-mille eest, nt<br />

lapse/pere/perekonna, looma/hobuse/koera, maja eest) ja adverb (hästi/piisavalt<br />

jne). Visandis on samuti tuvastatud kõrvallause alguses asuvad sagedamad sidendid<br />

(nt lauses Maakler peab hoolitsema, et kogu tehing sujuks turvaliselt kõigile<br />

osalistele). Seega saab nendele sõnavisandi andmetele toetudes järeldada, et verbi<br />

hoolitsema sagedamad laiendid on substantiiv (subjekti funktsioonis),<br />

adpositsioonifraas ja adverb, ehk kes (riik/firma/valitsus) hoolitseb kelle-mille<br />

(laste/inimeste) eest ja kuidas (hästi/piisavalt).<br />

32 Sõnavisandi esitamisel on kasutatud klasterdamise funktsiooni (st programm rühmitab<br />

automaatselt samasse leksikaal-semantilisse gruppi kuuluvad leksikaalsed üksused).<br />

81


Joonis 59. Verbi tooma sõnavisand.<br />

Verbi tooma sõnavisandist (vt Joonis 59) nähtuvad sellised kategooriad nagu<br />

subjekt (aasta/tulevik/päev jne), objekt (tooma näidet/selgust/edu) ja adverbiaalid.<br />

Adverbiaalide morfoloogiline vormistus on alaleütlev (tooma turule/lavale/<br />

päevavalgele jt), saav (tooma näiteks/võrdluseks/põhjuseks jt), sisseütlev (tooma<br />

haiglasse/politseisse), harvemini ka alalütlev (tooma laupäeval/neljapäeval jt),<br />

seestütlev (tooma poest/köögist/kodunt jne), rajav (tooma vaatajateni/lugejateni/<br />

publikuni) ja seesütlev (tooma tulevikus). Sagedamate grammatiliste suhetena tulid<br />

esile adpositsioonifraas kelle-mille ette (tooma avalikkuse/vaatajate/ publiku ette) ja<br />

adverb (tooma kohale/lähemale). Perifrastilistest verbidest on tuvastatud sagedamad<br />

ühendverbid: kaasa tooma, välja tooma, esile tooma ja sisse tooma.<br />

Nendest kahest sõnavisandist nähtub, et ka verbide sõnavisanditest koorub välja<br />

selle leksikaalne profiil, millele leksikograaf saab toetuda verbi süntagmaatiliste<br />

omaduste eksplitsiitsel kirjeldamisel.<br />

Järgmises osas esitan sõnavisandite kvantitatiivse evalveerimise tulemused.<br />

3.6. SÕNAVISANDITE HINDAMINE<br />

Peatükis hindan sõnavisandite väljundi täpsust, kirjeldan hindamise kriteeriume ja<br />

annan ülevaate evalveerimise käigus esile kerkinud probleemidest.<br />

3.6.1. Hindamise metoodika<br />

Eesti keele sõnavisandite kvantitatiivsel evalveerimisel kasutan Kilgarriffi jt<br />

(2010a) meetodit, millega uuriti hollandi, inglise, jaapani ja sloveeni keele<br />

82


sõnavisandeid (märksõnastiku iga 42. sõna 20 kollokaati) 33 . Kilgarriff jt (2010a:<br />

372) rõhutavad, et evalveerimine on oluline nii Sketch Engine'i arendajatele kui ka<br />

selle potentsiaalsetele kasutajatele. Arendajate eesmärk on selgitada probleemsed<br />

kohad ja parandada süsteemi funktsionaalsust. Leksikograafidel aitab evalveerimine<br />

hinnata, kas sõnavisanditest on neile konkreetsete kirjete koostamisel abi.<br />

Evalveerimise tulemused peaksid näitama, kas tarkvara on piisavalt hea, mitme<br />

protsendi ulatuses on tuvastatud informatsioon kasulik ja kas seda tasub<br />

igapäevases töös kasutada.<br />

Siinses töös hinnatakse sõnavisandeid kasutaja, st tegeva leksikograafi seisukohalt.<br />

Tulemuste hindamiseks kasutatakse sellist näitajat nagu täpsus (precision). Täpsus<br />

näitab õigete tuvastatud kollokaatide osakaalu kõigist tuvastatud kollokaatidest.<br />

Üldjuhul hinnatakse ka taoliste programmide korrektsust (recall). Korrektsus näitab<br />

tuvastatud õigete kollokaatide suhet kõikide leksikograafilise analüüsi käigus leitud<br />

ja sõnaraamatus või andmebaasis fikseeritud konkreetse sõna kollokaatidega. Nt kui<br />

sõnavisandis on substantiivi jahu kollokaatideks vaid sõeluma ja jahvatama, siis on<br />

täpsus 100%, sest mõlemad on õiged, kuid korrektsus võib olla madal, kuna on<br />

olemas veel palju kollokaate, mida süsteem pole tuvastanud (Kilgarriff jt 2010a:<br />

380). Korpusleksikograafilise tarkvara korrektsuse mõõtmine eeldab vastava<br />

kollokatsioonisõnaraamatu või andmebaasi olemasolu ning on korrelatsioonis<br />

sisendkorpuse sisuga. Kuna eesti keele jaoks sellist andmebaasi ei ole, piirdun<br />

siinses uurimuses vaid programmi täpsuse mõõtmisega.<br />

Meetod seisneb selles, et leksikograafidel palutakse hinnata iga tuvastatud<br />

kollokaadi leksikograafilist väärtust kaheastmelisel skaalal hea–halb 34 . Hea ehk<br />

leksikograafiliselt relevantne kollokaat peab vastama sellistele kriteeriumidele nagu<br />

tähenduslikkus, terviklikkus ja kasulikkus sõna semantika ja grammatika uurimisel.<br />

Halb ehk leksikograafiliselt irrelevantne kollokaat on ilmselgelt vigane, st<br />

kollokatsioonil ei ole mingit tähendust või leksikograaf arvab, et selline<br />

kollokatsioon ei oma leksikograafilist väärtust.<br />

Kilgarriffi jt (2010a) uurimus näitas, et suurema osa valesti tuvastatud<br />

kollokaatidest põhjustasid sõnaliigi märgendamise ja lemmatiseerimise käigus<br />

tekkinud vead, duplikaadid ja korpustes sisalduv nn müra. Probleemne on ka<br />

mitmesõnaliste üksuste tuvastamine. Parimaks osutus jaapani keele sõnavisandite<br />

33<br />

Mõiste kollokaat tähistab siin kõiki programmi abil tuvastatud otsisõnaga grammatilises seoses<br />

olevaid statistiliselt esilduvaid sõnu.<br />

34<br />

Kilgarriff jt (2010a) kasutasid esialgu viieastmelist skaalat hea (good) ‒ hea, aga vale<br />

grammatiline suhe või sõnaliigi märgend (good but wrong grammatical relation or POS-tagging<br />

error) – võib olla, aga kollokaat ei ole asjakohane (maybe, not striking collocate) ‒ võib olla, aga<br />

erialakeel (specialized vocabulary) ‒ halb. Kuid hinnangute analüüsimisel selgus, et hindajad on<br />

üsna sageli ühel meelel, kas tuvastatud kollokaat on hea või halb. Sel põhjusel otsustati, et<br />

efektiivsem on pakkuda leksikograafidele kaheastmeline skaala hea–halb. Head on kollokaadid,<br />

millele leksikograafid andsid hinnangu hea või hea, aga vale grammatiline suhe või sõnaliigi<br />

märgend. Halvad on need, mille hinnang oli võib olla ja halb.<br />

83


väljund, kus 87% tuvastatud kollokaatidest oli hinnatud heaks. Inglise ja sloveeni<br />

sõnavisandite täpsus olid ca 70% ja taani keele oma 66,3%.<br />

Eesti sõnavisandite evalveerimise tarbeks lõin koostöös Sketch Engine’i<br />

programmeerijate Vojtech Kovari ja Milos Jakubicekiga spetsiaalse kasutajaliidese.<br />

Joonisel 60 on adverbi täis evalveerimise kasutajaliides.<br />

Joonis 60. Sketch Engine’i evalveerimise kasutajaliides (adverb täis).<br />

84


Evalveerimisel osales 7 Eesti Keele Instituudi leksikograafi, kes kasutavad tarkvara<br />

oma igapäevases töös. Evalveerida tuli 16 sõna (4 substantiivi: päike, abielu, leping,<br />

arvamus; 4 adjektiivi: ilus, uhke, sarnane, iseloomulik; 4 adverbi: omaette, täis, üle,<br />

sarnaselt ja 4 verbi: paistma, hääletama, ajama, tegema) 20 sagedamat kollokaati.<br />

Evalveerimiseks valisin enamasti polüseemilised sõnad. Esindatud olid nii<br />

konkreetsed kui ka abstraktsed substantiivid, adverbi, adpositsiooni ja<br />

afiksaaladverbina käituv sõna, võrdluse eesmärgil sama adjektiivi adverbiaalne<br />

derivaat, transitiivsed ja intransitiivsed verbid. Verbide valiku üheks kriteeriumiks<br />

oli nende aktiivsus perifrastiliste verbide moodustamisel. Kollokaatide arvu<br />

määramisel lähtusin Kilgarriffi jt uurimusest, mis osutas mh sellele, et kõrge<br />

esinemissagedusega sõnade puhul on otstarbekas esitada sõnaraamatus umbes 20<br />

kõrge esilduvusega kollokaati. Samas keskmise ja madala esinemissagedusega<br />

sõnade korral võib see arv olla tunduvalt väiksem (2010a: 375). Siinses uurimuses<br />

valisin evalveerimiseks eesti keele 3000 sagedama sõna hulka kuuluvad sõnad,<br />

kollokaadid sorteerisin koosesinemise sageduse järgi ja minimaalseks<br />

koosesinemise sageduseks määrasin 2. Kuna sõnavisandid töötavad praegu<br />

põhimõttel, et kollokaadid viiakse lemmadele, siis näidati kasutajaliideses<br />

leksikograafidele ka sagedamat koosesinemist (commonest match) sõnavormide<br />

tasandil, nt täies elujõus. Lisaks said leksikograafid vajadusel analüüsida<br />

konkordantsiridu.<br />

3.6.2. Tulemused<br />

Analüüsitud 320 kollokatsioonist pidas enamik leksikograafe heaks kokku 222<br />

kollokaati ehk 70% kollokaatide üldarvust. 27 kollokaadi ehk 8% puhul oli enamik<br />

leksikograafe ühel meelel, et tegemist on hea kollokaadiga, samas väiksem osa<br />

evalveerijatest pidas samu kollokaate halvaks. Negatiivse hinnangu halb sai 71<br />

kollokaati ehk 22% üldarvust.<br />

Järgnevalt analüüsin neid kollokaate, mille suhtes olid leksikograafid eriarvamusel,<br />

aga ka tuvastatud vigaste kollokaatide põhjusi.<br />

3.6.3. Tulemuste analüüs<br />

Eriarvamusel olid leksikograafid eelkõige nende kollokaatide suhtes, mille<br />

tekstiliigiline markeeritus oli väga tugev, st kollokaat illustreeris sõna kasutust<br />

mingis konkreetses valdkonnas. Näiteks substantiivi arvamus sõnavisandis tulid<br />

esile sellised genitiivatribuudid nagu komitee/sotsiaalkomitee/veterinaarkomitee<br />

arvamus. Alliktekstide analüüsist selgus, et enamasti on need kollokatsioonid pärit<br />

Eesti ja Euroopa seaduste tekstidest. Verbi hääletama sõnavisandis tuli esile objekti<br />

funktsioonis esinev kollokaat muudatusettepanek, nt lausetes Õige varsti hakkame<br />

me hääletama muudatusettepanekuid või Palun hääletada muudatusettepanekut 1.<br />

See kollokatsioon esineb eelkõige riigikogu stenogrammide 1995–2001 tekstides.<br />

Osa leksikograafe arvas, et sellised kollokaadid risustavad sõnavisandeid ja pidasid<br />

neid halbadeks, enamus arvas aga, et need näitavad, mis tüüpi tekstides kasutatakse<br />

seda sõna antud korpuses kõige rohkem ja pidasid seepärast kollokaati<br />

85


leksikograafiliselt relevantseks. See asjaolu osutab, et sõnavisandite evalveerimisel<br />

on otsustava tähtsusega ka selle korpuse sisu, mille põhjal on sõnavisandid<br />

genereeritud. Vastakad arvamused olid ka nt rindtarindi vapper ja ilus suhtes.<br />

Leksikograafid arvasid, et tuvastatud sõnaühend on tugevalt seotud<br />

televisioonisarjaga „Vaprad ja ilusad” ja pidasid seda halvaks. Samas alliktekstis on<br />

seda ühendit kasutatud ka sarjaga mitte seotud kontekstides (nt lauses Ilmselgelt on<br />

meie võrokeelsed tütarlapsed hulga ebakindlamad kui kõik need vaprad ja ilusad<br />

meessolistid, kes Eurovisioni lavadel üles astuvad) ja sel põhjusel pidas osa<br />

leksikograafe seda kollokaati ikkagi heaks.<br />

Teiseks põhjustas lahkarvamusi kollokaatide lemmadele viimine, mis mõnikord<br />

muudab tuvastatud kollokatsiooni arusaamatuks ühendiks, nt täis raud, mille taga<br />

on tegelikult püsiväljend täie rauaga ‘nagu vähegi võimalik’. See tähelepanek<br />

viitab sellele, et edaspidi tasub kaaluda eesti keele sõnavisandite genereerimist ka<br />

sõnavormide jaoks ja mitte viia tulemused alati lemmadele. Samale probleemile on<br />

osutanud Kaalep ja Muischnek (2009: 162) rõhutades, et ekslik oleks arvata, et<br />

morfoloogiliselt ühestatud korpust kasutades saab tekstisõnad kõrvale jätta ning<br />

tegelda ainult lemmade koosesinemistega. Ühendverbide kui muutumatu sõna ja<br />

tekstis muutuva verbi ühendite tuvastamiseks võib tõesti kõik tekstisõnad asendada<br />

lemmadega, st leidis → leidma, leidnud → leidma ja üles → üles. Kuid verbi ja<br />

noomeni kindla muutevormi püsivate ühendite, näiteks väljendverbide puhul on asi<br />

teisiti. Näiteks väljendverbi silmist kaotama leidmiseks tuleb tekstis esinev<br />

verbivorm asendada lemmaga, kuid kui käändevorm silmis asendatakse tema<br />

lemmaga silm, saab sõnapaari silm kaotama (ibid.). Siinne uurimus näitab, et seda<br />

tüüpi sõnaühendeid on eesti keeles palju, sh teatud tüüpi adverbifraasid. See teema<br />

kuulub vaieldamatult väitekirja aktuaalsemate edasiarenduste hulka.<br />

Hinnangu halb põhjused võib tinglikult jaotada kahte rühma.<br />

1) Üldtuntud probleemid nagu:<br />

a) lemmatiseerimisvead, mis on tingitud nt vormihomonüümiast: substantiiv villa<br />

on lemmatiseeritud kui vill. Siin on vea põhjuseks mh asjaolu, et Sketch Engine’i<br />

korpuse ettevalmistamise järgus jäi sisendkorpuses mitme tõlgendusega sõnadel<br />

sisse ainult esikohal olev tõlgendus. Näiteks kui esialgu oli substantiivil villa kaks<br />

tõlgendust: vill + O ja villa + O, siis Sketch Engine’i korpuses on neist vaid<br />

esimene;<br />

b) morfoloogilise märgendamise vead sõnaliigi tasandil. Probleemne on<br />

leksikaliseerunud ja grammatikaliseerunud vormide märgendamine. Näiteks sõna<br />

käes fraasis päikse käes on märgendatud kui substantiiv ning tuleb esile kui<br />

substantiivi päike seesütlevas järeltäiend. Adverbide ja verbide sõnavisandites on<br />

valesti tuvastatud kollokaatide põhjuseks adverbide ja adpositsioonide (lemma üle<br />

sõnavisandis) ning adverbide ja sidesõnade (lemma paistma sõnavisandis) vale<br />

märgendamine. Näiteks lauses Kuid selline olukord, nagu paistab, mõningaid ei<br />

rahuldanud on sidesõna nagu märgendatud adverbiks.<br />

86


2) Teise rühma moodustavad probleemid, mida võib edaspidi lahendada reeglite<br />

tasandil (kontekstitingimuste täpsustamine, täiendavate sõnaloendite (eelkõige<br />

stopp-sõnade loendite) koostamine, sõnadevahelise distantsi muutmine) ja<br />

sisendkorpuse täiendav märgendamine (eriti oluline on perifrastiliste verbide,<br />

fraasipiiride ning süntaktiline märgendamine).<br />

Evalveerimisel osutusid probleemseks:<br />

a) sõnapaaridena tuvastatud kolmest, neljast ja viiest komponendist koosnevad<br />

fraasid, mis mõjuvad poolikute ja mõnikord ka semantiliselt tühjadena. Näiteks<br />

substantiivi abielu sõnavisandis osutusid sagedaseks partitsiipsed kollokaadid<br />

kestnud ja sõlmitud. Konkordantsiridade analüüsist selgub aga, et tegemist on<br />

sõnanelikutega, nt 25 aastat kestnud abielu ja 1986. aastal sõlmitud abielu.<br />

Analoogsed on nt sellised kollokatsioonid nagu vaheline leping pro Eesti Vabariigi<br />

ja Poola Vabariigi vaheline leping, ajastule iseloomulik pro modernsele / ülemineku<br />

ajastule iseloomulik, arvamuse uuring pro avaliku arvamuse uuring jmt;<br />

b) teatud tüüpi laiendid, mida leksikograafid ei pidanud leksikograafiliselt<br />

relevantseks. Nendeks osutusid eelkõige põhiarvsõnad (üks abielu), aja- (nt praegu<br />

tegema), koha- (nt kaugelt paistma), hulga- ja määramäärsõnad (nt tõeliselt/liiga<br />

ilus; veidi üle) ning asemäärsõnad (nt siis tegema). Hinnangud osutasid vajadusele<br />

koostada adverbide stopp-sõnade loend. Samas rõhutas üks leksikograaf, et<br />

adverbid võivad mõnede sõnade juures olla olulised. Nt koha- ja ajamäärsõnade<br />

analüüs aitab rekonstrueerida verbi sündmusstruktuuri (vt lähemalt ka ptk 5.2.3.4.),<br />

ka hulga- ja määramäärsõnad toovad esile sõna kalduvuse esineda koos<br />

konkreetsete adverbidega.<br />

Kokkuvõtteks võib öelda, et suurema osa halvaks hinnatud tuvastatud üksustest<br />

põhjustasid sõnaliigi märgendamise ja lemmatiseerimise käigus tekkinud vead,<br />

mitmesõnaliste üksuste poolik tuvastamine ja reeglite seisukohalt õigesti tuvastatud,<br />

kuid leksikograafiliselt irrelevantseks hinnatud eri tüüpi adverbidest laiendid.<br />

Sõnavisandites tuvastatavad substantiivide, adjektiivide, adverbide ja verbide<br />

süntagmaatilised suhted on põhilised süntagmaatiliste sõnastike kirjeldusobjektid.<br />

Järgnevas peatükis analüüsin, kuidas ja milleks kasutatakse kombinatoorsete<br />

meetoditega (sealhulgas sõnavisandite põhjal) saadud andmeid süntagmaatiliste<br />

õppesõnastike ja andmebaaside koostamisel. Eraldi analüüsin süntagmaatiliste<br />

üksuste valikukriteeriume.<br />

87


4. SÜNTAGMAATILISED SUHTED<br />

ÕPPELEKSIKOGRAAFIAS<br />

Õppeleksikograafia kui üldleksikograafia haru omapära väljendub eelkõige selle<br />

tihedas seoses teise keele ja võõrkeele õpetamise metoodikaga. Ingliskeelses<br />

haridusruumis nimetatakse õppesõnastikku pedagoogiliseks sõnastikuks<br />

(pedagogical dictionary) ja õppijasõnastikuks (learners’ dictionary), vene<br />

haridusruumis õppesõnastikuks (vn учебные словари), saksakeelses haridusruumis<br />

õppijasõnastikuks (sks Lernerwörterbuch). Eesti keele õppeleksikograafias on<br />

käibel mitu terminit: õppesõnastik, koolisõnastik ja baassõnastik.<br />

Tüpoloogiliselt liigitatakse õppesõnastikud järgmiste tunnuste järgi (Hartmann<br />

2001: 76–79):<br />

1) sihtgrupp – täiskasvanute ja noorte/laste õppesõnastikud;<br />

2) kasutajate keel(ed) – emakeelena kõnelejatele mõeldud või võõrkeelena<br />

kõnelejatele mõeldud õppesõnastikud;<br />

3) sõnastiku keel(ed) – nt üks- ja kakskeelsed õppesõnastikud;<br />

4) kirjeldusobjekt – kutsekeele, entsüklopeedilised, sõnapõhised/temaatilised<br />

õppesõnastikud;<br />

5) funktsioon – aktiivne ehk kodeeriv vs. passiivne ehk dekodeeriv.<br />

Nendele tunnustele võib lisada sõnastike üldtüpoloogias kasutatavad kriteeriumid<br />

(vt täpsemalt Atkins, Rundell 2008: 24–25):<br />

6) maht – standardne (akadeemiline), väike (concise) või taskusõnaraamat;<br />

7) formaat – pabersõnastik, elektrooniline, veebipõhine sõnastik.<br />

Õppesõnastike tüpologiseerimisel on väga levinud akadeemik Lev V. Scherba<br />

(1974) töödest alguse saanud nn binaarsetel opositsioonidel põhinev meetod (vt ka<br />

Tarp 2008: 17). Olulisemad binaarsed opositsioonid tulenevad sõnastiku kasutaja<br />

profiilist, sõnastiku leksikograafilisest ja tehnoloogilisest profiilist ning<br />

funktsioonist (Averina jt 1996: 314). Eristatakse üldisi (kõigile keeleõppijatele) vs.<br />

teatud grupile (nt õpilastele) suunatud, üldkeele vs. entsüklopeedilisi,<br />

semasioloogilisi vs. onomasioloogilisi, süntagmaatilisi vs. paradigmaatilisi,<br />

kombineeritud vs. kombineerimata, aktiivseid vs. passiivseid, preskriptiivseid vs.<br />

deskriptiivseid ja paberkandjal vs. elektroonilisi sõnaraamatuid.<br />

Õppesõnastike puhul on oluline kasutaja profiili täpne määratlemine. Sellest<br />

sõltuvad üksuste valikukriteeriumid ja need allikad, millele leksikograafid<br />

koostamisel toetuvad. Atkins ja Rundell (2008: 28–30) analüüsivad kasutaja profiili<br />

järgmiste komponentide alusel: 1) kasutaja tüüp – kas kasutajad on täiskasvanud,<br />

lapsed, teismelised; emakeelsed kõnelejad või keeleõppijad; milline on nende<br />

keeleoskustase (algajad, edasijõudnud); kas nad on tavalised kasutajad või<br />

88


professionaalid; mis situatsioonis nad sõnastikku kasutavad (haridusasutuses,<br />

kodus, tööl); 2) kasutuse tüüp – sõnade tähendustest arusaamine, keeleõpe,<br />

tõlkimine, kirjutamine, suuliseks eksamiks ettevalmistamine; 3) kasutaja eelnevad<br />

oskused – nende lingvistiline kompetents, nt kas nad teavad, mis on substantiiv;<br />

oluline on ka nende metaleksikograafiline kompetents ehk kas nad saavad<br />

sõnastikus kasutatavatest koodidest aru jne. Mida täpsem on sõnastiku kasutajate<br />

profiili kirjeldus, seda kergem on edaspidi lahendada sõnastiku koostamise ja<br />

toimetamisega seotud probleeme.<br />

Süntagmaatilise õppesõnastiku mõistet kasutatakse leksikograafia teoorias<br />

katusterminina sõnastikele, milles on infoüksustena kollokatsioonid,<br />

konstruktsioonid, püsiväljendid, idioomid, fraasid või laused (Hartmann, James<br />

2002: 135). Süntagmaatiliste seoste eksplitsiitse esituse põhieesmärgiks on toetada<br />

kasutajat võõrkeelse teksti loomisel (rääkimisel, kirjutamisel). Nende osaoskuste<br />

arendamiseks läheb õppijal vaja sõnaraamatut, mis näitab eksplitsiitselt konkreetse<br />

sõna kombinatoorseid võimalusi ja annab juhtnööre selle sõna korrektseks<br />

kasutuseks eelkõige fraasi ja lause tasandil. Seda funktsiooni täidavadki<br />

süntagmaatilised erisõnastikud või süntagmaatilisi suhteid kirjeldavad plokid<br />

üldsõnaraamatute sees. Põhierinevus seisneb selles, et kui süntagmaatilistes<br />

erisõnastikes esitatakse suhteid eksplitsiitselt (esitusviise käsitlen peatükkides 4.2.<br />

ja 5.1.), siis üldsõnaraamatutes esitatakse neid enamasti implitsiitselt kasutusnäidete<br />

tasandil (vt nt Langemets jt 2005: 84).<br />

Selles peatükis uurin tänapäeva süntagmaatiliste andmebaaside ja sõnastike makroja<br />

mikrostruktuuri eripära, süntagmaatiliste üksuste valikukriteeriume ja esitamise<br />

strateegiaid. Eraldi käsitlen võimalusi, mis on tekkinud seoses korpusleksikograafia<br />

arenguga.<br />

4.1. TRADITSIOONILINE JA KORPUSLEKSIKOGRAAFIA<br />

Traditsiooniliselt eristatakse leksikograafia teoorias kaht süntagmaatilise suhte liiki:<br />

1) süntagmaatilised leksikaalsed suhted, mille hulka kuuluvad kollokatsioonid,<br />

püsiühendid ja idioomid; 2) süntagmaatilised grammatilised ehk semantilismorfosüntaktilised<br />

suhted, mille hulka kuuluvad täistähenduslike sõnaliikide<br />

valents (nii semantiline kui ka süntaktiline) ja eri tüüpi grammatilised<br />

konstruktsioonid. Selline lähenemine on teoreetiliselt kirjeldatud nt leksikaalsete ja<br />

grammatiliste kollokatsioonide teoorias (Benson 1986, 1989, 1990). Grammatilised<br />

kollokatsioonid koosnevad põhisõnast, milleks on substantiiv, adjektiiv/partitsiip<br />

või verb, ja adpositsioonifraasist või muust grammatilisest struktuurist (infinitiivist<br />

või klausist). Leksikaalsetel kollokatsioonidel põhisõna ei ole, nendele on omased<br />

sellised struktuurid nagu: verb + substantiiv, adjektiiv + substantiiv, substantiiv +<br />

verb, substantiiv + substantiiv, adverb + adjektiiv, adverb + verb (BBI 2010: ix).<br />

89


Tänapäeva korpuspõhiselt koostatud süntagmaatilistes sõnastikes (nt MCD 2010,<br />

OCDSE 2007 35 ) on leksikaalsete ja grammatiliste kollokatsioonide eristamisest<br />

loobutud, süntagmaatilisi suhteid kirjeldatakse leksikogrammatiliste mallidena,<br />

Coffey (2011: 333) nimetab neid samuti kollokatsiooni mallideks. Mallid on<br />

defineeritud eelkõige sõnaliigi terminites, nt adjective + noun, verb + preposition +<br />

noun. Kõiki neid struktuure nimetatakse kollokatsioonideks ja sõnastikke vastavalt<br />

kollokatsioonisõnaraamatuteks (collocation dictionary).<br />

4.2. SÜNTAGMAATILISTE SUHETE ESITUSVIISID<br />

Süntagmaatiliste suhete esitamisel kasutatakse erinevaid strateegiaid, mis sõltuvad<br />

sellest, kas süntagmaatilisi suhteid esitatakse eksplitsiitselt või implitsiitselt.<br />

Svenséni (2009) järgi on süntaktilise info esitamiseks ükskeelsetes sõnastikes<br />

levinumad strateegiad: kodeeritud metakeel (coded metalanguage), kodeerimata<br />

metakeel (uncoded metalanguage), näitekonstruktsioonide (dead example) 36 või<br />

loomulike näidete (live example) kasutus ja info esitamine definitsiooni tasandil.<br />

Lisaks esitatakse süntagmaatilist infot mitte sõnaartiklites, vaid sõnaraamatu lisana<br />

(nt tabelite vormis). Järnevalt kirjeldan neid strateegiaid Svenséni (2009: 144–151)<br />

vahendusel, kui ei ole osutatud teisiti.<br />

1) Kodeeritud metakeel kirjeldab süntagmaatilisi suhteid mitmesuguste süntaktiliste<br />

koodide abil. Süntaktilised koodid on inglise leksikograafias nt [U] ‘loendamatu<br />

nimisõna’, [C] ‘loendatav nimisõna’, [I] ‘intransitiivne verb’, [T] ‘transitiivne verb’.<br />

Kodeeritud metakeelt kasutatakse näiteks inglise keele substantiivide, adjektiivide<br />

ja verbide valentsisõnastikus (Herbst jt 2004) (vt Joonis 61). Autorite sõnul on<br />

sõnastiku eesmärk esitada akadeemiline, põhjalik ja võimalusel kõikehaarav inglise<br />

substantiivide, adjektiivide ja verbide valentsi kirjeldus. Tegemist on korpuspõhise<br />

sõnaraamatuga, mille aluseks on Birminghami Ülikoolis koostatud 320 mln sõna<br />

suurune korpus. Sõnastiku põhilised infoüksused on valentsi mall (valency pattern),<br />

sõna tähendus konkreetses mallis, sama või sarnase semantilise rolliga<br />

komplementide grupp ja malli sagedus (harva esinev (rare) /<br />

> 30% / sage (frequent) / väga sage (very frequent)). Valentsi mallid on kirjeldatud<br />

enamasti moodustusstruktuuri alusel, põhiliselt fraasitüübi terminites. Näiteks<br />

[N] – substantiivifraas, [ADJ] – adjektiivifraas, [+ about N] – prepositsioonifraas,<br />

mille põhjaks on prepositsioon about jne. (Herbst jt 2004: vii–xxii)<br />

35<br />

OCDSE materjali põhiallikaks on 100 mln sõna suurune British National Corpus ja ka Internet<br />

(OCDSE 2007: VII).<br />

36<br />

Siinses tööd kasutan Svenséni (2009: 147) termini dead example ‘surnud näited’ vastena<br />

terminit näitekonstruktsioon.<br />

90


Joonis 61. Herbsti jt (2004) valentsisõnastiku ülesehitus (verb argue).<br />

2) Kodeerimata metakeel esitab grammatilise informatsiooni omaette tekstilise<br />

üksusena, nt [only before noun] ‘ainult enne nimisõna’.<br />

3) Näitekonstruktsioonide korral kasutatakse grammatilise info esitamiseks<br />

sisusõnade asendus- ehk provorme (pro-form). Inglise leksikograafias asendatakse<br />

substantiivid ja substantiivifraasid umbmääraste asesõnadega sth ‘something’ ja sb<br />

‘somebody’, verbid asendatakse proverbi do eri vormidega jne (näide 1).<br />

(1) happy: ~ about/in/with sth/sb; ~ doing sth/to do sth<br />

4) Loomulikud kasutusnäited illustreerivad sõna kasutust mingis konkreetses fraasis<br />

või lauses.<br />

5) Definitsiooni tasandil näidatakse sõna grammatilist kasutust definitsiooni sees.<br />

Sellist strateegiat kasutatakse nt COBUILD sõnastikus (näide 2).<br />

(2) near: 1 If something is near or near to a place, thing, or person, it is a<br />

short distance from them<br />

91


Leksikaalseid süntagmaatilisi suheteid esitatakse Svenséni (2009: 170–204) järgi<br />

1) kasutusnäidete tasandil (näide 3); 2) definitsiooni osana (näide 4); 3) nii<br />

definitsiooni kui ka kasutusnäidete tasandil (näide 5). 37<br />

92<br />

(3) abate verb: to become less violent: the storm/rain has ~d<br />

(4) abate verb: (of a storm, rain etc.) to become less violent<br />

(5) abate verb: (of bad weather) to become less violent: the storm/rain has ~d<br />

Tänapäevastes korpuspõhiselt koostatud inglise kollokatsioonisõnastikes esitatakse<br />

infoüksused enamasti kodeeritud metakeeles. Suhteid defineeritakse morfoloogiliste<br />

(sõnaliikide) kategooriate kaudu ning kollokaadid esitakse kollokatsiooni põhja<br />

sõnaartiklis. Nii esitavad kollokatsioone nt OCDSE ja MCD. Tabelis 8 on loetletud<br />

MCDs esitatud kollokatsioonide leksikogrammatilised mallid.<br />

Tabel 8. Kollokatsioonide mallid MCDs (Coffey 2011: 333 järgi).<br />

Substantiivi mallid (noun-based patterns) Näited<br />

adjektiiv + substantiiv strong desire<br />

substantiiv + substantiiv city centre<br />

substantiiv + substantiiv design concept<br />

verb + substantiiv express a desire<br />

substantiiv + verb counsel argued<br />

substantiiv + prepositsioon + substantiiv advance in design,<br />

immunity against infection<br />

substantiiv + prepositsioon + substantiiv issue of gender,<br />

countries across the globe<br />

verb + prepositsioon + substantiiv arise from desire,<br />

collapse into giggles<br />

rinnastusseoses substantiivid alcohol and gambling,<br />

goods or services<br />

Verbi mallid (verb-based patterns) Näited<br />

adverb + verb fully deserve, peer about<br />

verb + substantiiv deserve applause<br />

substantiiv + verb injuries heal<br />

verb + adjektiiv gleam white<br />

verb + verb seek to illustrate<br />

verb + prepositsioon + substantiiv disagree with a conclusion,<br />

act on advice<br />

rinnastusseoses verbid relax and unwind,<br />

inspire and motivate<br />

Adjektiivi mallid (adjective-based patterns) Näited<br />

adverb + adjektiiv eminently desirable<br />

verb + adjektiiv become desirable<br />

adjektiiv + substantiiv desirable attribute<br />

37 Näidetes on alla joonitud kollokaat.


Adjektiivi mallid (adjective-based patterns) Näited<br />

adjektiiv + infinitiiv glad to hear<br />

adjektiiv + adjektiiv pale green<br />

adjektiiv + prepositsioon + substantiiv grateful for assistance,<br />

rinnastusseoses adjektiivid, koos kasutatavad<br />

adjektiivid<br />

generous with time<br />

desolate and lonely, cosy little,<br />

glossy black<br />

Selline MCD süntagmaatiliste suhete sõnaliigipõhine käsitlus sobib kokku<br />

kombinatoorsete korpusleksikograafiliste meetoditega (vt ptk 2.2.2.), kuna<br />

süntagmaatiliste suhete automaattuvastamine tugineb just morfoloogiliselt<br />

märgendatud korpusele ja seega ka sõnaliigi märgenditele.<br />

MCD on koostatud nn Tickbox Lexicography (TBL) (Kilgarriff jt 2010b)<br />

põhimõtete järgi. Tegemist on poolautomaatse sõnavisandite põhise sõnastiku<br />

koostamisega. Leksikograafi tööks on valida konkreetse lekseemi jaoks sobivad<br />

kollokaadid ja näitelaused. Seejärel kopeerib süsteem valitud üksused automaatselt<br />

sõnastikusüsteemi vastavasse kohta.<br />

Joonisel 62 on substantiivi impression sõnavisand. Jooniselt nähtub, et<br />

grammatiliste kategooriate nimetused (v+N (= verb + substantiiv), N+v<br />

(= substantiiv + verb), adj+N (= adjektiiv + substantiiv)) on ühtlasi ka sõnastikus<br />

esitatud kollokatsiooni mallide koodid (vrd Tabel 8). Selline lähenemine võimaldab<br />

paremini siduda sõnavisandeid koostatava sõnastikuga.<br />

Joonis 62. Kollokaatide valik MCD koostamisel (Rundell 2012).<br />

93


Toon näiteks sõnaartikli impression katkendi MCDs (2010: 387–388) (näide 6).<br />

(6) impression N<br />

an opinion or feeling about something or someone<br />

● adj+N good favourable, good, positive, the right The food and service<br />

all made favourable impressions. [---]<br />

● v+N create an impression convey, create, give, leave, make, produce<br />

His account is incomplete and gives the wrong impression. [---]<br />

Näitest (6) nähtub, et sõnaartiklis on kodeeritud metakeeles esitatud kollokatsiooni<br />

sõnaliigipõhine struktuur (adj+N, v+N), seejärel semantiliselt seotud kollokaatide<br />

alarühm ja kollokatsiooni kasutust illustreeriv lause.<br />

Neid esitusviise rakendatakse ka mahukate leksikograafiliste andmebaaside<br />

koostamisel: süntagmaatilised suhted defineeritakse vormiklasside (sõnaliikide,<br />

fraasitüüpide) kaudu, seejärel toimub korpusleksikograafilise tarkvara abil nende<br />

automaatne tuvastamine ja poolautomaatne andmebaasi talletamine. Näiteks võib<br />

tuua leksikograafiliseks etaloniks peetava inglise keele leksikaalse andmebaasi<br />

DANTE 38 (Atkins jt 2010; Rundell, Atkins 2011: 233–246). DANTE kirjeldab<br />

tänapäeva inglise keele 42 000 sõna semantilisi, grammatilisi, kombinatoorseid ja<br />

tekstilisi (text-type) omadusi. Andmebaasi koostamisel on kasutatud kahte tarkvara:<br />

Sketch Engine ja IDM 39 . Süntagmaatiliste suhete osas esitab DANTE<br />

substantiivide, adjektiivide ja verbide nn süntaktilised mallid ehk konstruktsioonid<br />

(syntax patterns or constructions). Joonis 63 illustreerib, mis tüüpi süntaktilised<br />

mallid on esitatud substantiivsete märksõnade jaoks. Rippmenüüs on näha<br />

substantiivi süntaktiliste kontekstide koodid (syntactic context codes), nt ‘N_mod’<br />

tähistab konstruktsioone, kus otsitava substantiivi eestäiendiks on teine substantiiv<br />

(nt sea view). Andmebaasis on substantiivi jaoks 16 koodi, adjektiivi jaoks 15 koodi<br />

ja verbi jaoks 42 koodi (vt lähemalt Rundell, Atkins 2011: 238–241).<br />

38 The Database of Analysed Texts of English www.webdante.com (28.08.12). Andmebaasi<br />

materjal on ekstraheeritud 1,7 miljardi sõna suurusest korpusest.<br />

39 Vt www.idm.fr (28.08.12).<br />

94


Joonis 63. Inglise keele leksikaalse andmebaasi DANTE kasutajaliides.<br />

Omaette suund on korpuspõhine kollokatsioonisõnaraamatute automaatne<br />

genereerimine (Kilgarriff jt 2008a; Hvelplund 2011). Kilgarriff jt (2008a) on<br />

kirjeldanud kollokatsioonide demosõnastiku Forbetterenglish.com 40 koostamise<br />

põhimõtteid. Sõnastik on automaatselt genereeritud sõnavisandite põhjal, ka<br />

näitelaused lisanduvad andmebaasi automaatselt. Joonis 64 näitab sõna breakfast<br />

esitust.<br />

40 Vt http://forbetterenglish.com (28.08.12).<br />

95


Joonis 64. Automaatselt genereeritud kirje breakfast demosõnastikus<br />

Forbetterenglish.com.<br />

Tuvastatud grammatilised kategooriad on object_of ‘objekt’ (cook/eat/skip/serve<br />

breakfast), a_modifier ‘adjektiivne laiend’ (continental/heartly/leisurely breakfast),<br />

modifies ‘põhi’ (breakfast cereal/buffet/bar) ja n_modifier ‘substantiivne laiend’<br />

(buffet/champagne/wholegrain breakfast).<br />

Siinses töös väljatöötatud sõnavisandite grammatika tarbeks koostatud<br />

leksikogrammatiliste konstruktsioonide klassifikatsiooni alusel (vt ptk 3.2–3.5.)<br />

saab edaspidi samuti genereerida analoogse süntagmaatiliste suhete andmebaasi.<br />

Üheks oluliseks vaheetapiks on aga hea sõnastikunäite valimise ehk GDEX (Good<br />

Dictionary Example; vt lähemalt Kilgarriff jt 2008a; Kosem jt 2012) funktsiooni<br />

väljatöötamine eesti keele jaoks.<br />

Korpusleksikograafiline tarkvara võimaldab tuvastada sagedamaid ja kõrge<br />

esilduvusega leksikogrammatilisi konstruktsioone. Kuid ainult sellest analüüsist ei<br />

piisa, et tagada valitud üksuste vastavus konkreetse keeleoskustasemega keeleõppija<br />

oskustele ja vajadustele. Järgmises peatükis analüüsin Yukio Tono (2011) inglise<br />

keele kollokatsioonisõnastiku koostamisel rakendatud meetodit, mille eesmärk on<br />

muuta süntagmaatiliste üksuste valikukriteeriumid läbipaistvamaks ja kergemini<br />

hoomatavamaks.<br />

96


4.3. SÜNTAGMAATILISTE ÜKSUSTE VALIKUKRITEERIUMID<br />

Tono (2011) soovitab süntagmaatiliste üksuste valimisel võtta arvesse statistilise<br />

analüüsi andmeid ning rõhutab, et need andmed on oluline siduda<br />

keeleoskustasemete sõnavaraloenditega. Nii saab võimalikuks süntagmaatiliste<br />

üksuste astmeline, õppijate konkreetsele keeleoskustasemele vastav esitus. Nt kui<br />

tegemist on inglise keele õppesõnastiku koostamisega, siis on otstarbekas lisada<br />

andmebaasi CEFR (Certification Standard for European Reference Framework)<br />

sõnavaraloendite 41 andmed ja näidata, kas kollokaat on esinenud keskkoolile<br />

mõeldud inglise keele õpikutes.<br />

Sõnavaraloendite koostamist peetakse õppeleksikograafia omaette haruks, neid<br />

kasutatakse eelkõige keeleoskuse mõõtmisel, testimisel ja hindamisel. Tänapäeval<br />

koostatakse sõnavaraloendeid korpusandmete põhjal (nt Londsale, Le Bras 2009;<br />

Kilgarriff jt 2012c). Kilgarriff jt (2012c) märgivad, et sõnavaraloendeid uurides<br />

saab vastuse, mis sõnu tuleb kasutada laste lugemisoskuse arendamiseks mõeldud<br />

raamatutes, mitte-emakeelsetele kõnelejatele mõeldud õpikutes ja sõnaraamatute<br />

koostamisel. Traditsiooniliselt on sõnavaraloendid orientiiriks eelkõige<br />

õppesõnastike märksõnastiku ja definitsioonisõnavara koostamisel. Kuid Tono<br />

(2011) järgi tuleks sõnavaraloendeid aktiivselt kasutada mitte ainult õppesõnastike<br />

märksõnastike koostamisel, vaid ka süntagmaatiliste suhete esitamisel. See on üks<br />

eeldusi tagamaks sõnastiku leksikaalse profiili vastavuse keeleõppijate vajadustele<br />

ja ootustele.<br />

Joonisel 65 on näidatud Tono (2011) andmebaasi infoühikud: kollokaatide<br />

koosesinemise sagedus (frq), esilduvuse väärtus (logDice), keeleoskustase (CEFR),<br />

kollokaadi esinemine keskkooli inglise keele õpikutes (textbook).<br />

41 Vt lähemalt http://www.englishprofile.org (28.12.12). Andmebaas võimaldab vaadata<br />

leksikaalsete üksuste (nii üksikute sõnade kui ka väljendite) kuuluvust teatud taseme sõnavarra,<br />

lisaks illustreeritakse kasutust näitelausete tasandil ja esitatakse ka sõnamoodustuslike seoste<br />

infot.<br />

97


Joonis 65. Verb take ja selle objekti funktsioonis esinevate kollokaatide märgendus<br />

kollokatsioonide andmebaasis (Tono 2011).<br />

Neid parameetreid on arvestatud verbi take ja selle objekti funktsioonis esinevate<br />

substantiivide kollokatsioonide esitamisel (vt Joonis 66).<br />

Joonis 66. Verbi take kollokatsioonide astmeline esitus kollokatsioonisõnastiku<br />

kasutajaliideses (Tono 2011).<br />

98


Korpuses olevad metaandmed võimaldavad järjestada kollokatsioone vastavalt<br />

erinevatele keeleoskustasemetele. A1-tasemel on esitatud sellised verbi take<br />

kollokatsioonid nagu take a picture, take a photo, take a look, A2-tasemel – take a<br />

course, take part; B1 – take a responsibility, take a measure jne.<br />

Selline lähenemine näitab, et süntagmaatiliste üksuste valikul on otstarbekas<br />

toetuda mitte ainult korpusandmete analüüsile, vaid tagamaks sõnastiku leksikaalse<br />

profiili vastavuse potentsiaalsete kasutajate oskustele ja vajadustele, tuleb võtta<br />

arvesse sõna esinemust keeleoskustasemete sõnavaraloendites ja õppetekstides.<br />

4.4. KOKKUVÕTTEKS: SÜNTAGMAATILINE INFO TÄNAPÄEVA<br />

ÕPPESÕNASTIKES JA ÕPPELEKSIKOGRAAFILISTES<br />

ANDMEBAASIDES<br />

Kokkuvõtteks võib öelda, et osaliselt mõjutatuna korpusleksikograafiliste meetodite<br />

arengust (kus suhteid ei jagata grammatilisteks ja leksikaalseteks, vaid käsitletakse<br />

arvuti jaoks sobivamate formaliseeritud leksikogrammatiliste konstruktsioonidena),<br />

käsitletakse tänapäeva õppeleksikograafias igat liiki süntagmaatilisi suhteid<br />

kollokatsioonidena, mida defineeritakse enamasti morfosüntaktiliste (sõnaliikide,<br />

fraasistruktuuride) kategooriate kaudu. Selline lähenemine võimaldab paremini<br />

kasutada korpusleksikograafilise analüüsi tulemusi. Kuna opereeritakse samade<br />

kategooriatega, on saanud võimalikuks tuvastatud üksuste automaatne talletamine<br />

õppeleksikograafilistesse andmebaasidesse. Seejuures on oluline märkida, et<br />

enamasti piirduvad süntagmaatilised sõnastikud eelkõige süntaksi tasandil<br />

tuvastatavate üksuste kirjeldamisega. Analüüsitud sõnastikest käsitletakse<br />

argumentide semantilisi rolle vaid Herbsti jt (2004) sõnaraamatus.<br />

Süntagmaatiliste üksuste valikul on uus tendents n-ö integratiivsete<br />

päringusüsteemide loomine (nt Tono 2011), kus üksuste valikul ei lähtuta ainult<br />

leksikograafilise tarkvara abil saadud andmetest, vaid analüüsi kaasatakse ka teisi<br />

allikaid, nt eri keeleoskustasemete sõnavaraloendeid ja õppetekste. See tagab<br />

sõnastike leksikaalse profiili vastavuse konkreetse keeleoskustasemega õppijate<br />

oskustele ja vajadustele.<br />

99


5. SÜNTAGMAATILISED SUHTED EESTI KEELE<br />

ÕPPESÕNASTIKES JA ANDMEBAASIDES<br />

Süntagmaatilise info esitamise uurimused eesti keele üld- ja õppesõnaraamatutes<br />

(vt Langemets jt 2005; Kallas, Tuulik 2011) on näidanud, et eesti leksikograafias ei<br />

ole välja kujunenud kollokatsioonisõnaraamatute koostamise traditsiooni, küll aga<br />

on välja kujunenud rektsioonisõnastike ja -valimike ning pikk<br />

fraseoloogiasõnaraamatute 42 (nt Reitsak 1975; Šanski jt 1983; Õim 2000, 2008)<br />

koostamise tava.<br />

Rektsioon ehk sõltumine on selline alistus, milles põhja leksikaalne tähendus, vahel<br />

ka grammatiline tähendus määrab laiendi grammatilise vormi (EKG 1993: 8). Eesti<br />

keele rektsioonistruktuuride liike on kirjeldanud Rätsep (1978: 64, 223), EKG<br />

(1993: 8), Kerge (2000: 18–19), Vaiss (2004: 5), Langemets jt (2005: 91–93).<br />

Üldiselt eristatakse järgmisi liike: 1) substantiiv → käände- (usk kellesse-millesse),<br />

kaassõna- (viha kelle-mille vastu) ja tegevusnimerektsioon (tahe mida teha);<br />

2) adjektiiv → käände- (kindel kelles-milles), kaassõna- (kade kelle-mille peale) ja<br />

tegevusnimerektsioon (julge mida tegema); 3) verb → objekti- (toetama kedamida),<br />

käände- (tutvuma kellega-millega), kaassõna- (võitlema kelle-mille vastu),<br />

tegevusnime- (tahtma mida teha, jätma mida tegemata), lausungirektsioon (ütlema,<br />

et) ja üldine asendusrektsioon (sõitma kust kuhu); 4) adverb → käänderektsioon<br />

(erinevalt kellest-millest); 5) kaassõna → käänderektsioon (peale kelle-mille, peale<br />

keda-mida); 6) kvantor → käänderektsioon (rühm keda-mida).<br />

Jelena Kallase ja Maria Tuuliku (2011) uurimus osutas vajadusele koostada uut<br />

tüüpi eesti keele õppesõnaraamat, mis kirjeldaks süstemaatiliselt eesti<br />

substantiivide, adjektiivide, adverbide ja verbide süntagmaatilisi suhteid, sh nii<br />

rektsioonistruktuure kui ka leksikaalseid kollokatsioone ja püsiühendeid. Siinses<br />

töös toon seda tüüpi õppesõnastiku näiteks eesti keele põhisõnavara sõnastiku<br />

(PSV, ilmumas 2013). PSV makro- ja mikrostruktuurist ja koostamispõhimõtetest<br />

annan ülevaate peatükis 5.2. Kirjeldatud põhimõtteid võib pidada prototüüpseteks,<br />

nii et neid saab edaspidi rakendada teiste õppeleksikograafiliste andmebaaside<br />

ülesehitamisel ja eesti keele kui teise keele õppesõnastike koostamisel.<br />

Esmalt aga analüüsin seni ilmunud eesti keele rektsioonisõnastike makro- ja<br />

mikrostruktuuri. Uurimisobjektiks on rektsioonistruktuuride esitamise viisid ja<br />

liigid.<br />

42 Fraseoloogiasõnaraamatu koostamise põhimõtteid käesolevas töös eraldi ei käsitleta. Ülevaadet<br />

eesti fraseoloogia leksikograafilisest arengust, sh tänapäeva veebirakendustest vt Õim, Õim (2011).<br />

100


5.1. SENI ILMUNUD EESTI KEELE REKTSIOONISÕNASTIKUD<br />

Rektsioonivalimike ja -sõnastike koostamise tava ulatub 20. sajandi algusesse, mil<br />

eri sõnaliikide rektsioone esitati sõnastike lisana (Käbin, Pekarsky 1923), omaette<br />

abiraamatutena (Rajamaa 1936) või õigekeelsuse õpikute ja grammatikate (Aavik<br />

1936) osana.<br />

Tiido Käbini ja Nikander Pekarsky (1923) sõnaraamatus on eksplitsiitselt esitatud<br />

kaassõnade rektsioon.<br />

Herman Rajamaa (1936) rõhutab, et tema koostatud abiraamat on eesti<br />

keeleteaduses esimene katse koostada eesti sõnade (käänd-, pöörd- ja<br />

muutumatute sõnade) muutelise sõltuvuse käsiraamat. Autor näitab, missuguse<br />

käändega ühenduses ühte või teist sõna tarvitada (näited 7–9) 43 .<br />

(7) allutama (midagi kellelegi) [---]<br />

(8) tutvus (millegagi, kellegagi) [---]<br />

(9) tulvil (midagi, millestki) [---]<br />

Johannes Aavik (1936: 358) nimetab rektsiooniks seda, millist käänet või<br />

kaassõnalist väljendit mingi sõna nõuab ning esitab rektsioonistruktuure järgmiselt<br />

(näited 10−13):<br />

(10) eelistama – midagi millestki või midagi millelegi<br />

(11) sarnane (identne) – millegagi<br />

Objektirektsioonis on Aavik eristanud täisobjekti ja osaobjekti, mida tähistatakse<br />

kui osaobj. ‘verb konstrueerib ainult osaobjektiga’ (näide 12) ja täisobj. v.<br />

‘täisobjekt võimalik’ (näide 13).<br />

(12) haldama − osaobj.<br />

(13) nakatama – kedagi (täisobj. v.) millessegi (näit. haigusesse); ka: kellelegi<br />

midagi<br />

Ka 20. sajandi teisel poolel on rektsioonivalimik traditsiooniline eesti keele õpikute<br />

ja grammatikate osa (vt nt Vääri 1969: 91–92; Tauli 1980: 330–339; Erelt 2006:<br />

35–40). Enamasti esitatakse rektsioone käändeküsimuste (näide 14) või<br />

kaassõnaühendi (näide 15) kaudu; mõned autorid kasutavad ka koode (näide 16).<br />

(14) samastama mida? millega? (Vääri 1969: 92)<br />

(15) info millegi kohta (harvem: millest) (Erelt 2006: 36)<br />

43 Sõltumisele lisaks on Rajamaa (1936) abiraamatus esitatud ka sõna definitsioon, põhilised<br />

morfoloogilised vormid (käändsõnadel on esitatud peale nimetava omastav ja osastav ainsuses ja<br />

mitmuses, pöördsõnadel on esitatud üldjuhul ma-infinitiivi kõrval da-infinitiiv, umbisikulise<br />

tegumoe olevik ja näitelause.<br />

101


(16) samastama O+Km 44 (Tauli 1980: 335)<br />

Näidetest (7–16) nähtub, et eesti keele grammatikates ja käsiraamatutes on<br />

sisusõnade rektsioonistruktuuride esitamisel rakendatud ja rakendatakse kahte<br />

esitusviisi: näitekonstruktsioone (eelkõige käändeküsimuste ja kaassõnaühendite<br />

abil) ja kodeerimist.<br />

Siinses peatükis analüüsin rektsioonistruktuuride esitusviise eraldi väljaandena<br />

ilmunud üks- ja kakskeelsetes rektsioonisõnastikes. Valikus on Pooli (1999), Vaissi<br />

(2004), UNG-EE (2010) ja Mäearu (2011) sõnastikud.<br />

UNG-EE (2010) sõnaraamatus kodeeritakse eesti verbide rektsioonistruktuure<br />

süntaktiliste (O = objekt) ja morfoloogiliste (nt käände nimetused G = genitiiv,<br />

All = allatiiv ja infinitiivitunnused -MA, -DA) kategooriate kaudu (näited 17–18).<br />

(17) andma O, All Annan sulle sada forintit.<br />

(18) hakkama -MA Laps hakkas käima.<br />

Natalia Vaissi aspektisõnastikus (2004) on kasutatud koode, näitamaks verbi<br />

objektikäände rektsiooni (näited 19–20). Eesti keele transitiivverbid on jagatud<br />

lähtuvalt nende objektikäände rektsioonist ja sellest sõltuvast aspektuaalsest<br />

tähendusest partitiivseteks (kood: PART), perfektiivseteks (kood: PERF) või<br />

aspektilisteks (kood: ASPEKT) verbideks. Ühendverb järele aitama (näide 19) on<br />

partitiivverb (objekt peab alati olema partitiivis), välja aitama (näide 20) on<br />

perfektiivne ühendverbi (objekt peab olema genitiivis).<br />

(19) järele aitama – PART (keda? mida?) 1. koolitöös, õppimises abistama, et<br />

õpilane jõuaks klassi üldisele tasemele Tugevam õpilane aitab nooremat<br />

järele. Üliõpilane aitas kuuenda klassi õpilast matemaatikas järele. 2. ühtteist<br />

pisut parandades, viimistledes sobivaks, parajaks, paremaks jne muuta<br />

Huvitavat looduslikku kiviskulptuuri on kunstniku käsi siin-seal kergelt<br />

järele aidanud.<br />

(20) välja aitama – PERF kuskil või mingist olukorrast pääseda aitama<br />

Lubasin endale, et aitan tüdruku siit välja. <strong>Ait</strong>asin mehe laukast välja.<br />

Raili Pooli (1999) raamat kirjeldab nii liht- kui ka väljend- ja ühendverbide<br />

rektsioone. Rektsioonistruktuuride esitamisel on kasutatud nii süntaktilisi kui ka<br />

morfoloogilisi kategooriaid. Kolmekäändeline objekt (võib esineda nii nominatiivis,<br />

genitiivis kui ka partitiivis) on tähistatud lühendiga O, ainult partitiivis esinevad<br />

objektid on rektsioonikirjeldustes tähistatud küsimusega keda? mida?. Teist tüüpi<br />

rektsioonistruktuure näidatakse morfoloogiliste kategooriate kaudu, milleks on<br />

kääne (tähised on mis, kellel-millel, kellele-millele, kellelt-millelt, kellesse-millesse,<br />

kelles-milles, kellest-millest, kelleks-milleks, kellena-millena, kellega-millega,<br />

kelleta-milleta), infiniitse verbi tunnus (vastavad lühendid ma-inf, da-inf), supiini<br />

käändevormid (vastavad lühendid on -ma, -mas, -mast ja -mata).<br />

44 O tähistab objekti, Km tähistab komitatiivis sõltlaiendit.<br />

102


Kaassõnarektsiooni näitamiseks on kasutatud kaassõnafraase (mille eest, kelle<br />

poolt) (Pool 1999: 5). Seega on esitatud verbide sihitiserektsioon (näide 21),<br />

käänderektsioon (näide 22), kaassõnarektsioon (näide 23), infinitiivirektsioon<br />

(näide 24), substitutsioonirektsioon (näide 25). Lisaks on esitatud mitmelaiendilisi<br />

konstruktsioone (näide 26).<br />

(21) armastama keda? mida? Mart armastab Tiiut.<br />

(22) armuma kellesse? Juhan armus Marisse. millesse? Ta armus mägedesse<br />

juba lapsena.<br />

(23) eksima mille vastu? Mart eksis eeskirjade vastu.<br />

(24) hakkama ma-inf Hakkasime sööma.<br />

(25) hilinema kuhu? Hilinesin teatrisse/tööle.<br />

(26) eelistama keda? mida? (+ kellele? millele?) Eelistan teed (kohvile).<br />

Sirje Mäearu rektsioonisõnastik (2011) on esimene (eelkäijaks on Mäearu 1996),<br />

mis vaatleb süstemaatiliselt mitte ainult verbide, vaid ka substantiivide, adjektiivide<br />

ja adverbide rektsioone (2011: 3). Verbidel on esitatud sihitise- (näide 27), käände-<br />

(näide 28), kaassõna- (näide 29), infinitiivi- (näide 30) ja substitutsioonirektsioon<br />

(näide 31).<br />

(27) allkirjastama ▷ mis/mille/mida: Müüja ja ostja allkirjastasid ostu-müügi<br />

lepingu. Direktor peab arved allkirjastama. Ei allkirjastanud lepingut.<br />

(28) alla kirjutama ▷ millele: Kirjutab lepingule alla.<br />

(29) diskuteerima ▷ mille üle: Diskuteeriti kütteprobleemide üle.<br />

(30) ajendama ▷ mida mida tegema: Madal hoiuintressimäär ajendab<br />

investeerima.<br />

(31) apelleerima ‘edasi kaebama’ ▷ kuhu: Apelleerib ringkonnakohtusse,<br />

üldkoosolekule.<br />

Substantiividel on näidatud käände- (näide 32), kaassõna- (näide 33), tegevusnime-<br />

(näide 34) ja substitutsioonirektsioon (näide 35).<br />

(32) vastavus ▷ millele: Joogivee kvaliteedi vastavus nõuetele.<br />

(33) karistus ▷ mille eest: Karistus illegaalide töölevõtmise eest.<br />

(34) valmisolek ▷ mida teha: Valmisolek minna.<br />

(35) kutse ▷ kuhu: Kutse õhtusöögile restoranis Gloria.<br />

Adjektiividel – käände- (näide 36), kaassõna- (näide 37) ja tegevusnimerektsioon<br />

(näide 38).<br />

(36) lojaalne ▷ millele: Lojaalne tööandjale.<br />

103


104<br />

(37) neutraalne ‘erapooletu’ ▷ mille suhtes: Vaidluse suhtes neutraalne<br />

vahekohus.<br />

(38) kompetentne ▷ mida tegema: Üldkoosolek on kompetentne otsustama kõiki<br />

seltsitegevusega seotud küsimusi.<br />

Adverbidel ja adpositsioonidel – käänderektsioon (näited 39, 40).<br />

(39) olenevalt ▷ millest: Töö keerukusest olenevalt on tunnihind 16–32 eurot.<br />

(40) hoolimata ▷ millest: Kõrgest east hoolimata nägi ta hea välja.<br />

Seega on seni ilmunud eesti keele rektsioonisõnastikes kasutatud kahte erinevat<br />

süntagmaatiliste suhete esitusviisi: kodeeritud metakeelt (Vaiss 2004; UNG-EE<br />

2010) ja näitekonstruktsioone (Pool 1999; Mäearu 2011). Näitekonstruktsioonid<br />

moodustatakse käändeküsimuste, infinitiivide, supiini käändevormide ja<br />

kaassõnaühendite abil. Lisaks illustreerivad mõlemad lähenemised<br />

rektsioonistruktuuride kasutust näitelausete tasandil.<br />

Vaissi (2004) sõnastiku kirjeldusobjekt on vaid objektirektsioon, UNG-EE (2010),<br />

Pooli (1999) ja Mäearu (2011) sõnastikes kirjeldatakse verbide objekti-, käände-,<br />

kaassõna-, tegevusnime ja üldist asendusrektsiooni. Mäearu (2011) sõnastikus on<br />

esitatud lisaks substantiivide, adjektiivide, adverbide ja adpositsioonide<br />

rektsioonistruktuurid.<br />

5.2. EESTI KEELE PÕHISÕNAVARA SÕNASTIK<br />

Eesti keele põhisõnavara sõnastiku (PSV) sihtgrupp on nii need A1-tasemel<br />

keeleõppijad, kes soovivad areneda A2- ja B1-tasemele, kui ka need, kes on juba<br />

A2-B1-taseme saavutanud ja kellele annaks sõnastik tuge omandatud materjali<br />

kinnistamiseks.<br />

Toetudes tänapäeva inglise (ptk 4.2. ja 4.3.) ja eesti (ptk 5.1.) õppeleksikograafias<br />

juurdunud süntagmaatiliste sõnastike koostamispõhimõtetele, pakun siinses<br />

peatükis kriteeriumid, millest peaks lähtuma konkreetsetele keeleoskustasemetele<br />

suunatud eesti keele õppesõnastike ja õppeleksikograafiliste andmebaaside<br />

süntagmaatiliste infoüksuste valikul ja koostamisel ning kuidas tagada<br />

süntagmaatiliste suhete süstemaatiline esitamine andmebaasis.<br />

5.2.1. Süntagmaatiliste üksuste valikukriteeriumid<br />

Arvestades olemasolevaid eesti keele ressursse, tuleb eesti keele süntagmaatiliste<br />

andmebaaside ja sõnastike korpuspõhisel koostamisel lähtuda järgmistest<br />

kriteeriumidest: 1) ametlike keeleoskustasemete formaalsetes kirjeldustes esitatud<br />

nõudmised (eelkõige süntagmaatiliste suhete liikide osas); 2) suhet moodustavate<br />

sõnade esinemus keeleoskustasemete sõnavaraloendites; 3) statistilise töötluse<br />

andmed. Vaatlen neid kriteeriume ükshaaval PSV näitel.


5.2.1.1. Ametlike keeleoskustasemete nõuded<br />

Ametlike keeleoskustasemete nõudmiste analüüsil lähtun siinses töös eelkõige<br />

Euroopa Liidu keeleoskustasemete kirjeldusest „Euroopa keeleõppe<br />

raamdokumendis” (2007; edaspidi raamdokument) ja selle üldsätetele vastavate<br />

eesti keele A2- (Ilves 2008) ja B1-tasemete (Hausenberg jt 2008) kirjeldustest.<br />

Nagu märgivad Eslon jt: „ei raamdokumendis ega algaja, iseseisva või vilunud<br />

keelekasutaja kirjeldustes pole tasemeoskuste lingvistilist sisu tegelikult avatud, sest<br />

puuduvad täpsed teadmised, missugused keelestruktuurid ja sõnavara missugusele<br />

tasemele tegelikult omased on.” (Eslon jt 2010: 12) „Siiani ei ole päris selge, kas<br />

suhtluses aktiivselt kasutatavad leksikaalsed üksused ja morfosüntaktilised<br />

konstruktsioonid muutuvad keeleõppija tasemeoskuste edenedes järjest<br />

keerulisemaks ja mitmekesisemaks või mitte, kas nimetatud üksuste hulk suureneb,<br />

stabiliseerub või väheneb, kas väljendusvõimalused avarduvad või ei pruugi<br />

täiskasvanu keelekasutus oluliselt erineda teismelise omast.” (Eslon jt 2010: 14)<br />

Tallinna Ülikooli eesti keele ja kultuuri instituudi teadlastel on kavas analüüsida,<br />

missugused keeleüksused (morfosüntaktilised konstruktsioonid, kollokatsioonid,<br />

idiomaatika jm) iseloomustavad keeleoskustasemeid, selgitades seejuures,<br />

missugustest teoreetilistest ja metodoloogilistest alustest oleks mõttekas lähtuda,<br />

missuguseid analüüsimeetodeid kasutada. Kavandatava uurimuse eesmärk on<br />

võrrelda esimese ja teise keele arengut kahes suunas: ühelt poolt vanuserühmade<br />

kaupa ehk etapiti (väikelaps – kooli eelik– põhikooliõpilane –<br />

gümnaasiumiõpilane – täiskasvanu) ja teisalt keeleoskustasemeti (A1 – A2 – B1 –<br />

B2 – C1 – C2). Uurimuse rakenduslikuks väljundiks peab saama teaduslikult<br />

põhjendatud alus tasemeõppe korraldamiseks ja keeleoskuse mõõtmiseks,<br />

tasemeoskuste saavutamisele suunatud õppesõnastike ja õpikute komplekt (Eslon jt<br />

2010).<br />

Kuna selle uurimuse tulemusi ei ole veel avaldatud, 45 siis piirdun vaid A2- ja B1keelepädevuste<br />

komponentide analüüsiga. Eesmärgiks on valida<br />

keeleoskustasemete kirjeldustest kriteeriumid, millega tuleks kindlasti arvestada<br />

A2- ja B1-tasemele suunatud sõnastiku koostamisel. Siinse uurimuse<br />

problemaatikat arvestades on eriti olulised sellised keelepädevuse liigid nagu<br />

sõnavara- ja grammatikapädevus.<br />

5.2.1.1.1. Sõnavarapädevus<br />

Raamdokumendi (2007: 128) kohaselt „sõnavarapädevus tähendab mõne keele<br />

sõnavara tundmist ja oskust seda kasutada.” A2-tasemel keelt oskav õppija „valdab<br />

igapäevavajadustega piirnevat nappi sõnavara”, B1-tasemel keelt oskav õppija<br />

„valdab põhisõnavara, kuid teeb märkimisväärseid vigu, kui on vaja väljendada<br />

keerukamat mõtet või kui kõneaine ja olukord on võõras.” (Raamdokument 2007:<br />

130)<br />

„Sõnavarapädevus puudutab leksikaalseid ja grammatilisi üksusi.<br />

45 Seisuga 27.01.13.<br />

105


Leksikaalsete üksuste hulka kuuluvad<br />

a) väljendid, mis koosnevad mitmest sõnast ning mida õpitakse ja kasutatakse kui<br />

tervikut. Püsiväljendid hõlmavad:<br />

lausetarindeid, sealhulgas otseseid keelefunktsioonide väljendusi [---], nagu<br />

tervitused, nt Kuidas läheb? Tere hommikust!, vanasõnu jms keelelisi arhaisme [---],<br />

nt Käi kus tont!;<br />

idioome, mis on tihti semantiliselt läbipaistmatud ja kivistunud metafoorid, nt<br />

pani kõrvad pea alla ‘suri’, aia taha minema ‘ebaõnnestuma’, nagu õlitatud välk<br />

‘väga kiiresti’; [või] intensiivsussõnad [---];<br />

fraaslauseid, mida õpitakse ja kasutatakse kui liigendumatuid tervikuid, kuhu<br />

muid sõnu ja fraase saab lauseid moodustades sisestada, nt ega te ei ... või kas<br />

ma saaksin ...;<br />

muid kinnistunud fraase, nt ühend- ja väljendverbid, [---] liit- või<br />

ühendkaassõnad [---];<br />

püsiühendeid, mis koosnevad tihti koos esinevatest sõnadest, nt tuld kustutama<br />

või uinuv kaunitar;<br />

b) üksiksõnad [---] kuuluvad kindlat tüüpi vormimoodustusega avatud sõnaliikide<br />

hulka (nimisõna, tegusõna, omadussõna, määrsõna), kuigi viimased võivad<br />

sisaldada ka suletud sõnarühmi (nt nädalapäevade, kuude nimetused, kaalu- ja<br />

mõõtühikud jms). Mõned sõnarühmad võivad täita grammatilisi ja suhtlus- ehk<br />

pragmaatilisi ülesandeid”. (Raamdokument 2007: 128–129)<br />

Ilvese (2008: 35) järgi lubab A2-taseme sõnavara (selle orienteeruvaks suuruseks<br />

võiks olla ligi 2000 sõna) keeleõppijal igapäevastes olukordades endale olulistel<br />

teemadel ja eesmärkidel lihtsalt suhelda, lühemat suulist monoloogi esitada,<br />

vestluspartnerit ja kirjalikke tekste mõista ning loetu ja kuuldu võtmesõnu<br />

vahendada. B1-taseme sõnavara on piisav igapäevaste teemade jaoks (perekond,<br />

huvialad, töö, reisimine, päevasündmused), kuigi vahel võib ette tulla kaudset<br />

väljendust (Hausenberg jt 2008: 40).<br />

5.2.1.1.2. Grammatikapädevus<br />

„Grammatikapädevus tähendab keele grammatiliste vahendite tundmist koos<br />

oskusega neid kasutada. [---] Grammatikapädevus on võime luua ja edastada<br />

tähendust korrektsete fraaside ja lausete moodustamise teel või leida nende<br />

tähendus kooskõlas eelnimetatud põhimõtetega (see ei ole kinnistunud vormide või<br />

fraaside päheõppimine ja taasesitus). [---] Grammatika kirjeldamisel osutatakse<br />

järgmisi komponente:<br />

üksused, nt morfeemid, tüved ja liited, sõnad;<br />

kategooriad, nt arv, kääne, sugu, konkreetne/abstraktne, loendatav/loendamatu,<br />

sihiline/sihitu verb, isikuline/umbisikuline tegumood [---];<br />

106


klassid, nt pöördtüübid, käändtüübid, avatud sõnaliigid (nt nimisõnad,<br />

tegusõnad, omadussõnad, määrsõnad), suletud sõnaliigid (nt grammatilised<br />

sõnad);<br />

tarindid, nt komplekssõnad, fraasid (nimisõnafraas, tegusõnafraas jms),<br />

osalaused (pealause, kõrvallause, rindosalause) ja lauselühendid, laused, nt liht-,<br />

rind-, põimlause;<br />

protsessid, nt nominalisatsioon, liidete lisamine, vormimoodustus või eritüvelise<br />

vormi valik, võrdlemine, sõnajärje muutmine, asendus, sidendus vms;<br />

seosed, nt rinnastus, sõltumine, ühildumine, valents, rektsioon.”<br />

(Raamdokument 2007: 129–130)<br />

A2-tasemel keeleõppijal on ülevaade eesti keele põhilistest grammatilistest<br />

struktuuridest, sh tunneb ma- ja da-infinitiivi kasutamise reegleid, oskab<br />

sagedamatest verbidest moodustada ma-tegevusnime käändelisi mas-, mast-, ja<br />

mata-vorme ning da-infinitiivi des-vormi (Ilves 2008: 69–70).<br />

A2-taseme õppesõnastikes on süntagmaatiliste üksuste valiku ja esituse seisukohalt<br />

oluline arvestada järgmiste A2-tasemel keelekasutajale esitatavate nõuetega (Ilves<br />

2008: 73–74):<br />

„Tunneb sagedamaid sihilisi verbe [---].<br />

Sihiliste verbide seas tunneb sagedamaid partitiivverbe ehk verbe, millega<br />

kasutatakse alati osastavat käänet, nt nägema, aitama, armastama, õpetama,<br />

uskuma, kasutama.<br />

Ühendverbe ja väljendverbe saab liigitada kas sama abisõna järgi (nt ära<br />

minema, ära sööma; andeks andma, andeks saama) või sama põhisõna järgi (nt<br />

sünnipäeva pidama, kõnet pidama; alla kirjutama, üles kirjutama). Juba<br />

algtasemel on oluline õppida selliseid rühmi süstemaatiliselt mõistma ja<br />

kasutama. [---]<br />

Oskab tegusõnu laiendada lihtsate aja-, koha-, põhjus- ja viisimäärustega, nt<br />

tuleb homme, tehti Tallinnas, hilines minu pärast, on alati kirjutanud väga<br />

viisakalt. [---]<br />

Oskab ma- ja da-infinitiivi moodustada, kuid eksib infinitiivi valikul sageli veel<br />

ka B-tasemel.<br />

Oskab tegevusi ja protsesse eitada, kasutades selleks eitavat kõnet, nt Ma ei ole<br />

veel kohvi joonud, või mata-vormi, nt Mul on kohv veel joomata. [---]<br />

Tunneb sagedate verbide rektsioone, nt töötan kelnerina, õpin kokaks, käin tööl,<br />

aitan sind [---]<br />

Puudumise ja kohaloleku väljendamiseks oskab kasutada olemasolu ja kogejaomaja<br />

lauset. Ma olen siin. Teda pole siin. Mul pole bussipiletit.<br />

107


Oskab kasutada et- ja sest-sidendiga põimlauseid, nt Ta ütles, et Anne tuleb<br />

homme [---].”<br />

Sellest kirjeldusest võib järeldada, et A2-tasemel õppesõnastikes tuleks erilist<br />

tähelepanu pöörata eelkõige verbi objekti (eriti partitiivverbide), infinitiivi-,<br />

käände-, kaassõna- ja sidendirektsiooni esitamisele, leksikaalsetest üksustest peaks<br />

eraldi käsitlema kollokatsioone ja perifrastilisi verbe (eelkõige väljend- ja<br />

ühendverbe). Verbide kirjes tuleks õppijale võimalusel näidata eksplitsiitselt<br />

verbide laiendusvõimalusi, mida saab teha käände-, kaassõna- ja üldrektsiooni<br />

vahendusel.<br />

B1-taseme kirjelduses (Hausenberg jt 2008: 83) on öeldud, et B1-tasemel on isik<br />

omandanud põhilised grammatilised struktuurid ja lausetüübid arusaamise tasemel<br />

ning kasutab osa neist produktiivselt, kuid kasutuses esineb veel palju vigu.<br />

Süntagmaatiliste üksuste valiku ja esituse seisukohalt on oluline arvestada, et B1tasemel<br />

esitatakse õppijale järgmised nõudmised (Hausenberg jt 2008: 90–93):<br />

„[---] on verbiga koos vaja omandada ka tema kohustuslikud laiendid (nt<br />

hoolitsema kelle eest?) või nende puudumine (nt *käituma ennast). Laiendite<br />

puhul on oluline tunda eestipäraseid kollokatsioone (sõnu, mis esinevad sageli<br />

koos), nt käitub omamoodi, käitub nagu väike laps. Laiendite olemasolu korral<br />

on vaja omandada ka nende vorm, nt käima kus? mida tegemas?; jääma kuhu?;<br />

aitama keda?; aitama kellel mida teha?, seda eriti juhtudel, kui see erineb<br />

emakeele omast. [---]<br />

Mõistab samasse mõistepesasse kuuluvate sagedamate verbide tähendus- ja<br />

kasutuserinevust. liht- ja ühendverbid (minema – ära minema; tegema – ära<br />

tegema); ühendid tuumverbidega (hiljaks jääma, haigeks jääma, ära jääma;<br />

nõu pidama, pidu pidama, loomi pidama); refleksiiv/automatiiv- ja<br />

kausatiivverbid (õppima – õpetama, arenema – arendama) [---].<br />

Kasutab koos verbiga käändsõnu põhilistes käändevormides ja<br />

kaassõnafraasides. [---]”<br />

Seega rõhutatakse ka B1-taseme kirjelduses eelkõige rektsioonistruktuuride<br />

kasutusega seotud kompetentsi ja kollokatsioonide ning perifrastiliste verbide<br />

tundmist.<br />

5.2.1.1.3. Kokkuvõtteks: süntagmaatilised suhted A2- ja B1-tasemel<br />

A2- ja B1-keeleoskustasemete nõudmiste analüüs osutab sellele, et süntagmaatiliste<br />

suhete esitamisel õppesõnastikus peaks tähelepanu pöörama eelkõige<br />

rektsioonistruktuuride (st verbi objekti-, infinitiivi-, käände-, kaassõna- ja<br />

sidendirektsioonile) ning selliste leksikaalsete üksuste nagu kollokatsioonide ja<br />

perifrastiliste verbide (väljend- ja ühendverbide) esitamisele.<br />

Oluline järeldus on, et A2- ja B1-tasemel peab keeleõppijal olema kujunenud teatud<br />

metalingvistiline kompetents, mis on omakorda leksikograafilise kompetentsi<br />

108


(oskus sõnaraamatuid kasutada) aluseks. Õppijal on ülevaade põhilistest<br />

grammatilistest struktuuridest, ta tunneb ma- ja da-infinitiivi kasutamise reegleid<br />

jne. Järelikult saab neid kategooriaid õppesõnastikes metakeelena kasutada.<br />

Kuid järgmisena tekib küsimus, mis parameetrite alusel valib leksikograaf üksusi<br />

konkreetse keeleoskustasemega õppijatele suunatud sõnastikku. Mis<br />

keeleoskustasemel peab õppija oskama kasutada väljendverbe silmas pidama ja<br />

meelde jätma või rektsioonistruktuuri lakkama mida tegemast. Siin saab toetuda<br />

esiteks keeleoskustasemete sõnavaraloenditele ja teiseks süntagmaatiliste suhete<br />

korpusleksikograafilise töötluse käigus saadud statistilistele andmetele.<br />

5.2.1.2. Esinemus keeleoskustasemete sõnavaraloendites<br />

Eestis on praeguseks ilmunud nii õppeotstarbelisi sagedussõnastikke kui ka mitu<br />

sõnavaraloendit, mida tavapäraselt nimetatakse baassõnastikuks, sõnaindeksiks või<br />

esimeseks ehk esmaseks sõnastikuks. Paraku puudub uurimus, mis esitaks<br />

korpusandmetele toetudes kõikidele keeleoskustasemetele vastavad<br />

sõnavaraloendid. Sellised loendid võiksid olla nii leksikograafiliste väljaannete kui<br />

ka keeleõpiku komplektide, õppekirjanduse ja testide koostamise aluseks.<br />

Esimene õppeotstarbeline sagedussõnastik on Raimo Raagi koostatud eesti keele<br />

517 sagedamat sõna sisaldav „Eesti keele baassõnastik” (Raag 1987), mille alusel<br />

koostasid Hele Pärn ja Leeni Simm eesti keelt algtasemel valdavate õppijate jaoks<br />

kakskeelsete baassõnastike sarja (nt Pärn, Simm 1989). Pärna ja Simmi koostatud<br />

sõnastikes on 734 sõna, autorid on täiendanud Raagi loendit, lähtudes temaatilistest<br />

kriteeriumidest (lisandunud on kuude, kehaosade nimetused jms). Lisaks ilmusid<br />

2010. aastal algajale eesti keele õppijale suunatud Kullo Vende koostatud<br />

kakskeelsed sõnastikud, mis sisaldavad eesti keele tuhat esimest sõna (nt Vende<br />

2010).<br />

Õppeotstarbelise sõnavarastatistikaga seotud praktilisele tööle andis 1990. aastate<br />

teisel poolel hoogu vajadus töötada välja eesti keele oskuse tasemekirjeldused.<br />

Mitmete asjatundjate ja töörühmade töö tulemusena saab praegu kasutada järgmisi<br />

sõnavaraloendeid: 1) Mall Lauri algtaseme keeleoskuskirjelduses esitatud<br />

tuumiksõnade loend (Laur 1998: 89–118); 2) 2272 sõnast koosnev esimene sõnastik<br />

(Kerge jt 2008: 142–160); 3) kesktaseme keeleoskuskirjelduses esitatud umbes<br />

2000 sõnast koosnev sõnaindeks (Ehala jt 1997: 256–284).<br />

Sõnavaraloendite sõnade arvu määramisel on lähtekohaks „Eesti keele<br />

funktsionaalse keeleoskuse määratlemises” esitatud andmed (Kerge 1996: 7–8),<br />

mille kohaselt ulatub eesti keelt algtasemel valdava inimese sõnavara 1500–2000<br />

sõnani, keelt kesktasemel valdava inimese oma aga umbes 5000 sõnani.<br />

Seega peaksid Kerge jt (2008) ning Ehala jt (1997) koostatud sõnavaraloendid<br />

katma A2-taseme keeleõppija sõnavara. B1- ja B2-tasemete jaoks ei ole seni eraldi<br />

loendit koostatud. Sellise loendina võib käsitleda põhisõnavara sõnastiku projekti<br />

tarbeks koostatud märksõnade loendit (ca 4500 sõna) (vt lähemalt Kallas, Tuulik<br />

2011). PSV märksõnastiku koostamisel on lähtutud eelkõige olemasolevate<br />

109


sagedussõnastike andmetest (Kaalep, Muischnek 2002) ja sõnavaraloenditest (Ehala jt<br />

1997: 256–284; Laur 1998: 89–18; Kerge jt 2008: 142–160). Samuti on lähtekohaks<br />

sellised kriteeriumid nagu tuumsus (Pajusalu jt 2004), kasutatavus suulises ja<br />

kirjalikus tekstiloomes (Pajupuu jt 2009) ja vajalikkus igapäevaelu valdkondades.<br />

PSV märksõnastikku saab kasutada kesktasemele suunatud sõnastikes teatud<br />

filtrina. Juhul, kui sõna ei kuulu PSV märksõnastikku, ei sobi seda kasutada<br />

definitsiooni ja näitelausete ega süntagmaatiliste suhete esitamise tasandil. Selline<br />

lähenemine tagab, et sõnastiku sõnavara vastab sihtgrupi leksikaalsele profiilile.<br />

5.2.1.3. Statistilise töötluse andmed<br />

Peatükis 2.3. näitasin, et kombinatoorsete meetoditega tuvastatud süntagmaatiliste<br />

suhete tuvastamisel on kasulik analüüsida otsisõna kollokaate nii koosesinemise<br />

sageduse kui ka esilduvuse väärtuse põhjal. Esimene näitab, millises kollokatiivses<br />

ümbruses ja mis kontekstides kasutatakse sõna kõige sagedamini, teine aitab<br />

tuvastada harvemaid koosesinemisi. Samas on õppesõnastiku koostamisel oluline<br />

arvestada ka süntagmaatilises suhtes olevate sõnade esinemust keeleoskustaseme<br />

sõnavaraloendites.<br />

Eksperimendi korras võrdlen sõna diskussioon sõnavisandeid (grammatilised suhted<br />

on tuvastatud reeglitega subject_of, object_of ja Adj_modifier). Joonisel 67 on<br />

kollokaadid järjestatud esilduvuse (logDice) väärtuse järgi, joonisel 68 aga<br />

koosesinemise sageduse järgi.<br />

Joonis 67. Substantiivi diskussioon kollokaadid järjestatuna esilduvuse (logDice)<br />

väärtuse järgi.<br />

Jooniselt 67 nähtuvad sellised kollokatsioonid nagu<br />

äge/selleteemaline/laialdane/tuline diskussioon; diskussioon puhkeb/jätkub/järgneb/<br />

keskendub/käivitub; diskussiooni ärgitama/vallandama/edendama/algatama.<br />

110


Joonis 68. Substantiivi diskussioon kollokaadid järjestatuna koosesinemise<br />

sageduse järgi.<br />

Jooniselt 68 nähtuvad sellised ühendid nagu avalik/poliitiline/elav/tõsine/pikk<br />

diskussioon; diskussioon käib/tekib/toimub/jätkub/algab; diskussiooni<br />

alustama/tekitama/algatama/jätkama.<br />

Kui võrrelda neid tulemusi PSV märksõnastikuga, siis selgub, et sellised<br />

esilduvusega esile tulnud sõnad nagu laialdane, ärgitama ei kuulu eesti keele<br />

põhisõnavara hulka ning sellised ühendid sobiksid pigem C-tasemele suunatud<br />

sõnastikku. Koosesinemise sagedusega esile tulnud ühendid (vt Joonis 68) sobivad<br />

pigem algajale keeleõppijale mõeldud sõnastikes esitamiseks.<br />

Seega tundub otstarbekana lähtuda A2- ja B1-tasemetele mõeldud sõnastike<br />

koostamisel koosesinemise sageduse põhjal saadud andmetest. Samas B2- ja C1tasemetel<br />

tuleks tähelepanu pöörata eelkõige kõrge esilduvusega ühenditele.<br />

5.2.2. Süntagmaatilised üksused andmebaasis<br />

Süntagmaatiliste üksuste esitamiseks on PSV XML-skeemis kollokatsiooni-,<br />

rektsiooni- ja ühendite plokid. Andmebaasi loomisel tundus selline jaotus<br />

otstarbekana, kuna võimaldas käsitleda leksikaalseid kollokatsioone,<br />

rektsioonistruktuure ja ühendeid eraldi üksustena. Edaspidi võib kaaluda PSV<br />

andmebaasi restruktureerimist, nii et kõik suhted oleksid kirjeldatud<br />

moodustusstruktuuri alusel sõnaliigi terminites, nagu on tehtud töös analüüsitud<br />

korpuspõhiste inglise keele kollokatsioonisõnastike koostamisel (nt MCD 2010).<br />

Joonis 69 näitab PSV rektsiooni- ja kollokatsiooniplokkide XML-skeemi. Aknas<br />

kirjeldatakse sõnastikus kasutusel olevaid atribuute, elemente, sõnaartikli<br />

hierarhilist struktuuri ning sõnastikus kasutusel olevaid andmetüüpe (vt lähemalt<br />

Loopmann 2007).<br />

111


Joonis 69. Lõik eesti keele põhisõnavara sõnastiku XML-skeemist.<br />

5.2.2.1. Rektsiooniplokk<br />

Rektsiooniploki põhielemendid on rektsioonigrupp, rektsioon ja kasutusnäited<br />

(näide ja selle seletus) (vt Joonis 69).<br />

Rektsioonigrupil on atribuut @c:koht ‘eel/järelrektsioon’, mis võimaldab määrata<br />

rektsiooni asukoha põhja suhtes. Vaikimisi on rektsioonid määratud<br />

järelrektsioonideks (koos kellega-millega, minema mida tegema jne), kuid mõnede<br />

sõnade, nt postpositsioonide puhul (kelle-mille jaoks) on nende laiend alati<br />

eespositsioonis. Sel juhul märgendatakse andmebaasis, et tegemist on<br />

eelrektsiooniga.<br />

Rektsioonil on kolm atribuuti:<br />

1) atribuut @c:fak ‘fakultatiivne laiend’ võimaldab määrata, kas tegemist on<br />

obligatoorse või fakultatiivse laiendiga. Seda atribuuti kasutatakse vaid<br />

mitmelaiendiliste konstruktsioonide kirjeldamisel, nt eelistama keda-mida +<br />

kellele-millele. Kui leksikograaf märgendab teise komponendi fakultatiivseks, siis<br />

sõnastikus esitatakse see sulgudes, st eelistama keda-mida (+ kellele-millele);<br />

2) atribuut @c:var ‘variant’ võimaldab esitada üht semantilist funktsiooni täitvaid<br />

rektsioonistruktuure koos, nt esitatakse verbi kleepima rektsioonid kleepima<br />

millele / mille peale;<br />

3) atribuut @c:rliik ‘rektsiooniliik’ (vt Joonis 70) võimaldab määrata iga<br />

rektsioonistruktuuri liigi. Rektsiooniliikidena on esitatud objektirektsioon (toetama<br />

keda-mida), käänderektsioon (usk kellesse-millesse, kindel kelles-milles, erinevalt<br />

kellest-millest, tutvuma kellega-millega, peale kelle-mille, peale keda-mida),<br />

kaassõnarektsioon (viha kelle-mille vastu, kade kelle-mille peale, võitlema kelle-<br />

112


mille vastu), tegevusnimerektsioon (tahe mida teha, julge mida tegema, tahtma<br />

mida teha), lausungirektsioon (ütlema, et) ja üldine asendusrektsioon (sõitma kust<br />

kuhu, alates mis ajast). Rektsiooniliik on PSV andmebaasi üks olulisemaid<br />

komponente.<br />

Joonis 70. PSV andmebaasi rektsiooniliigid.<br />

Selline andmebaasi ülesehitus võimaldab rektsioonistruktuure esitada<br />

süstemaatiliselt, määrates nende asukoha põhja suhtes, fakultatiivsuse ja tüübi. Kui<br />

andmebaasi tasandil kodeeritakse rektsioonistruktuurid vastavate koodidega (obj,<br />

kn, ks, yld, inf ja kla), siis sõnastiku vaates esitatakse need<br />

näitekonstruktsioonidena: välja kirjutatakse objekti- ja käänderektsiooni<br />

käändeküsimused (kelle-mille, keda-mida, kellesse-millesse, kelles-milles jne),<br />

kaassõnafraas (nt kelle-mille peale), infinitiivide ja infinitiivi käändeliste vormide<br />

puhul vastavalt mida tegema, mida teha, mida tegemas, mida tegemast, mida<br />

tegemata, mida tegemaks. Lisaks järgneb igale rektsioonistruktuurile selle kasutust<br />

illustreeriv näitelause.<br />

Üheks teoreetiliseks küsimuseks rektsiooniploki väljatöötamisel oli küsimus, kas<br />

oleks otstarbekas käsitleda omaette rektsiooniliigina nn subjektirektsiooni 46 (nt<br />

hobune hirnub, konn krooksub). Kuid arvestades eesti leksikograafias<br />

väljakujunenud traditsiooni esitada subjektirektsioon leksikaalse info osana,<br />

esitatakse seda tüüpi suhteid kollokatsiooniplokis koodi N(S)+V ‘substantiiv<br />

subjekti funktsioonis + verb’ all (vt lähemalt ptk 5.2.2.2.).<br />

Joonis 71 illustreerib verbi eelistama esitust PSV andmebaasis ja küljendusvaates.<br />

Verbil on eksplitsiitselt esitatud objekti-, käände- ja infinitiivirektsioon, mis<br />

andmebaasis on vastavalt kodeeritud ja näitelausetega illustreeritud.<br />

46 Subjektirektsiooni omaette esitamisel on pikk traditsioon vene keele süntagmaatilistes<br />

sõnastikes, vt nt Tihhonov (2001).<br />

113


Joonis 71. Verb eelistama PSV andmebaasis: toimetamisala ja küljendusvaade.<br />

5.2.2.2. Kollokatsiooniplokk<br />

Kollokatsiooniploki põhielemendid on kollokatsioonigrupp, kollokatsiooni rühm,<br />

kollokatsioon, kollokatsiooni rektsioon (saab määrata fakultatiivsuse ja tüübi) ja<br />

kasutusnäited (näide ja selle seletus) (vt Joonis 69).<br />

Kollokatsioonigrupil on vaid üks atribuut, milleks on @c:kliik ‘kollokatsiooniliik’.<br />

PSV andmebaasis on järgmised kollokatsiooniliigid, mis on defineeritud sõnaliikide<br />

ja morfoloogiliste ning süntaktiliste kategooriate kaudu:<br />

N(S)+V substantiiv (subjekti funktsioonis) + verb, nt hobune hirnub, palavik<br />

tõuseb/langeb;<br />

N(O)+V substantiiv (objekti funktsioonis) + verb, nt arvutit sisse lülitama /<br />

välja lülitama;<br />

N(A)+V substantiiv (adverbiaali funktsioonis) + verb, nt aktsiatesse<br />

investeerima;<br />

Adj+V adjektiiv + verb, nt määravaks saama/osutuma;<br />

Adv+V adverb + verb, nt kiiresti jooksma;<br />

N+N substantiiv + substantiiv, nt ekspertide hinnang/arvamus;<br />

kullast/hõbedast ehted;<br />

Adj+N adjektiiv + substantiiv, nt hea/halb eeskuju; magusa/soolase maitsega;<br />

Num+N numeraal + substantiiv, nt sada protsenti/meetrit/kilo;<br />

Adv+N adverb + substantiiv, nt eile hommikul/õhtul;<br />

Adv+Adj adverb + adjektiiv, nt kergesti süttiv;<br />

Adv+Adv adverb + adverb, nt väga aeglaselt;<br />

Prep+N prepositsioon + substantiiv, nt enne/pärast/peale jõule;<br />

N+Post substantiiv + postpositsioon, nt interneti/raadio/ajalehe kaudu.<br />

114


Joonis 72. Substantiiv kohv PSV andmebaasis: toimetamisala ja küljendusvaade.<br />

5.2.2.3. Ühendite plokk<br />

Ühendite ploki põhielemendid on ühendigrupp, ühend ja kasutusnäited (näide ja<br />

selle seletus). Ühendil on vaid üks atribuut, milleks on @c:yk ‘ühendi kood’ (vt<br />

Joonis 73). PSV andmebaasis esitatakse selles plokis perifrastilised verbid, st<br />

ühend-, väljend-, ahelverbid ja tugiverbiühendid (vt ptk 3.5.3.).<br />

Joonis 73. PSV andmebaasi ühendite liigid.<br />

Joonis 74 näitab ahelverbide seisma jääma ja seisma jätma esitust PSV<br />

andmebaasis ja küljendusvaates.<br />

115


Joonis 74. Ahelverbid seisma jääma ja seisma jätma eesti keele põhisõnavara PSV<br />

andmebaasis: toimetamisala ja küljendusvaade.<br />

Perifrastiliste verbide esitamisel rakendatakse kolme erinevat strateegiat, esitades<br />

neid 1) ühendite plokis, 2) allmärksõna või 3) rektsioonistruktuurina.<br />

Ühendite plokis esitatakse eelkõige semantiliselt läbipaistvaid ühendeid, nt verbi ja<br />

seisundiadverbi / modaalsust väljendava adverbi ühendeid (katki minema, lahti<br />

tegema, tarvis minema, valmis saama). Ühendverbid, mille moodustusstruktuur on<br />

verb + orientatsiooniadverb või verb + perfektiivsusadverb, nt läbi astuma, sisse<br />

astuma, tagasi astuma, maha kirjutama, esitatakse vastavate verbide<br />

allmärksõnadena. Peamine põhjus seisneb selles, et tihti on seda tüüpi ühendverbid<br />

polüseemsed ja nende argumentstruktuur erineb põhiverbist. Võtame näiteks<br />

ühendverbi tagasi astuma tähenduses ‘mingist ametist loobuma’, mille puhul on<br />

vaja keeleõppijale eraldi näidata valikukitsendusi (kes võib tagasi astuda, nt<br />

valitsus, peaminister, president, valitsusjuht), samuti vabu laiendeid seoses millega,<br />

mille pärast. Verbi astuma süntagmaatika on sellest erinev.<br />

Ahel- ja tugiverbiühendite esitamisel võetakse arvesse, kas tegemist on<br />

produktiivselt tugiverbiühendeid ja ahelverbe (vt ptk 3.5.3.3. ja 3.5.3.4.)<br />

moodustava verbiga või verbiga, mis ei kombineeru piiramatu hulga tegevust<br />

väljendavate noomenite ja infiniitverbidega, vaid teatud semantilisse rühma<br />

kuuluvate noomenite ja infiniitverbidega. Produktiivselt ahel- ja tugiverbiühendeid<br />

moodustava verbi ühendid esitatakse rektsioonistruktuurina, nt võima mida teha;<br />

pidama mida tegema; näima mida tegevat; asuma mida tegema. Nende verbide, mis<br />

kombineeruvad vaid teatud semantilisse välja kuuluvate noomenite või<br />

infiniitverbidega, ühendid esitatakse eksplitsiitselt ühendite plokis, nt juttu ajama,<br />

habet (ära) ajama, asju ajama (vt Joonis 75).<br />

116


Joonis 75. Verbi ajama tugiverbiühendite esitus PSV andmebaasis: toimetamisala<br />

ja küljendusvaade.<br />

Andmebaasi selline ülesehitus avab võimalused sõnastiku materjali<br />

taaskasutamiseks. Nii saab andmebaasi alusel genereerida nt eraldi rektsiooni-,<br />

kollokatsiooni- ja perifrastiliste verbide sõnastikud (vt lähemalt Kallas, Langemets<br />

2012). Teiselt poolt võimaldab see teha erinevaid liht- ja komplekspäringuid,<br />

näiteks saab korraga valida kõik verbid, millele on omane infinitiivirektsioon, või<br />

substantiivid, mis kollokeeruvad adjektiividega jne. Neid andmeid saab kasutada eri<br />

tüüpi lingvistilise suunitlusega uurimistöös.<br />

5.2.3. Sõnavisandid kui leksikograafilise analüüsi lähtepunkt<br />

Selles peatükis näitan sõnavisandite kasutusvõimalusi PSV koostamisel. Käsitlen<br />

PSV kirjeldusobjektiks olevate rektsioonistruktuuride, kollokatsioonide ja<br />

püsiühendite tuvastamisega seotud küsimusi ning analüüsin sõnavisandite<br />

potentsiaali sisusõnade semantika, nimelt tähendusjaotuse ja laiendite semantiliste<br />

rollide uurimisel.<br />

5.2.3.1. Rektsioonistruktuurid<br />

PSV andmebaasis esitatakse objekti-, käände-, kaassõna-, tegevusnime-, lausungija<br />

üldine asendusrektsioon.<br />

Objektirektsiooni struktuuride valikul saab lähtuda sõnavisandi grammatika reegli<br />

object/object_of (vt Tabel 7) abil tuvastatud andmetest.<br />

Käänderektsiooni kirjeldamisel saab toetuda järgmiste reeglitega tuvastatud<br />

üksustele:<br />

1) substantiivi reeglid (vt Tabel 3) – osastav_modifier (kimp mida),<br />

sisseütlev_modifier (usk kellesse-millesse), seestütlev_modifier (unistus kellestmillest),<br />

alaleütlev_modifier (lootus kellele-millele), alaltütlev_modifier (kiri<br />

kellelt-millelt), saav_modifier (ettepanek milleks), rajav_modifier (tee milleni),<br />

kaasaütlev_modifier (abielu kellega);<br />

117


2) adjektiivi reeglid (vt Tabel 5) – sisseütlev_modifier (armunud kellesse-millesse),<br />

seesütlev_modifier (kindel kelles-milles), seestütlev_modifier (rikas millest),<br />

alaleütlev_modifier (iseloomulik kellele-millele), saav_modifier (sobiv milleks),<br />

kaasaütlev_modifier (sarnane kellega-millega);<br />

3) adverbi reeglid (vt Tabel 6) – osastav_modifier (palju keda-mida),<br />

seestütlev_modifier (sõltuvalt kellest-millest), kaasaütlev_modifier (kimpus<br />

millega), saav_modifier (valmis milleks), kaasaütlev_modifier (samaaegselt<br />

millega).<br />

4) verbi reeglid (vt Tabel 7) – adverbial_sisseütlev (armuma kellesse-millesse),<br />

adverbial_seesütlev (osalema milles), adverbial_seestütlev (unistama kellestmillest),<br />

adverbial_alaleütlev (lootma kellele-millele), adverbial_alalütlev<br />

(põhinema millel), adverbial_alaltütlev (küsima kellelt-millelt), adverbial_saav<br />

(valmistuma milleks), adverbial_rajav (jõudma kelleni-milleni), adverbial_olev<br />

(töötama kellena), adverbial_ilmaütlev (toime tulema milleta),<br />

adverbial_kaasaütlev (sõitma millega), predicate_Adj_saav/predicate_Adj_saav_of<br />

(värvima milliseks), predicate_Adj_olev/predicate_Adj_olev_of (surema millisena).<br />

Kaassõnarektsiooni kirjeldamisel (vt Tabel 3, Tabel 5, Tabel 6, Tabel 7) saab<br />

toetuda reeglitega N_PP, Adj_PP, Adv_PP ja V_PP tuvastatud üksustele.<br />

Infinitiivirektsiooni kirjeldamisel (vt Tabel 3, Tabel 5, Tabel 7) on olulised<br />

reeglitega N_Vma (meister mida tegema), N_Vda (soov mida teha), Adj_Vma (aldis<br />

mida tegema), Adj_Vda (tore mida teha), V_Vma (minema mida tegema), V_Vmaks<br />

(riskima mida tegemaks), V_Vmast (tulema mida tegemast), V_Vmas (käima mida<br />

tegemas), V_Vmata (jätma mida tegemata) ja V_Vda (tahtma mida teha) tuvastatud<br />

üksused.<br />

Sidendirektsiooni kirjeldamisel on abi kõrvallauset tuvastavatest reeglitest<br />

kõrvallause (vt Tabel 3, Tabel 5, Tabel 6, Tabel 7).<br />

Leksikograafilise analüüsi üheks probleemiks on mitmelaiendiliste<br />

konstruktsioonide tuvastamine, nt aitama kellel + mida teha. Hetkel on see<br />

võimalik vaid konkordantsiridade analüüsile toetudes. Joonis 76 näitab verbi aitama<br />

konkordantsiridu, kus verbi laiendiks on alalütlevas käändes substantiiv organism.<br />

Konkordantsiread osutavad selgelt, et üldjuhul järgneb alalütlevas substantiivile ka<br />

da-infinitiivis verb. Seega on tegemist mitmelaiendilise konstruktsiooniga. Seda<br />

tüüpi konstruktsioonide automaatne tuvastamine kuulub töö edasiarenduste hulka.<br />

118


Joonis 76. Konkordantsipõhine aitama kellel + mida teha konstruktsiooni<br />

tuvastamine.<br />

5.2.3.2. Kollokatsioonistruktuurid<br />

Kollokatsioonistruktuuride valikul saab samuti toetuda sõnavisanditele, kuna kõik<br />

PSV andmebaasis fikseeritavad kollokatsioonitüübid on sõnavisandite grammatika<br />

toel tuvastatavad.<br />

Substantiivse põhjaga kollokatsioonid on tuvastatavad reeglite<br />

Adj_modifier/modifies, Adj_comp_modifier/modifies, Adj_sup_modifier/modifies,<br />

Adj_käändumatu_modifier/modifies, participle_modifier, omastav_modifier/<br />

omastav_modifies, osastav_modifier/osastav_modifies toel (vt Tabel 3).<br />

Adjektiivse põhjaga kollokatsioonid on tuvastatavad reeglite Adj_modifier/<br />

Adj_modifies ja Adv_modifier/Adj_modifies toel (vt Tabel 5).<br />

Koodidega N(S)+V, N(O)+V, N(A)+V, Adj+V, Adv+V kollokatsioonid on<br />

tuvastatavad reeglite subject/subject_of, object/object_of, adverbial_sisseütlev,<br />

adverbial_seesütlev, adverbial_seestütlev, adverbial_alaleütlev,<br />

adverbial_alalütlev, adverbial_alaltütlev, adverbial_saav, adverbial_rajav,<br />

adverbial_olev, adverbial_ilmaütlev, adverbial_kaasaütlev, predicate_Adj_saav/<br />

predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of toel (vt Tabel 7).<br />

Adpositsiooni ja substantiivi ning numeraali ja substantiivi kollokatsioonid on<br />

tuvastatavad reeglite ordinal_modifies/modifier, cardinal_modifies/modifier ja<br />

N_PP toel (vt Tabel 3).<br />

5.2.3.3. Perifrastilised verbid<br />

Afiksaaladverbe ja väljendverbide komponente tuvastatakse järgmiste reeglitega:<br />

afiksaaladverb/afiksaaladverb_of (vt ptk 3.5.3.2.), predicate_Adj_saav/<br />

predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of (vt ptk 3.5.2.4.),<br />

väljendverb (vt ptk 3.5.3.1.).<br />

Teist tüüpi komponendid tulevad enamasti esile verbi objekti (läbirääkimisi<br />

pidama) (vt ptk 3.5.2.2.) või adverbiaali (hoogu sattuma) (vt ptk 3.5.2.3.)<br />

funktsioonis.<br />

119


5.2.3.4. Tähendusjaotus ja laiendite semantilised rollid<br />

Selle alapeatüki problemaatika kuulub pigem süntaksipõhise morfosemantika<br />

valdkonda. 47 Eesmärgiks on näidata võimalusi, mida pakuvad sõnavisandites<br />

tuvastatud grammatilised suhted sõna ja selle laiendite uurimisel.<br />

Korpuspõhise kirjelduse alusel on võimalik järeldada, et sõna ja mallid ehk<br />

tähendus ja süntaks on omavahel seotud (Hunston, Francis 2000: 80). Hunston ja<br />

Francis toovad esile kaks seaduspära: 1) sõna eri tähendusi on võimalik eristada,<br />

lähtudes erinevatest mallidest, milles sõna osaleb, ja 2) teatud mallid on<br />

iseloomulikud teatud tähendusega leksikaalsetele üksustele (2000: 80–107). Siin<br />

arendan seda mõtet edasi, näidates, et korpuspõhiselt tuvastatud verbide<br />

süntagmaatiliste suhete põhjal saab teha esialgseid järeldusi mitte ainult verbi<br />

tähendus(jaotus)te kohta üldiselt, vaid argumentide morfoloogilisele vormile<br />

tuginedes ka argumentide semantiliste rollide kohta.<br />

Tähendusjaotuste ja laiendite semantiliste rollide sõnavisandipõhisel uurimisel<br />

eristan kaht põhilist etappi: esiteks tuleb semantilised rollid identifitseerida<br />

(sõnavisandites esile tulnud grammatiliste kategooriate põhjal), seejärel analüüsida<br />

ja kategoriseerida nende leksikaalsed realisatsioonid, st sõnavisandis esitatud<br />

konkreetsed sõnad.<br />

Nii nagu süntaktilised funktsioonid, on ka semantilised rollid vaid üldistused, mida<br />

saab järeldada, toetudes konkreetse verbi argumentide morfoloogilisele<br />

vormistusele. Eesti keele argumentide semantilistest funktsioonidest ja nende<br />

morfoloogilisest vormistusest on kirjutanud Erelt (1979a, 2003a) ning Langemets jt<br />

(2005: 93). Erelti eesti keele süntaksi käsitluses on esitatud kompaktne ülevaade<br />

semantiliste rollide realiseerumisest morfoloogiliste käänete ja kaassõnade kujul<br />

(2003a: 98–101). Sõnavisandite interpreteerimiseks oleks aga vajalik põhjalik eesti<br />

keele funktsionaalne grammatika, kus oleksid lahti kirjutatud kõikide käänete<br />

semantilised funktsioonid. Tabel 9 illustreerib mõningate adverbiaalide semantiliste<br />

rollide morfoloogilist vormistust.<br />

Tabel 9. Adverbiaalide semantilised rollid (Erelt 2003a: 99–100 järgi).<br />

Vorm Semantiline roll Näited<br />

Nin/Nade KOHT Ta on toas. Ta on maal.<br />

Nill/Nall SIHTKOHT Ta läks tuppa. Ta läks maale.<br />

Nela/Nabl LÄHTEKOHT Ta tuli toast. Ta tuli maalt.<br />

(kuni +) Nter PIIR Ta jalutas (kuni) metsani.<br />

Ng + kaudu TEE Ta tuli Helsingi kaudu.<br />

läbi + Ng<br />

(koos +) Ncom<br />

ilma + Nabe<br />

120<br />

Ta tuli läbi metsa.<br />

KAASNEJA Ta saabus siia (koos) naisega.<br />

Ta oli teatris ilma naiseta.<br />

47 Süntaksipõhine morfosemantika ei ole välja kujunenud termin, vaid Haldur Õimuga suulises<br />

arutluses kasutatud esialgne töötermin, mis peaks vahendama analüüsi põhinemist eelkõige<br />

morfoloogilisel vormistusel.


Vorm Semantiline roll Näited<br />

Ntrl<br />

EESMÄRK Raha oli mõeldud ehituseks.<br />

Ng + jaoks/tarvis<br />

Raha oli mõeldud ehituse jaoks.<br />

Nade<br />

AEG Ta tuli õhtul / 5. jaanuaril.<br />

Nin<br />

Tema sünnipäev on jaanuaris.<br />

(kuni +) Nter<br />

Nad töötasid (kuni) hommikuni.<br />

Nela (+ saadik)<br />

Koosolek algab kella kolmest. Eilsest<br />

saadik pole siin elektrit.<br />

Sõnavisandipõhise uurimiskäigu illustreerimiseks analüüsin liikumisverbi 48<br />

saabuma laiendite semantilisi rolle (vt Joonis 77). Analüüs piirdub üksnes<br />

koondkorpusest tuvastatud üksustega ning kahe- ja kolmeliikmeliste suhetega, mitte<br />

kogu lausega, mistõttu sõnavisandite empiiriliste andmete analüüs võimaldab teha<br />

järeldusi üksikute laiendite kohta, aga sedakaudu kuigivõrd ka tähendusjaotuste<br />

kohta.<br />

Joonis 77. Verbi saabuma sõnavisand (minimaalne koosesinemise sagedus on 5).<br />

48 Leksikaalse semantika klassikalistes uurimustes (Talmy 1975; Miller, Johnson-Laird<br />

1976: 409–410; Apresjan 1995; vt ka Maisak, Rahhilina 1999: 53) käsitletakse liikumisverbidena<br />

lekseeme, mis tähistavad situatsiooni, milles subjekt ühel teatud hetkel asub punktis L1 ning<br />

teatud järgmisel hetkel punktis L2. L1 on seejuures liikumise lähte- ehk algpunkt, L2 on siht- ehk<br />

lõpppunkt.<br />

121


Esmalt analüüsin verbi saabuma subjekti ja adverbiaali funktsioonis tuvastatud<br />

sagedamaid substantiive, seejärel ka laienditena esinevaid adverbe ja<br />

kaassõnafraase.<br />

Sõnavisandist nähtub, et verbi saabuma sagedamaks laiendiks on subjekt (8041<br />

esinemisjuhtu), mille semantiline roll on TEEMA. Kõige sagedamad TEEMA rollis<br />

esinevad argumendid on aeg, teade, hetk ja surm. TEEMA rollis esinevad<br />

substantiivid moodustavad järgmised semantilised rühmad: 49 1) AEG (aeg, hetk,<br />

aasta, päev, tähtpäev); 2) ESITUS (teade, kiri, uudis); 3) ABSTRAKTNE ENTITEET<br />

(selgus, lahendus, vastus); 4) SEISUND (surm); 5) INIMENE (mees, naine, politsei,<br />

president); 6) ESE_INSTRUMENT (auto, laev). Selline statistiline jaotus osutab, et<br />

kõige sagedamini esineb verb saabuma koondkorpuses eelkõige tähenduses ‘kätte<br />

jõudma’, kus grammatiline subjekt on AEG. Sellele järgneb ülekandeline<br />

liikumistähendus 50 , kus grammatiliseks subjektiks on ESITUS või mingi<br />

ABSTRAKTNE ENTITEET. Lisaks nendele kahele tähendusele eristub selgelt tähendus,<br />

kus verb esineb otseses liikumistähenduses (INIMESE või TRANSPORDIVAHENDI<br />

asukohavahetus ruumis). Seda tüüpi analüüsist kooruvad välja verbi saabuma kaks<br />

põhilist tähendust: 1) ‘(ajaliselt) kätte jõudma’; 2) ‘(füüsiliselt) kohale jõudma’,<br />

mille all on nii ülekandelise kui ka otsese liikumise esinemisjuhud.<br />

Verbi saabuma adverbiaalidena reeglite adverbial_sisseütlev, adverbial_alaleütlev,<br />

adverbial_seestütlev, adverbial_alaltütlev, adverbial_seesütlev, adverbial_alalütlev<br />

(vt Tabel 7) abil tuvastatud üksuste käsitlemisel lähtun adverbiaalide semantiliste<br />

rollide morfoloogilisest vormistusest (vt Tabel 9). 1) AJA rollis esinevad<br />

nädalapäevad (367 koosesinemist 596st), samuti ka päeva osad (õhtu, hommik).<br />

2) SIHTKOHA leksikaalseteks realisatsioonideks on a) KOHT (kohale,<br />

sündmuskohale, tööle, kohtusse, politseisse, sadamasse, haiglasse, kirikusse,<br />

tehasesse, vanglasse); b) KOHT_SÜNDMUS (müügile, turule, finišisse); c) SÜNDMUS<br />

(visiidile, peole, pressikonverentsile). 3) VAHENDI semantilise rolli leksikaalsed<br />

realiseeringud on lennukiga/autoga/bussiga/laevaga/postiga. 4) Samas LÄHTEKOHT<br />

realiseerub süntaktiliselt üsna harva: välismaalt (9 esinemisjuhtu), komandeeringust<br />

(5 esinemisjuhtu).<br />

Järgmise etapina analüüsin verbi saabuma laiendavaid adverbi- ja kaassõnafraase.<br />

Jooniselt 78 nähtub, et adverbide hulgas eristub selgelt kaks semantilist rühma:<br />

KOHT (kohale) ja AEG (eile/täna/hiljem). Ka kaassõnafraaside analüüs näitab, et<br />

enamasti täidavad kaassõnafraasid semantilist funktsiooni AEG (septembri keskel /<br />

vastu ööd / ööpäeva jooksul / kesköö paiku / nädala pärast jm). Lisaks sagedusega<br />

49 Rühmad on järjestatud sageduse järgi, tuginedes sõnavisandite andmetele. Rühmade<br />

selgitamisel kasutan klasterdamise funktsiooni. Semantiliste rühmade määramisel lähtun<br />

Langemetsa (2010a) liigitusest.<br />

50 Ülekandelisest liikumistähendusest vt lähemalt Penjam (2005: 820). Penjami uurimuses on<br />

ülekandeliseks liikumistähenduseks peetud neid tarvitusi, kus seos liikumistähendusega on veel<br />

nii ilmne, et iseseisvat tähendust pole põhjust postuleerida, ent füüsilisest liikumisest siiski enam<br />

rääkida ei saa.<br />

122


esile tulnud semantilistele rollidele eristub verbi sündmusstruktuuri analüüsist ka<br />

KAASNEJA roll (saabuma kellegagi-millegagi koos / kellegi-millegi saatel).<br />

Joonis 78. Verbi saabuma laiendi funktsioonis esinevad adverbid ja<br />

kaassõnafraasid.<br />

Mida saab nendest andmetest järeldada sõna tähendusjaotuste kohta? TEEMA rollis<br />

esinevad leksikaalsed üksused osutavad selgelt sellele, mis tähendustes kasutatakse<br />

verbi kõige sagedamini. Adverbiaalide semantiline analüüs aitab rekonstrueerida<br />

verbi taga oleva sündmusstruktuuri komponente. Sõnavisand tuvastab vaid kahe- ja<br />

kolmeliikmelisi suhteid, mis ei võimalda näha lause semantilist freimi tervikuna.<br />

Küll aga saab statistilistele andmetele toetudes järeldada, et verbi saabuma<br />

sagedamad laiendite semantilised rollid on SIHTKOHT, AEG, VAHEND, KAASNEJA ja<br />

LÄHTEKOHT.<br />

Seda tüüpi analüüsi tulemustele toetudes saab leksikograaf kirjeldada verbi<br />

argumentüksuste semantilisi ja süntaktilisi funktsioone ning morfoloogilist<br />

vormistust. Teiseks aitab see oluliselt kaasa verbi tähendusjaotuste eristamisele.<br />

Peab aga kordama, et pakutud meetod sobib vaid esialgsete järelduste tegemiseks<br />

(statistilisele töötlusele tuginedes saab andmeid eelkõige sagedamini esinevate<br />

üksuste kohta). Statistilise analüüsi tulemusi mõjutavad oluliselt nn<br />

vaikimisargumendid (vt lähemalt Õim jt 2009: 494). Nt osutasid Maisaki (1999)<br />

uurimuse statistilised andmed sellele, et vene verbi уходить ‘ära minema’<br />

valentsidest oli LÄHTEKOHA valents eksplitsiitselt esitatud 18,6% kõikidest<br />

juhtumitest, sihtkoha valents 13,95% kõikidest juhtumitest ja 67,4% juhtumites jäid<br />

mõlemad valentsid eksplitsiitselt esitamata. Samas on teada, et sellel verbil on nt<br />

LÄHTEKOHT üldjuhul kohustuslik valents. Maisaki (1999) uurimus näitas, et<br />

123


korpuspõhise analüüsi tulemus peegeldab vaid süntaktilisel tasandil realiseerunud<br />

sisusõnade distributiivseid omadusi.<br />

Teiseks tuleb korpusandmete analüüsi tulemuste interpreteerimisel alati silmas<br />

pidada, et tulemus on korrelatsioonis sisendteksti sisuga. Näiteks ajakirjanduslike<br />

tekstide korpuse analüüsi tulemus on vältimatult kallutatud ja statistiline analüüs<br />

peegeldab verbide distributiivseid omadusi just seda tüüpi tekstides.<br />

5.2.4. Näidisartiklid<br />

Peatükkides 5.2.1.–5.2.3. esitatud süntagmaatiliste suhete valiku printsiipide ja<br />

esitamise põhimõtete näiteks toon kaks sõnaartiklit, milleks on substantiiv abielu<br />

(vt Joonis 79) ja verb aitama (vt Joonis 80).<br />

Joonistelt 79 ja 80 on näha, et iga kollokatsiooni juures on esitatud selle kasutust<br />

illustreeriv lause. Lisaks süntagmaatilisele infole pakub PSV teavet selle sõna<br />

morfoloogia, tähenduse ja sõnamoodustuse kohta. Eksplitsiitselt on näidatud, et<br />

substantiiviga abielu saab moodustada selliseid liitsõnu nagu vabaabielu ja<br />

abielupaar.<br />

Joonis 79. Substantiivi abielu sõnaartikkel PSVs.<br />

Jooniselt 80 nähtub, et verbi aitama sõnaartiklis on eraldi välja toodud lekseemidele<br />

omased rektsioonistruktuurid. Rektsioon on esitatud kasutaja jaoks võimalikult<br />

lihtsal kujul: käändeküsimused, kaassõnad ja infinitiiv on eksplitsiitselt välja<br />

kirjutatud ning igale rektsioonistruktuurile järgneb selle kasutust illustreeriv lause.<br />

124


Joonis 80. Verbi aitama sõnaartikkel PSVs.<br />

Selline süntagmaatiliste suhete esitus peab aitama kasutajat eestikeelse teksti<br />

koostamisel, illustreerides sõna kasutuse erinevaid kontekste ja näidates<br />

eksplitsiitselt selle verbiga moodustatavate leksikogrammatiliste konstruktsioonide<br />

struktuuri. Kõikide süntagmaatiliste suhete esitamisel on võetud arvesse, et sõnad<br />

kuuluksid PSV märksõnastikku ja oleksid kõrge koosesinemise sagedusega<br />

üksused.<br />

125


6. KOKKUVÕTE<br />

Tekstikorpusi kasutatakse tänapäeval mitmetes teoreetilise ja rakenduslingvistika<br />

valdkondades. Leksikograafias tagab korpuste kasutuselevõtt materjali allikana<br />

selle, et sõnastikes ja andmebaasides registreeritud üksused ei ole oma olemuselt eri<br />

tüüpi tekstidest pärit juhunäited või leksikograafi introspektsiooni teel saadud<br />

üksused, vaid on autentne, keele tegelikku kasutust illustreeriv materjal.<br />

Korpusleksikograafiliste meetoditega on võimalik muuta korpuste andmetöötlust<br />

kiiremaks ja efektiivsemaks, aitamaks leksikograafe eri tüüpi üksuste<br />

(definitsioonide, grammatilise kasutusinfo, süntagmaatiliste suhete,<br />

leksikaalsemantiliste seoste, näitelausete) valikul.<br />

Siinse töö eesmärk on luua teoreetiline raamistik eesti keele sisusõnade<br />

süntagmaatiliste suhete korpus- ja õppeleksikograafiliseks käsitluseks. Selleks olen<br />

analüüsinud eesti keele substantiivide, adjektiivide, verbide ja adverbide –<br />

sisusõnade – süntagmaatiliste suhete automaattuvastamise võimalusi korpuspäringu<br />

tarkvara toel ja nende eksplitsiitse süstemaatilise esitamise võimalusi eesti keele<br />

õppesõnastikes. Töö rakenduslikeks tulemusteks on esiteks süntagmaatiliste suhete<br />

automaattuvastamist võimaldav arvutigrammatika (vt Lisa1). Eesti keele jaoks pole<br />

seda tüüpi grammatikat varem koostatud. Teiseks olen välja töötanud<br />

süntagmaatiliste suhete süstemaatilist esitust toetava õppeleksikograafilise<br />

andmebaasi mudeli ja määratlenud süntagmaatiliste üksuste valikukriteeriumid<br />

konkreetse keeleoskustasemega õppijale suunatud õppesõnastikes. Need rakendused<br />

on olulised eesti keele õppeleksikograafia, aga ka eesti keele kui teise ja võõrkeele<br />

metoodika arendamise seisukohalt.<br />

Mõistega süntagmaatilised suhted tähistan töös sõnade tähenduslikke ja statistiliselt<br />

esilduvaid kombinatsioone teiste leksikaalsete ja grammatiliste üksustega.<br />

Õppesõnastikes on süntagmaatiliste suhete eksplitsiitse esitamise eesmärk toetada ja<br />

suunata keeleõppijat võõrkeelse teksti koostamisel ehk sünteesil.<br />

Järgnevalt esitan väitekirja põhilised teadustulemused ja arutlen lahendamata<br />

jäänud probleemide ning uurimistöö edasiste arengusuundade üle.<br />

6.1. PÕHILISED TEADUSTULEMUSED<br />

Tänapäeva korpusleksikograafias kasutatakse süntagmaatiliste suhete tuvastamisel<br />

statistilisi ja kombinatoorseid meetodeid.<br />

Süntagmaatiliste suhete tuvastamiseks puhtstatistiliste meetoditega on välja töötatud<br />

ja testitud eri tüüpi statistikuid. Töös katsetasin t-skoori, vastastikuse informatsiooni<br />

väärtuse (MI), MI 3 -skoori, log-tõepära funktsiooni, minimaalse tundlikkuse ja<br />

esilduvuse (logDice) statistikute sobivust eesti keele sisusõnade süntagmaatiliste<br />

suhete tuvastamiseks. Katsed näitasid, et eesti keele jaoks saavutavad paremad<br />

tulemused eelkõige MI 3 -skoori, minimaalse tundlikkuse ja esilduvuse (logDice)<br />

126


statistikud ning halvemad tulemused on MI, t-skoori ja log-tõepära funktsiooni<br />

statistikutel.<br />

Sisusõnade süntagmaatiliste suhete süstemaatilisemat analüüsi võimaldavad<br />

meetodid, mis kombineerivad statistilist ja reeglipõhist lähenemist. Väitekirjas olen<br />

seda tüüpi meetodina rakendanud sõnavisandite grammatika meetodit (Kilgarriff jt<br />

2004). Selle meetodi järgi otsib arvutiprogramm spetsiaalse grammatika abil eri<br />

sõnaliikide süntagmaatilisi suhteid, töötleb neid statistiliselt ja teeb kasutaja jaoks<br />

kompaktse kokkuvõtte sõna kollokatiivsest ja süntaktilisest käitumisest.<br />

Grammatika formalismi reeglid on regulaaravaldised, mille atribuudid on<br />

sõnavorm, lemma, sõnaliik ja muutetunnused.<br />

Väitekirjas esitan morfoloogilise analüsaatori ESTMORF (Kaalep 1998)<br />

märgendussüsteemi põhjal koostatud eesti keele sõnavisandite grammatika ja<br />

katsetan seda leksikograafilise tarkvara Sketch Engine toel.<br />

Sõnavisandite grammatika aluseks on eesti keele traditsiooniliste (Rätsep 1978;<br />

Tauli 1980; EKG 1993; Kerge 2000; Erelt jt 2007) ja formaalsete (Müürisep 2000;<br />

Puolakainen 2001; Roosmaa jt 2001) grammatikakirjelduste põhjal koostatud eesti<br />

substantiivide, adjektiivide, adverbide ja verbide süntagmaatiliste suhete tüüpide<br />

nimestik. Korpusanalüüsi tarvis olen suhete tüüpe kirjeldanud vormiklasside<br />

(sõnaliikide, fraasitüüpide) ja morfosüntaktiliste kategooriate kaudu. Selliseid<br />

kirjeldusi nimetan töös leksikogrammatilisteks konstruktsioonideks. Kokku olen<br />

välja toonud 32 substantiivi, adjektiivi, adverbi ja verbi leksikogrammatilist<br />

konstruktsiooni, mille tuvastamiseks olen koostanud 71 reeglit, mille hulgas on 4<br />

symmetric-tüüpi, 62 dual-tüüpi ja 5 trinary-tüüpi reeglit (vt Lisa 1).<br />

Substantiivide sõnavisandites tulevad reeglite Adj_modifier/modifies,<br />

Adj_comp_modifier/modifies, Adj_sup_modifier/modifies, Adj_käändumatu_modifier/<br />

modifies; participle_modifier; omastav_modifier/omastav_modifies,<br />

osastav_modifier/osastav_modifies, sisseütlev_modifier, seesütlev_modifier,<br />

seestütlev_modifier, alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier,<br />

saav_modifier, rajav_modifier, olev_modifier, ilmaütlev_modifier,<br />

kaasaütlev_modifier; ordinal_modifies/modifier, cardinal_modifies/modifier;<br />

Adv_modifier/N_modifies; Pron_modifier/modifies; N_PP; N_Vma, N_Vda;<br />

kõrvallause; predicate_N/predicate_N_of, predicate_Adj/predicate_Adj_of; ja/või,<br />

kui/nagu toel esile otsisõna adjektiivsed, partitsiipsed, substantiivsed, adverbilised,<br />

pronominaalsed kaasmoodustajad, laiendi funktsioonis esinevad<br />

adpositsioonifraasid ja infiniitverbid, laiendliikmeks olevate kõrvallausete alguses<br />

asuvad sidendid, predikatiivid ning rinnastus- ja võrdlustarindid. Lisaks<br />

tuvastatakse, milliste verbidega esineb otsisõna subjekti, objekti ja adverbiaali<br />

funktsioonis.<br />

Adjektiivide sõnavisandites tulevad reeglite Adj_modifier/Adj_modifies;<br />

omastav_modifier, sisseütlev_modifier, seesütlev_modifier, seestütlev_modifier,<br />

alaleütlev_modifier, alalütlev_modifier, alaltütlev_modifier, saav_modifier,<br />

rajav_modifier, olev_modifier, ilmaütlev_modifier, kaasaütlev_modifier;<br />

127


Adv_modifier/Adj_modifies; Adj_PP; Adj_Vma, Adj_Vda; kõrvallause; ja/või,<br />

kui/nagu toel esile otsisõna adjektiivsed, substantiivsed, adverbilised<br />

kaasmoodustajad, laiendi funktsioonis esinevad adpositsioonifraasid ja<br />

infiniitverbid, laiendliikmeks olevate kõrvallausete alguses asuvad sidendid ning<br />

rinnastus- ja võrdlustarindid.<br />

Adverbide sõnavisandites tulevad reeglite Adv_modifier/ Adv_modifies;<br />

omastav_modifier, osastav_modifier, seestütlev_modifier, saav_modifier,<br />

rajav_modifier, olev_modifier, kaasaütlev_modifier; Adv_PP; kõrvallause; ja/või,<br />

kui/nagu toel esile otsisõna adverbilised ja substantiivsed kaasmoodustajad, laiendi<br />

funktsioonis esinevad kaassõnafraasid, laiendliikmeks olevate kõrvallausete alguses<br />

asuvad sidendid ning rinnastus- ja võrdlustarindid.<br />

Verbide sõnavisandites tulevad reeglite subject/subject_of, object/object_of;<br />

adverbial_sisseütlev, adverbial_seesütlev, adverbial_seestütlev, adverbial_alaleütlev,<br />

adverbial_alalütlev, adverbial_alaltütlev, adverbial_saav, adverbial_rajav,<br />

adverbial_olev, adverbial_ilmaütlev, adverbial_kaasaütlev; predicate_Adj_saav/<br />

predicate_Adj_saav_of, predicate_Adj_olev/predicate_Adj_olev_of; Adv_modifier/<br />

V_modifies; V_PP; V_Vma, V_Vmaks, V_Vmast, V_Vmas, V_Vmata, V_Vda,<br />

V_Vdes; kõrvallause; ja/või, kui toel esile konkreetse verbi substantiivsed,<br />

adjektiivsed ja adverbilised kaasmoodustajad, laiendi funktsioonis esinevad<br />

adpositsioonifraasid ja infiniitverbid, laiendliikmeks olevate kõrvallausete alguses<br />

asuvad sidendid ning rinnastus- ja võrdlustarindid. Verbi ja selle substantiivsete<br />

laiendite grammatilisi suhteid on nimetatud sõnavisandite grammatikas<br />

morfosüntaktiliste kategooriate terminites. Eristatud on subjekt, objekt ja<br />

adverbiaal.<br />

Sõnavisandite grammatika reeglite afiksaaladverb/afiksaaladverb_of, ühendverb ja<br />

väljendverb abil on võimalik tuvastada ka väljend-, ühend-, ahelverbe ja<br />

tugiverbiühendeid. Omaette kategooriana tuvastab programm translatiivis ja essiivis<br />

esineva adjektiivi ja verbi (nt hulluks minema) ning verbi ja X-iks märgendatud sõna<br />

ühendeid (nt tähele panema). Väljendverbide ja tugiverbiühendite noomenitest<br />

komponendid tulevad esile verbi objekti (nt juttu ajama, läbirääkimisi pidama) või<br />

adverbiaalina (nt kokkuleppele jõudma, järeldusele jõudma). Ahelverbide<br />

komponentidena esinevaid infiniitverbe tuvastab süsteem reegli V_Vma abil.<br />

Ühendverbe moodustavaid afiksaaladverbe tuvastatakse etteantud loendi alusel.<br />

Loendis on sellised afiksaaladverbi funktsioonis esinevad sõnad nagu alla, alt, edasi,<br />

eemale, esile, ette, juurde, järele, kaasa, katki, kinni, kokku, kõrvale, külge, lahku,<br />

lahti, laiali, ligi, läbi, maha, mööda, otsa, peale, pealt, püsti, ringi, sisse, taga, tagant,<br />

tagasi, tarvis, täis, vahele, valmis, vastu, välja, ära, üle, üles, üleval, ümber.<br />

Lisaks sisaldab sõnavisandite grammatika 14 unary-tüüpi reeglit, mis võimaldavad<br />

analüüsida substantiivide ja adjektiivide morfoloogiliste vormide kasutussagedust.<br />

See info on abiks grammatikaliseerunud ja leksikaliseerunud sõnavormide<br />

uurimisel, aga ka vormimoodustusinfo esitamisel õppesõnastikes. Nendele<br />

andmetele toetudes saab teha valiku, mis morfoloogilisi vorme esitada, et mitte<br />

128


õpetada kasutajale grammatiliselt korrektseid, aga tegelikus keeles mitte<br />

kasutatavaid vorme.<br />

Sõnavisanditest koorub välja sõna esialgne leksikaalne profiil, mille alusel saab<br />

leksikograaf sõnaraamatu artikleid koostada. Tarkvarasüsteem Sketch Engine<br />

võimaldab sorteerida tulemusi nii koosesinemise sageduse kui ka esilduvuse<br />

(logDice) järgi. Koosesinemise sagedus toob ootuspäraselt esile kollokaadid,<br />

millele on iseloomulik kõrge eraldiesinemise sagedus. Esilduvus eelistab selliseid<br />

ühendeid, mille kollokaatide eraldiesinemise sagedus on korpuses üsna madal.<br />

Seega võimaldab esilduvus esile tuua harvemad konstruktsioonid.<br />

Eesti keele sõnavisandite kvantitatiivsel evalveerimisel kasutasin Kilgarriffi jt<br />

(2010a) väljatöötatud meetodit, milles palutakse leksikograafidel hinnata<br />

sõnavisandi iga tuvastatud kollokaadi leksikograafilist väärtust kaheastmelisel<br />

skaalal hea–halb. Hea ehk leksikograafiliselt relevantne kollokaat peab vastama<br />

sellistele kriteeriumidele nagu tähenduslikkus, terviklikkus ja kasulikkus sõna<br />

semantika ja grammatika uurimisel. Halb ehk leksikograafiliselt irrelevantne<br />

kollokaat on ilmselgelt vigane, st kollokatsioonil ei ole mingit tähendust või<br />

leksikograaf arvab, et tuvastatud kollokatsioon ei oma leksikograafilist väärtust.<br />

Evalveerimises osales 7 leksikograafi, kes hindasid 16 sõna 20 sagedamat<br />

kollokaati. Tulemuste hindamiseks kasutasin sellist näitajat nagu täpsus.<br />

Programmi evalveerimise käigus hindas enamik leksikograafe heaks 70% (kokku<br />

222 kollokaati) 320 kollokaadist. 8% kollokaatide puhul oli enamik leksikograafe<br />

ühel meelel, et tegemist on hea kollokaadiga, kuid väiksem osa evalveerijatest pidas<br />

samu kollokaate halvaks. Negatiivse hinnangu halb sai 71 kollokaati ehk 22%<br />

üldarvust.<br />

Evalveerimise tulemuste analüüs osutas, et eriarvamusel olid leksikograafid<br />

eelkõige nende kollokaatide suhtes, mille tekstiliigiline markeeritus oli väga tugev,<br />

st kollokaat illustreeris sõna kasutust mingis konkreetses allkorpuses (nt riigikogu<br />

stenogrammide 1995–2001. a tekstides). Sellest võib järeldada, et sõnavisandite<br />

evalveerimisel on otsustava tähtsusega ka selle korpuse sisu, mille põhjal on<br />

sõnavisandid genereeritud. Teine lahkarvamusi tekitav põhjus oli kollokaatide<br />

lemmale viimine, mis mõnikord muudab tuvastatud kollokatsiooni arusaamatuks<br />

ühendiks, nt täis raud, mille taga on tegelikult püsiväljend täie rauaga ‘nagu vähegi<br />

võimalik’. Need tähelepanekud osutavad, et edaspidi tasub eesti keele puhul<br />

kaaluda sõnavisandite sõnavormipõhist, mitte ainult lemmapõhist genereerimist.<br />

Suurema osa halvaks hinnatud tuvastatud üksustest põhjustasid sõnaliigi<br />

märgendamise ja lemmatiseerimise käigus tekkinud vead, mitmesõnaliste üksuste<br />

poolik tuvastamine ja reeglite seisukohalt õigesti tuvastatud, kuid leksikograafiliselt<br />

irrelevantseteks hinnatud eri tüüpi (ase)määrsõnalised laiendid.<br />

Programmi 70% täpsus osutab, et töös kasutatud meetod, mis kombineerib<br />

süntagmaatiliste suhete tuvastamisel statistilist ja reeglipõhist lähenemist, toimib.<br />

Edaspidi võimaldab sisendkorpuse täiendav märgendamine, eelkõige perifrastiliste<br />

129


verbide, fraasipiiride ning süntaktiline märgendamine, seda tulemust oluliselt<br />

parandada.<br />

Töös olen analüüsinud sisusõnade süntagmaatiliste suhete esitust tänapäeva<br />

leksikograafilistes andmebaasides ja õppesõnastikes, eraldi olen uurinud, kuidas ja<br />

milleks kasutatakse kombinatoorsete meetoditega (eelkõige sõnavisandite põhjal)<br />

saadud andmeid süntagmaatiliste õppesõnastike ja andmebaaside koostamisel.<br />

Tänapäeva inglise keele süntagmaatiliste sõnastike (MCD, OCDSE) analüüs osutas<br />

tendentsile loobuda leksikaalsete kollokatsioonide ja grammatiliste suhete<br />

eristamisest. Süntagmaatilisi suhteid kirjeldatakse õppesõnastikes teatud<br />

leksikogrammatiliste mallidena ja defineeritakse eelkõige sõnaliigi terminites, nt<br />

adj+N ‘adjektiiv + substantiiv’, verb+prep+noun ‘verb + prepositsioon +<br />

substantiiv’. Selline lähenemine võimaldab paremini kasutada<br />

korpusleksikograafilise analüüsi tulemusi. Kuna opereeritakse ühtede<br />

kategooriatega, on saanud võimalikuks tuvastatud üksuste poolautomaatne<br />

talletamine õppeleksikograafilistesse andmebaasidesse ja kollokatsioonisõnastikesse.<br />

Uued suunad süntagmaatiliste sõnastike koostamisel on sõnastike<br />

korpuspõhine automaatne genereerimine ja integratiivsete päringusüsteemide<br />

loomine (nt Tono 2011), kus üksuste valikul ei lähtuta ainult leksikograafilise<br />

tarkvara abil saadud andmetest, vaid analüüsi kaasatakse ka teisi allikaid, nt<br />

keeleoskustasemete sõnavaraloendeid ja õppetekste.<br />

Eesti leksikograafias ei ole eraldi kollokatsioonisõnaraamatute koostamise<br />

traditsiooni, leksikaalseid koosesinemisi esitatakse eesti keele üks- ja<br />

mitmekeelsetes sõnastikes üldjuhul kasutusnäidete tasandil, mitte süstemaatilise<br />

info osana. Teiselt poolt on pikk rektsioonisõnastike ja -valimike koostamise<br />

traditsioon, ulatudes 20. sajandi algusesse, mil eri sõnaliikide rektsioone esitati<br />

sõnastike lisana (Käbin, Pekarsky 1923), omaette abiraamatuna (Rajamaa 1936) või<br />

õigekeelsuse õpiku ja grammatika (Aavik 1936) osana. Ka 20. sajandi teisel poolel<br />

on rektsioonivalimik traditsiooniline eesti keele õpikute ja grammatikate osa (vt nt<br />

Vääri 1969: 91–92; Tauli 1980: 330–339; Erelt 2006: 35–40). Väitekirjas olen<br />

analüüsinud rektsioonistruktuuride valikut ja esitusviise Pooli (1999), Vaissi<br />

(2004), UNG-EE (2010) ja Mäearu (2011) sõnastikes. Rektsioonistruktuure<br />

esitatakse sõnastikes kas kodeeritud metakeeles (Vaiss 2004; UNG-EE 2010) või<br />

näitekonstruktsioonide vahendusel (Pool 1999; Mäearu 2011). Näitekonstruktsioone<br />

moodustatakse käändeküsimuste (armuma kellesse-millesse, kompetentne milles,<br />

hoolimata millest), infinitiivide (minema mida tegema, õigus mida teha), supiini<br />

käändevormide (käima mida tegemas) ja kaassõnaühendite (hoolitsema kelle-mille<br />

eest, vajadus mille järele) abil. Vaissi (2004) sõnastiku kirjeldusobjektiks on verbi<br />

objektirektsioon, UNG-EE (2010), Pooli (1999) ja Mäearu (2011) sõnastikes<br />

kirjeldatakse verbi objekti-, käände-, kaassõna-, tegevusnime- ja üldist<br />

asendusrektsiooni. Mäearu (2011) sõnastikus on esitatud lisaks substantiivide,<br />

adjektiivide, adverbide ja adpositsioonide rektsioonistruktuurid: substantiividel on<br />

näidatud käände-, kaassõna-, tegevusnime- ja substitutsioonirektsioon;<br />

130


adjektiividel – käände-, kaassõna- ja tegevusnimerektsioon; adverbidel ja<br />

adpositsioonidel – käänderektsioon.<br />

Väitekirja raames olen välja töötanud uut tüüpi eesti keele süntagmaatilise<br />

õppesõnastiku kontseptsiooni, mille eesmärk on mitte ainult rektsioonistruktuuride<br />

eksplitsiitne esitamine, vaid ka leksikaalsete kollokatsioonide ja eri tüüpi<br />

püsiühendite süstemaatiline esitamine. Seda tüüpi õppesõnastiku näiteks on eesti<br />

keele põhisõnavara sõnastik (PSV, ilmumas 2013). PSV sihtgrupp on A2- ja B1tasemete<br />

keeleõppijad ja märksõnade arv on ca 4500. Sõnastiku koostamise<br />

põhimõtteid võib pidada prototüüpseteks, nii et neid saab rakendada edaspidi ka<br />

teiste õppeleksikograafiliste andmebaaside ülesehitamisel ja eesti keele kui teise<br />

keele õppesõnastike koostamisel.<br />

Põhisõnavara sõnastiku XML-skeemis on eraldi rektsiooni-, kollokatsiooni- ja<br />

ühendite plokk.<br />

Rektsiooniploki põhielemendid on rektsioonigrupp, rektsioon ja kasutusnäited<br />

(näide ja selle seletus). Rektsioonigrupil on atribuut @c:koht ‘eel/järelrektsioon’,<br />

mis võimaldab määrata rektsiooni asukoha põhja suhtes. Rektsioonil endal on kolm<br />

atribuuti: @c:fak ‘fakultatiivne laiend’ – võimaldab määrata, kas tegemist on<br />

obligatoorse või fakultatiivse laiendiga; atribuut @c:var ‘variant’ – võimaldab<br />

esitada koos üht semantilist funktsiooni täitvaid rektsioonistruktuure; atribuut<br />

@c:rliik ‘rektsiooniliik’ – võimaldab määrata iga rektsioonistruktuuri liigi.<br />

Rektsiooniliikidena on esitatud objektirektsioon, käänderektsioon,<br />

kaassõnarektsioon, tegevusnimerektsioon, lausungirektsioon ja üldine<br />

asendusrektsioon. Selline PSV andmebaasi ülesehitus võimaldab<br />

rektsioonistruktuure esitada süstemaatiliselt, määrates nende asukoha põhja suhtes,<br />

fakultatiivsuse ja tüübi. Lisaks järgneb igale rektsioonistruktuurile selle<br />

kasutusnäide.<br />

Kollokatsiooniploki põhielemendid on kollokatsioonigrupp, kollokatsioonirühm,<br />

kollokatsioon ja kasutusnäited (näide ja selle seletus). Kollokatsioonigrupil on vaid<br />

üks atribuut @c:kliik ‘kollokatsiooniliik’. PSV andmebaasis on kolmteist<br />

kollokatsiooniliiki, mis on kirjeldatud vormiklasside ja morfosüntaktiliste<br />

kategooriate kaudu, nt Adv+V ‘adverb + verb’.<br />

Ühendite ploki põhielemendid on ühendigrupp, ühend ja kasutusnäited (näide ja<br />

selle seletus). Ühendil on vaid üks atribuut @c:yk ‘ühendi kood’. PSV andmebaasis<br />

esitatakse selles plokis perifrastilisi verbe, st ühend-, väljend-, ahelverbe ja<br />

tugiverbiühendeid.<br />

Andmebaasi selline ülesehitus tagab süntagmaatiliste üksuste süstemaatilise<br />

esitamise ja avab võimalusi sõnastiku materjali taaskasutamiseks. Nii saab<br />

andmebaasi alusel genereerida nt eraldi rektsiooni-, kollokatsiooni- ja perifrastiliste<br />

verbide sõnastikud (vt lähemalt Kallas, Langemets 2012). Teiselt poolt võimaldab<br />

see teha erinevaid liht- ja komplekspäringuid, näiteks saab korraga valida kõik<br />

verbid, millele on omane infinitiivirektsioon, või substantiivid, mis kollokeeruvad<br />

131


adverbidega jne. Neid andmeid saab kasutada eri tüüpi lingvistilise suunitlusega<br />

uurimistöös.<br />

Väitekirjas analüüsin eesti keele sõnavisandite kasutamise võimalusi PSV<br />

koostamisel. Toon välja, mis reeglite toel saab konkreetseid rektsioonistruktuure,<br />

kollokatsioonitüüpe ja püsiühendite liike tuvastada. Lisaks analüüsin sõnavisandite<br />

kasutust sisusõnade semantika, täpsemalt tähendusjaotuse ja laiendite semantiliste<br />

rollide uurimisel. Tähendusjaotuste ja laiendite semantiliste rollide<br />

sõnavisandipõhisel uurimisel eristan kaht põhilist etappi: esiteks tuleb semantilised<br />

rollid identifitseerida (sõnavisandites esile tulnud grammatiliste kategooriate<br />

põhjal), seejärel analüüsida ja kategoriseerida nende leksikaalsed realisatsioonid, st<br />

sõnavisandis esitatud konkreetsed sõnad. Uurimiskäiku illustreerin liikumisverbi<br />

saabuma sõnavisandi põhjal. Uurimus näitas, et verbi saabuma sagedamad laiendite<br />

semantilised rollid on SIHTKOHT, AEG, VAHEND, KAASNEJA ja LÄHTEKOHT.<br />

Seejuures on oluline märkida, et pakutud meetod sobib vaid esialgsete järelduste<br />

tegemiseks (statistilisele töötlusele tuginedes saab andmeid eelkõige sagedamini<br />

esinevate üksuste kohta). Teiseks tuleb korpusandmete analüüsi tulemuste<br />

interpreteerimisel alati silmas pidada, et tulemus on korrelatsioonis sisendteksti<br />

sisuga. Näiteks, kui tegemist on ajakirjandustekstide korpusega, siis on tulemus<br />

vältimatult kallutatud ja statistiline analüüs peegeldab verbide distributiivseid<br />

omadusi just selles allkeeles.<br />

Peale PSV andmebaasi mudeli olen välja töötanud ka süntagmaatiliste üksuste<br />

valikukriteeriumid konkreetsetele keeleoskustasemetele suunatud eesti keele<br />

õppesõnastike jaoks. Süntagmaatiliste üksuste valikul on aluseks 1) ametlikes<br />

keeleoskustasemete formaalsetes kirjeldustes esitatud nõuded (eelkõige sõnavara- ja<br />

grammatikapädevuse osas); 2) andmed süntagmaatilist üksust moodustavate sõnade<br />

esinemusest keeleoskustasemete sõnavaraloendites; 3) statistilise töötluse andmed<br />

(eelkõige koosesinemise sagedus ja esilduvuse väärtus). Töös olen neid kriteeriume<br />

rakendanud eesti keele põhisõnavara sõnastiku näitel.<br />

A2- ja B1-keeleoskustasemete formaalsetes kirjeldustes esitatud nõudmiste analüüs<br />

näitas, et süntagmaatiliste suhete esitamisel õppesõnastikus peaks tähelepanu<br />

pöörama eelkõige rektsioonistruktuuride (st verbi objekti-, infinitiivi-, käände-,<br />

kaassõna- ja sidendirektsioonile), kollokatsioonide ja perifrastiliste verbide<br />

(eelkõige väljend- ja ühendverbide) esitamisele. Lähtudes „Eesti keele<br />

funktsionaalse keeleoskuse määratlemises” esitatud andmetest, mille kohaselt<br />

ulatub eesti keelt algtasemel valdava inimese sõnavara 1500–2000 sõnani, keelt<br />

kesktasemel valdava inimese oma aga umbes 5000 sõnani (Kerge 1996), saab<br />

A2-tasemega keeleõppijatele suunatud sõnastike koostamisel toetuda Kerge jt<br />

(2008) ning Ehala jt (1997) koostatud sõnavaraloenditele. B1- ja B2-taseme jaoks ei<br />

ole seni eraldi loendit koostatud. Selle taseme sõnavaraloendina on võimalik<br />

käsitleda PSV märksõnade loendit (ca 4500 sõna) (vt lähemalt Kallas, Tuulik<br />

2011). Juhul, kui sõna ei kuulu PSV märksõnade loendisse, ei kasutata seda<br />

definitsiooni ja näitelausete ega süntagmaatiliste suhete esitamise tasandil. Selline<br />

filter aitab vältida harvem esinevate sõnade sattumist sõnastiku artiklitesse. Kui<br />

132


keeleõppija peaks puutuma kokku tema jaoks võõra sõnaga, on võimalus selle sõna<br />

tähendust samast sõnastikust järele vaadata. Statistiliste andmete (koosesinemise<br />

sageduse ja esilduvuse) võrdlus näitas, et koosesinemise sagedusega esile tulnud<br />

ühendid sobivad algajale keeleõppijale mõeldud sõnastikus esitamiseks. Samas B2-<br />

ja C1-tasemel tuleks tähelepanu pöörata eelkõige kõrge esilduvusega ühenditele.<br />

Nende kriteeriumide jälgimine süntagmaatiliste üksuste valikul tagab sõnastiku<br />

leksikaalse profiili vastavuse konkreetse keeleoskustasemega õppijate vajadusele ja<br />

võimaldab esitada süntagmaatilisi üksusi astmeliselt vastavalt sõnastiku sihtgrupi<br />

keeleoskustasemele.<br />

6.2. UURIMISTÖÖ EDASISED ARENGUSUUNAD<br />

Töö arengusuunad on seotud eesti keele keeletehnoloogilise arenguga üldiselt.<br />

Eelkõige puudutab see korpuslingvistiliste analüsaatorite (sh süntaksi ja semantika<br />

parserite) arengut ja uute korpuste loomist. Ideaalis peaks leksikograafidel olema<br />

võimalik toetuda materjali valikul nii kirjalike tekstide kui ka suulise kõne<br />

korpustele. Vajalikud on representatiivsed ja balansseeritud korpused, milles<br />

oleksid esindatud eri tüüpi tekstiklassid, millega keeleõppija tõenäoliselt<br />

igapäevaselt kokku puutub. Algtasemel on nendeks eelkõige erinevat tüüpi<br />

tarbetekstid, kesk- ja kõrgtasemel suureneb oluliselt ajakirjanduslike ning<br />

ilukirjanduslike tekstide osakaal. Selliste korpuste koostamisel võib toetuda nt<br />

prantsuse keele õppeotstarbelise sagedussõnastiku (Londsale, Le Bras 2009) jaoks<br />

koostatud korpuse kontseptsioonile. Selle korpuse suurus on 23 miljonit sõna,<br />

millest poole moodustavad suulise kõne ja poole kirjaliku kõne korpused. Suulise<br />

kõne korpuse tekstiklassid on vestlused, parlamendikõned, telefonikõned,<br />

intervjuud, dialoogid, monoloogid ja filmide pealelugemised. Kirjaliku kõne<br />

korpuses on esindatud ajakirjanduslikud, ilukirjanduslikud, populaarteaduslikud<br />

tekstid ja eri tüüpi tarbetekstid (manuaalid, kuulutused jm). Õppesõnastike<br />

koostamisel tuleks analüüsi kaasata ka õppijakorpuse andmestik. Suurte<br />

sõnaraamatute koostamiseks, nagu nt üheköiteline eesti keele sõnaraamat<br />

(Langemets jt 2010), oleks vaja suurt ilukirjandustekstide korpust.<br />

Vastavate parserite olemasolul saaks sõnavisandeid genereerida nii morfoloogiliste<br />

märgendite kui ka süntaktiliste ja semantiliste märgendite alusel. Inglise keele<br />

baasil on selliseid katseid juba tehtud ja meetodi efektiivsus on ilmne (McCarthy,<br />

Reddy 2011b; Reddy jt 2012; Kilgarriff jt 2012b). Süntaktiliste (eelkõige<br />

süvasüntaktiliste) ja semantiliste parserite kasutus korpusandmete automaattöötlusel<br />

avab korpusleksikograafia jaoks uusi perspektiive, võimaldades korpusandmete<br />

kompaktsemat kirjeldamist. Semantiline parser aitaks lahendada polüseemia<br />

probleemi, nt genereerides sõna hiir sõnavisandit, otsiks arvuti eraldi kollokaate<br />

sõna hiir tähenduses ‘loom’ ja hiir tähenduses ‘instrument’ jaoks.<br />

Oluline arengusuund on sõnavisandite grammatika täiendamine ja selle metakeele<br />

(näiteks grammatiliste kategooriate nimetuste) lihtsustamine. Tuleb täpsustada<br />

kontekstitingimusi, koostada täiendavaid leksikone ja uurida eri grammatiliste<br />

133


suhete jaoks optimaalset sõnadevahelist distantsi. Sõnavisandites välja toodud<br />

leksikogrammatiliste konstruktsioonide loendi koostamisel lähtusin eelkõige<br />

traditsioonilise grammatika substantiivi-, adjektiivi-, adverbi- ja verbisüntaksi<br />

kirjeldustest. Seega on tähelepanu keskmes sellised struktuurid, mis on määratud<br />

sõnade sõnaliigilise kuuluvusega. Edaspidi tuleks uurida konkordantsiridade alusel,<br />

mis tüüpi ebareeglipäraseid produktiivseid konstruktsioone saaks korpustest otsida.<br />

Kindlasti tuleb täiendada konstruktsioonide nimestikku ja lisada kolmeliikmelisi<br />

konstruktsioone. Näiteks Hunstoni ja Francise mallide grammatikas on verbide,<br />

substantiivide ja adjektiivide jaoks tuvastatud kokku 83 malli, mis sisaldavad väga<br />

palju just kolmeliikmelisi konstruktsioone, nt selliseid, kus verbile järgneb<br />

noomenifraas ja sellele omakorda substantiivi-, adjektiivi-, adpositsiooni- või<br />

adverbifraas, kõrvallause või infiniittarind, nt ‘V n n’ (I wrote him a letter),<br />

‘V n inf’ (She heard the man laugh), ‘V n prep/adv’ (Andrew chained the boat to<br />

the bridge), lisaks on terve hulk malle, mis algavad sõnaga it ‘see’, nt ‘it V clause’<br />

(It doesn’t matter what you think) jt (2000: 51–58). Erinevaid kolme- ja<br />

neljaliikmelisi konstruktsioone oleks võimalik tuvastada sõnavisandite grammatikas<br />

colloc-tüüpi reeglitega. Tuvastada saaks selliseid substantiivse põhjaga<br />

sõnakolmikuid ja -nelikuid nagu uue aja kombed, luteri usu kirik; saja meetri jooks,<br />

kahe päeva toit; kolme meetri pikkune; keskmist kasvu mees, esimest aastat õpetaja,<br />

pikemat aega meister; kõrge kontsaga kingad, kuni kümme meetrit lai tee, üle valla<br />

kuulus sepp. Seda tüüpi ühendeid ja nende moodustusstruktuuri on põhjalikult<br />

analüüsinud Tauli (1980). Edaspidi tuleks Tauli grammatika sellest vaatenurgast<br />

läbi vaadata, ja selgitada kõik võimalikud kolmest ja neljast sõnast koosnevad<br />

moodustusstruktuurid.<br />

Sõnavisandite põhjal saab edaspidi demosõnastiku Forbetterenglish.com eeskujul<br />

genereerida korpuspõhiselt ka eesti keele süntagmaatilisi andmebaase, kus oleksid<br />

esitatud kollokatsioonid ja rektsioonistruktuurid koos näitelausetega. Selline<br />

rakendus eeldab aga Good Dictionary Example (GDEX) (Kilgarriff jt 2008a)<br />

funktsiooni edasiarendamist. See on kindlasti üks huvitavamaid valdkondi, kuna on<br />

vaja välja selgitada parameetrid, mille järgi saaks arvuti hinnata korpuslausete<br />

sobivust sõnastiku näitelauseteks.<br />

Üheks huvitavaks väljakutseks on eesti leksikograafia jaoks ka lausepõhiste<br />

sõnastike ja andmebaaside koostamine. Eeskujuks on nt Hanksi (2008) ja Babenko<br />

jt (2002) sõnaraamatud, samuti verbide argumentstruktuuri kirjeldavad<br />

andmebaasid LexIt 51 ja VALEX 52 .<br />

Kuna tänapäeva leksikograafias on üheks tendentsiks leksikograafilist tööd<br />

toetavate eri tüüpi programmide integreerimine (Kilgarriff, Kosem 2012d), siis<br />

tulevikus võiks kaaluda sõnastikusüsteemi EELex ja Sketch Engine’i taoliste<br />

programmide integreerimist.<br />

51 LexIt http://sesia.humnet.unipi.it/lexit/ (15.09.12).<br />

52 VALEX http://www.cl.cam.ac.uk/~alk23/subcat/lexicon.html (15.09.12).<br />

134


Sõnavisanditel on suur potentsiaal ka kõrvutavas ja kontrastiivses leksikograafias.<br />

Kakskeelsete ja mitmekeelsete sõnastike koostamisel saab Sketch Engine’i<br />

vahendusel lähtuda tähendusjaotuste piiritlemisel ja infoüksuste valikul eri keelte<br />

sõnavisanditest, võrreldes neid ja selgitades erinevusi ning sarnasusi sõnade<br />

kollokatiivses ja süntaktilises käitumises. See arengusuund haakub otseselt ka<br />

õppesõnastike koostamiseks sobivate suulise ja kirjaliku keele (paralleel)korpuste<br />

puudumise probleemiga.<br />

Oluliseks arengusuunaks on täiuslikumate leksikograafiliste andmebaaside<br />

koostamise põhimõtete väljatöötamine. Nii et analüüsitud ja kirjeldatud saaksid<br />

mitte ainult leksikogrammatilised konstruktsioonid, aga ka sõnade semantilised<br />

funktsioonid. Töö raames välja töötatud eesti keele süntagmaatiliste suhete<br />

süstemaatilist õppeleksikograafilist kirjeldamist võimaldav eesti keele põhisõnavara<br />

sõnastiku XML-põhise andmebaasi ülesehitus toetab vaid morfosüntaktilisel<br />

tasandil tuvastatavate leksikogrammatiliste konstruktsioonide esitamist. Edaspidi<br />

tuleb luua täiendavaid võimalusi ka semantilise info esitamiseks. Seda infot saaks<br />

tulevikus rakendada eri tüüpi leksikaalsemantiliste andmebaaside loomisel, nagu on<br />

nt PropBank (Palmer jt 2005), VerbNet (Kipper Schuler 2005) ja FrameNet<br />

(Ruppenhofer jt 2010). Lisaks saab programmi väljundit kasutada nt korpuspõhise<br />

grammatika koostamisel (vrd nt Biber jt 2002).<br />

Uurimistöö olulisimaks rakenduseks on töös esitatud põhimõtete järgi koostatud<br />

õppesõnastike sari. A2-, B1-tasemele suunatud „Eesti keele põhisõnavara sõnastik”<br />

ilmub 2013. aastal, järgmisena on plaanis koostada B2- ja C1-tasemele mõeldud<br />

õppesõnastik. Tulemuseks peaks olema õppesõnastike komplekt, mis, esitades<br />

eksplitsiitselt sõnade süntagmaatilisi ja leksikaalsemantilisi suhteid, aitaks<br />

keeleõppijal korrektseid eestikeelseid tekste produtseerida. Siinne töö analüüsib<br />

sõnastike potentsiaali keeleõppijate sõnavara- ja grammatikapädevuse arendamisel.<br />

Üks huvitavamaid valdkondi, millega tuleks edaspidi tegelda, on aga teiste<br />

suhtluspädevuse komponentide (eelkõige sotsiolingvistilise ja pragmaatilise<br />

pädevuse) ja ka üldpädevuse (sotsiokultuurilised teadmised, kultuuriteadlikkus jne)<br />

arendamine õppesõnastike infoüksuste kaudu. Üks võimalikke uurimistöö<br />

arengusuundi on elektroonilise õppekeskkonna loomine, milles oleksid koondatud<br />

eri tasemetele mõeldud omavahel lingitud leksikograafilised ressursid, nii et<br />

kasutaja saaks tuge nii eestikeelse teksti mõistmisel kui ka loomisel.<br />

135


VIITEALLIKAD<br />

AAVIK, J. 1936. Eesti õigekeelsuse õpik ja grammatika. Tartu: Noor-Eesti.<br />

APRESJAN 1995 = Апресян, Ю. Д. Избранные труды, том I. Лексическая семантика:<br />

синонимические средства языка. 2-е изд., испр. и доп. Москва.<br />

ATKINS, B. T. S. 2002. Bilingual dictionaries – Past, present and future. – M-H. Corréard<br />

(ed.). Lexicography and natural language processing: A festschrift in honour of<br />

B. T. S. Atkins. Euralex, 2–29.<br />

ATKINS, B. T. S., RUNDELL, M., SATO, H. 2003. The contribution of FrameNet to<br />

practical lexicography. – International Journal of Lexicography, 3, 333–357.<br />

ATKINS, B. T. S., RUNDELL, M. 2008. The Oxford guide to practical lexicography.<br />

Oxford: Oxford University Press.<br />

ATKINS, B. T. S., KILGARRIFF, A., RUNDELL, M. 2010. The DANTE database<br />

(Database of Analysed Texts of English). – A. Dykstra, T. Schoonheim (eds.). Proceedings<br />

of the XIV EURALEX international congress. Leeuwarden/Ljouwent: Fryske Akademy,<br />

293–295.<br />

AVERINA jt 1996 = Аверина, С. А. и др. Прикладное языкознание: учебник. Санкт-<br />

Петербург: Издательство Санкт-Петербургского университета.<br />

BABENKO jt 2002 = Русские глагольные предложения: Экспериментальный<br />

синтаксический словарь. Под ред. проф. Л. Г. Бабенко. Москва: Флинта.<br />

BARTSCH, S. 2004. Structural and functional properties of collocations in English. A<br />

corpus study of lexical and pragmatic constraints on lexical co-occurrence. Tübingen:<br />

Verlag Gunter Narr.<br />

BBI 2010 = Benson, M., Benson, E., Islon, R. 2010 [1984, 1997]. The BBI combinatory<br />

dictionary of English. Amsterdam, Philadelphia: John Benjamins.<br />

BENSON, M. 1986. Lexicographic description of English. Studies in language companion<br />

series 14. Amsterdam: John Benjamins.<br />

BENSON, M. 1989. The structure of the collocational dictionary. – International Journal of<br />

Lexicography, 2, 1–14.<br />

BENSON, M. 1990. Collocations and general-purpose dictionaries. – International Journal<br />

of Lexicography, 3, 23–34.<br />

BIBER, D., CONRAD, S., LEECH, G. 2002. Longman student grammar of spoken and<br />

written English. UK: Pearson Education Lmt.<br />

CHURCH, K. W., HANKS, P. 1989. Word association, norms, mutual information, and<br />

lexicography. – Proceedings of the 27th annual meeting of the association for computational<br />

linguistics. 26-29 June 1989, University of British Columbia, Vancouver, British Columbia,<br />

Canada. Association for Computational Linguistics, 76–83.<br />

COFFEY, S. 2011. A new pedagogical dictionary of English collocations. – International<br />

Journal of Lexicography, 3, 328–342.<br />

136


COBUILD = Collins Cobuild English language dictionary. 1987. London: HarperCollins<br />

Publishers.<br />

DE SCHRYVER, G.-M., DE PAUW, G. 2007. Dictionary Writing System (DWS) + Corpus<br />

Query Package (CQP): The case of TshwaneLex. – Lexikos, 17, 226–246.<br />

DUBITŠINSKI 2009 = Дубичинский, В. В. Лексикография русского языка. Москва:<br />

Наука.<br />

EE-VN = Eesti-vene sõnaraamat 1–5. 1997–2009. Eesti Keele Instituut. Tallinn: Eesti Keele<br />

Sihtasutus.<br />

EHALA, M., SAARSO, K., VARE, S., ÕISPUU, J. (koost) 1997. Eesti keele suhtluslävi.<br />

Kultuurikoostöö Nõukogu. Strasbourg: Council of Europe Publishing.<br />

EKG 1993 = Erelt, M., Kasik, R., Metslang, H., Rajandi, H., Ross, K., Saari, H., Tael, K.,<br />

Vare, S. 1993. Eesti keele grammatika II. Süntaks. Tallinn: Eesti Teaduste Akadeemia Keele<br />

ja Kirjanduse Instituut.<br />

EKG 1995 = Erelt, M., Kasik, R., Metslang, H., Rajandi, H., Ross, K., Saari, H., Tael, K.,<br />

Vare, S. 1995. Eesti keele grammatika I. Morfoloogia. Sõnamoodustus. Tallinn: Eesti<br />

Teaduste Akadeemia Keele ja Kirjanduse Instituut.<br />

EKSS = Eesti keele seletav sõnaraamat 1–6. 2009. („Eesti kirjakeele seletussõnaraamatu”<br />

(1988–2007) 2., täiendatud ja parandatud trükk.) M. Langemets, M. Tiits, T. Valdre,<br />

L. Veskis, Ü. Viks, P. Voll (toim). Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus.<br />

Internetis aadressil http://www.eki.ee/dict/ekss/. Vaadatud 15.09.2012.<br />

ERELT, M. 1979a. Eesti lihtlause probleeme. Tallinn: Eesti Raamat.<br />

ERELT, M. 1979b. Predikatiivne adjektiiv (lausemallid). Eesti NSV Teaduste Akadeemia.<br />

Tallinn: Eesti Raamat.<br />

ERELT, M. 1985. ma-, mas- ja mast-infinitiivist eesti keeles. – Ars Grammatica 1985. Eesti<br />

NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn: Valgus, 4–22.<br />

ERELT, M. 1986. Eesti adjektiivisüntaks. Tallinn: Valgus.<br />

ERELT, M. 2003a. Syntax. – Erelt, M. (ed.). Estonian language. Tallinn: Estonian Academy<br />

Publishers, 93–129.<br />

ERELT, M. 2003b. Süntaks. – M. Erelt (koost). Eesti keele uurimise analüüs. Emakeele<br />

Seltsi aastaraamat 48 (2002). Tallinn: Emakeele Selts, 63–97.<br />

ERELT, M. 2006. Lause õigekeelsus. Juhatused ja harjutused. Tartu.<br />

ERELT, M., ERELT, T., ROSS, K. 2007 [1997]. Eesti keele käsiraamat. Tallinn: Eesti<br />

Keele Sihtasutus.<br />

ESLON, P., ÕIM, K., KAIVAPALU, K., ARGUS, R., MATSAK, E. 2010. Kuidas uurida<br />

esimese ja teise keele omandamist. – Lähivõrdlusi. Lähivertailuja, 20, 11–48.<br />

ESTMORF = Eesti keele morfoloogiline analüsaator. Filosoft OÜ. Internetis aadressil<br />

http://www.filosoft.ee/html_morf_et/morfoutinfo.html. Vaadatud 15.09.2012. Vt ka Kaalep<br />

1998.<br />

137


EVERT, S. 2009. Corpora and collocations. – A. Ludeling, M. Kyto (eds.). Corpus<br />

linguistics. An international handbook. Handbooks of linguistics and communication science<br />

29. Berlin, New York: Mouton de Gruyter, 1212–1248.<br />

EVÕS 2011 = Eesti-vene õpilase ÕS. 2011. H. Leemets, T. Leemets (koost). Tallinn: Eesti<br />

Keele Sihtasutus.<br />

FRANCIS, G. 1995. Corpus-driven grammar and its relevance to the learning of English in a<br />

cross-cultural situation. – A. Pakir (ed.). English in education: Multicultural perspectives.<br />

Singapore: Unipress.<br />

HANKS, P. 2008. Lexical Patterns: from Hornby to Hunston and beyond. – E. Bernal,<br />

J. DeCesaris (eds.). Proceedings of the XIII EURALEX international congress. Barcelona:<br />

Universitat Pompeu Fabra, 89–129.<br />

HARTMANN, R. R. K. 2001. Teaching and researching lexicography. Applied linguistics<br />

in action. Harlow: Pearson Education.<br />

HARTMANN, R. R. K., JAMES, G. 2002 [1998]. Dictionary of lexicography. London, New<br />

York: Routledge.<br />

HAUSENBERG, A-R., ILVES, M., KAIVAPALU, A., KERGE, K., KERN, K., KITSNIK, M.,<br />

KRALL, I., RUMMO, K., RÜÜTMAA, T. (koost) 2008. Iseseisev keelekasutaja: B1- ja B2taseme<br />

eesti keele oskus. Tartu: Riiklik Eksami- ja Kvalifikatsioonikeskus.<br />

HERBST, T., HEATH, D., ROE, F. I., GÖTZ, D. 2004. A valency dictionary of English:<br />

A corpus-based analysis of the complementation patterns of English verbs, nouns and<br />

adjectives. Topics in English linguistics 40. Berlin: Walter de Gruyter.<br />

HERBST, T., GÖTZ-VOTTELER, K. 2007. Valency: Theoretical, descriptive and cognitive<br />

issues. Trends in linguistics. Studies and monographs 187. Berlin, New York: Mouton de<br />

Gruyter.<br />

HUNSTON, S., FRANCIS, G. 2000. Pattern grammar: A corpus-driven approach to the<br />

lexical grammar of English. Studies in corpus linguistics 4. Amsterdam, Philadelphia: John<br />

Benjamins.<br />

HVELPLUND, H. 2011. Using Sketch Engine with IDM’s DPS for online dictionaries. –<br />

Sketch Engine Workshop, March 2011, Brighton, UK. Seminari materjalid<br />

. Vaadatud 16.07.2012.<br />

ILVES, M. 2008. Algaja keelekasutaja. A2-taseme eesti keele oskus. Tallinn: Eesti Keele<br />

Sihtasutus.<br />

JÜRVISTE, M., KALLAS, J., LANGEMETS, M., TUULIK, M., VIKS, Ü. 2011. Extending<br />

the functions of the EELex dictionary writing system using the example of the Basic<br />

Estonian Dictionary. – I. Kosem, K. Kosem (eds.). Electronic lexicography in the 21st<br />

century: New applications for new users. Proceedings of eLex 2011, Bled, 10-12 November<br />

2011. Ljubljana: Trojina, Institute for Applied Slovenian Studies, 106–112.<br />

KAALEP, H-J. 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. – Keel<br />

ja Kirjandus, 1, 22–29. Vt ka ESTMORF.<br />

KAALEP, H-J., MUISCHNEK, K. 2002. Eesti kirjakeele sagedussõnastik. Tartu: Tartu<br />

Ülikooli Kirjastus.<br />

138


KAALEP, H-J., MUISCHNEK, K. 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja<br />

kuidas. – Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 157–172.<br />

KALLAS, J., TUULIK, M. 2011. Eesti keele põhisõnavara sõnastik: ajalooline kontekst ja<br />

koostamispõhimõtted. – Eesti Rakenduslingvistika Ühingu aastaraamat, 7, 59–75.<br />

KALLAS, J., LANGEMETS, M. 2012. Automatic generation of specialized dictionaries<br />

using the dictionary writing system EELex. – A. Tavast, K. Muischnek, M. Koit (eds.).<br />

Human language technologies – The Baltic perspective. Proceedings of the fifth<br />

international conference Baltic HLT 2012. Frontiers in artificial intelligence and applications<br />

247. Amsterdam: IOS Press, 103–110.<br />

KARELSON, R. 2005. Taas probleemidest sõnaliigi määramisel. – Eesti<br />

Rakenduslingvistika Ühingu aastaraamat, 1, 53–70.<br />

KARLSSON, F., VOUTILAINEN, A., HEIKKILÄ, J. A, ANTTILA, A. (eds.) 1995.<br />

Constraint grammar: A language independent system for parsing unrestrected text. Natural<br />

language processing 4. Berlin, New York: Mouton de Gruyter.<br />

KASK, A. 1936. Mõningaid märkmeid eesti predikatiivi kohta. – Eesti keel, 1, 14–20.<br />

KERGE, K. 1996. Eesti keele funktsionaalse keeloskuse määratlemine. Tallinn:<br />

Haridusministeerium.<br />

KERGE, K. 2000. Eesti süntaks võõrkeeleõppe praktikule: käsiraamat. Tallinn: TEA<br />

Kirjastus.<br />

KERGE, K., PAJUPUU, H., ILVES, M. 2008. Esmane sõnastik. – M. Ilves. Algaja<br />

keelekasutaja. A2-taseme eesti keele oskus. Tallinn: Eesti Keele Sihtasutus, Tallinna Ülikool,<br />

Haridus- ja Teadusministeerium, 148–185.<br />

KHOKHLOVA 2010 = Хохлова, М. 2010. Исследование лексико-синтаксической<br />

сочетаемости в русском языке с помощью статистических методов (на базе<br />

корпусов текстов). Автореферат. Санкт-Петербург.<br />

KILGARRIFF, A., RUNDELL, M. 2002. Lexical profiling software and its lexicographic<br />

applications – A case study. – A. Braasch, C. Povlsen (eds.). Proceedings of the tenth<br />

Euralex international congress, Copenhagen, Denmark, August 13-17, 2002. Copenhagen:<br />

University of Copenhagen, 807–818.<br />

KILGARRIFF, A., RYCHLÝ, P., SMRZ, P., TUGWELL, D. 2004. The Sketch Engine. –<br />

G. Williams, S. Vessier (eds.). Proceedings of the 11th EURALEX international congress.<br />

Lorient, France: Université de Bretagne Sud, 105–115.<br />

KILGARRIFF, A., HUSÁK, M., McADAM, K., RUNDELL, M., RYCHLÝ, P. 2008a.<br />

GDEX: Automatically finding good dictionary examples in a corpus. – E. Bernal,<br />

J. DeCesaris (eds.). Proceedings of the XIII EURALEX international congress. Barcelona:<br />

Universitat Pompeu Fabra, 425–431.<br />

KILGARRIFF, A., GREFENSTETTE, G. 2008b. Introduction to the special issue on the<br />

Web as corpus. – T. Fontenelle (ed.). Practical lexicography. A reader. Oxford: Oxford<br />

University Press.<br />

KILGARRIFF, A., KOVAR, V., KREK, S., SRDANOVIC, I., TIBERIUS, C. A. 2010a.<br />

Quantitative evaluation of word sketches. – A. Dykstra, T. Schoonheim (eds.). Proceedings of<br />

the XIV EURALEX international congress. Leeuwarden/Ljouwent: Fryske Akademy, 372–379.<br />

139


KILGARRIFF, A., KOVÁR, V., RYCHLÝ, P. 2010b. Tickbox lexicography. – S. Granger,<br />

M. Paquot (eds.). eLexicography in the 21st century: New challenges, new applications.<br />

Proceedings of eLex 2009, Louvain-la-Neuve, 22-24 October 2009. Louvain-la-Neuve:<br />

Presses universitaires de Louvain, 411–418.<br />

KILGARRIFF, A., RYCHLÝ, P., KOVÁR, V., BAISA, V. 2012a. Finding multiwords of<br />

more than two words. – R. V. Fjeld, J. M. Torjusen (eds.). Proceedings of the XV EURALEX<br />

international congress, 7–11 August. Oslo, 693–700.<br />

KILGARRIFF, A., POMIKALEK, J., JAKUBÍČEK, M., WHITELOCK, P. 2012b. Setting<br />

up for corpus lexicography. – R. V. Fjeld, J. M. Torjusen (eds.). Proceedings of the XV<br />

EURALEX international congress, 7–11 August. Oslo, 778–785.<br />

KILGARRIFF, A., CHARALABOPOULOU, F., GAVRILIDOU, M.,<br />

JOHANNESSEN, J. B., KHALIL, S., KOKKINAKIS, S. J., LEW, R., SHAROFF, S.,<br />

VADLAPUDI, R., VOLODINA E. 2012c. Corpus-based vocabulary lists for language<br />

learners for nine languages. – Language Resources and Evaluation. (Ilmumas.) Internetis<br />

aadressil http://trac.sketchengine.co.uk/wiki/AK/Papers#. Vaadatud 06.01.2013.<br />

KILGARRIFF, A., KOSEM, I. 2012d. Corpus tools for lexicographers. – S. Granger,<br />

M. Paquot (eds.). Electronic lexicography. Oxford: Oxford University Press, 31–55.<br />

KIPPER SCHULER, K. 2005. VerbNet: A broad-coverage, comprehensive verb lexicon.<br />

PhD thesis. Computer and Information Science Dept., University of Pennsylvania.<br />

Philadelphia, PA.<br />

KOSEM, I., HUSAK, M., McCARTHY, D. 2011. GDEX for Slovene. – I. Kosem,<br />

K. Kosem (eds.). Electronic lexicography in the 21st century: New applications for new<br />

users. Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, Institute<br />

for Applied Slovenian Studies, 151–159.<br />

KÄBIN, T., PEKARSKY, N. 1923. Eesti-vene sõnastik grammatiliste vormide näitamisega.<br />

Narva.<br />

LANGEMETS, M. 2003. Kas ükskeelne või kakskeelne sõnaraamat? – M. Langemets,<br />

H. Sahkai, M-M. Sepper (toim). Toimiv keel I. Töid rakenduslingvistika alalt. Eesti Keele<br />

Instituudi toimetised 12. Tallinn: Eesti Keele Sihtasutus, 151–177.<br />

LANGEMETS, M., MÄGEDI, M., VIKS, Ü. 2005. Süntaktiline info sõnastikus: probleeme<br />

ja väljavaateid. – Eesti Rakenduslingvistika Ühingu aastaraamat, 1, 71–98.<br />

LANGEMETS, M., LOOPMANN, A., VIKS, Ü. 2006. The IEL dictionary management<br />

system of Estonian. – G-M. de Schryver (ed.). DWS 2006: Proceedings of the fourth<br />

international workshop on dictionary writing systems. Turin: Turin University, 11–16.<br />

LANGEMETS, M. 2010a. Nimisõna süstemaatiline polüseemia eesti keeles ja selle esitus<br />

eesti keelevaras. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus.<br />

LANGEMETS, M., TIITS, M., VALDRE, T., VOLL, P. 2010b. In spe: üheköiteline eesti<br />

keele sõnaraamat. – Keel ja Kirjandus, 11, 793–810.<br />

LANGEMETS, M., LOOPMANN, A., VIKS, Ü. 2010c. Dictionary management system for<br />

bilingual dictionaries. – S. Granger, M. Paquot (eds.). eLexicography in the 21st century:<br />

New challenges, new applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22-24<br />

October 2009. Louvain-la-Neuve: Presses universitaires de Louvain, 425–430.<br />

140


LAUR, M. 1998. Esimene verstapost. Eesti keele suhtluse algtase. Tallinn: REKK.<br />

LONDSALE, D., LE BRAS, Y. 2009. A frequency dictionary of French: Core vocabulary<br />

for learners. Routledge frequency dictionaries. London, New York: Routledge.<br />

LOOPMANN, A., SEIN, K., VIKS, Ü. 2006. Sõnastike haldussüsteem Eesti Keele<br />

Instituudis. – M. Koit, R. Pajusalu, H. Õim (toim). Keel ja arvuti. Tartu Ülikooli<br />

üldkeeleteaduse õppetooli toimetised 6. Tartu: Tartu Ülikooli Kirjastus, 246–258.<br />

LOOPMANN, A. 2007. Sõnastike haldussüsteem EELex. Magistritöö. Käsikiri Eesti Keele<br />

Instituudis.<br />

MAISAK 1999 = Майсак, Т. А. Ассиметрия валентностей у глаголов длижения:<br />

русский вариант. – Труды Международного семинара „Диалог’ 99” по компьютерной<br />

лингвистике и её приложениям. Т 1. Таруса.<br />

MAISAK, RAHHILINA 1999 = Майсак, Т. А., Рахилина, Е. В. Семантика и статистика:<br />

глагол идти на фоне других глаголов движения. – Логический анализ языка. Языки<br />

динамического мира. Дубна.<br />

McCARTHY, D., REDDY, S. 2011a. Semantic tagging. – Sketch Engine Workshop, March<br />

2011, Brighton, UK. Seminari materjalid . Vaadatud 16.07.2012.<br />

McCARTHY, D., REDDY, S. 2011b. Word Sketches from other parsers: CONLL format in<br />

Sketch Engine. – Sketch Engine Workshop, March 2011, Brighton, UK. Seminari materjalid<br />

. Vaadatud 16.07.2012.<br />

MCD 2010 = Macmillan collocations dictionary for learners of English. 2010. Macmillan.<br />

McENERY, T., WILSON, A. 2007. Corpus linguistics. Edingburgh: Edingburgh University<br />

Press.<br />

MED 2002 = Macmillan English dictionary for advanced learners. 2002. Macmillan.<br />

MIHKLA, K., RIIKOJA, E., ADMANN, A. 1974. Eesti keele lauseõpetuse põhijooned I.<br />

Lihtlause. Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn: Valgus.<br />

MILLER, G. A., JOHNSON-LAIRD P. N. 1976. Langauge and perception. Cambridge:<br />

Cambridge University Press.<br />

MUISCHNEK, K. 2005. Eesti keele tugiverbid ja nende mõju lause ehitusele. – Emakeele<br />

Seltsi aastaraamat, 50, 11–38.<br />

MUISCHNEK, K. 2006a. Eesti keele verbikesksed püsiühendid tekstikorpuses. – Emakeele<br />

Seltsi aastaraamat, 51, 80–105.<br />

MUISCHNEK, K. 2006b. Verbi ja noomeni püsiühendid eesti keeles. Dissertationes<br />

philologiae Estonicae Universitatis Tartuensis 17. Tartu: Tartu Ülikooli Kirjastus.<br />

MUISCHNEK, K. 2006c. Tugiverbist üldiselt ja intransitiivsest tugiverbikonstruktsioonist<br />

lähemalt. – Pille Penjam (toim). Lause argumentstruktuur: ettekandeid süntaksiseminarilt:<br />

10. mai 2005, Tartu. Tartu: Tartu Ülikooli eesti keele õppetool.<br />

MÄEARU, S. 1996. Valik rektsioone. – S. Mäearu (koost). Keelenõuanne soovitab. Tallinn:<br />

Eesti Keele Instituut, 1996.<br />

141


MÄEARU, S. 2011. Valik rektsioone. Tartu: Keelehooldekeskus.<br />

MÜÜRISEP, K. 2000. Eesti keele arvutigrammatika: süntaks. Dissertationes Mathematicae<br />

Universitatis Tartuensis 22. Tartu: Tartu Ülikooli Kirjastus.<br />

NOVIKOV 2002 = Новиков, Л. А. Типология учебных словарей. – Современный<br />

русский язык: Лексикология. Фразеология. Лексикография. Санкт-Петербург: Санкт-<br />

Петербургский Университет.<br />

OCDSE 2002 = Oxford collocations dictionary for students of English. 2002. Oxford:<br />

Oxford University Press.<br />

PAI, K. 2001. Essiivne ja translatiivne predikatiivadverbiaal. – R. Kasik (koost, toim). Keele<br />

kannul. Pühendusteos Mati Erelti 60. sünnipäevaks. Tartu Ülikooli eesti keele õppetooli<br />

toimetised 17. Tartu: Tartu Ülikooli Kirjastus, 232–249.<br />

PAJUPUU, H., KERGE, K., ALP, P. 2009. Sõnavara loomulik rikkus haritud keeleoskaja<br />

tekstides. – Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 187–196.<br />

PAJUSALU, R., TRAGEL, I., VEISMANN, A., VIJA, M. 2004. Tuumsõnade semantikat ja<br />

pragmaatikat. Tartu: Tartu Ülikooli Kirjastus.<br />

PALMER, M., GILDEA, D., KINGSBURY, P. 2005. The proposition bank: A corpus<br />

annotated with semantic roles. – Computational Linguistics, 31, 1, 71–106.<br />

PAQUOT, M. 2012. The LEAD dictionary-cum-writing aid: An integrated dictionary and<br />

corpus tool. – S. Granger, M. Paquot (eds.). Electronic lexicography. Oxford: Oxford<br />

University Press, 163–187.<br />

PENJAM, P. 2005. Liikumisverbide semantikast: tulema-verb XVII–XX sajandi eesti<br />

kirjakeeles. – Keel ja Kirjandus, 10, 818–830<br />

PIHLAK, A. 1985. Eesti ühendverbid ja perifrastilised verbid aspektitähenduse<br />

väljendajana. – Ars Grammatica 1985. Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse<br />

Instituut. Tallinn: Valgus, 62–93.<br />

PIHLAK, A. 1991. Eesti analüütilised versus vene sünteetilised verbid. Tallinn: Tallinna<br />

Pedagoogiline Instituut.<br />

POOL, R. 1999. Eesti keele verbirektsioone. Tartu: Tartu Ülikooli Kirjastus.<br />

PSV = Eesti keele põhisõnavara sõnastik. M. Jürviste, J. Kallas, K. Koppel, M. Tuulik<br />

(koost). Tallinn: Eesti Keele Sihtasutus. (Ilmumas 2013.)<br />

PUOLAKAINEN, T. 2001. Eesti keele arvutigrammatika: morfoloogiline ühestamine.<br />

Dissertationes Mathematicae Universitatis Tartuensis 27. Tartu: Tartu Ülikooli Kirjastus.<br />

PÄRN, H., SIMM, L. 1989. Eesti keele baassõnastik = Базовый словарь эстонского<br />

языка. Tallinn: Keele ja Kirjanduse Instituut.<br />

RAAG, R. 1987. Basic Estonian vocabulary 1. Uppsala: Finsk-ugriska institutionen.<br />

RAAMDOKUMENT 2007 = Euroopa keeleõppe raamdokument: õppimine, õpetamine,<br />

hindamine. 2007. Tartu: Haridus- ja Teadusministeerium.<br />

RAJAMAA, H. 1936. Kuidas tarvitada uusi sõnu? Eesti sõnade muuteline sõltuvus. Tartu:<br />

Kool.<br />

142


REDDY, S., KILGARRIFF, A., RYCHLÝ, P. 2012. Universal Sketch grammar. – 3rd<br />

Sketch Engine Workshop, March 2012, Brno, Czech Republic. Internetis aadressil<br />

http://sivareddy.in/papers/talks/Skew3-UWS.pdf. Vaadatud 06.01.2013.<br />

REITSAK, A. 1975. Valimik vene fraseologisme eesti vastetega. Tallinn: Valgus.<br />

RENOUF, A. 2003. WebCorp: Providing a renewable data source for corpus linguists. –<br />

S. Petch-Tyson, S. Granger (eds.). Extending the scope of corpus-based research: New<br />

applications, new Challenges. Language and computers 48. Amsterdam, New York: Rodopi,<br />

39–58.<br />

RICHARDS, J. C., SCHMIDT, R. 2002. Longman dictionary of language teaching and<br />

applied linguistics. UK: Pearson Education Limited.<br />

ROOSMAA, T., KOIT, M., MUISCHNEK, K., MÜÜRISEP, K., PUOLAKAINEN, T.,<br />

UIBO, H. 2001. Eesti keele formaalne grammatika. Tartu: Tartu Ülikool.<br />

RUNDELL, M., ATKINS, S. 2011. The DANTE database: A user guide. – I. Kosem, K.<br />

Kosem (eds.). Electronic lexicography in the 21st century: New applications for new users.<br />

Proceedings of eLex 2011, Bled, 10-12 November 2011. Ljubljana: Trojina, Institute for<br />

Applied Slovenian Studies, 106–112.<br />

RUNDELL, M., KILGARRIFF, A. 2011. Automating the creation of dictionaries: Where<br />

will it all end? – F. Meunier, S. De Cock, G. Gilquin, M. Paquot (eds.) A taste for corpora.<br />

In honour of Sylviane Granger. Studies in corpus linguistics 45. Amsterdam, Philadelphia:<br />

John Benjamins.<br />

RUNDELL, M. 2012. How the dictionary was created? Internetis aadressil<br />

http://www.macmillandictionaries.com/features/how-dictionaries-are-written/macmillancollocations-dictionary/.<br />

Vaadatud 15.09.2012.<br />

RUPPENHOFER, J., ELLSWORTH, M., PETRUCK, M. R. L., JOHNSON, C. R.,<br />

SCHECZYK, J. 2010. FrameNet II: Extended theory and practice. Technical report,<br />

International Computer Science Institute, Berkeley. Internetis aadressil<br />

http://framenet.icsi.berkeley.edu/. Vaadatud 15.09.2012.<br />

RÄTSEP, H. 1969. Ühendverbide rektsioonistruktuuride iseärasustest eesti keeles. –<br />

Emakeele Seltsi aastaraamat, 14-15, 59–77.<br />

RÄTSEP, H. 1978. Eesti keele lihtlausete tüübid. Tallinn: Valgus.<br />

RYCHLÝ, P. 2008. A lexicographer-friendly association score. – P. Sojka, A. Horák (eds.).<br />

Proceedings of 2nd workshop on recent advances in Slavonic natural languages RASLAN<br />

2008. Brno: Masaryk University, 6–9.<br />

SAHKAI, H., MUISCHNEK, K. 2010. Liitpredikaadid leksikoni-grammatika kontiinumil. –<br />

Eesti ja soome-ugri keeleteaduse ajakiri ESUKA / Journal of Estonian and Finno-Ugric<br />

Linguistics JEFUL, 1, 2, 295–316.<br />

SAHKAI, H. 2011. Teine grammatika. Eesti keele teonimede süntaks konstruktsioonipõhises<br />

perspektiivis. Tallinna Ülikooli humanitaarteaduste dissertatsioonid 25. Tallinn: Tallinna<br />

Ülikool.<br />

SCHERBA 1974 = Щерба, Л. В. Языковая система и речевая деятельность.<br />

Ленинград: Наука.<br />

143


SIEPMANN, D. 2005. Collocation, colligation and encoding dictionaries. Part I:<br />

Lexicological aspects. – International Journal of Lexicography, 18, 4, 409–443.<br />

SINCLAIR, J. M. 1991. Corpus, concordance, collocation. Oxford: Oxford University Press.<br />

SVENSÉN, B. 2009. A handbook of lexicography. The theory and practice of dictionarymaking.<br />

Cambridge: Cambridge University Press.<br />

ŠANSKI, N., BÕSTROVA, J., OKUNEVA, A., ROMET, A. 1983. Vene-eesti püsiühendite<br />

õppesõnastik. Tallinn: Valgus.<br />

TALMY, L. 1975. Semantics and syntax of motion. – J. P. Kimball (ed.). Syntax and<br />

semantics, vol. 4. New-York: Academic Press, 181–238.<br />

TARP, S. 2008. Lexicography in the borderland between knowledge and non-knowledge:<br />

General lexicographical theory with particular focus on learner's lexicography. Tübingen:<br />

Max Niemeyer Verlag.<br />

TAULI, V. 1980. Eesti grammatika II. Lauseõpetus. Uppsala: Finsk-ugrinska institutionen.<br />

THORNDIKE, E. L. 1991. The psychology of the school dictionary. – International Journal<br />

of Lexicography, 4, 1, 15–22.<br />

TIHHONOV 2001 = Комплексный словарь русского языка. Под ред. А. Н. Тихонова.<br />

Москва: Русский язык.<br />

TONO, Y. 2011. Bilingual lexicography in Japan. – Videoettekanne konverentsil Electronic<br />

lexicography in the 21st Century: New applications for new users. Bled, 10-12 November<br />

2011. Internetis aadressil http://videolectures.net/elex2011_bled/. Vaadatud 06.01.2013.<br />

UIBOAED, K. 2010. Statistilised meetodid murdekorpuse ühendverbide tuvastamisel. –<br />

Eesti Rakenduslingvistika Ühingu aastaraamat, 6, 307–326.<br />

UNG-EE 2010 = Ungari-eesti sõnaraamat [Magyar-észt szótár]. 2010. A. Kippasto,<br />

A. Nurk, T. Seilenthal (koost). Tallinn: Eesti Keele Sihtasutus. Internetis aadressil:<br />

http://www.ut.ee/Ural/UERS/. Vaadatud 15.09.2012.<br />

VAISS, N. 2004. Eesti keele aspekti väljendusvõimalusi vene keele taustal. Tallinn: Tallinna<br />

Pedagoogikaülikool. [Magistritöö.]<br />

VANEM, L. 2004. Eesti ühendverbide vasted vene keeles. Sõnastik ja didaktilisi soovitusi.<br />

Tallinn: Tallinna Pedagoogikaülikool. [Magistritöö.]<br />

VENDE, K. 2010. Краткий эстонско-русский словарь для изучающих эстонский язык:<br />

первая тысяча эстонских слов = Eesti-vene sõnastik algajale eesti keele õppijale.<br />

Esimesed tuhat sõna. Tallinn: TEA Kirjastus.<br />

VÄÄRI, E. 1969. Eesti keele õpik keskkoolile. Tallinn: Valgus.<br />

ÕIM, H., ORAV, H., TAREMAA, P. 2009. Lihtlause semantika: teoreetiline kontseptsioon<br />

ja arvutianalüüsi võimalused. – Keel ja Kirjandus, 7, 489–505.<br />

ÕIM, A. 2000. Fraseoloogiasõnaraamat. Tallinn: Eesti Keele Sihtasutus.<br />

ÕIM, A. 2008. Väljendiraamat. Tallinn: TEA Kirjastus.<br />

ÕIM, K., ÕIM, A. 2011. Eesti fraseoloogia leksikograafiline areng. – Keel ja Kirjandus, 11,<br />

842–863.<br />

144


LISA 1. SÕNAVISANDITE GRAMMATIKA 53<br />

Word Sketch Engine#Word Sketch Engine Sketch Grammar for Estonian<br />

# ver. 1.5<br />

*STRUCTLIMIT s<br />

*DEFAULTATTR tag<br />

*FIXORDER modifies Adj_modifier subject subject_of object object_of<br />

N_modifies Adj_modifies Adv_modifies V_modifies omastav_modifier<br />

omastav_modifies Adj_comp_modifier Adj_sup_modifier<br />

Adj_käändumatu_modifier ja/või kui/nagu predicate_N predicate_Adj<br />

osastav_modifier osastav_modifies predicate_of cardinal_modifies<br />

ordinal_modifies participle_modifier Pron_modifier kõrvallause Adv_modifier<br />

afiksaaladverb afiksaaladverb_of ühendverb väljendverb N_Vma N_Vda Adj_Vma<br />

Adj_Vda V_Vma V_Vda V_Vdes V_Vmaks V_Vmas V_Vmata V_Vmaks V_Vvat<br />

Adj_PP Adv_PP N_PP V_PP predicate_Adj_saav predicate_Adj_olev Pr_modifier<br />

Pr_modifies<br />

*CONSTRUCTION<br />

*UNARY<br />

=nimetav<br />

1:[tag="S"&features=".._n"]<br />

1:[tag="A"&features=".._n"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=omastav<br />

1:[tag="S"&features=".._g"]<br />

1:[tag="A"&features=".._g"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=osastav<br />

1:[tag="S"&features=".._p"]<br />

1:[tag="A"&features=".._p"]<br />

53<br />

Reeglites kasutatud lühendite selgitusi vt http://www.filosoft.ee/html_morf_et/morfoutinfo.html<br />

(24.01.2013).<br />

145


*CONSTRUCTION<br />

*UNARY<br />

=sisseütlev<br />

1:[tag="S"&features=".._ill"]<br />

1:[tag="A"&features=".._ill"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=aditiiv<br />

1:[tag="S"&features="adt"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=seesütlev<br />

1:[tag="S"&features=".._in"]<br />

1:[tag="A"&features=".._in"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=seestütlev<br />

1:[tag="S"&features=".._el"]<br />

1:[tag="A"&features=".._el"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=alaleütlev<br />

1:[tag="S"&features=".._all"]<br />

1:[tag="A"&features=".._all"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=alalütlev<br />

1:[tag="S"&features=".._ad"]<br />

1:[tag="A"&features=".._ad"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=alaltütlev<br />

1:[tag="S"&features=".._abl"]<br />

1:[tag="A"&features=".._abl"]<br />

146


*CONSTRUCTION<br />

*UNARY<br />

=saav<br />

1:[tag="S"&features=".._tr"]<br />

1:[tag="A"&features=".._tr"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=rajav<br />

1:[tag="S"&features=".._ter"]<br />

1:[tag="A"&features=".._ter"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=olev<br />

1:[tag="S"&features=".._es"]<br />

1:[tag="A"&features=".._es"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=ilmaütlev<br />

1:[tag="S"&features=".._ab"]<br />

1:[tag="A"&features=".._ab"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=kaasaütlev<br />

1:[tag="S"&features=".._kom"]<br />

1:[tag="A"&features=".._kom"]<br />

*CONSTRUCTION<br />

*UNARY<br />

=otsekõne<br />

1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&features!="nud"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="Z"&word=":"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=V_Vma<br />

[tag!="V"]*1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="ma"]<br />

[tag!="V"]<br />

147


*CONSTRUCTION<br />

*DUAL<br />

=V_Vmaks<br />

[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="maks"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=V_Vmast<br />

[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

eatures!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="mast"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=V_Vmas<br />

[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"& features="mas"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=V_Vmata<br />

[tag!="V"]1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="mata"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=V_Vda<br />

[tag!="V"]*1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="da"]<br />

[tag!="V"]?<br />

*CONSTRUCTION<br />

*DUAL<br />

=V_Vvat<br />

[tag!="V"]*1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&features!="des"&lemma!="olema"]2:[tag="V"&features="vat"]<br />

[tag!="V"]?<br />

148


*CONSTRUCTION<br />

*DUAL<br />

=V_Vdes<br />

[tag!="V"]?1:[tag="V"&lemma!="ei"&features!="ma"&features!="da"&<br />

features!="maks"&features!="mas"&features!="mast"&features!="mata"&<br />

features!="tud"&lemma!="olema"]2:[tag="V"&features="des"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=N_Vma<br />

[tag="V"&lemma="olema"]1:[tag="S"&features=".._n"]2:[tag="V"&<br />

features="ma"][tag!="V"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=Adj_Vma<br />

[tag="V"&lemma="olema"]1:[tag="A"&features=".._n"]2:[tag="V"&<br />

features="ma"][tag!="V"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=N_Vda<br />

1:[tag="S"&features=".._n"]2:[tag="V"&features="da"][tag!="V"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=Adj_Vda<br />

[tag="V"&lemma="olema"]1:[tag="A"&features=".._n"]2:[tag="V"&<br />

features="da"][tag!="V"]<br />

*CONSTRUCTION<br />

*DUAL<br />

=kõrvallause/kõrvallause<br />

2:[tag="S"&features=".._n"][word=","]1:[lemma="et"|lemma="kui"|lemma="nagu"|<br />

lemma="justkui"|lemma="otsekui"|lemma="kuigi"|lemma="sest"|lemma="ehhki"|<br />

lemma="kuna"|lemma="kuni"|lemma="kas"|lemma="ega"|lemma="kes"|<br />

lemma="mis"|lemma="milline"|lemma="missugune"|lemma="kumb"|lemma="kus"|<br />

lemma="kuhu"|lemma="kust"|lemma="millal"|lemma="mil"|lemma="miks"|<br />

lemma="milleks"|lemma="mistavis"|lemma="mismoodi"|lemma="mistõttu"|<br />

lemma="kuidas"|lemma="kuivõrd"]<br />

2:[tag="A"&features=".._n"][word=","]1:[lemma="et"|lemma="kui"|<br />

lemma="nagu"|lemma="justkui"|lemma="otsekui"|lemma="kuigi"|lemma="sest"|<br />

lemma="ehhki"|lemma="kuna"|lemma="kuni"|lemma="kas"|lemma="ega"|<br />

149


lemma="kes"|lemma="mis"lemma="milline"|lemma="missugune"|<br />

lemma="kumb"|lemma="kus"|lemma="kuhu"|lemma="kust"|lemma="millal"|<br />

lemma="mil"|lemma="miks"|lemma="milleks"|lemma="mistavis"|<br />

lemma="mismoodi"|lemma="mistõttu"|lemma="kuidas"|lemma="kuivõrd"]<br />

2:[tag="D"][word=","]1:[lemma="et"|lemma="kui"|lemma="nagu"|<br />

lemma="justkui"|lemma="otsekui"|lemma="kuivõrd"|lemma="kuna"|<br />

lemma="kuni"|lemma="kus"|lemma="kuhu"|lemma="kust"|lemma="millal"|<br />

lemma="mil"]<br />

2:[tag="V"][word=","]1:[lemma="kas"|lemma="kes"|lemma="mis"|<br />

lemma="milline"|lemma="missugune"|lemma="kuhu"|lemma="kus"|lemma="kust"|<br />

lemma="kuidas"|lemma="miks"|lemma="et"|lemma="millal"|lemma="nagu"|<br />

lemma="justnagu"|lemma="kui"|lemma="otsekui"|lemma="justkui"|lemma="sest"|<br />

lemma="kuni"|lemma="siis"|lemma="siiski"|lemma="kuna"|lemma="kustkadu"|<br />

lemma="mispärast"|lemma="mistõttu"|lemma="mismoodi"|lemma="misjaoks"|<br />

lemma="mistarvis"|lemma="seepärast"|lemma="sellepärast"|lemma="seetõttu"|<br />

lemma="selletõttu"]<br />

*SYMMETRIC<br />

=ja/või<br />

2:[tag="S"&features=".._n"][word="ja"|word="või"]1:[tag="S"&features=".._n"]<br />

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._g"]<br />

2:[tag="S"&features=".._p"][word="ja"|word="või"]1:[tag="S"&features=".._p"]<br />

2:[tag="S"&features=".._ill"][word="ja"|word="või"]1:[tag="S"&features=".._ill"]<br />

2:[tag="S"&features=".._in"][word="ja"|word="või"]1:[tag="S"&features=".._in"]<br />

2:[tag="S"&features=".._el"][word="ja"|word="või"]1:[tag="S"&features=".._el"]<br />

2:[tag="S"&features=".._all"][word="ja"|word="või"]1:[tag="S"&features=".._all"]<br />

2:[tag="S"&features=".._ad"][word="ja"|word="või"]1:[tag="S"&features=".._ad"]<br />

2:[tag="S"&features=".._abl"][word="ja"|word="või"]1:[tag="S"&<br />

features=".._abl"]<br />

2:[tag="S"&features=".._tr"][word="ja"|word="või"]1:[tag="S"&features=".._tr"]<br />

2:[tag="S"&features=".._ter"][word="ja"|word="või"]1:[tag="S"&<br />

features=".._ter"]<br />

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&<br />

features=".._ter"]<br />

2:[tag="S"&features=".._es"][word="ja"|word="või"]1:[tag="S"&features=".._es"]<br />

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._es"]<br />

2:[tag="S"&features=".._ab"][word="ja"|word="või"]1:[tag="S"&features=".._ab"]<br />

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&features=".._ab"]<br />

2:[tag="S"&features=".._kom"][word="ja"|word="või"]1:[tag="S"&<br />

features=".._kom"]<br />

2:[tag="S"&features=".._g"][word="ja"|word="või"]1:[tag="S"&<br />

features=".._kom"]<br />

150


2:[tag="A"&features=".._n"][word="ja"|word="või"]1:[tag="A"&features=".._n"]<br />

2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&features=".._g"]<br />

2:[tag="A"&features=".._p"][word="ja"|word="või"]1:[tag="A"&features=".._p"]<br />

2:[tag="A"&features=".._ill"][word="ja"|word="või"]1:[tag="A"&features=".._ill"]<br />

2:[tag="A"&features=".._in"][word="ja"|word="või"]1:[tag="A"&features=".._in"]<br />

2:[tag="A"&features=".._el"][word="ja"|word="või"]1:[tag="A"&features=".._el"]<br />

2:[tag="A"&features=".._all"][word="ja"|word="või"]1:[tag="A"features=".._all"]<br />

2:[tag="A"&features=".._ad"][word="ja"|word="või"]1:[tag="A"&<br />

features=".._ad"]<br />

2:[tag="A"&features=".._abl"][word="ja"|word="või"]1:[tag="A"&<br />

features=".._abl"]<br />

2:[tag="A"&features=".._tr"][word="ja"|word="või"]1:[tag="A"&features=".._tr"]<br />

2:[tag="A"&features=".._ter"][word="ja"|word="või"]1:[tag="A"&<br />

features=".._ter"]<br />

2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&<br />

features=".._ter"]<br />

2:[tag="A"&features=".._es"][word="ja"|word="või"]1:[tag="A"&features=".._es"]<br />

2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&features=".._es"]<br />

2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&<br />

features=".._ab"]<br />

2:[tag="A"&features=".._kom"][word="ja"|word="või"]1:[tag="A"&<br />

features=".._kom"]<br />

2:[tag="A"&features=".._g"][word="ja"|word="või"]1:[tag="A"&<br />

features=".._kom"]<br />

2:[tag="V"&features="n"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />

1:[tag="V"& features="n"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="d"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />

1:[tag="V"& features="d"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="b"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />

1:[tag="V"& features="b"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="me"&lemma!="olema"&word!="ei"][word="ja"|<br />

word="või"]1:[tag="V"& features="me"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="te"&lemma!="olema"&word!="ei"][word="ja"|word="või"]<br />

1:[tag="V"& features="te"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="vad"&lemma!="olema"&word!="ei"][word="ja"|<br />

word="või"]1:[tag="V"& features="vad"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="ma"&lemma!="olema"&word!="ei"][word="ja"|<br />

word="või"]1:[tag="V"& features="ma"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="da"&lemma!="olema"&word!="ei"][word="ja"|<br />

word="või"]1:[tag="V"& features="da"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="nud"&lemma!="olema"&word!="ei"][word="ja"|<br />

151


word="või"]1:[tag="V"& features="nud"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="tud"&lemma!="olema"&word!="ei"][word="ja"|<br />

word="või"]1:[tag="V"& features="tud"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="des"&lemma!="olema"&word!="ei"][word="ja"|<br />

word="või"]1:[tag="V"& features="des"&lemma!="olema"&word!="ei"]<br />

2:[tag="V"&features="ks"&lemma!="olema"&word!="ei"][word="ja"|<br />

word="või"]1:[tag="V"& features="ks"&lemma!="olema"&word!="ei"]<br />

2:[tag="D"] [word="ja"|word="või"]1:[tag="D"]<br />

2:[tag="K"] [word="ja"|word="või"]1:[tag="K"]<br />

*SYMMETRIC<br />

=kui/nagu<br />

[word!="nii"]1:[tag="S"&features=".._n"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._n"] [tag!="S"]<br />

[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._g"]<br />

[word!="nii"]1:[tag="S"&features=".._p"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._p"]<br />

[word!="nii"]1:[tag="S"&features=".._ill"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._ill"]<br />

[word!="nii"]1:[tag="S"&features=".._in"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._in"]<br />

[word!="nii"]1:[tag="S"&features=".._el"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._el"]<br />

[word!="nii"]1:[tag="S"&features=".._all"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._all"]<br />

[word!="nii"]1:[tag="S"&features=".._ad"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._ad"]<br />

[word!="nii"]1:[tag="S"&features=".._abl"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._abl"]<br />

[word!="nii"]1:[tag="S"&features=".._tr"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._tr"]<br />

[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._ter"]<br />

[word!="nii"]1:[tag="S"&features=".._es"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._es"]<br />

[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._es"]<br />

[word!="nii"]1:[tag="S"&features=".._ab"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._ab"]<br />

[word!="nii"]1:[tag="S"&features=".._kom"][word="kui"|word="nagu"]<br />

2:[tag="S"&features=".._kom"]<br />

152


[word!="nii"]1:[tag="S"&features=".._g"][word="kui"|word="nagu"]2:[tag="S"&<br />

features=".._kom"]<br />

[word!="nii"]1:[tag="A"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"]<br />

[tag="Z"]<br />

[word!="nii"]1:[tag="C"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"]<br />

[tag="Z"]<br />

[word!="nii"]1:[tag="U"] [word="kui"|word="nagu"]2:[tag="S"&features=".._n"]<br />

[tag="Z"]<br />

[word!="nii"]1:[tag="D"] [word="kui"|word="nagu"]2:[tag="D"] [tag="Z"]<br />

*SYMMETRIC<br />

=kui<br />

[word!="nii"]1:[tag="V"] [word="kui"]2:[tag="V"] [tag="Z"]<br />

*SYMMETRIC<br />

=seriaalkonstruktsioon<br />

2:[tag="V"&features="n"]1:[tag="V"&features="n"]<br />

2:[tag="V"&features="o"]1:[tag="V"&features="o"]<br />

*DUAL<br />

=Adj_modifier/modifies<br />

2:[tag="A"&features=".._n"][tag="A"&features=".._n"]?1:[tag="S"&<br />

features=".._n"]<br />

2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />

features=".._g"]<br />

2:[tag="A"&features=".._p"][tag="A"&features=".._p"]?1:[tag="S"&<br />

features=".._p"]<br />

2:[tag="A"&features=".._ill"][tag="A"&features=".._ill"]?1:[tag="S"&<br />

features=".._ill"]<br />

2:[tag="A"&features=".._in"][tag="A"&features=".._in"]?1:[tag="S"&<br />

features=".._in"]<br />

2:[tag="A"&features=".._el"][tag="A"&features=".._el"]?1:[tag="S"&<br />

features=".._el"]<br />

2:[tag="A"&features=".._all"][tag="A"&features=".._all"]?1:[tag="S"&<br />

features=".._all"]<br />

2:[tag="A"&features=".._ad"][tag="A"&features=".._ad"]?1:[tag="S"&<br />

features=".._ad"]<br />

2:[tag="A"&features=".._abl"][tag="A"&features=".._abl"]?1:[tag="S"&<br />

features=".._abl"]<br />

2:[tag="A"&features=".._tr"][tag="A"&features=".._tr"]?1:[tag="S"&<br />

features=".._tr"]<br />

153


2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />

features=".._ter"]<br />

2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />

features=".._es"]<br />

2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />

features=".._ab"]<br />

2:[tag="A"&features=".._g"][tag="A"&features=".._g"]?1:[tag="S"&<br />

features=".._kom"]<br />

*DUAL<br />

=Adj_modifier/Adj_modifies<br />

1:[tag="A"&lemma!="olnud"]2:[tag="A"&features=".._n"][tag!="S"]<br />

*DUAL<br />

=Adj_comp_modifier/modifies<br />

2:[tag="C"&features=".._n"][tag="C"&features=".._n"]?1:[tag="S"&<br />

features=".._n"]<br />

2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />

features=".._g"]<br />

2:[tag="C"&features=".._p"][tag="C"&features=".._p"]?1:[tag="S"&<br />

features=".._p"]<br />

2:[tag="C"&features=".._ill"][tag="C"&features=".._ill"]?1:[tag="S"&<br />

features=".._ill"]<br />

2:[tag="C"&features=".._in"][tag="C"&features=".._in"]?1:[tag="S"&<br />

features=".._in"]<br />

2:[tag="C"&features=".._el"][tag="C"&features=".._el"]?1:[tag="S"&<br />

features=".._el"]<br />

2:[tag="C"&features=".._all"][tag="C"&features=".._all"]?1:[tag="S"&<br />

features=".._all"]<br />

2:[tag="C"&features=".._ad"][tag="C"&features=".._ad"]?1:[tag="S"&<br />

features=".._ad"]<br />

2:[tag="C"&features=".._abl"][tag="C"&features=".._abl"]?1:[tag="S"&<br />

features=".._abl"]<br />

2:[tag="C"&features=".._tr"][tag="C"&features=".._tr"]?1:[tag="S"&<br />

features=".._tr"]<br />

2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />

features=".._ter"]<br />

2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />

features=".._es"]<br />

2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />

features=".._ab"]<br />

2:[tag="C"&features=".._g"][tag="C"&features=".._g"]?1:[tag="S"&<br />

features=".._kom"]<br />

154


*DUAL<br />

=Adj_sup_modifier/modifies<br />

2:[tag="U"&features=".._n"][tag="U"&features=".._n"]?1:[tag="S"&<br />

features=".._n"]<br />

2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />

features=".._g"]<br />

2:[tag="U"&features=".._p"][tag="U"&features=".._p"]?1:[tag="S"&<br />

features=".._p"]<br />

2:[tag="U"&features=".._ill"][tag="U"&features=".._ill"]?1:[tag="S"&<br />

features=".._ill"]<br />

2:[tag="U"&features=".._in"][tag="U"&features=".._in"]?1:[tag="S"&<br />

features=".._in"]<br />

2:[tag="U"&features=".._el"][tag="U"&features=".._el"]?1:[tag="S"&<br />

features=".._el"]<br />

2:[tag="U"&features=".._all"][tag="U"&features=".._all"]?1:[tag="S"&<br />

features=".._all"]<br />

2:[tag="U"&features=".._ad"][tag="U"&features=".._ad"]?1:[tag="S"&<br />

features=".._ad"]<br />

2:[tag="U"&features=".._abl"][tag="U"&features=".._abl"]?1:[tag="S"&<br />

features=".._abl"]<br />

2:[tag="U"&features=".._tr"][tag="U"&features=".._tr"]?1:[tag="S"&<br />

features=".._tr"]<br />

2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />

features=".._ter"]<br />

2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />

features=".._es"]<br />

2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />

features=".._ab"]<br />

2:[tag="U"&features=".._g"][tag="U"&features=".._g"]?1:[tag="S"&<br />

features=".._kom"]<br />

*DUAL<br />

=ordinal_modifies/modifier<br />

2:[tag="O"] [tag="O"]?1:[tag="S"]<br />

*DUAL<br />

=cardinal_modifies/modifier<br />

2:[tag="N"] [tag="N"]?1:[tag="S"]<br />

*DUAL<br />

=Adj_käändumatu_modifier/modifies<br />

2:[tag="G"]1:[tag="S"]<br />

155


*DUAL<br />

=participle_modifier<br />

[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />

features="nud"]1:[tag="S"]<br />

[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />

features="tud"]1:[tag="S"]<br />

[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />

features="tav"]1:[tag="S"]<br />

[tag!="V"&word!="ei"&word!="on"&lemma!="olema"]{0,2}2:[tag="V"&<br />

features="mata"]1:[tag="S"]<br />

*DUAL<br />

=omastav_modifier/omastav_modifies<br />

2:[tag="S"&features=".._g"] [tag="A"]{0,2}1:[tag="S"&features!="pl_p"]<br />

*DUAL<br />

=omastav_modifier<br />

[tag!="K"]2:[tag="S"&features=".._g"]1:[tag="A"&features=".._n"]<br />

2:[tag="S"&(lemma="jumal"|lemma="kurat"|lemma="pagan"|lemma="jaanuar"|<br />

lemma="veebruar"|lemma="märts"|lemma="aprill"|lemma="mai"|lemma="juuni"|<br />

lemma="juuli"|lemma="august"|lemma="september"|lemma="oktoober"|<br />

lemma="november"|lemma="detsember"|lemma="esmaspäev"|lemma="teisipäev"|<br />

lemma="kolmapäev"|lemma="neljapäev"|lemma="reede"|lemma="laupäev"|<br />

lemma="pühapäev"|lemma="sajand")&features="sg_g"]1:[tag="D"&<br />

lemma!="kõige"&lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />

lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="just"&<br />

lemma!="kus"&lemma!="miks"&lemma!="millal"&lemma!="ära"&<br />

lemma!="juba"&lemma!="välja"&lemma!="ette"]<br />

*DUAL<br />

=osastav_modifier/osastav_modifies<br />

1:[tag="S"&(lemma="liiter"|lemma="meeter"|lemma="tonn"|lemma="kilo"|<br />

lemma="kilogramm"|lemma="gramm"|lemma="hektar"|lemma="kraad"|<br />

lemma="paar"|lemma="minut"|lemma="veerand"|lemma="kolmveerand"|<br />

lemma="päev"|lemma="aasta"|lemma="sekund"|lemma="tund"|lemma="hetk"|<br />

lemma="jupp"|lemma="jagu"|lemma="grupp"|lemma="nädal"|lemma="hulk"|<br />

lemma="tükk"|lemma="enamus"|lemma="enamik"|lemma="klaas"| lemma="tass"|<br />

lemma="klaasike"|lemma="tassike"|lemma="pudel"|lemma="kann"| lemma="kast"|<br />

lemma="kott"|lemma="hunnik"|lemma="viil"|lemma="sari"|lemma="rühm"|<br />

lemma="purk"|lemma="punt"|lemma="kari"|lemma="parv"|lemma="kimp"|<br />

lemma="ports"|lemma="pakk"|lemma="osa"|lemma="kuhi"|lemma="kiht"|<br />

lemma="rida"|lemma="virn"|lemma="valik")][tag="A"]{0,2}2:[tag="S"&<br />

features=".._p"][tag!="V"]<br />

156


*DUAL<br />

=osastav_modifier<br />

1:[tag="D"&lemma!="veel"&lemma!="juba"&lemma!="ju"&lemma!="ka"&<br />

lemma!="siin"&lemma!="seal"&lemma!="täna"&lemma!="siia"&lemma!="kui"&<br />

lemma!="kas"&lemma!="küll"&lemma!="kus"]2:[tag="S"&features=".._p"]<br />

*DUAL<br />

=sisseütlev_modifier<br />

1:[tag="S"&features!=".._ill"]2:[tag="S"&features=".._ill"] [tag!="V"]?<br />

2:[tag="S"&features=".._ill"]1: [tag="A"]<br />

*DUAL<br />

=seesütlev_modifier<br />

1:[tag="S"&features!=".._in"]2:[tag="S"&features=".._in"] [tag!="V"]?<br />

2:[tag="S"&features=".._in"]1: [tag="A"]<br />

*DUAL<br />

=seestütlev_modifier<br />

2:[tag="S"&features=".._el"]1:[tag="S"]<br />

1:[tag="S"&features!=".._el"]2:[tag="S"&features=".._el"] [tag!="V"]<br />

2:[tag="S"&features=".._el"]1: [tag="A"]<br />

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._el"] [tag!="S"& tag!="V"]<br />

*DUAL<br />

=alaleütlev_modifier<br />

1:[tag="S"&features!=".._all"]2:[tag="S"&features=".._all"] [tag!="V"]?<br />

2:[tag="S"&features=".._all"]1:[tag="A"]<br />

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._all"] [tag!="S"& tag!="V"]<br />

*DUAL<br />

=alalütlev_modifier<br />

1:[tag="S"&features!=".._ad"]2:[tag="S"&features=".._ad"] [tag!="V"]?<br />

2:[tag="S"&features=".._ad"]1:[tag="A"]<br />

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._ad"] [tag!="S"& tag!="V"]<br />

*DUAL<br />

=alaltütlev_modifier<br />

2:[tag="S"&features=".._abl"]1:[tag="S"]<br />

1:[tag="S"&features!=".._abl"]2:[tag="S"&features=".._abl"] [tag!="V"]?<br />

2:[tag="S"&features=".._abl"]1: [tag="A"]<br />

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._abl"] [tag!="S"& tag!="V"]<br />

157


*DUAL<br />

=saav_modifier<br />

2:[tag="S"&features=".._tr"]1:[tag="S"]<br />

1:[tag="S"&features!=".._tr"]2:[tag="S"&features=".._tr"] [tag!="V"]?<br />

2:[tag="S"&features=".._tr"]1: [tag="A"]<br />

2:[tag="S"&features=".._tr"]1:[tag="V"&features="nud"|features="tud"|<br />

features="tav"]<br />

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._tr"] [tag!="S"& tag!="V"]<br />

2:[tag="S"&features=".._tr"]1:[tag="D"&lemma!="kõige"&lemma!="ja"&<br />

lemma!="ka"&lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"&<br />

lemma!="kuidas"&lemma!="just"&lemma!="kus"&lemma!="miks"&<br />

lemma!="millal"&lemma!="ära"&lemma!="juba"&lemma!="välja"&<br />

lemma!="ette"]<br />

*DUAL<br />

=rajav_modifier<br />

1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._ter"] [tag!="V"]?<br />

2:[tag="S"&features=".._ter"]1: [tag="A"]<br />

2:[tag="S"&features=".._ter"]1:[tag="V"&features="nud"|features="tud"|<br />

features="tav"]<br />

2:[tag="S"&features=".._ter"]1:[tag="D"&lemma!="kõige"&lemma!="ja"&<br />

lemma!="ka"&lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"&<br />

lemma!="kuidas"&lemma!="just"&lemma!="kus"&lemma!="miks"&<br />

lemma!="millal"&lemma!="ära"&lemma!="juba"&lemma!="välja"&<br />

lemma!="ette"]<br />

*DUAL<br />

=olev_modifier<br />

2:[tag="S"&features=".._es"]1:[tag="S"]<br />

1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._es"][tag!="V"]?<br />

2:[tag="S"&features=".._es"]1: [tag="A"]<br />

2:[tag="S"&features=features=".._es"]1:[tag="V"&features="nud"|features="tud"|<br />

features="tav"]<br />

*DUAL<br />

=ilmaütlev_modifier<br />

2:[tag="S"&features=".._ab"]1:[tag="S"]<br />

1:[tag="S"&features!=".._g"]2:[tag="S"&features=".._ab"][tag!="V"]?<br />

2:[tag="S"&features=".._ab"]1: [tag="A"]<br />

158


*DUAL<br />

=kaasaütlev_modifier<br />

2:[tag="S"&features=".._kom"]1:[tag="S"&features=".._n"]1:[tag="S"&<br />

features!=".._g"]2:[tag="S"&features=".._kom"][tag!="V"]?2:[tag="S"&<br />

features=".._kom"]1:[tag="D"&lemma!="kõige"&lemma!="ja"&lemma!="ka"&<br />

lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"& lemma!="just"&<br />

lemma!="kuidas"&lemma!="kus"&lemma!="miks"&lemma!="millal"&<br />

lemma!="ära"&lemma!="juba"&lemma!="välja"&lemma!="ette"]<br />

2:[tag="S"&features=".._kom"]1: [tag="A"]<br />

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._kom"] [tag!="S"&tag!="V"]<br />

*DUAL<br />

=Pr_modifier/Pr_modifies<br />

2:[tag="H"&features=".._g"]1:[tag="S"]<br />

*DUAL<br />

=Adv_modifier/N_modifies<br />

2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />

lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />

lemma!="just"&lemma!="kus"&lemma!="kust"&lemma!="kuhu"&<br />

lemma!="miks"&lemma!="millal"&lemma!="mil"&lemma!="nüüd"&<br />

lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />

lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />

lemma!="eks"&lemma!="alla"&lemma!="alt"&lemma!="edasi"&<br />

lemma!="eemale"&lemma!="esile"&lemma!="ette"&lemma!="juurde"&<br />

lemma!="järele"&lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&<br />

lemma!="kõrvale"&lemma!="külge"&lemma!="lahku"&lemma!="lahti"&<br />

lemma!="ligi"&lemma!="läbi"&lemma!="maha"&lemma!="mööda"&<br />

lemma!="otsa"&lemma!="peale"&lemma!="pealt"&lemma!="ringi"&<br />

lemma!="sisse"&lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&<br />

lemma!="täis"&lemma!="vahele"&lemma!="vastu"&lemma!="välja"&<br />

lemma!="ära"&lemma!="üle"&lemma!="üles"&lemma!="üleval"&<br />

lemma!="ümber"&lemma!="täna"&lemma!="eile"&lemma!="homme"&<br />

lemma!="üleeile"&lemma!="ammu"&lemma!="kaua"&lemma!="kauaks"&<br />

lemma!="varsti"&lemma!="sageli"&lemma!="tihti"&word!="harva"&<br />

lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="S"&features=".._n"]<br />

159


DUAL<br />

=Adv_modifier/Adj_modifies<br />

2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />

lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />

lemma!="just"&lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />

lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />

lemma!="eks")]1:[tag="A"] [tag!="S"]<br />

*DUAL<br />

=Adv_modifier/Adv_modifies<br />

2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />

lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />

lemma!="just"&lemma!="kus"&lemma!="kust"&lemma!="kuhu"&<br />

lemma!="miks"&lemma!="millal"&lemma!="mil"&lemma!="nüüd"&<br />

lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />

lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />

lemma!="eks"&lemma!="alla"&lemma!="alt"&lemma!="edasi"&<br />

lemma!="eemale"&lemma!="esile"&lemma!="ette"&lemma!="juurde"&<br />

lemma!="järele"&lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&<br />

lemma!="kõrvale"&lemma!="külge"&lemma!="lahku"&lemma!="lahti"&<br />

lemma!="ligi"&lemma!="läbi"&lemma!="maha"&lemma!="mööda"&<br />

lemma!="otsa"&lemma!="peale"&lemma!="pealt"&lemma!="ringi"&<br />

lemma!="sisse"&lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&<br />

lemma!="täis"&lemma!="vahele"&lemma!="vastu"&lemma!="välja"&<br />

lemma!="ära"&lemma!="üle"&lemma!="üles"&lemma!="üleval"&<br />

lemma!="ümber"&lemma!="täna"&lemma!="eile"&lemma!="homme"&<br />

lemma!="üleeile"&lemma!="ammu"&lemma!="kaua"&lemma!="kauaks"&<br />

lemma!="varsti"&lemma!="sageli"&lemma!="tihti"&word!="harva"&<br />

lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="D"&(lemma!="ja"&<br />

lemma!="ka"&lemma!="nii"&lemma!="kui"&lemma!="kas"&lemma!="veel"&<br />

lemma!="kuidas"&lemma!="just"&lemma!="kus"&lemma!="miks"&<br />

lemma!="millal")][tag!="V"]<br />

*DUAL<br />

=Adv_modifier/V_modifies<br />

2:[tag="D"&(lemma!="ja"&lemma!="ka"&lemma!="nii"&lemma!="kui"&<br />

lemma!="kas"&lemma!="veel"&lemma!="kuidas"&lemma!="kuigi"&<br />

lemma!="just"&lemma!="kus"&lemma!="kust"&lemma!="kuhu"&<br />

lemma!="miks"&lemma!="millal"&lemma!="mil"&lemma!="nüüd"&<br />

lemma!="nagu"&lemma!="ju"&lemma!="ikka"&lemma!="vaid"&<br />

lemma!="muidugi"&lemma!="palju"&lemma!="siis"&lemma!="siiski"&<br />

lemma!="eks"&lemma!="alla"&lemma!="alt"&lemma!="edasi"&<br />

lemma!="eemale"&lemma!="esile"&lemma!="ette"&lemma!="juurde"&<br />

lemma!="järele"&lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&<br />

160


lemma!="kõrvale"&lemma!="külge"&lemma!="lahku"&lemma!="lahti"&<br />

lemma!="ligi"&lemma!="läbi"&lemma!="maha"&lemma!="mööda"&<br />

lemma!="otsa"&lemma!="peale"&lemma!="pealt"&lemma!="ringi"&<br />

lemma!="sisse"&lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&<br />

lemma!="täis"&lemma!="vahele"&lemma!="vastu"&lemma!="välja"&<br />

lemma!="ära"&lemma!="üle"&lemma!="üles"&lemma!="üleval"&<br />

lemma!="ümber"&lemma!="täna"&lemma!="eile"&lemma!="homme"&<br />

lemma!="üleeile"&lemma!="ammu"&lemma!="kaua"&lemma!="kauaks"&<br />

lemma!="varsti"&lemma!="sageli"&lemma!="tihti"&word!="harva"&<br />

lemma!="juba"&lemma!="alati"&lemma!="alles")]1:[tag="V"&<br />

lemma!="olema"&word!="ei"&features!="tud"]<br />

*DUAL<br />

=subject/subject_of<br />

2:[tag="S"&features=".._n"][tag="D"]?[word="ei"]?1:[tag="V"&<br />

lemma!="olema"&features!="ta.*"&features!="tu.*"&features!="ti.*"&<br />

features!="da"&features!="nud"&features!="tud"&features!="des"&<br />

features!="ma"&features!="maks"&features!="mas"&features!="mast"&<br />

features!="mata"][tag!="V"&tag!="Х"&word!="alla"&word!="alt"&<br />

word!="edasi"&word!="eemale"&word!="esile"&word!="ette"&word!="juurde"&<br />

word!="järele"&word!="kaasa"&word!="kinni"&word!="kokku"&<br />

word!="kõrvale"&word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"&<br />

word!="läbi"&word!="maha"&word!="mööda"&word!="otsa"&word!="peale"&<br />

word!="pealt"&word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"&<br />

word!="tagasi"&word!="täis"&word!="vahele"&word!="vastu"&word!="välja"&<br />

word!="ära"&word!="üle"&word!="üles"&word!="üleval"&word!="ümber"]<br />

1:[tag="V"&lemma!="olema"&word!="ei"&features!="ta.*"&features!="tu.*"&<br />

features!="ti.*"&features!="da"&features!="nud"]2:[tag="S"&features=".._n"]<br />

[tag!="V"&tag!="Х"&word!="alla"&word!="alt"&word!="edasi"&<br />

word!="eemale"&word!="esile"&word!="ette"&word!="juurde"&word!="järele"&<br />

word!="kaasa"&word!="kinni"&word!="kokku"&word!="kõrvale"&<br />

word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"&word!="läbi"&<br />

word!="maha"&word!="mööda"&word!="otsa"&word!="peale"&word!="pealt"&<br />

word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"&word!="tagasi"&<br />

word!="täis"&word!="vahele"&word!="vastu"&word!="välja"&word!="ära"&<br />

word!="üle"&word!="üles"&word!="üleval"&word!="ümber"]<br />

161


*DUAL<br />

=object/object_of<br />

2:[tag="S"&features=".._n"]1:[tag="V"&(features="ti"|features="takse")]<br />

1:[tag="V"&lemma!="olema"&lemma!="andma"&(features="ge"|features="gem"|<br />

features="gu")]2:[tag="S"&features=".._n"][word!="alla"&word!="alt"&<br />

word!="edasi"&word!="eemale"&word!="esile"&word!="ette"&word!="juurde"&<br />

word!="järele"&word!="kaasa"&word!="kinni"&word!="kokku"&<br />

word!="kõrvale"&word!="külge"&word!="lahku"&word!="lahti"&word!="ligi"&<br />

word!="läbi"&word!="maha"&word!="mööda"&word!="otsa"&word!="peale"&<br />

word!="pealt"&word!="ringi"&word!="sisse"&word!="taga"&word!="tagant"&<br />

word!="tagasi"&word!="täis"&word!="vahele"&word!="vastu"&word!="välja"&<br />

word!="ära"&word!="üle"&word!="üles"&word!="üleval"&word!="ümber"]<br />

1:[tag="V"&word!="ei"&lemma!="olema"&(features!="gem"&features!="ge"&<br />

features!="gu"&features!="neg.*"&features!="nud"&features!="o"&<br />

features!="ta.*"&features!="tu.*"&features!="ti"&features!="ma.*"&<br />

features!="da")][tag="A"]{0,1}[tag="S"&features=".._g"]{0,1}2:[tag="S"&<br />

features=".._g"] [tag="Z"]<br />

1:[tag="V"&lemma!="olema"&lemma!="ei"&features!="nud"&features!="tud"]<br />

2:[tag="S"&features=".._p"][tag!="D"&tag!="K"&tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

2:[tag="S"&features=".._p"]1:[tag="V"&(features="ti"|features="takse")]<br />

*DUAL<br />

=adverbial_sisseütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._ill"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

162


features!="ma.*"]2:[tag="S"&features=".._adt"][tag!="V"&word!="kinni"&<br />

word!="lahti"&word!="kokku"&word!="viltu"&word!="läbi"&word!="maha"]<br />

*DUAL<br />

=adverbial_seesütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._in"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

*DUAL<br />

=adverbial_seestütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._el"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

*DUAL<br />

=adverbial_alaleütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._all"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

163


*DUAL<br />

=adverbial_alalütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._ad"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

*DUAL<br />

=adverbial_alaltütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._abl"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

*DUAL<br />

=adverbial_saav<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._tr"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

164


*DUAL<br />

=adverbial_rajav<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._ter"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

*DUAL<br />

=adverbial_olev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._es"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

*DUAL<br />

=adverbial_ilmaütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._ab"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"& word!="ümber"]<br />

165


*DUAL<br />

=adverbial_kaasaütlev<br />

1:[tag="V"&lemma!="olema"&features!="tud"&features!="nud"&features!="o"&<br />

features!="des"&features!="da"&features!="vat"&features!="tav"&<br />

features!="ma.*"]2:[tag="S"&features=".._kom"][tag!="V"&tag!="Х"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

*DUAL<br />

=Pron_modifier/modifies<br />

2:[tag="P"&lemma!="see"&lemma!="mina"&lemma!="sina"&lemma!="tema"&<br />

lemma!="meie"&lemma!="teie"&lemma!="nemad"&lemma!="kes"&<br />

lemma!="mis"]1:[tag="S"]<br />

*DUAL<br />

=predicate_N/predicate_N_of<br />

1:[tag="S"&features=".._n"][tag="V"&lemma="olema"][tag="A"&features=".._n"]<br />

?2:[tag="S"& features=".._n"][tag!="H"]<br />

*DUAL<br />

=predicate_Adj/predicate_Adj_of<br />

1:[tag="S"&features=".._n"][tag="V"&lemma="olema"]2:[tag="A"&<br />

features=".._n"][tag!="S"& tag!="V"]?<br />

[tag="V"&lemma="olema"]1:[tag="S"&features=".._n"]2:[tag="A"&<br />

features=".._n"] [tag!="S"]<br />

*DUAL<br />

=predicate_Adj_saav/predicate Adj_saav_of<br />

1:[tag="V"&lemma!="ei"&features!="maks"&features!="mas"&features!="mast"&<br />

features!="mata"&features!="tud"&lemma!="ole.*"][tag="S"]?2:[tag="A"&<br />

features=".._tr"][tag!="V"]<br />

*DUAL<br />

=predicate_Adj_olev/predicate Adj_olev_of<br />

1:[tag="V"&lemma!="ei"&features!="maks"&features!="mas"&features!="mast"&<br />

features!="mata"&features!="tud"&lemma!="ole.*"][tag="S"]?2:[tag="A"&<br />

features=".._es"][tag!="V"]<br />

166


*DUAL<br />

=afiksaaladverb/afiksaaladverb_of<br />

[tag!="V"]*2:[tag="D"&(word="alla"|word="alt"|word="edasi"|word="eemale"|<br />

word="esile"|word="ette"|word="juurde"|word="järele"|word="kaasa"|<br />

word="kinni"|word="kokku"|word="kõrvale"|word="külge"|word="lahti"|<br />

word="ligi"|word="läbi"|word="lahku"|word="maha"|word="mööda"|word="otsa"|<br />

word="peale"|word="pealt"|word="ringi"|word="sisse"|word="taga"|<br />

word="tagant"|word="tagasi"|word="täis"|word="vahele"|word="vastu"|<br />

word="valmis"|word="viltu"|word="välja"|word="ära"|word="üle"|word="üles"|<br />

word="üleval"|word="ümber"|word="valmis"|word="püsti"|word="laiali"|<br />

word="katki"|word="tarvis")]1:[tag="V"&word!="ei"&features!="maks"&<br />

features!="mas"&features!="mast"&features!="mata"&features!="tud"&<br />

lemma!="olema"]<br />

1:[tag="V"&word!="ei"&features!="maks"&features!="mas"&features!="mast"&<br />

features!="mata"&features!="tud"&lemma!="olema"][tag="S"]?2:[tag="D"&<br />

(word="alla"|word="alt"|word="edasi"|word="eemale"|word="esile"|word="ette"|<br />

word="juurde"|word="järele"|word="kaasa"|word="kinni"|word="kokku"|<br />

word="kõrvale"|word="külge"|word="lahti"|word="ligi"|word="läbi"|<br />

word="lahku"|word="maha"|word="mööda"|word="otsa"|word="peale"|<br />

word="pealt"|word="ringi"|word="sisse"|word="taga"|word="tagant"|<br />

word="tagasi"|word="täis"|word="vahele"|word="vastu"|word="valmis"|<br />

word="viltu"|word="välja"|word="ära"|word="üle"|word="üles"|word="üleval"|<br />

word="ümber"|word="valmis"|word="püsti"|word="laiali"|word="katki"|<br />

word="tarvis")][tag!="V"]<br />

*DUAL<br />

=väljendverb/väljendverb<br />

2:[tag="V"&features!="tud"]1:[tag="X"] [tag!="V"]<br />

[tag!="V"]?1:[tag="X"]2:[tag="V"]<br />

*SEPARATEPAGE N_PP<br />

*TRINARY<br />

=N_PP_%s<br />

1:[tag="S"]2:[tag="S"] 3:[tag="K"]<br />

1:[tag="S"] 3:[tag="K"]2:[tag="S"]<br />

*SEPARATEPAGE Adj_PP<br />

*TRINARY<br />

=Adj_PP_%s<br />

1:[tag="A"&features=".._n"]2:[tag="S"&features=".._g"]3:[tag="K"&(word="ees"|<br />

word="eest"|word="järele"|word="peale"|word="poolest"|word="puhul"|<br />

word="seas"|word="suhtes"|word="vastu"|word="üle")] [tag!="S"]<br />

167


*SEPARATEPAGE Adv_PP<br />

*TRINARY<br />

=Adv_PP_%s<br />

2:[tag="S"]3:[tag="K"]1:[tag="D"&lemma!="ja"&lemma!="ka"&lemma!="nii"&<br />

lemma!="kui"&lemma!="kas"&lemma!="veel"&lemma!="kuidas"&<br />

lemma!="just"&lemma!="kus"&lemma!="miks"&lemma!="millal"&<br />

lemma!="alla"&lemma!="alt"&lemma!="edasi"&lemma!="eemale"&<br />

lemma!="esile"&lemma!="ette"&lemma!="juurde"&lemma!="järele"&<br />

lemma!="kaasa"&lemma!="kinni"&lemma!="kokku"&lemma!="kõrvale"&<br />

lemma!="külge"&lemma!="lahku"&lemma!="lahti"&lemma!="ligi"&<br />

lemma!="läbi"&lemma!="maha"&lemma!="mööda"&lemma!="otsa"&<br />

lemma!="peale"&lemma!="pealt"&lemma!="ringi"&lemma!="sisse"&<br />

lemma!="taga"&lemma!="tagant"&lemma!="tagasi"&lemma!="täis"&<br />

lemma!="vahele"&lemma!="vastu"&lemma!="välja"&lemma!="ära"&<br />

lemma!="üle"&lemma!="üles"&lemma!="üleval"&lemma!="ümber"&<br />

lemma!="kui"&lemma!="kas"&lemma!="nii"&lemma!="ka"&lemma!="kuidagi"&<br />

lemma!="kas"&lemma!="väga"&lemma!="juba"&lemma!="siis"]<br />

*SEPARATEPAGE V_PP<br />

*TRINARY<br />

=V_PP_%s<br />

1:[tag="V"&features!="maks"&features!="mas"&features!="mast"&<br />

features!="mata"&features!="tud"&features!="nud"&lemma!="olema"&<br />

lemma!="ei"]2:[tag="S"]3:[tag="K"&word!="allapoole"&word!="altpoolt"&<br />

word!="eespool"&word!="enne"&word!="hoolimata"&word!="ilma"&<br />

word!="keset"&word!="kesk"&word!="koos"&word!="kuni"&word!="piki"&<br />

word!="põiki"&word!="päri"&word!="risti"&word!="sealpool"&<br />

word!="sealtpoolt"&word!="seespool"&word!="siiapoole"&word!="siinpool"&<br />

word!="siitpoolt"&word!="sinnapoole"&word!="sissepoole"&word!="teispool"&<br />

word!="teispoole"&word!="tänu"&word!="väljapoole"&word!="väljaspool"&<br />

word!="väljaspoolt"&word!="ülalpool"&word!="ülaltpoolt"&word!="ülespoole"&<br />

word!="ülevalpool"&word!="ülevaltpoolt"&word!="läbi"&word!="mööda"&<br />

word!="tükkis"&word!="ühes"&word!="üle"][tag!="V"&tag!="X"&<br />

word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&word!="esile"&<br />

word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&word!="kinni"&<br />

word!="kokku"&word!="kõrvale"&word!="külge"&word!="lahku"&<br />

word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&word!="mööda"&<br />

word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&word!="sisse"&<br />

word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&word!="vahele"&<br />

word!="vastu"&word!="välja"&word!="ära"&word!="üle"&word!="üles"&<br />

word!="üleval"&word!="ümber"]<br />

168


1:[tag="V"]3:[tag="K"&(word="allapoole"|word="altpoolt"|word="eespool"|<br />

word="enne"|word="hoolimata"|word="ilma"|word="keset"|word="kesk"|<br />

word="koos"|word="kuni"|word="piki"|word="põiki"|word="päri"|word="risti"|<br />

word="sealpool"|word="sealtpoolt"|word="seespool"|word="siiapoole"|<br />

word="siinpool"|word="siitpoolt"|word="sinnapoole"|word="sissepoole"|<br />

word="teispool"|word="teispoole"|word="tänu"|word="väljapoole"|<br />

word="väljaspool"|word="väljastpoolt"|word="ülalpool"|word="ülaltpoolt"|<br />

word="ülespoole"|word="ülevalpool"|word="ülevaltpoolt"|word="läbi"|<br />

word="mööda"|word="tükkis"|word="ühes"|word="üle")]2:[tag="S"][tag!="V"&<br />

tag!="X"&word!="alla"&word!="alt"&word!="edasi"&word!="eemale"&<br />

word!="esile"&word!="ette"&word!="juurde"&word!="järele"&word!="kaasa"&<br />

word!="kinni"&word!="kokku"&word!="kõrvale"&word!="külge"&<br />

word!="lahku"&word!="lahti"&word!="ligi"&word!="läbi"&word!="maha"&<br />

word!="mööda"&word!="otsa"&word!="peale"&word!="pealt"&word!="ringi"&<br />

word!="sisse"&word!="taga"&word!="tagant"&word!="tagasi"&word!="täis"&<br />

word!="vahele"&word!="vastu"&word!="välja"&word!="ära"&word!="üle"&<br />

word!="üles"&word!="üleval"&word!="ümber"][tag!="V"]<br />

*SEPARATEPAGE ühendverb<br />

*TRINARY<br />

=PP_%s_ühendverb<br />

[tag!="V"]1:[tag="V"&word!="ei"&features!="maks"&features!="mas"&<br />

features!="mast"&features!="mata"&features!="tud"&lemma!="ole.*"]2:[tag="S"]<br />

3:[tag="D"&(word="alla"|word="alt"|word="edasi"|word="eemale"|word="esile"|<br />

word="ette"|word="juurde"|word="järele"|word="kaasa"|word="kinni"|<br />

word="kokku"|word="kõrvale"|word="külge"|word="lahku"|word="lahti"|<br />

word="ligi"|word="läbi"|word="maha"|word="mööda"|word="otsa"|word="peale"|<br />

word="pealt"|word="ringi"|word="sisse"|word="taga"|word="tagant"|<br />

word="tagasi"|word="täis"|word="vahele"|word="vastu"|word="välja"|word="ära"|<br />

word="üle"|word="üles"|word="üleval"|word="ümber")][tag!="V"]?<br />

169


SUMMARY<br />

SYNTAGMATIC RELATIONSHIPS OF ESTONIAN CONTENT<br />

WORDS IN CORPUS AND PEDAGOGICAL LEXICOGRAPHY<br />

The purpose of this thesis is to provide a methodological framework for corpusbased<br />

lexicographic analysis of the syntagmatic relations of Estonian nouns,<br />

adjectives, adverbs, and verbs and to suggest options for presentation of<br />

syntagmatic information in lexicographic databases and in dictionaries compiled for<br />

learners of Estonian as a second or foreign language.<br />

The Longman Dictionary of Language Teaching and Applied Linguistics (Richards,<br />

Schmidt 2002: 534) defines syntagm as a structurally significant combination of<br />

two or more units in a language and syntagmatic relations as a relationship that<br />

linguistic units (e.g. words, clauses) have with other units because they may occur<br />

together in a sequence. For example, a word may be said to have syntagmatic<br />

relations with the other words which occur in the sentence in which it appears.<br />

In this thesis the syntagmatic relations of Estonian content words are identified on<br />

the basis of traditional (Tauli 1980; EKG 1993; Kerge 2000; Erelt 2003a; Erelt et al.<br />

2007) and formal (Müürisep 2000; Puolakainen 2001; Roosmaa et al. 2001)<br />

Estonian language grammar descriptions. Syntagmatic relations of content words<br />

are described as lexico-grammatical constructions defined by means of<br />

morphosyntactic categories (phrase type, part of speech, inflectional categories).<br />

The structure of the thesis is as follows. An introductory chapter provides an<br />

overview of the general principles and methodology used to research the topic and<br />

evaluate the results. Main aims and objectives are identified.<br />

In the second chapter the methods (statistical and rule-based) used in modern<br />

corpus lexicography for automatic acquisition of syntagmatic relations are analysed.<br />

The main focus is on rule-based method used within the lexicographic tool Sketch<br />

Engine 54 to produce word sketches (one-page automatic, corpus-based summaries<br />

of a word’s grammatical and collocational behaviour) (Kilgarriff et al. 2004). The<br />

main principles of compilation of Estonian sketch grammar (a set of rules that<br />

describe the grammatical relations in a particular language) are outlined.<br />

54 See http://www.sketchengine.co.uk/ (15.10.12). The main features of Sketch Engine are<br />

concordance lines, word sketches, thesaurus (providing a lexicographer with a list of potential<br />

[near] synonyms), Sketchdiff (comparing word sketches for two words, showing the collocations<br />

that they have in common and those they do not) and Good Dictionary Example (GDEX), which<br />

attempts to automatically sort the sentences in a concordance according to how likely they are to<br />

be good dictionary examples (Kilgarriff, Kosem 2012d, see also Kilgarriff et al. 2004, Kilgarriff<br />

et al. 2008).<br />

170


The third chapter provides a list of the syntagmatic relations of Estonian content<br />

words. The sketch grammar used for their acquisition and the system's quantitative<br />

evaluation results are presented.<br />

The fourth chapter explores how advanced features of modern corpus lexicography<br />

have influenced the production of syntagmatic dictionaries and which<br />

methodologies are used for (semi-)automatic generation of lexicographic databases.<br />

Also, various formats for presenting syntagmatic information (mostly constructions<br />

and collocations) are described.<br />

The fifth chapter gives an overview of what kind of information is presented<br />

traditionally in syntagmatic dictionaries of Estonian. Using the example of the<br />

corpus-based active Basic Estonian Dictionary (the dictionary is being compiled for<br />

Estonian language learners at the beginner and lower-intermediate levels) the author<br />

suggests choice criteria for syntagmatic information; develops an innovative model<br />

for a dictionary database which allows systematic description of syntagmatic<br />

relations of headwords; and demonstrates how word sketches can be used for<br />

learners’ dictionary production.<br />

The final chapter presents the most important conclusions of the thesis, addresses<br />

unsolved problems and considers different research perspectives.<br />

For automatic acquisition of lexicographically relevant co-constituents of noun,<br />

verb, adverb and adjective headwords corpus lexicography uses statistical and rulebased<br />

methods. The statistical tools involved are primarily used to identify<br />

collocations and other instances of regularly co-occurring lexical items in a text<br />

corpus. Words located within a certain distance on either side of the word that is<br />

being investigated are retrieved and listed in order of significance (Svensén 2009:<br />

451). Various statistics are used to measure collocational strength. Rule-based<br />

methods are more restrictive. The system deals only with grammatically related cooccurrences.<br />

For Estonian there are two online corpus tools that allow analysis of syntagmatic<br />

relationships. These are Kollokatsioonide tuvastaja 55 and the Estonian module of<br />

Sketch Engine 56 (Kilgarriff et al. 2004). Kollokatsioonide tuvastaja allows a part-ofspeech<br />

filter to be used and provides statistics in order to find statistically<br />

significant co-occurrences. The system identifies salient collocates according to<br />

log-likelihood, mutual information (MI) and minimum sensitivity scores. Sketch<br />

Engine employs both approaches. First, it allows collocates to be identified<br />

according to t-score, MI, MI 3 -score, log-likelihood, minimum sensitivity and<br />

logDice scores. Comparison of various statistics has indicated that useful collocate<br />

candidates for lexicographic analysis are offered by MI 3 -score, minimum sensitivity<br />

55 See http://www.rabauti.ee/clc (20.06.12).<br />

56 Sketch Engine's Estonian module uses the Estonian Reference Corpus of 250 million words as<br />

input. The corpus had previously been annotated morphologically, lemmatized, partially<br />

disambiguated and annotated by clause by Filosoft LLC.<br />

171


and logDice statistics. Collocate candidates offered by MI and t-score are not useful<br />

to lexicographers as many frequent functional words and other noise (punctuation<br />

marks) dominate the list. Secondly, the rule-based method allows the acquisition of<br />

grammatically related statistically significant collocates. Kilgarriff and Kosem<br />

(2012d: 41) define pure statistical methods of finding collocates as “grammatically<br />

blind” and point out that lexicographically interesting collocates are, in most cases,<br />

words occurring in a particular grammatical relation to the node word. In this thesis<br />

a method for generating word sketches that was developed within the Sketch<br />

Engine (Kilgarriff et al. 2004) is implemented. For word sketches to be built, the<br />

system must be told what the grammatical relations are for the language, and where<br />

in the corpus they are instantiated. There are two ways to do this. The input corpus<br />

may already be parsed, with grammatical relations given in the input corpus. The<br />

other way is to define the grammatical relations (compile a sketch grammar), and<br />

parse the corpus, within the tool. To do this, the input corpus must be tagged for<br />

parts of speech. Then each grammatical relation is defined as a regular expression<br />

over part-of-speech tags, using corpus query language (Kilgarriff, Kosem 2012d:<br />

45).<br />

Estonian sketch grammar is geared towards the specification of the Estonian<br />

Reference Corpus and it contains 85 rules.<br />

For nouns the system searches for modifying adjectives, participles, oblique-case<br />

substantives, adverbs, pronouns, prepositional phrases, non-finite verbs and (by<br />

identifying conjunctive words) subordinate clauses.<br />

For adjectives the system searches for modifying adjectives, adverbs, oblique-case<br />

substantives, prepositional phrases, non-finite verbs and (by identifying conjunctive<br />

words) subordinate clauses.<br />

For adverbs the system searches for modifying adverbs, oblique-case substantives,<br />

prepositional phrase and (by identifying conjunctive words) subordinate clauses.<br />

For verbs the system searches for substantives that function as subjects, objects and<br />

adverbials, and also for modifying adjectives, adverbs, prepositional phrases, nonfinite<br />

verbs, gerundives and (by identifying conjunctive words) subordinate clauses.<br />

Multiword verbs: particle verbs (verb + adverb particle, e.g. alla kukkuma ʽfall<br />

downʼ); expression verbs (verb + noun/adjective phrase, e.g. aru saama<br />

ʽunderstandʼ); catenative verbs (verb + non-finite verb, e.g. käima panema ʽstartʼ,<br />

lit. ʽmake [the engine] workʼ); and support verb constructions (e.g. läbirääkimisi<br />

pidama ʽnegotiateʼ) are considered separately.<br />

Since adverbial particles are tagged in the corpus as regular adverbs, a list of<br />

adverbial particles was compiled. The system identifies the most frequent adverbial<br />

particles used with a particular verb. This feature has great value when<br />

lexicographers need to choose what kind of particle verbs should be presented in the<br />

dictionary. Secondly, it is possible to see components of expression verbs on<br />

condition that the component concerned has the part-of-speech tag X. Other<br />

172


components of multiword verbs are identified as objects, adverbials or modifying<br />

non-finite verbs.<br />

Also constructions with conjunctions ja/või ‘and/or’, kui/nagu ‘as’ can be found for<br />

all content words. For nouns the system searches also for predicatives<br />

(complements of the copula-like verb olema ‘be’).<br />

Figure 81 shows the word sketch for the noun diskussioon ‘discussion’.<br />

Figure 81. Word sketch of the noun diskussioon ‘discussion’ in the Estonian<br />

Reference Corpus.<br />

Word Sketch offers the lexicographer the most frequent collocates that occur as<br />

adjectival modifiers (e.g. avalik ʽpublicʼ, poliitiline ʽpoliticalʼ, elav ʽlivelyʼ, tõsine<br />

ʽseriousʼ, pikk ʽlongʼ, avatud ʽopenʼ), various oblique-case substantive modifiers<br />

(e.g. diskussiooni objekt/teema/tulemus ʽobject/topic/result of discussionʼ) and in<br />

the ʽand/orʼ (e.g. diskussioon ja arutelu ʽdiscussion and debateʼ) relation to the<br />

node word. Also identified are relations where the node word functions as subject<br />

and object, e.g. diskussioon käib/tekib/jätkub ʽdiscussion takes<br />

place/starts/continuesʼ, diskussiooni alustama/algatama/jätkama/avama<br />

ʽstart/initiate/continue/open a discussionʼ.<br />

173


As Rundell and Kilgarriff (2011) point out, though originally seen as a useful<br />

supplementary tool, the sketches provide a compact and revealing snapshot of a<br />

wordʼs behaviour and uses and have, in most cases, become the preferred starting<br />

point in the process of analysing complex headwords.<br />

For evaluation of Estonian word sketches the method proposed in Kilgarriff et al.<br />

(2010a) was used. Kilgarriff et al. (2010a: 375) emphasize that the quality of the<br />

word sketches depends on the quality and size of the corpus, lemmatizer, part-ofspeech<br />

tagger, sketch grammar and statistics. The evaluation implicitly evaluates all<br />

components. However, from the user's perspective the evaluation needs to tell<br />

potential users – here, lexicographers – if the system is good enough to help their<br />

task: in this case, making dictionaries.<br />

Precision (the percentage of the answers given that are correct) is calculated as<br />

follows. For a sample of words, for each collocate in the word sketch the<br />

lexicographer has to assess whether a particular collocate is lexicographically<br />

relevant, whether it is useful for lexicographic analysis of the word's collocational<br />

and grammatical behaviour or not. A customised version of the Sketch Engine was<br />

prepared, in which word sketches contained 20 collocates for each word, and in<br />

which each collocate was associated with a menu with the item good or bad. A<br />

screenshot of the interface is shown in Figure 82.<br />

174


Figure 82. Screenshot of word sketch evaluatorsʼ interface.<br />

Seven lexicographers from the Institute of the Estonian Language were asked to<br />

assess word sketches. The total number of collocations assessed by all evaluators<br />

was 320.<br />

The analysis of evaluation revealed that all evaluators agreed that 70% (222<br />

collocates) were good and 22% (71 collocates) were bad. While 8% (27 collocates)<br />

were assessed as good by the majority of evaluators, some lexicographers<br />

considered them bad. This means that two thirds or more of collocations were<br />

assessed by lexicographers as lexicographically relevant. Sources of bad collocates<br />

175


were part-of-speech tagging, lemmatization errors and multiword items. Where<br />

lexicographers did not agree was mostly on collocates which had very contextspecific<br />

markedness and were very frequent in particular subcorpora. This<br />

explanatory remark emphasizes the importance of corpus size and coverage.<br />

As Paquot (2012: 164–165) states, using corpora as the basis for the description of<br />

words and phrases has become widely established as state-of-the-art dictionary<br />

making practice in pedagogical lexicography. Lexicographers have made use of<br />

corpus data to select the words they want to include in a learners’ dictionary,<br />

describe their meaning and illustrate their preferred environment in context.<br />

In modern corpus-based pedagogical lexicography there is a clear tendency towards<br />

automatic generation of entries (Kilgarriff et al. 2008). Another tendency is towards<br />

direct transfer of collocations from corpus tool to dictionary entry (Kilgarriff,<br />

Kosem 2012d). Strong connection between corpus tools and dictionary writing<br />

systems has also influenced the way syntagmatic relations are analysed and<br />

described in corpus-based syntagmatic dictionaries.<br />

According to Svensén (2009: 30) the syntagmatic information provided in a<br />

dictionary is concerned with the behaviour of the lemma in combination with other<br />

words, both grammatically and lexically, and syntagmatic dictionaries are<br />

concerned with the relations between lexical items and other items with which they<br />

can be combined. In dictionary typology proposed by Bo Svensén (2009: 30) there<br />

are three main types of syntagmatic dictionary: construction or valency dictionaries,<br />

collocation dictionaries and idiom dictionaries. As Hunston and Francis (2000: 28)<br />

point out, the traditional description of English makes a clear separation between<br />

lexis and grammar. This issue is also reflected in Svensénʼs (2009: 30) typology.<br />

On the other hand, Sinclair (1991: 114) insists that the evidence of corpuslinguistics<br />

points to the falsity of the distinction between lexis and grammar.<br />

Sinclairʼs ideas were developed by different scholars who proposed to describe<br />

language not in terms of grammar and lexis, but in terms of lexico-grammatical<br />

patterns. Hunston and Francis (2000: 32) define the patterns of a word as all the<br />

words and structures which are regularly associated with the word and which<br />

contribute to its meaning. A pattern can be identified if a combination of words<br />

occurs relatively frequently, if it is dependent on a particular word choice, and if<br />

there is a clear meaning associated with it. The same strategy is used in modern<br />

pedagogical dictionaries of English collocations, e.g. in the Macmillan Collocations<br />

Dictionary for Learners of English (2012). In this dictionary the various collocates<br />

within each entry (or sub-entry) are grouped in the first instance according to the<br />

lexico-grammatical structure formed by the collocational phrase. These structures<br />

are indicated by brief labels, with capital letters representing the base item (the<br />

headword) within each phrase. At the entry for the noun design, for example, the<br />

lexico-grammatical groups or collocational patterns are adj+N and N+n (Coffey<br />

2011: 329). The use of such kinds of collocational pattern eliminates the necessity<br />

to analyse grammatical and lexical items separately.<br />

176


Another essential feature of modern pedagogical lexicography is the use of<br />

multifunctional lexicographic databases, which allow each item to be analysed from<br />

different points of view. The Tono 2011 collocation database not only provides<br />

information about frequency and collocation statistics, but also shows on which<br />

CEFR (Common European Framework of Reference for Languages) level a<br />

particular item should be used and whether or not collocation is presented in junior<br />

high school English textbooks in Japan. This approach makes the information<br />

presented in syntagmatic dictionaries more manageable, more reliable and more<br />

finely adjusted to target usersʼ needs.<br />

At the moment there are no syntagmatic specialized dictionaries of Estonian<br />

language which would provide information about grammatical and collocational<br />

properties of lexemes of different parts of speech. A brief overview of the kind and<br />

manner of syntactic information in Estonian language dictionaries is presented in<br />

Langemets et al. (2005: 72). The authors emphasize that syntactic constructions<br />

have been described in several Estonian dictionaries, but mostly implicitly, by<br />

means of case examples, as no general syntactic encoding system has yet been<br />

elaborated. However, there are a few specialized dictionaries which explicitly<br />

provide information about government patterns (e.g. Pool 1999; Vaiss 2004; UNG-<br />

EE 2010; Mäearu 2011). An analysis of government patternsʼ presentation formats<br />

revealed that information is presented either in coded metalanguage or by means of<br />

dead examples. A dead example is an invented example containing only those<br />

elements that are indispensable for conveying the grammatical information<br />

(Svensén 2009: 147). Mostly cases, infinitives and prepositional phrases are used<br />

(e.g. õnnelik mille üle ʽhappy with sthʼ). As a rule all syntactic information is also<br />

illustrated on the level of authentic or adapted examples.<br />

Analysis of the information which is typically presented in Estonian L2 dictionary<br />

entries (see also Kallas, Tuulik 2011) indicated that lexicographers of the Estonian<br />

language as a second language need to elaborate a new format for explicit<br />

presentation of syntagmatic information in dictionary entries.<br />

In the thesis a theoretical conception of a Basic Estonian Dictionary is presented. It<br />

is a comprehensive print and online dictionary of contemporary Estonian compiled<br />

for learners of Estonian as a second or foreign language (A2, B1 proficiency level).<br />

In order to support the development of lexical and grammatical competence the<br />

dictionary aims to present explicitly syntagmatic relations of Estonian substantives,<br />

adjectives, adverbs and verbs.<br />

The author proposes basic principles that should be considered while compiling<br />

learner dictionaries of Estonian as a second or foreign language. First, there is a<br />

need to take into consideration the basic linguistic competence components<br />

described by the CEFR (Hausenberg et al. 2008; Ilves 2008). The CEFR<br />

emphasizes the importance of government patterns, collocations and phrasal verbs.<br />

Secondly, in order to guarantee the suitability of a dictionary profile for users of a<br />

certain linguistic proficiency, there is a need to use existing vocabulary profile<br />

descriptions. Finally, statistical information can be very useful. Statistics provide<br />

177


evidence that while compiling dictionaries for basic users, it is reasonable to choose<br />

constructions on the basis of raw co-occurrence. Sorting collocations according to<br />

salience brings forward a greater number of rare collocates that may be more<br />

appropriate for independent and proficient users.<br />

The database of the Basic Estonian Dictionary is organized into several fields:<br />

lemma, pronunciation, inflectional information, definition, word formation,<br />

government, collocation, multiword patterns and semantically related words<br />

(synonyms, antonyms).<br />

The government pattern field contains data about the government pattern together<br />

with attributes for the type of government (object, case, adposition, infinitive<br />

government, etc.), as well as position of the complements, obligatory complements<br />

and complementation variability. For example, mitu ʽmanyʼ requires object<br />

government of keda-mida ʽsb-sth-Pʼ as in the usage example: Mitu last sul on?<br />

ʽHow many children do you have?ʼ; kukkuma ʽto fall downʼ is described by the<br />

pattern (kust) + kuhu meaning that the complement kuhu ʽwhere-ILLʼ is obligatory<br />

while kust ʽwhere-ELAʼ is optional as in the example: Kivi kukkus vette ʽThe stone<br />

fell into the waterʼ.<br />

The collocation pattern field contains data about the collocation pattern together<br />

with attributes for the type of the collocation. Collocation patterns are described by<br />

means of categorical and functional-relational labels. For example, the collocation<br />

ajakirja tellima ʽto subscribe to a journalʼ belongs to the N(O)+V (ʽNoun (object) +<br />

Verbʼ) type of the collocation as in the usage example of Ta tellib välismaalt<br />

teaduslikke ajakirju ʽajakiri-PL.Pʼ ʽHe/She subscribes to scientific journals from<br />

abroadʼ ʽjournal-PL.Pʼ.<br />

The multiword pattern field is meant for the presentation of particle, expression and<br />

catenative verbs, and support verb constructions.<br />

In the thesis the author shows how the most frequent government and collocational<br />

patterns can be identified on the basis of word sketches. Also, the potential of word<br />

sketches for syntax-semantic interface is analysed. Using the example of the verb<br />

saabuma, ʽarriveʼ the author illustrates a method developed for verb meaning<br />

analysis, division into senses and identifying the semantic roles of dependents.<br />

In conclusion it should be emphasized that corpus lexicography is quite a young<br />

scientific discipline which has great potential for development. The symbiosis of<br />

corpus and pedagogical lexicography is certainly one of the most promising fields<br />

for future research.<br />

178


ELULOOKIRJELDUS<br />

Nimi: Jelena Kallas<br />

Sünniaeg ja -koht: 21. oktoober 1976, Narva<br />

Kodakondsus: Eesti<br />

Haridus<br />

2011 täiendkoolitus: 16.–17.03.2011 Brighton, Inglismaa<br />

2010 täiendkoolitus: 06.–11.06.2010 Ljubljana Ülikool, Sloveenia<br />

2002 täiendkoolitus: 15.–19.07.2002 Brightoni Ülikool, Inglismaa<br />

2003–2013 Tallinna Ülikool, doktoriõpe<br />

2000–2003 Tallinna Pedagoogikaülikool, Magister artium kraad eesti keele<br />

erialal<br />

1996–2000 Tallinna Pedagoogikaülikool, Baccalaureus artium kraad eesti keele<br />

kui võõrkeele ja kultuuriloo erialal; lisaeriala põhikooli inglise keele<br />

õpetaja<br />

Teenistuskäik<br />

05.01.2011– Eesti Keele Instituut, teadur<br />

01.04.2010–05.01.2011 Eesti Keele Instituut, leksikograaf<br />

2003–05.01.2011 Eesti Keele Instituut, erakorraline teadur<br />

2000–2003 Eesti Keele Instituut, assistent<br />

Teadustegevus<br />

Põhilised uurimisvaldkonnad on teoreetiline ja praktiline leksikograafia, eesti keele<br />

kui teise keele õpetamise metoodika.<br />

Eesti Rakenduslingvistika Ühingu ja rahvusvahelise leksikograafide ühingu<br />

EURALEX liige.<br />

179


CURRICULUM VITAE<br />

Name: Jelena Kallas<br />

Date and place of birth: 21 October, 1976, Narva<br />

Citizenship: Estonian<br />

Education<br />

2011 2nd International Sketch Engine Workshop, 16.–17.03.2011<br />

Brighton, England<br />

2010 Lexicom International Workshop in Lexicography and Lexical<br />

Computing, 06.–11.06.2010 Ljubljana University, Slovenia<br />

2002 Lexicom International Workshop in Lexicography and Lexical<br />

Computing, 15.–19.07.2002 Brighton University, England<br />

2003–2013 Tallinn University, PhD studies<br />

2000–2003 Tallinn Pedagogical University, MA studies (specialisation:<br />

Estonian Philology)<br />

1995–2000 Tallinn Pedagogical University, BA studies (specialisation:<br />

Estonian Philology)<br />

Employment<br />

05.01.2011– Institute of the Estonian Language, researcher<br />

01.04.2010–05.01.2011 Institute of the Estonian Language, lexicographer<br />

2003–05.01.2011 Institute of the Estonian Language, extraordinary researcher<br />

2000–2003 Institute of the Estonian Language, assistant<br />

Research activity<br />

Field of research: theoretical and practical lexicography, Estonian as a Second<br />

Language teaching methodology.<br />

Member of the Estonian Association for Applied Linguistics and of the European<br />

Association for Lexicography (EURALEX).<br />

180


TALLINNA ÜLIKOOL<br />

HUMANITAARTEADUSTE DISSERTATSIOONID<br />

TALLINN UNIVERSITY<br />

DISSERTATIONS ON HUMANITIES<br />

1. СЕРГЕЙ ДОЦЕНКО. Проблемы поэтики А. М. Ремизова. Автобиографизм как<br />

конструктивный принцип творчества. Таллинн: Изд-во ТПУ, 2000. 162 стр. Таллиннский<br />

педагогический университет. Диссертации по гуманитарным наукам, 1. ISSN<br />

1406-4391. ISBN 9985-58-135-0.<br />

2. MART KIVIMÄE. Ajaloomõtlemise kolm strateegiat ja nende dialoogisuhted minevikuga<br />

(lisades tõlgitud R. Koselleck, J. Rüsen, E. Nolte). Historismi muutumise, arendamise,<br />

ületamise probleemid. Tallinn: TPÜ kirjastus, 2000. 201 lk. Tallinna Pedagoogikaülikool.<br />

Humanitaarteaduste dissertatsioonid, 2. ISSN 1406–4391. ISBN 9985-58-164-4.<br />

3. НАТАЛЬЯ НЕЧУНАЕВА. Минея как тип славяно–греческого средневекового<br />

текста. Таллинн: Изд-во ТПУ, 2000. 177 стр. Таллиннский педагогический<br />

университет. Диссертации по гуманитарным наукам, 3. ISSN 1406-4391. ISBN<br />

9985-58-125-3.<br />

4. ОЛЕГ КОСТАНДИ. Раннее творчество В. Каверина как литературный и<br />

культурный феномен. Таллин: Изд-во ТПУ, 2001. 142 стр. Таллиннский<br />

педагогический университет. Диссертации по гуманитарным наукам, 4. ISSN 1406–<br />

4391. ISBN 9985-58-180-6.<br />

5. LAURI LINDSTRÖM. Album Academicum Universitatis Tartuensis 1918–1944. Rahvus,<br />

sugu, sünnikoht ja keskhariduse omandamise koht üliõpilaskonna kujunemist ja<br />

kõrghariduse omandamist mõjutavate teguritena. Tallinn: TPU Press, 2001. 92 p. Tallinn<br />

Pedagogical University. Dissertations on Humanities Sciences, 5. ISSN 1406-4391. ISBN<br />

9985-58-190-3.<br />

6. AУРИКA MEЙMPE. Руccкиe литератoры-эмигрaнmы в Эcmoнии 1918–1940. Нa<br />

матepиaлe пеpиoдическoй печaти. Таллин: Изд-во ТПУ, 2001. 165 стр.<br />

Таллиннский педагогический университет. Диссертации по гуманитарным<br />

наукам, 6. ISSN 1406-4391. ISBN 9985-58-205-5.<br />

7. AIVAR JÜRGENSON. Siberi eestlaste territoriaalsus ja identiteet. Tallinn: TPÜ<br />

kirjastus, 2002. 312 lk. Tallinna Pedagoogikaülikool. Humanitaarteaduste<br />

dissertatsioonid, 7. ISSN 1406–4391. ISBN 9985-58-239-X.<br />

8. DAVID VSEVIOV. Kirde-Eesti urbaanse anomaalia kujunemine ning struktuur<br />

pärast Teist maailmasõda Tallinn: TPÜ kirjastus, 2002. 104 lk. Tallinna<br />

Pedagoogikaülikool. Humanitaarteaduste dissertatsioonid, 8. ISSN 1406-4391. ISBN<br />

9985-58-242-X.<br />

9. ROMAN KALLAS. Eesti kirjanduse õpetamise traditsioon XX sajandi vene õppekeelega<br />

koolis. Tallinn: TPÜ kirjastus, 2003. 68 lk. Tallinna Pedagoogikaülikool.<br />

Humanitaarteaduste dissertatsioonid, 9. ISSN 1406–4391. ISBN 9985-58-256-X.<br />

181


10. KRISTA KERGE. Keele variatiivsus ja mine-tuletus allkeelte süntaktilise keerukuse<br />

tegurina. Tallinn: TPÜ kirjastus, 2003. 246 lk. Tallinna Pedagoogikaülikool.<br />

Humanitaarteaduste dissertatsioonid, 10. ISSN 1406-4391. ISBN 9985-58-265-9.<br />

11. АННА ГУБЕРГРИЦ. Русская драматургия для детей как элемент субкультуры:<br />

1920–1930-е годы. Таллинн: Изд-во ТПУ, 2004. 168 стр. Таллиннский<br />

педагогический университет. Диссертации по гуманитарным наукам, 11. ISSN 1406–<br />

4391. ISBN 9985-58-302-7.<br />

12. VAHUR MÄGI. Inseneriühendused Eesti riigi ülesehituses ja kultuuriprotsessis (1918–<br />

1940). Tallinn: TPÜ kirjastus, 2004. 146 lk. Tallinna Pedagoogikaülikool.<br />

Humanitaarteaduste dissertatsioonid, 12. ISSN 1406-4391. ISBN 9985-58-344-2.<br />

13. HEIKKI OLAVI KALLIO. Suomen ja Viron tiedesuhteet erityisesti Viron<br />

miehitysaikana vuosina 1940–1991. Tallinn: Tallinnan Pedagogisen Yliopiston<br />

kustantamo, 2004. 243 lk. Tallinnan Pedagogisen Yliopiston. Humanististen tieteiden<br />

väitöskirjat, 13. ISSN 1406-4391. ISBN 9985-58-350-7.<br />

14. ÜLLE RANNUT. Keelekeskkonna mõju vene õpilaste eesti keele omandamisele ja<br />

integratsioonile Eestis. Tallinn: TLÜ kirjastus, 2005. 215 lk. Tallinna Ülikool.<br />

Humanitaarteaduste dissertatsioonid, 14. ISSN 1406-4391. ISBN 9985-58-394-9.<br />

15. MERLE JUNG. Sprachspielerische Texte als Impulse für schriftliche Textproduktion im<br />

Bereich Deutsch als Fremdsprache. Tallinn: Verlag der Universität Tallinn, 2006. 186<br />

S. Universität Tallinn. Dissertationen in den Geisteswissenschaften, 15. ISSN 1406-<br />

4391. ISBN 9985-58-409-0<br />

16. ANDRES ADAMSON. Hertsog Magnus von Holmsteini roll Läänemere-ruumis<br />

Liivi sõja perioodil. Tallinn: TLÜ kirjastus, 2005. 156 lk. Tallinna Ülikool. Humanitaarteaduste<br />

dissertatsioonid, 16. ISSN 1736-3624. ISBN 9985-58-427-9.<br />

17. АИДА ХАЧАТУРЯН. Роман В.С. Маканина «Андеграунд, или Герой нашего<br />

времени»: Homo urbanis в поле «усреднения». Таллинн: Изд-во ТПУ, 2006. 146 стр.<br />

Таллиннский педагогический университет. Диссертации по гуманитарным<br />

наукам, 17. ISSN 1736–3624. ISBN-10 9985-58-435-X. ISBN-13 987-9985-58-435-4.<br />

18. JULIA TOFANTŠUK. Construction of Identity In The Fiction of Contemporary British<br />

Women Writers (Jeanette Winterson, Meera Syal, and Eva Figes). Tallinn: Tallinn<br />

University Press, 2001. 160 p. Tallinn University. Dissertations on Humanities Sciences,<br />

18. ISSN 1736-3624. ISBN 978-9985-58-479-8.<br />

19. REILI ARGUS. Eesti keele muutemorfoloogia omandamine. Tallinn: TLÜ kirjastus,<br />

2007. 242 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 19. ISSN 1736-<br />

3624. ISBN 978-9985-58-543-6.<br />

20. ÕNNE KEPP. Identiteedi suundumusi Eesti luules. Tallinn: TLÜ kirjastus, 2008.<br />

222 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 20. ISSN 1736-3624.<br />

ISBN 978-9985-58-574-0.<br />

21. ANNELI KÕVAMEES. Itaalia eesti reisikirjades: Karl Ristikivi „Itaalia<br />

Capriccio” ja Amée Beekmani „Plastmassist südamega madonna”. Tallinn: TLÜ<br />

kirjastus, 2008. 141 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 21. ISSN<br />

1736-3624. ISBN 978-9985-58-543-6.<br />

22. ENE ALAS. The English Language National Examination Validity Defi ned By Its Oral<br />

Profi ciency Interview Interlocutor Behaviour. Tallinn: Tallinn University, 2010. 232 p.<br />

182


Tallinn University. Dissertations on Humanities Sciences, 22. ISSN 1736-3621. ISBN 978-<br />

9949-463-03-9.<br />

23. MERLE TALVIK. Ajakirjagraafi ka 1930. aastate Eestis: Stereotüübid ja ideoloogia.<br />

Tallinn: Tallinna Ülikool, 2010. 203 lk. Tallinna Ülikool. Humanitaarteaduste<br />

dissertatsioonid, 23. ISSN 1736-3624. ISBN 978-9949-463-31-2.<br />

24. TÕNIS LIIBEK. Fotograafiakultuur Eestis 1839-1895. Tallinn: Tallinna Ülikool, 2010. 286<br />

lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 24. ISSN 1736-24. ISBN 978-<br />

9949-463-52-7.<br />

25. HEETE SAHKAI. Teine grammatika. Eesti keele teonimede süntaks<br />

konstruktsioonipõhises perspektiivis. Tallinn. Tallinna Ülikool, 2011. 182 lk. Tallinna<br />

Ülikool. Humanitaarteaduste dissertatsioonid, 25. ISSN 1736-3624. ISBN 978-9949-463-<br />

98-5.<br />

26. MAARJA VAINO. Irratsionaalsuse poeetika A. H. Tammsaare loomingus. Tallinn.<br />

Tallinna Ülikool, 2011. 181 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid,<br />

26. ISSN 1736-3624. ISBN 978-9949-29-017-8.<br />

27. ANNIKA KILGI. Tõlkekeele dünaamika piibli esmaeestinduse käigus: verbi<br />

morfosüntaksi areng ja lõplik toimetamisfaas. Tallinn. Tallinna Ülikool, 2012. 222 lk.<br />

Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 27. ISSN 1736-3624. ISBN 978-<br />

9949-29-050-5.<br />

28. ELVIRA KÜÜN. Dissertatsioon esitatud kaitsmisele.<br />

29. PEETER KAASIK. Nõukogude Liidu sõjavangipoliitika Teise maailmasõja ajal ja<br />

sõjajärgsetel aastatel: sõjavangide kinnpidamissüsteem Eesti näitel ja hinnang<br />

sõjavangide kohtlemisele rahvusvahelise õiguse järgi. Tallinn. Tallinna Ülikool, 2012.<br />

631 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 29. ISSN 1736-3624.<br />

ISBN 978-9949-29-055-0.<br />

30. KADRI SEMM. Milieus in Neighbourhood Place-Making. Tallinn. Tallinna Ülikool,<br />

2012. 210 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid, 30. ISSN 1736-<br />

3624. ISBN 978-9949-29-066-6.<br />

31. AVE MATTHEUS. Eesti laste- ja noortekirjanduse genees: küsimusepüstitusi ja<br />

uurimisperspektiive. Tallinn. Tallinna Ülikool, 2012. 260 lk. Tallinna Ülikool.<br />

Humanitaarteaduste dissertatsioonid, 31. ISSN 1736-3624. ISBN 978-9949-29-070-3.<br />

ILMUNUD VEEBIVÄLJAANDENA<br />

http://e-ait.tlulib.ee/<br />

1. ИННА АДАМСОН. Модальный смысл дезидеративности: от семантической<br />

зоны к семантической типологии высказываний (на материале русского языка).<br />

Таллинн: Изд-во ТЛУ, 2006. 131 стр. Таллиннский педагогический университет.<br />

Диссертации по гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-455-2.<br />

2. MARIS SAAGPAKK. Deutschbaltische Autobiographien als Dokumente des zeit- und<br />

selbstempfindens: vom ende des 19. Jh. Bis zur umsiedlung 1939. Tallinn: Verlag der<br />

Universität Tallinn, 2006. 163 S. Universität Tallinn. Dissertationen in den<br />

Geisteswissenschaften. ISSN 1736-5031. ISBN 978-9985-58-469-9.<br />

3. JANIS EŠOTS.Mullā Sadrā’s Teaching on Wujūd: A Synthesis of Mysticism and<br />

Philosophy. Tallinn: Tallinn University Press, 2007. 150 p. Tallinn University.<br />

Dissertations on Humanities Sciences. ISSN 1736-5031. ISBN 978-9985-58-492-7.<br />

183


4. ГРИГОРИЙ УТГОФ. Проблема синтактического темпа. Таллинн: Изд-во ТЛУ,<br />

2007. 145 стр. Таллиннский педагогический университет. Диссертации по<br />

гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-507-8.<br />

5. ДИМИТРИЙ МИРОНОВ. Глагольность в сфере имен: к проблеме семантического<br />

описания девербативов (на материале русского языка). Изд-во ТЛУ, 2008. 98 стр.<br />

Таллиннский педагогический университет. Диссертации по гуманитарным наукам.<br />

ISSN 1736-5031. ISBN 978-9985-58-563-4<br />

6. INNA PÕLTSAM-JÜRJO. Liivimaa väikelinn varase uusaja lävel. Uurimus Uus-Pärnu<br />

ajaloost 16. sajandi esimesel poolel. Tallinn: TLÜ kirjastus, 2008. 257 lk. Tallinna<br />

Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-570-2.<br />

7. TIIT LAUK. Džäss Eestis 1918–1945. Tallinn: TLÜ kirjastus, 2008. 207 lk. Tallinna<br />

Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-594-8.<br />

8. ANDRES ADAMSON. Hertsog Magnus ja tema “Liivimaa kuningriik”. Tallinn: TLÜ<br />

kirjastus, 2009. 173 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN<br />

1736-5031. ISBN 978-9985-58-615-0.<br />

9. ОЛЕСЯ ЛАГАШИНА. Марк Алданов и Лев Толстой: к проблеме рецепции.<br />

Таллинн: Изд-во ТЛУ, 2009. 151стр. Таллиннский педагогический университет.<br />

Диссертации по гуманитарным наукам. ISSN 1736-5031. ISBN 978-9985-58-654-9.<br />

10. MARGIT LANGEMETS. Nimisõna süstemaatiline polüseemia eesti keeles ja selle<br />

esitus eesti keelevaras. Tallinn: TLÜ kirjastus, 2009. 259 lk. Tallinna Ülikool.<br />

Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9985-58-651-8.<br />

11. LEO LUKS. Ei kogemine nihilismi mõtlemises filosoofia ja kirjanduse ühtesulamisel.<br />

Tallinn. Tallinna Ülikool, 2010. 147 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid.<br />

ISSN 1736-5031. ISBN 978-9949-463-55-8.<br />

12. JELENA RUDNEVA. Сказание о черноризском чине" Кирилла Туровского: опыт<br />

лингвотекстологического исследования. Tallinn. Tallinna Ülikool, 2011. 227 lk.<br />

Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-<br />

9949-463-92-3.<br />

13. ELO LINDSALU. Naisekuju modelleerimine XX sajandi alguskümnendite eesti<br />

kirjanduses. Tallinn. Tallinna Ülikool, 2012. 236 lk. Tallinna Ülikool.<br />

Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9949-29-024-6.<br />

14. ANTON KÜÜNAL. Специфика оперного либретто как текста: на примере опер<br />

на библейские сюжеты (Россия вторая половина XIX b.) Tallinn. Tallinna Ülikool,<br />

2012. 234 lk. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid. ISSN 1736-5031.<br />

ISBN 978-9949-29-069-7.<br />

15. EINAR VÄRÄ. Kaubandussidemed Soome suurvürstiriigi ja Eesti alade vahel aastail<br />

1809–1865. Tallinn. Tallinna Ülikool, 2012. 158 lk. Tallinna Ülikool.<br />

Humanitaarteaduste dissertatsioonid. ISSN 1736-5031. ISBN 978-9949-29-072-7.<br />

DISSERTATSIOONINA KAITSTUD MONOGRAAFIAD<br />

(ilmunud iseseisva väljaandena)<br />

1. ANNE VALMAS. Eestlaste kirjastustegevus välismaal 1944–2000. I-II. Tallinn: Tallinna<br />

Pedagoogikaülikooli kirjastus, 2003. 205, 397 lk. Tallinna Pedagoogikaülikool. ISBN 9985-<br />

58-284-5. ISBN 9985-58-285-3.<br />

184


2. ANNE LANGE. Ants Oras. Monograafia. Tartu: Ilmamaa, 2004. 493 lk. ISBN 9985-77-<br />

163-X.<br />

3. KATRI AASLAV-TEPANDI. Eesti näitlejanna Erna Villmer. Monograafia. Tallinn:<br />

Eesti Teatriliit, 2007. 495 lk. ISBN 78-9985-860-41-0.<br />

4. KRISTA ARU. Üks kirg, kolm mõõdet. Peatükke eesti toimetajakesksest ajakirjandusest:<br />

K. A. Hermann, J. Tõnisson, K. Toom. Monograafia. Tartu: Eesti Kirjandusmuuseumi<br />

Teaduskirjastus 2008. 479 lk ISBN 9789949446254.<br />

185

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!