Abstraktit - Oulu
Abstraktit - Oulu
Abstraktit - Oulu
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4. ARPPE, ANTTI – MONIMUUTTUJAMENETELMIEN<br />
HYÖDYNTÄMINEN TEKSTIAINEISTOJEN KIELENTUTKI-<br />
MUKSESSA: SYNONYMIAN TARKASTELU SUOMEN KIELESSÄ<br />
Yleisen kielitieteen laitos, Helsingin yliopisto<br />
Asiasanat:<br />
Synonymia on kielitieteellisen tutkimuksen kohteena pitkään jäänyt lapsipuolen<br />
asemaan verrattuna esimerkiksi polysemian tutkimukseen. Synonymiaa<br />
koskettavat tutkimukset ovat olleet harvassa ja usein toisistaan irrallaan, vaikkakin<br />
viime vuosina voinut nähdä pienoista kiinnostuksen aktivoitumista niin kotimaassa<br />
(Arppe 2002, Jantunen 2004, Vanhatalo 2005) kuin ulkomailla (Divjak & Gries<br />
2006), jonka puitteissa on ryhdytty systemaattisesti täyttämään tähänastista aukkoa.<br />
Synonymian tutkimuksen keskeiseksi kohteeksi on muodostunut, mitkä<br />
kielensisäiset ja ulkoiset tekijät erottavat samaa tarkoittavia synonyymeja<br />
toisistaan. Näitä tekstiaineistojen pohjalta havaittuja synonyymien käyttöön ja<br />
valintaan vaikuttavia kontekstipiirteitä ovat 1) tekstityyppi, 2) leksikaalinen<br />
konteksti, 3) syntaktiset rakenteet, 4) syntaktisten argumenttien semanttiset luokat<br />
ja 5) morfologiset piirteet. Aikaisemman synonymian tutkimuksen puutteena on<br />
ollut, että se on rajautunut pääsääntöisesti 1) pareittaisiin vertailuihin tai 2)<br />
yksittäisiin kontekstipiirteisiin tai piirrekategorioihin kerrallaan rajautuviin<br />
selitysmalleihin.<br />
Näin ollen tavoitteenani on osoittaa käytännössä, kuinka 1) useamman kuin<br />
kahden synonyymisen sanan joukon käyttöä ja eroavaisuuksia voidaan tutkia<br />
kokonaisvaltaisesti tekstiaineistojen avulla, 2) huomioimalla kattavasti eri<br />
kontekstipiirrekategoriat ja 3) havaitsemalla eri piirteiden väliset riippuvuudet ja<br />
keskinäiset painoarvot tilastollisia monimuuttujamenetelmiä hyödyntämällä.<br />
Menetelmämielessä tutkimukseni on jatkoa Griesin (2003) sekä Divjakin ja Griesin<br />
(2006) työlle. Tarkoitukseni on kuvata seikkaperäisesti, miksi valitsen eri<br />
tilastollisia menetelmiä eri vaiheissa ja kuinka näitä tilastollisia menetelmiä<br />
käytetään. Keskeinen tulos on, että n. 100 lingvistisen eli morfologisen, syntaktisen<br />
ja semanttisen tekijän avulla voidaan selittää 2/3 (65%) neljän yleisemmän ajatellasynonyymin<br />
käytöstä.<br />
Tutkimuksessani kehitettyjen ja esitettyjen menetelmien avulla voidaan<br />
yleisesti systematisoida sanakirjojen toimitustyötä ja tarkentaa näin syntyviä<br />
leksikografisia kuvauksia. Mikäli käytettävissä on eurooppalaisia valtakieliä varten<br />
koottujen syntaktisesti ja semanttisesti annotoitujen tekstiaineistojen eli ns.<br />
puupankkien ja ontologioiden kaltaisia resursseja, voidaan tutkimuksessa<br />
kehitetyillä menetelmillä myös osittain automatisoida sanakirjatyössä käytettävien<br />
tekstiaineistojen esiprosessointia.<br />
KIELITIETEEN PÄIVÄT 24.–25.5.2007 12 / 155<br />
OULU