11.05.2014 Views

Abstraktit - Oulu

Abstraktit - Oulu

Abstraktit - Oulu

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4. ARPPE, ANTTI – MONIMUUTTUJAMENETELMIEN<br />

HYÖDYNTÄMINEN TEKSTIAINEISTOJEN KIELENTUTKI-<br />

MUKSESSA: SYNONYMIAN TARKASTELU SUOMEN KIELESSÄ<br />

Yleisen kielitieteen laitos, Helsingin yliopisto<br />

Asiasanat:<br />

Synonymia on kielitieteellisen tutkimuksen kohteena pitkään jäänyt lapsipuolen<br />

asemaan verrattuna esimerkiksi polysemian tutkimukseen. Synonymiaa<br />

koskettavat tutkimukset ovat olleet harvassa ja usein toisistaan irrallaan, vaikkakin<br />

viime vuosina voinut nähdä pienoista kiinnostuksen aktivoitumista niin kotimaassa<br />

(Arppe 2002, Jantunen 2004, Vanhatalo 2005) kuin ulkomailla (Divjak & Gries<br />

2006), jonka puitteissa on ryhdytty systemaattisesti täyttämään tähänastista aukkoa.<br />

Synonymian tutkimuksen keskeiseksi kohteeksi on muodostunut, mitkä<br />

kielensisäiset ja ulkoiset tekijät erottavat samaa tarkoittavia synonyymeja<br />

toisistaan. Näitä tekstiaineistojen pohjalta havaittuja synonyymien käyttöön ja<br />

valintaan vaikuttavia kontekstipiirteitä ovat 1) tekstityyppi, 2) leksikaalinen<br />

konteksti, 3) syntaktiset rakenteet, 4) syntaktisten argumenttien semanttiset luokat<br />

ja 5) morfologiset piirteet. Aikaisemman synonymian tutkimuksen puutteena on<br />

ollut, että se on rajautunut pääsääntöisesti 1) pareittaisiin vertailuihin tai 2)<br />

yksittäisiin kontekstipiirteisiin tai piirrekategorioihin kerrallaan rajautuviin<br />

selitysmalleihin.<br />

Näin ollen tavoitteenani on osoittaa käytännössä, kuinka 1) useamman kuin<br />

kahden synonyymisen sanan joukon käyttöä ja eroavaisuuksia voidaan tutkia<br />

kokonaisvaltaisesti tekstiaineistojen avulla, 2) huomioimalla kattavasti eri<br />

kontekstipiirrekategoriat ja 3) havaitsemalla eri piirteiden väliset riippuvuudet ja<br />

keskinäiset painoarvot tilastollisia monimuuttujamenetelmiä hyödyntämällä.<br />

Menetelmämielessä tutkimukseni on jatkoa Griesin (2003) sekä Divjakin ja Griesin<br />

(2006) työlle. Tarkoitukseni on kuvata seikkaperäisesti, miksi valitsen eri<br />

tilastollisia menetelmiä eri vaiheissa ja kuinka näitä tilastollisia menetelmiä<br />

käytetään. Keskeinen tulos on, että n. 100 lingvistisen eli morfologisen, syntaktisen<br />

ja semanttisen tekijän avulla voidaan selittää 2/3 (65%) neljän yleisemmän ajatellasynonyymin<br />

käytöstä.<br />

Tutkimuksessani kehitettyjen ja esitettyjen menetelmien avulla voidaan<br />

yleisesti systematisoida sanakirjojen toimitustyötä ja tarkentaa näin syntyviä<br />

leksikografisia kuvauksia. Mikäli käytettävissä on eurooppalaisia valtakieliä varten<br />

koottujen syntaktisesti ja semanttisesti annotoitujen tekstiaineistojen eli ns.<br />

puupankkien ja ontologioiden kaltaisia resursseja, voidaan tutkimuksessa<br />

kehitetyillä menetelmillä myös osittain automatisoida sanakirjatyössä käytettävien<br />

tekstiaineistojen esiprosessointia.<br />

KIELITIETEEN PÄIVÄT 24.–25.5.2007 12 / 155<br />

OULU

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!