11.05.2014 Views

Abstraktit - Oulu

Abstraktit - Oulu

Abstraktit - Oulu

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

56. PAULSEN, GEDA – INTERNET-KIELI AINEISTONA<br />

VERBIJOHDOSTEN TUTKIMUKSESSA<br />

Åbo Akademi, Finska språket och litteraturen<br />

Asiasanat:<br />

Kielentutkimuksessa perinteisinä aineistolähteinä ovat olleet erilaisiin tarkoituksiin<br />

kerätyt korpukset, suullisen tai kirjoitetun kielen arkistot sekä erilaiset testi- ja<br />

haastatteluaineistot. Näiden aineistojen lähteet ovat. kontrolloitavissa sekä<br />

tekstityypiltään, kirjoitustyyliltään että esimerkiksi sanaston taajuudeltaan. Internet<br />

tarjoaa kuitenkin aivan toisentyyppisen dynaamisen ja muuttuvan aineiston<br />

tutkijan käytettäväksi. Millainen tämä materiaali on ja miten siihen suhtautua?<br />

Saako niin muuttuvaa materiaalia käyttää kielenkuvauksessa ja miten sitä pitäisi<br />

käyttää? Selvää on, että vanhat aineiston keruuseen liittyvät kriteerit eivät<br />

nettiaineiston kohdalla välttämättä päde, joten uudet kriteerit ja perustelut ovat<br />

tarpeen.<br />

Esitelmässäni pohdinkin Internet-aineiston käyttöön liittyviä kysymyksiä.<br />

Käsittelen asiaa oman tutkimuskohteeni kannalta, joka on suomen kielen<br />

kausatiivijohdokset ja niiden leksikaalinen kuvaus. Internet-aineiston puolesta<br />

puhuu se, että se heijastaa kielen muutosta ja potentiaalisia muutoksia aiheuttavia<br />

pesäkkeitä ja verkostoja. Hyvä peruste on myös materiaalin laajuus: suuristakaan<br />

käytössä olevista tekstikorpuksista ei löydy esimerkkejä joistain kiinnostavista<br />

esimerkeistä. Esim. haetuttaa-verbin kaikkien muotojen esiintymiä löytyy<br />

sanomalehtikieleen perustuvasta Kielipankin aineiston 76,5 miljoonasta sanasta<br />

koostuva korpuksesta 11 kappaletta kun taas Internetistä Google-hakukone antaa<br />

391 osumaa ainoastaan yksikön 3. persoonan muodosta (haettu 16.2.2007).<br />

Nettiavaruudessa vallitsevat omat tekstityypit ja -rekisterit heijastuvat myös<br />

aineistoon. Oman aineistoni keruussa olen huomannut, että joidenkin johdosten<br />

esiintymistaajuus keskittyy tiettyihin tekstilajeihin. Toisaalta aihepiiri, joka<br />

yhdistää jonkin alan asiantuntijoita tai harrastajia, vaikuttaa sanaston käyttöön ja<br />

merkityksen erikoistumiseen. Ongelmana voidaan nähdä vaikka se, että<br />

nettikirjoittajaa on vaikeaa luokitella; ei ole varmuutta edes siitä, onko<br />

kielenkäyttäjä äidinkielinen. Jatkuvan sisällönmuutoksen ja sekaan mahtuvien<br />

epärelevanttien hakutulosten takia nettiaineiston sanafrekvensseja ei voikaan laskea<br />

ilman aineiston tarkkaa suodattamista. Mitä seurauksia nettimateriaalin<br />

ominaisuuksilla on kielentutkimuksen kannalta,? Mitä sillä on annettavaa? Mitkä<br />

olisivat mahdolliset kriteerit ”villin” aineiston kesyttämiseksi? Nämä ovat<br />

mielestäni vähintään keskustelun arvoisia kysymyksiä.<br />

Lähteet:<br />

KIELITIETEEN PÄIVÄT 24.–25.5.2007 82 / 155<br />

OULU

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!