26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

34 Erroreak, corpusak, sailkapena <strong>eta</strong> ebaluazioa<br />

elektronikoan lor baitaiteke, <strong>eta</strong> <strong>errore</strong> linguistikoak ditu. Desabantaila<br />

bat du, ordea, hizkuntz informalean idatzita dago <strong>eta</strong> batzu<strong>eta</strong>n<br />

laburtzapenak <strong>eta</strong> bukatu gabeko hitzak topa ditzakegu bertan. Horrek<br />

analisia zailtzen du.<br />

• Euskara teknikoa. Euskal Herriko Unibertsitatean euskara teknikoa izeneko<br />

irakasgaia irakasten duten irakasle batzuen eskutik jaso ditugu<br />

haien ikasleen lanak. Lan horiekin 19.549 hitzeko testu-bilduma osatu<br />

dugu.<br />

• Karrera bukaerako proiektuak. Informatika Fakultateko ikasleek karrera<br />

amaitu ahal izateko, proiektu bat garatu <strong>eta</strong> honi buruzko txosten<br />

bat idatzi behar izaten dute. Euskaraz idatzitako hainbat txosten jaso<br />

ditugu <strong>errore</strong>en bila. Txostenak zuzendariek zuzendu aurretiko bertsioak<br />

dira. Testu hau<strong>eta</strong>n 305.796 hitz daude.<br />

Euskaltegi<strong>eta</strong>ko testu<strong>eta</strong>n euskara-ikasleen <strong>errore</strong>ak topatuko baditugu<br />

ere, gainontzeko hiru testu multzo<strong>eta</strong>n hiztun osoek egiten dituzten <strong>errore</strong>ak<br />

bildu dira. Hori horrela izanik, corpus <strong>errore</strong>dun orokor baten aurrean<br />

gaudela esango dugu.<br />

Corpus <strong>errore</strong>dunaz gain, corpus zuzena ere erabili dugula esan dugu.<br />

Euskaldunon Egunkariko 2002 urteko albiste guztiak erabili ditugu testuinguru<br />

mugatuko <strong>errore</strong>en alarma faltsuak probatzeko (8.207.919 hitz), <strong>eta</strong><br />

euskarazko treebanka erabili dugu (Aduriz et al., 2003b), testuinguru zabaleko<br />

<strong>errore</strong>en alarma faltsuak probatzeko (50.000 token inguru).<br />

V. <strong>eta</strong> VII. kapitulu<strong>eta</strong>n zehatz-mehatz azalduko dugu zein corpus, corpus<br />

hori<strong>eta</strong>ko zein testu <strong>eta</strong> zenbat hitz erabili ditugun <strong>errore</strong>-erregelak garatzeko<br />

<strong>eta</strong> probatzeko.<br />

II.3.3 Etik<strong>eta</strong>tzea<br />

Corpusak etik<strong>eta</strong>tzea lan garestia den arren, corpus etik<strong>eta</strong>tuak baliabide<br />

ahaltsuak dira. Testu-bildumak modu ezberdin<strong>eta</strong>n etik<strong>eta</strong> daitezke (IXA<br />

taldea <strong>eta</strong> Elhuyar Fundazioa, 2007): egiturazko informazioa etik<strong>eta</strong>tuaz (informazio<br />

dokumentala, dokumentuen egitura <strong>eta</strong> formatu-ezaugarriak) edo<br />

hizkuntza-informazioa gehituaz (informazio lexikala, sintaktikoa, semantikoa<br />

<strong>eta</strong> pragmatikoa). Tesi-lan hon<strong>eta</strong>n ez dugu egiturazko informaziorik etik<strong>eta</strong>tuko,<br />

baina hizkuntza-informazioa etik<strong>eta</strong>tzea ezinbestekoa izango zaigu<br />

<strong>errore</strong>ak automatikoki <strong>detektatzeko</strong> <strong>eta</strong> <strong>zuzentzeko</strong>, <strong>eta</strong> hau guztia ebaluatzeko.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!