26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

V.2 Transduktoreak <strong>eta</strong> datak 121<br />

Zuzenk<strong>eta</strong>k sortzeko modu hau erabilita (zenbakizko dat<strong>eta</strong>tik abiatuta)<br />

data batean gertatzen diren <strong>errore</strong> guztiak ez detektatu arren, guztiak zuzenduko<br />

direla bermatzen da. Adibidez, data batean 3 <strong>errore</strong> egongo balira,<br />

bakarra detektatzea nahikoa da guztiak <strong>zuzentzeko</strong>.<br />

Daten zuzenk<strong>eta</strong>rako modulua OLHIA ingurune batean integratu nahiko<br />

balitz, segur aski egokiagoa litzateke <strong>errore</strong> bakoitzaren zuzenk<strong>eta</strong> banan-<br />

-banan egitea. Aproposa litzateke, ordea, gramatika-zuzentzaile batean.<br />

V.2.4 Emaitzak<br />

Ebaluaziorako, garapenerako <strong>eta</strong> probarako, 267 testudun corpusa baliatu<br />

dugu. Testu-bilduman ikasleek idatzitako testuak <strong>eta</strong> Euskaldunon Egunkariko<br />

testuak daude, guztira 500.000 hitz-forma. Bertatik, 658 esaldi erauzi<br />

ditugu automatikoki. Esaldien bilak<strong>eta</strong>rako hilabete-izenak, urte-zenbakiak<br />

<strong>eta</strong> antzeko aztarnak erabili ditugu. Gako-hitz hauek beste egitura batzuekin<br />

konparatuta errazagoa egiten dute daten inguruko corpus berezitua bilatzea.<br />

Jasotako esaldi multzo horr<strong>eta</strong>n data zuzenak, data okerrak <strong>eta</strong> daten antzeko<br />

egiturak biltzen dira.<br />

Behin <strong>eta</strong> berriro esan dugu, ebaluazioan garrantzi handia eman diogula<br />

alarma faltsurik ez sortzeari: sistemak <strong>errore</strong> moduan data zuzen <strong>eta</strong> daten<br />

antzekoak diren egiturak ez markatzeari.<br />

Datuak bi multzotan banatu ditugu (ikus V.2 taula). Lehen multzoa<br />

garapenerako erabili dugu, <strong>eta</strong> bigarrena probarako. Data zuzenen proportzioa<br />

altuagoa da probarako corpusean garapenerako corpusean baino, modu<br />

hon<strong>eta</strong>n alarma faltsuak zehaztasun handiagoarekin probatuko ditugulako.<br />

Adierazgarria iruditzen zaigu probarako corpusean 2 <strong>errore</strong> dituzten egiturak<br />

(% 65,8), bakarra dutenak baino gehiago izatea (% 23,7).<br />

Corpusa <strong>errore</strong>ekin etik<strong>eta</strong>tu dugu, analizatu egin dugu, <strong>eta</strong> azkenik,<br />

<strong>errore</strong>ak <strong>detektatzeko</strong> egoera finituko transduktoreak pasa dizkiogu.<br />

Garapenerako corpusa Probarako corpusa<br />

Elementu kopurua 411 247<br />

Data zuzenak 51 35<br />

Daten “antzeko” egiturak 263 173<br />

Data <strong>errore</strong>dunak 97 38<br />

Data <strong>errore</strong>dunak: <strong>errore</strong> 1 48 % 49,6 9 % 23,7<br />

Data <strong>errore</strong>dunak: 2 <strong>errore</strong> 35 % 36,0 25 % 65,8<br />

Data <strong>errore</strong>dunak: 3 <strong>errore</strong> 10 % 10,3 3 % 7,9<br />

Data <strong>errore</strong>dunak: 4 <strong>errore</strong> 4 % 4,1 1 % 2,6<br />

V.2 Taula: Garapenerako <strong>eta</strong> prob<strong>eta</strong>rako corpusak.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!