26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

278 Saroi <strong>eta</strong> komunztadura-<strong>errore</strong>ak<br />

3LB treeebanka bere euskarazko bertsioan 50.223 tokenek osatzen dute,<br />

Abar-hitz tresna erabilita etik<strong>eta</strong>tu zen eskuz, <strong>eta</strong> gero tratamendu automatikorako<br />

egokitu zen (Bengoetxea <strong>eta</strong> Gojenola, 2007). Egokitzapenaren ondorioz,<br />

mendekotasun-zuhaitzak lehenago ere aipatu dugun “CoNLL 2007”<br />

kongresuan erabilitako formatu tabulatuan lortu ziren. Gure beharr<strong>eta</strong>rako,<br />

azken formatua programa baten bidez Saroik sarreran erabiltzen duen XML<br />

amaraunera bihurtu dugu.<br />

Corpus hon<strong>eta</strong>n ez dago inolako anbiguotasun sintaktikorik. Mendekotasun-zuhaitz<br />

bakarra dugu esaldiko, <strong>eta</strong> emaitzak lortu ahal izateko, hori<strong>eta</strong>ko<br />

bakoitzean komunztadura-<strong>errore</strong>en detekziorako erregelak aplikatzea besterik<br />

ez dugu egin.<br />

Treebankeko esaldiek XX. mendeko euskararen corpus estatistikoan 24<br />

(Aduriz et al., 2003a) <strong>eta</strong> Euskaldunon Egunkarian dute iturburua. Corpusa,<br />

berriro ere, bi zatitan banatu dugu: garapenerako bata <strong>eta</strong> probarako<br />

bestea (ikus VII.18 taula). Corpus <strong>errore</strong>dunean egin genuen modu berean,<br />

erregelak aldatzeko beharrik ikusten ez bada, lehen testu-bildumarekin soilik<br />

egingo dugu proba.<br />

Emaitzak<br />

Corpus zuzena<br />

Garapenerako Probarako<br />

corpusa (% 60a) corpusa (% 40a)<br />

Esaldi kopurua 1906 1271<br />

VII.18 Taula: Treebankaren banak<strong>eta</strong> ebaluaziorako.<br />

Esperimentu hon<strong>eta</strong>rako 1906 esalditako treebankaren azpimultzo bat erabili<br />

dugu (hasiera batean garapenerako corpus moduan definitu genuena).<br />

Erregelak aplikatu ondoren, 161 esalditan detektatu da <strong>errore</strong>a, hau da, corpusaren<br />

% 8,45 (ikus VII.19 taula). Alarma faltsuen artean bereizk<strong>eta</strong> egin<br />

dugu, batzuk gure ustez ezin baitira halakotzat jo:<br />

• Ustezko alarma faltsu hau<strong>eta</strong>tik 90 alarma faltsu ez kontsideratzea erabaki<br />

dugu honako arrazoiagatik: ez dira sistemaren gehiegizko markak<strong>eta</strong>k<br />

izan, batzuk treebanka etik<strong>eta</strong>tzeko hartutako erabakiengatik<br />

sortu baitira (bi subjektu aditz berari lotuta, adibidez), <strong>eta</strong> beste batzuk,<br />

etik<strong>eta</strong>tze-akatsengatik. Anotazio-akatsak direla esan dezakegu.<br />

24 Corpus honek lehen EEBS-Egungo Euskararen Bilk<strong>eta</strong>-lan Sistematikoa zuen izena.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!