26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

286 Saroi <strong>eta</strong> komunztadura-<strong>errore</strong>ak<br />

gero, emaitzen azterk<strong>eta</strong> soilik egingo dugu eskuz. Erabili ditugun baliabideak<br />

honakoak izan dira: aipatu berri ditugun corpus<strong>eta</strong>tik automatikoki<br />

erauzitako aditzen gauzatze-egiturak <strong>eta</strong> EHren azterk<strong>eta</strong> automatikoaren<br />

ondorioz lortutako aditz-patroiak; <strong>eta</strong> bestetik, euskararako dependentzia<br />

treebanka. Baliabide hauek guztiak Saroi erabilita kudeatu ditugu. Baliabideak<br />

osagarriak direla uste dugu: i) corpusak gaur egun egiten den hizkuntzaren<br />

erabilera islatzen du, ii) hiztegia eskuzko lan linguistiko izugarria<br />

egin ondoren garatu zen <strong>eta</strong> iii) treebankak bi ikuspuntuak biltzen ditu.<br />

Hiztegiko aditzak bi modutan aberasteko proposamenak egingo ditugu:<br />

1. Azpikategorizazio-informazioa aberastuaz. Corpuseko <strong>eta</strong> hiztegiko aditzen<br />

artean azpikategorizazioari buruzko desadostasunak topatu ditugunean,<br />

egoki iruditu zaigun azpikategorizazio-informazioa hiztegian<br />

gehi dadin proposatu dugu.<br />

2. Aditzak gehituaz. Corpusean topatu ditugun <strong>eta</strong> hiztegian topatu ez<br />

ditugun aditzak hiztegian gehi daitezen proposamena egin dugu, aditz<br />

horiek corpusetik aparte treebankean ere agertzen badira.<br />

Hiztegia aberasteko informazioarekin sortutako aditz-zerrendak hizkuntzalari<br />

bati erakutsi zaizkio errepasa ditzan. Proposamenak egiteko hiztegitik<br />

erauzitako informazioa erabili dugunez, feedback prozesu baten aurrean<br />

gaudela esan dezakegu: EH hiztegia erabili dugu, EH hiztegia aberasteko.<br />

Lana garatzeko baliabideak ezagunak ditugunez, esperimentuak aurkezteari<br />

ekingo diogu. Hauek garatu aurretiko prestakuntza-lana aurkeztuko<br />

dugu VII.8.2 atalean. Geroago, VII.8.3 <strong>eta</strong> VII.8.4 atalak esperimentuak<br />

azaltzeko erabiliko ditugu. Azkenean, ateratako zenbait ondorio laburbilduko<br />

ditugu VII.9.2 atalean.<br />

VII.8.2 Aurreprozesua<br />

Honenbestez, jatorri ezberdina duten datu linguistikoekin osatutako hiru<br />

baliabide ditugu eskuartean: a) corpusetik erauzitako aditz multzo bat aditz<br />

bakoitzeko laguntzaile mota adierazita duelarik, b) informazio bera duen<br />

baina hiztegitik jaso dugun beste aditz multzo bat, <strong>eta</strong> azkenik, c) euskara<br />

estandar <strong>eta</strong> zuzeneko treebanka.<br />

Aditz multzoak modu hon<strong>eta</strong>n osatuta daude: corpusetik 2.541 aditz<br />

lortu ditugu <strong>eta</strong> hiztegitik 4.016 aditz. Guztira 5.264 aditz desberdin. Zenbakiek<br />

erakusten dutenaren arabera, aditz batzuk bi zerrend<strong>eta</strong>n agertzen<br />

diren bitartean, beste batzuk bakarrean agertzen dira:

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!