22.04.2013 Views

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Liaren nondik norakook eta aurkezpen orokorra<br />

Corpus orekatu orokorrari "EEBS estandarra" deituko diogu lan honetan zehar, eta here<br />

ustiapenerako zenbait arazo egon dira . Arazo garrantzitsuena hauxe izan da : euskara<br />

estandarrerako corpus orekatua zen helburua, haina EEBSn hogeigarren mendeko euskara<br />

idatziaren mota guztietako laginak daude ; eta data, testu-mota eta euskalkiaren arabera<br />

sailkaturik egon alTCn, euskara hatuaren garaiko testu neutroak -euskalkiaren aldetik-<br />

aukeratu arren, erabilpen ez-estandarrak agertzen dira maiz, euskara estandarraren arauak<br />

eta irizpideak aldatzen ari haitira . Honen ondorioz aukeratutako corpus orekatuan forma ez-<br />

estandar anitz agertzen dira, haien arteko batzuk maiztasun handiz . Euskara batua/estandan•a<br />

bultzatzeko <strong>tresnak</strong> eraiki nahian, ezin izan diogu eman corpus orekatu honi heste hizkuntza<br />

normalizatuagoetan ematen zaion garrantzia ; finkatzen ari diren irizpide haizuk corpusetan<br />

agertzen diren datuekin kontraesanean daudenean, irizpide horiei lehentasuna eman baitiegu .<br />

Corpus orekatuan oinarriturik hi taula garrantzitsu lortu dira : maiztasun handieneko<br />

hitzena, eta maiztasun handieneko trigramena-hiru karaktereko multzo gainjarriak aurreko<br />

eta ondorenío zuriuneak kontuan harturik- .<br />

I.5 . Egiturazko tresna : prozesadore morfologiko<br />

automatikoa.<br />

Prozesadore morfologiko baten eraikuntza eta heraren erabilpena heste <strong>tresnak</strong> diseinatzeko<br />

izan da lan honen muina . Konputagailuaren kidezko morfologiari ekin aurretik eredu<br />

desberdinak aztertu dira eta zcnhait proba egin ere . Bide honTctan, eta burutzapenaren lehen<br />

fase hatean, hi "maketa" eraiki ziren hi formalismo desherdinen arabera : hi mailatako<br />

formalismoari (Koskenniemi, 83) jarraituz bat, eta ATEF sistema (GETA, 82) erabiliz<br />

hestea . Bibliografiatik- ateratako ondorioak eta esperientzia praktikoetatik ateratakoak bat<br />

etorri ziren, eta hi mailatako morfologia izan zen aukeratu genuen eredu konputazionala .<br />

Euskararako prozesadore morfologikoaren eraikuntza hi fasetan izan da burutua : euskara<br />

estandarrerako prozesadore morfologikoa katetik, eta aurreko prozesadore morfologikoak<br />

ezagutzen duen hitz-multzoa-coverage edo estaldura-tasa-handitzen duen "analizatzaile<br />

sendoa" hestetik .<br />

Bi faseetan erabili diren teknikak hi mailatako morfologian (Koskenniemi, 83) daude<br />

oinarrituta, eta horri esker sistema osoa homogenoa da irtenhide partikularretatik aldenduz .<br />

Hiru hobekuntza burutu dira hi mailatako formalismoaren inguruan : lehenengoz<br />

erabiltzaileen lexikoen erahilera hideratu da, bigarrenik hi mailatako paradigmaren erabilpen<br />

"herri" bat egin da, aldaera deitu ditugun forma ez-estandarren <strong>tratamendu</strong>rako ; eta azkenik<br />

fonologiarako hakarrik erahilia zen "lexikorik gaheko analisia" testuen analisirako izan da<br />

hedatua.<br />

1 9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!