26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

IV.1 Analisia: katea 85<br />

Ezeizak (2002) bere tesi-lanean informazio zabala ematen du morfeusen<br />

inguruan. Analisi-kateko modulu hau osatzen duten geruzak (ikus IV.1.1.1<br />

irudia) deskribatuko ditugu jarraian:<br />

EDBL<br />

MORFEUS, analisi morfosintaktikoa<br />

Testua<br />

Tokenizazioa<br />

Segmentazioa <strong>eta</strong> analisi morfologikoa<br />

Hitz estandarren analisia<br />

Aldaeren analisia<br />

Hitz ezezagunen analisia<br />

Hitz ez estandarren tratamendua<br />

Morfosintaxia<br />

HAULen tratamendua<br />

Morfosintaktikoki analizatutako testua<br />

Etik<strong>eta</strong>k<br />

Estatistika<br />

Hitzaren<br />

gramatika<br />

IV.2 Irudia: morfeus, analizatzaile morfosintaktikoa.<br />

1. Tokenizazioa. Tokenizatzaileak testua unitate edo token<strong>eta</strong>n, <strong>eta</strong> gero<br />

esaldi<strong>eta</strong>n, banatzen du. Hots, testuan honakoak identifikatzen ditu:<br />

hitzak, zenbakiak, arruntak <strong>eta</strong> erromatarrak, deklinatu gabeak<br />

<strong>eta</strong> deklinatuak; laburdurak <strong>eta</strong> siglak; zuriuneak <strong>eta</strong> puntuazio-markak<br />

1 ...Tokenei beharrezkoa den informazio tipografikoa gehitzen zaie<br />

etiketen bidez (hasiera maiuskulaz, hitz osoa maiuskulaz; siglak <strong>eta</strong><br />

zenbaki deklinatuak). Tokenak banatzeari dagokionez, analisirako tratamendu-unitatea<br />

hitza izanik, esan beharra dago formatua soilik kontuan<br />

hartzen bada, hitza zehaztea ez dela lan erraza, baina bai garrantzitsua,<br />

tokenizazioak ondorengo prozesuak elikatzen baititu. Tokenizatzaileak<br />

sarreran testu gordina <strong>eta</strong> XML formatuak onartzen ditu.<br />

2. Segmentazioa edo analisi morfologikoa. Segmentatzaileak, testu-hitz<br />

1 Tokenizatzailearen deskribapen zehatzagoa ematen da Ezeizaren (2002) lanean, 28.<br />

orrialdean.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!