22.04.2013 Views

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

idazlea, etab . zehazten<br />

aipamenak etab .<br />

Prozesadore morfologiko bat euskara estandarrerako<br />

• zuriuneak eta puntuazio zeinuak, hitzen arteko hereizganiak direlako .<br />

•<br />

•<br />

gainontzeko markak eta karaktere bereziak .<br />

maiuskulaz idatzitako hasierako letrak, zatiak eta izenburuak .<br />

• corpusetan agertu ohi diren testuaren identifikazioak -urtea, testu-mota,<br />

duena-, orri-zcnhakiak, heste hizkuntzen<br />

Eman lezakeena haina lan neketsuagoa da euskararako halako ezagutzailea egitea,<br />

elementu hatzuck -marra edo puntua adibidez- funtzio anitza dutelako eta heste<br />

hizkuntzetan formatoaren hidez oso erraz identifikatzen diren osagai haizuk, euskaraz<br />

deklina daitezkeenez, hain identifikaeirazak ez direlako .<br />

Konplexutasun honen aurrean eta heste ezagutzaile batzuen kidetik, automata bat da<br />

identifikazioaz arduratzen den tresna . Lortzen den automata konplexu samarra da .<br />

III .5 .2 Analizatzailearen emaitzak eta estaldura-tasa .<br />

Atal honetan analizatzailearen ezaugarri gan - antzitsucnak aztertuko ditugu . 111 .8 irudian<br />

"Eta gauza aundirik ekartzerik ez -zuen izan" esaldia analizatzean lortutako ernaitza ikus<br />

daiteke . Bertan ikus daitekeenez, analisiaren emaitza zerrenda paranterizatu hezala ematen<br />

da, hitz bakoitzeko analisi-aukera desherdinekin -anall, anal2, . . . identifikadoreaz<br />

bereiziak-, eta lerra bakoitzean morfema baten informazioa zehaztuz . Hitz baterako<br />

analisirik aurkitzen ez hada analisirik gahe agertuko da, ondoko kapituluan -zehaztuko diren<br />

prozeduren zain . Adibidean mendirik hitza analizatu gahe agertzen da forma ez-cstandana da<br />

eta .<br />

C eranskinean testu-zati luze sainar baten adibide osoagoa azaltzen da, hcrtan datorren<br />

kapituluan azaltzen diren <strong>tratamendu</strong>ak -forma ez-estandarren ezaguera eta analisia lema<br />

lexikoan egon gahe- huiaturik daudelarik . Ondoko kapituluko IVA atalean deskribatzen<br />

den tratemendua burutua izan (la cmaitzcn gainean .<br />

Emaitzaren formatoa ikusita, pasa gaitezen estaldurari huruzko zenbait datu ematera .<br />

Datuak lehen kapituluan aipatutako corpusen gainean hartu dira, eta 111 .9 irudian azter<br />

daitezke . Corpus hakoitzcko hi neurri ematen dira, hat hitz guztiak kontuan hartuz (corpus)<br />

eta hestea hitz dcshcrdinak hakarrik kontuan hartuz (zerrenda) . Espero -zitekeen hezala,<br />

zerrendetan tasa okerragoa da, analizatzen ez diren hitzak, hitz arruntak ez direnez, gutxitan<br />

errepikatzen harrira .<br />

89

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!