Euskal morfologiaren tratamendu automatikorako tresnak
Euskal morfologiaren tratamendu automatikorako tresnak
Euskal morfologiaren tratamendu automatikorako tresnak
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
idazlea, etab . zehazten<br />
aipamenak etab .<br />
Prozesadore morfologiko bat euskara estandarrerako<br />
• zuriuneak eta puntuazio zeinuak, hitzen arteko hereizganiak direlako .<br />
•<br />
•<br />
gainontzeko markak eta karaktere bereziak .<br />
maiuskulaz idatzitako hasierako letrak, zatiak eta izenburuak .<br />
• corpusetan agertu ohi diren testuaren identifikazioak -urtea, testu-mota,<br />
duena-, orri-zcnhakiak, heste hizkuntzen<br />
Eman lezakeena haina lan neketsuagoa da euskararako halako ezagutzailea egitea,<br />
elementu hatzuck -marra edo puntua adibidez- funtzio anitza dutelako eta heste<br />
hizkuntzetan formatoaren hidez oso erraz identifikatzen diren osagai haizuk, euskaraz<br />
deklina daitezkeenez, hain identifikaeirazak ez direlako .<br />
Konplexutasun honen aurrean eta heste ezagutzaile batzuen kidetik, automata bat da<br />
identifikazioaz arduratzen den tresna . Lortzen den automata konplexu samarra da .<br />
III .5 .2 Analizatzailearen emaitzak eta estaldura-tasa .<br />
Atal honetan analizatzailearen ezaugarri gan - antzitsucnak aztertuko ditugu . 111 .8 irudian<br />
"Eta gauza aundirik ekartzerik ez -zuen izan" esaldia analizatzean lortutako ernaitza ikus<br />
daiteke . Bertan ikus daitekeenez, analisiaren emaitza zerrenda paranterizatu hezala ematen<br />
da, hitz bakoitzeko analisi-aukera desherdinekin -anall, anal2, . . . identifikadoreaz<br />
bereiziak-, eta lerra bakoitzean morfema baten informazioa zehaztuz . Hitz baterako<br />
analisirik aurkitzen ez hada analisirik gahe agertuko da, ondoko kapituluan -zehaztuko diren<br />
prozeduren zain . Adibidean mendirik hitza analizatu gahe agertzen da forma ez-cstandana da<br />
eta .<br />
C eranskinean testu-zati luze sainar baten adibide osoagoa azaltzen da, hcrtan datorren<br />
kapituluan azaltzen diren <strong>tratamendu</strong>ak -forma ez-estandarren ezaguera eta analisia lema<br />
lexikoan egon gahe- huiaturik daudelarik . Ondoko kapituluko IVA atalean deskribatzen<br />
den tratemendua burutua izan (la cmaitzcn gainean .<br />
Emaitzaren formatoa ikusita, pasa gaitezen estaldurari huruzko zenbait datu ematera .<br />
Datuak lehen kapituluan aipatutako corpusen gainean hartu dira, eta 111 .9 irudian azter<br />
daitezke . Corpus hakoitzcko hi neurri ematen dira, hat hitz guztiak kontuan hartuz (corpus)<br />
eta hestea hitz dcshcrdinak hakarrik kontuan hartuz (zerrenda) . Espero -zitekeen hezala,<br />
zerrendetan tasa okerragoa da, analizatzen ez diren hitzak, hitz arruntak ez direnez, gutxitan<br />
errepikatzen harrira .<br />
89