22.04.2013 Views

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Erroreen zuzenketa<br />

proiektuaren barruan Xuxen zuzentzaile ortografikorako egindako aldaeren<br />

<strong>tratamendu</strong>a (ikus §VI .4 atala) .<br />

• Proposamen hipotetikoak lortzen dituztenak, ondoren hipotesi hauek egiaztatu<br />

hehar direla . Multzo hau lehen multzoaren aldaketa hezala cre ikus daiteke,<br />

Damerau-ren erregelak aplikatu beharrean heste haizuk aplikatzen direlarik . Mota<br />

honetako metodoa dugu Yannakoudakis eta Fawthrop-ek (1983) proposatutakoa,<br />

non erregelak haino heuristikoak erabiltzen diren .<br />

Ezaugarrien aldetik, herriz, metodo hauek oso emaitza onak ematen dituzte erroreak<br />

aurrikusitako parametroen barruan gertatzen kadira, haina oso txarrak gainontzekoetan ; eta<br />

horrexegatik osatu ohi dira heste metodo hatzuckin sistema konhinatuak eginez .<br />

Metodo estokastikoak .<br />

Aurreko erroreetan oinarriturik, automatikoki inferitutako informazioa erahiliz zuzentzen<br />

dira akats herriak . Normalean, ikasketa-prozesu hat hchar dute aurretik ; prozesu horretan,<br />

eskuz prestatutako edo zuzendutako corpus halez, akatsak eta hitz zilegien artean erlazioak<br />

bilatzen dira . Ezagumendua inferitzeko teknika nagusiak hiru dira : taula estatistikoak, eredu<br />

markoviarrak, eta sare neuro palen eredua . Teknika hauek etiketatze-lanetan (tagging )<br />

erabiltzen diren herherak dira, eta lexikorik crahili gahe lan egiten duten zuzentzaileetan<br />

erabiltzen dira harez ere, egiaztapena hitz-zatietan oinanituz .<br />

OCR aplikazioak izan ohi dira teknika hauen helhtuua, OCR dispositihoek akatsak modu<br />

erregularrean egiten baitituzte, pertsona desberdinen akatsak askoz irregularragoak izanik<br />

-pertsona hakoitzeko ikasketa-prozesu herezia hcharko litzateke- . Gainera, lexikorik edo<br />

hiztegirik gahe lan egiten den aplikazioetan -OCR eta hizketaren <strong>tratamendu</strong>a normalean-<br />

eta lehen hi teknika-multzoak ezin direla erahili kontuan hartuz, lortzen diren emaitzak<br />

aipagarriak dira .<br />

Adihide gisa correct programa (Kernighan et al ., 90) dugu . Corpusen gainean lortutako<br />

probabilitateetan oinarritzen dira here oinarrizko sistema osatzeko -oinarria alderantzizko<br />

edizio-distantziaren hilez eraikitzen da- eta oso emaitza onak azaltzen dituzte . Damerau-<br />

ren lau errore motetako bakoitzerako "nahasketa-matrize" hat osatu dute datuen arahera, eta<br />

hitz akasduna ordezkatzeko gai elirenen artean sailkapen hat egiten dute, hitzaren<br />

probabilitate absolutua eta akatsekiko desberdintasunaren prohahilitatea hiderkatuz . Metodo<br />

estokastiko honekin oso emaitza onak lortzen dira errore bakunetarako .<br />

V .3 .3 .2 Metodo konbinatuak .<br />

Testu-edizioan aplikatutako zuzenketarako metodo konbinatuak ari dira proposatzen azken<br />

urteotan, eta hauetan sakonduko dugu .<br />

1 d~

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!