Euskal morfologiaren tratamendu automatikorako tresnak
Euskal morfologiaren tratamendu automatikorako tresnak
Euskal morfologiaren tratamendu automatikorako tresnak
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Erroreen zuzenketa<br />
proiektuaren barruan Xuxen zuzentzaile ortografikorako egindako aldaeren<br />
<strong>tratamendu</strong>a (ikus §VI .4 atala) .<br />
• Proposamen hipotetikoak lortzen dituztenak, ondoren hipotesi hauek egiaztatu<br />
hehar direla . Multzo hau lehen multzoaren aldaketa hezala cre ikus daiteke,<br />
Damerau-ren erregelak aplikatu beharrean heste haizuk aplikatzen direlarik . Mota<br />
honetako metodoa dugu Yannakoudakis eta Fawthrop-ek (1983) proposatutakoa,<br />
non erregelak haino heuristikoak erabiltzen diren .<br />
Ezaugarrien aldetik, herriz, metodo hauek oso emaitza onak ematen dituzte erroreak<br />
aurrikusitako parametroen barruan gertatzen kadira, haina oso txarrak gainontzekoetan ; eta<br />
horrexegatik osatu ohi dira heste metodo hatzuckin sistema konhinatuak eginez .<br />
Metodo estokastikoak .<br />
Aurreko erroreetan oinarriturik, automatikoki inferitutako informazioa erahiliz zuzentzen<br />
dira akats herriak . Normalean, ikasketa-prozesu hat hchar dute aurretik ; prozesu horretan,<br />
eskuz prestatutako edo zuzendutako corpus halez, akatsak eta hitz zilegien artean erlazioak<br />
bilatzen dira . Ezagumendua inferitzeko teknika nagusiak hiru dira : taula estatistikoak, eredu<br />
markoviarrak, eta sare neuro palen eredua . Teknika hauek etiketatze-lanetan (tagging )<br />
erabiltzen diren herherak dira, eta lexikorik crahili gahe lan egiten duten zuzentzaileetan<br />
erabiltzen dira harez ere, egiaztapena hitz-zatietan oinanituz .<br />
OCR aplikazioak izan ohi dira teknika hauen helhtuua, OCR dispositihoek akatsak modu<br />
erregularrean egiten baitituzte, pertsona desberdinen akatsak askoz irregularragoak izanik<br />
-pertsona hakoitzeko ikasketa-prozesu herezia hcharko litzateke- . Gainera, lexikorik edo<br />
hiztegirik gahe lan egiten den aplikazioetan -OCR eta hizketaren <strong>tratamendu</strong>a normalean-<br />
eta lehen hi teknika-multzoak ezin direla erahili kontuan hartuz, lortzen diren emaitzak<br />
aipagarriak dira .<br />
Adihide gisa correct programa (Kernighan et al ., 90) dugu . Corpusen gainean lortutako<br />
probabilitateetan oinarritzen dira here oinarrizko sistema osatzeko -oinarria alderantzizko<br />
edizio-distantziaren hilez eraikitzen da- eta oso emaitza onak azaltzen dituzte . Damerau-<br />
ren lau errore motetako bakoitzerako "nahasketa-matrize" hat osatu dute datuen arahera, eta<br />
hitz akasduna ordezkatzeko gai elirenen artean sailkapen hat egiten dute, hitzaren<br />
probabilitate absolutua eta akatsekiko desberdintasunaren prohahilitatea hiderkatuz . Metodo<br />
estokastiko honekin oso emaitza onak lortzen dira errore bakunetarako .<br />
V .3 .3 .2 Metodo konbinatuak .<br />
Testu-edizioan aplikatutako zuzenketarako metodo konbinatuak ari dira proposatzen azken<br />
urteotan, eta hauetan sakonduko dugu .<br />
1 d~