22.04.2013 Views

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

V. kapitulua<br />

teklatuaren araberakoa testu-ediziorako, hurbilpen eratikoa OCR aplikazioetarako,<br />

maiztasun handieneko hitzak, etab .<br />

Neurri hoiTek hi eragozpen aurkezten du : (1) edozein hi karaktere-kateren arteko edizio-<br />

distantzia kalkulatzea ez da berehalakoa ; eta inportanteena (2), hitz hat ondo zuzentzeko hitz<br />

posible guztiekin alderatu behar da hitz akasduna, dagokion zuzenketa zehatzena lortzeko,<br />

eta hau oso garestia da konplexutasunaren aldetik .<br />

Bigarren puntua izan da oso ikerlerro garrantzitsua, halez ere OCR aplikazioetan .<br />

Aldaera kopuru izugarria lahartzeko, hesteak heste -programa -zio dinamikoa, luzeraren<br />

araberako bilaketa, etab .-, distantzia-neurri herriak proposatu dira . Horien artean<br />

inportanteenak diren honako hi hauek aipa daitezke : kodeen arteko distantzia eta n-grarnen<br />

arteko distantzia .<br />

Kodeen arteko distantzia<br />

Hashing tekniketan oinarriturik hiztegiko forma guztiei kode hat esleitzen zaie ; ondorioz,<br />

hiztegia kodeen arabera antolatzen da eta distantzia hitzen artean kalkulatu beharrean kodeen<br />

artean kalkulatzen da .<br />

Normalean kontsonanteei, hatez cre hasierakoei, halio handiagoa ematen zaie eta<br />

karaktere errepikatuei ez zaie jaramon handirik egiten . Pollock eta Zamora-k (198$) teknika<br />

hau erabiltzen dute SPEEDCOP sisteman, haina kode hakarraren ordez hikoitza, skeleton<br />

key eta omission key, crahiltzen dute, hilaketa zehatzago eta azkan'ago hurutzearren .<br />

Multzo honetako emaitzak oso onak izan daitezke, haina horretarako kodeketa eta<br />

informazioaren antolaketa konplexu samarrak hehar dira .<br />

n-gramen arteko distantzia<br />

Kodeak erahili beharrean n-gramak (trigramak normalean) erahili ohi dira karaktere-kateen<br />

arteko distantziak kalkulatzeko eta konplexutasuna txikitzeko . Hitzcn arteko distantzia haien<br />

arteko amankomuneko trieramen araherakoa izango da . Erahiltzen diren uigrama-egiturak<br />

(edo orokorrean n-gramenak) bitarrak izaten dira -trigrama cnuurtzcn eten ala ez esancz .-<br />

eta trigramaren posizioa kontuan har daiteke edo ez . Hiztegia dagoenean, hitzen trigramen<br />

arabera indexatu ohi (la hilaketa errazteko .<br />

Honen adibidea ACUTE sistema (Angell et al ., 83) dugu . Trigranletan eta hitzen luzeran<br />

oinarritutako sistema honetan distantzia neurtzeko formula honako hau da :<br />

d= C / max(n, Il e )<br />

non e amankomuneko trigrama kopurua den eta n eta n' hitzen luzerak .<br />

140

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!