Euskal morfologiaren tratamendu automatikorako tresnak

More documents

Recommendations

Info

Erroreen zuzenketa proiektuaren barruan Xuxen zuzentzaile ortografikorako egindako aldaeren <strong>tratamendu</strong>a (ikus §VI .4 atala) . • Proposamen hipotetikoak lortzen dituztenak, ondoren hipotesi hauek egiaztatu hehar direla . Multzo hau lehen multzoaren aldaketa hezala cre ikus daiteke, Damerau-ren erregelak aplikatu beharrean heste haizuk aplikatzen direlarik . Mota honetako metodoa dugu Yannakoudakis eta Fawthrop-ek (1983) proposatutakoa, non erregelak haino heuristikoak erabiltzen diren . Ezaugarrien aldetik, herriz, metodo hauek oso emaitza onak ematen dituzte erroreak aurrikusitako parametroen barruan gertatzen kadira, haina oso txarrak gainontzekoetan ; eta horrexegatik osatu ohi dira heste metodo hatzuckin sistema konhinatuak eginez . Metodo estokastikoak . Aurreko erroreetan oinarriturik, automatikoki inferitutako informazioa erahiliz zuzentzen dira akats herriak . Normalean, ikasketa-prozesu hat hchar dute aurretik ; prozesu horretan, eskuz prestatutako edo zuzendutako corpus halez, akatsak eta hitz zilegien artean erlazioak bilatzen dira . Ezagumendua inferitzeko teknika nagusiak hiru dira : taula estatistikoak, eredu markoviarrak, eta sare neuro palen eredua . Teknika hauek etiketatze-lanetan (tagging ) erabiltzen diren herherak dira, eta lexikorik crahili gahe lan egiten duten zuzentzaileetan erabiltzen dira harez ere, egiaztapena hitz-zatietan oinanituz . OCR aplikazioak izan ohi dira teknika hauen helhtuua, OCR dispositihoek akatsak modu erregularrean egiten baitituzte, pertsona desberdinen akatsak askoz irregularragoak izanik -pertsona hakoitzeko ikasketa-prozesu herezia hcharko litzateke- . Gainera, lexikorik edo hiztegirik gahe lan egiten den aplikazioetan -OCR eta hizketaren <strong>tratamendu</strong>a normalean- eta lehen hi teknika-multzoak ezin direla erahili kontuan hartuz, lortzen diren emaitzak aipagarriak dira . Adihide gisa correct programa (Kernighan et al ., 90) dugu . Corpusen gainean lortutako probabilitateetan oinarritzen dira here oinarrizko sistema osatzeko -oinarria alderantzizko edizio-distantziaren hilez eraikitzen da- eta oso emaitza onak azaltzen dituzte . Damerau- ren lau errore motetako bakoitzerako "nahasketa-matrize" hat osatu dute datuen arahera, eta hitz akasduna ordezkatzeko gai elirenen artean sailkapen hat egiten dute, hitzaren probabilitate absolutua eta akatsekiko desberdintasunaren prohahilitatea hiderkatuz . Metodo estokastiko honekin oso emaitza onak lortzen dira errore bakunetarako . V .3 .3 .2 Metodo konbinatuak . Testu-edizioan aplikatutako zuzenketarako metodo konbinatuak ari dira proposatzen azken urteotan, eta hauetan sakonduko dugu . 1 d~
V kapitulua 144 Berriro De Smedt eta Van Berkel-en hitzak aldatuko ditugu hona : "Of the method described in the previous chapter, no single method mil iiciently covers the whole specIrum of errors . Because each method has its strengths and weaknesses, it is advantageous to combine Rvo methods which supplement each other ." (van Berkel & de Smedt, 88 :80) Lehentxeago aipatutako correct da hauetako hat, alderantzizko edizio-distantzia eta metodo estokastikoak konhinatzen dituena . Ematen duten asmatze-tasa %%87a da, haina neurria ez da estandarra . Normalean lehen edo lehen hiru proposamenekin zenbatetan asmatzen den izaten hada neurria, heraick testuingurua kontuan hartu gahe hiru pertsonek emandako epaien artean gutxienez hirekin hat etortzea hartzen dute neurri-unitatetzat . Ondoren heste hi metodo konhinatu azaltzen dira gainhegirada osoa lortzearren . Triphone (van Berkel & de Smedt, 88) . Entziklopedia bat kontsultatzeko diseinaturiko sistema honek hi metodo konhinatzen ditu : errore fonetikoak tratatzeko fonemen gaineko erregelak erahiltzen zituen Spell Therapist batetik, eta forma guztiekiko distantzian oinarritutako trigrarnen kidezko FUZZIEI (De Heer, 82) metodoa . Proposatzen duen irtenbidea hau da : distantzia kalkulatzeko trifoncmcn arteko distantzia erabiltzea trigramcna erabili heharrcan, ondorioz hiztegia trifoncmcn arabera antolatuz . Jarraitzen den algoritmoa honako hau da : • here fonemen arabera hitza trifonemetan hanatz_en da (banaketa-aukerak optimizatuz) • ti fonema bakoitzari dagokion maiztasuna lortzen (la • zenbait trifonema aukeratzen dira, maiztasun-muga katetik behera dauden • hautapen-trilónemak deitutakoak, eta horien arahcra antolaturiko litxatcgian hilatzen da . hide honetatik aurkitutako hautagai guztiekin amankomuncko trifoncmcn arahcra antz handiena tiutenak aukeratzen dira . Azaltzen dituzten emaitzak oso onak dira, 9/o92 lehen proposamenean, haina eremua oso mugatua da pertsona-izenekin hakarrik prohalzcn [lelako . t Metodo hau egukiagua da aipatutako'CIITI' . (Angell . 83) haina . naken honetan luzerik funtsezko papera duelako eta fonema 'atek karaktere kopuru aldakorra dueluk,' .
Page 1 and 2:
Jakintza-arloa: Informatika Euskal
Page 3 and 4:
(euskalkiak, garai zaharrak, erregi
Page 6:
Euskal Unibertsitatearen alde dihar
Page 10:
eskerrak ematen edo zorrak kitatzen
Page 13 and 14:
11 .4 .2 Konputazio-konplexutasuna
Page 15 and 16:
BIBLIOGRAFIA 181 Morfologia 181 Egi
Page 17 and 18:
I. kapitulua 1 2 • LNPren ikerkun
Page 19 and 20:
I. kapitulua Prozesagarriak diren d
Page 21 and 22:
I. kapitulua Euskarak egiten duen g
Page 23 and 24:
I. kapitulua Sistemen zehaztasuna n
Page 25 and 26:
I. kapitulua Bi mailatako morfologi
Page 27 and 28:
I. kapituina • Eraginkortasunaren
Page 29 and 30:
I. kapituloo • Analizatzaile morf
Page 31 and 32:
I. kapitulua eranskariak zuzentzeko
Page 33 and 34:
II. kapitulua Kapitulu honetan gida
Page 35 and 36:
II. kapitulua t 3 0 dagokionean ant
Page 37 and 38:
II. kapitultia izan beharko luke ;
Page 39 and 40:
II. kapirurluua 3 4 • Hiztegiak :
Page 41 and 42:
II, kapitulua dela eta, morfemen ka
Page 43 and 44:
II. kapitulua 11 .2 .3 Sailkapen ba
Page 45 and 46:
II. kapitulua • Sarrerari dagokio
Page 47 and 48:
II. kapitulua 4 2 • azala eta lex
Page 49 and 50:
II. kapitulua egoera finituko itzul
Page 51 and 52:
II. kapitulua 4 6 • karaktere-bik
Page 53 and 54:
II. kapitulua Adibideak hirugarren
Page 55 and 56:
II. kapitulua 5 0 • • h) azalek
Page 57 and 58:
II. kapitulua 1 .3 .4 Sistemaren ga
Page 59 and 60:
II. kapitulua 11.3 .4 .2 Hautapen-m
Page 61 and 62:
II. kapitulua 11 .3 .5 Ekarpen bat
Page 63 and 64:
II. kapitulua EN ADITZAK jarraitze-
Page 65 and 66:
II. kapitulua 60 egoera finituko mo
Page 67 and 68:
II. kapitulua zuhaitzaren hostoetan
Page 69 and 70:
II, kapitulua zein arku kopurua lab
Page 72 and 73:
III . Prozesadore morfologiko bat e
Page 74 and 75:
Prozesadore morfologiko bat euskara
Page 76 and 77:
Prozesaclore moi fologiko bat euska
Page 78 and 79:
Prozesa(hrre moifologiko bat enskar
Page 80 and 81:
EDBL esportazioa egituraketa Lexiko
Page 82 and 83:
111 .3 .3 Morfotaktika . Prozesuclo
Page 84 and 85:
Prozesatlore morfologiko har euskar
Page 86 and 87:
Prozesadore morfologiko bat euskara
Page 88 and 89:
IH.4 Erregelak . Prozesadore morfol
Page 90 and 91:
Aukeran edo behartua izatea atzizki
Page 92 and 93:
lex_op lexinit . tHas lex_erab_init
Page 94 and 95:
idazlea, etab . zehazten aipamenak
Page 96 and 97:
Prozesaclore moifologiko bat euskar
Page 98 and 99: 111 .5 .3 Gainsorreraren arazoaz .
Page 100 and 101: Prozesadore morfologiko bat euskara
Page 102 and 103: lexikoa (2 mailatan) i ohiko I 'xik
Page 104 and 105: M Aurreko ezugarri hera, kategoriar
Page 106: Prozesadore morfologiko bat euskara
Page 109 and 110: IV. kapitulua IV . 1 Erabiltzailear
Page 111 and 112: IV. kapitulua Irudikatzen den ideia
Page 113 and 114: IV. kapitulua Erabiltzailearen lexi
Page 115 and 116: IV. kapitulua Aldaera horien analis
Page 117 and 118: IV. kapitulua Sistema osoa ibil dad
Page 119 and 120: IV. kapitulua IV .2 .3 . Aldaera-mo
Page 121 and 122: IV. kapirulua adierazten duena- . I
Page 123 and 124: IV. kapitulua osagarri oso bat erai
Page 125 and 126: IV. kapitulua • Erabiltzailearen
Page 127 and 128: IV. kapitulua konbinazioak hizkuntz
Page 129 and 130: IV. kapitulua Lema generikotik hene
Page 131 and 132: IV. &apitulua izateko aukerak, eta
Page 133 and 134: V. kapitulua Zuzenketari buruz_ ask
Page 135 and 136: V kapitulua Egiaztapena burutzeko m
Page 137 and 138: V. kapitulua Corpus hatean oinarrit
Page 139 and 140: V. kapitulua Flexio aberatsa duten
Page 141 and 142: V. kapitulua zuzentzaile arrunten e
Page 143 and 144: V. kapitulua Minitelaren bidez Ir'a
Page 145 and 146: V. kapitulua teklatuaren araberakoa
Page 147: V. kapinihra • Ontzat hartutako h
Page 151 and 152: V. kapitulua morfologiari buruzko i
Page 153 and 154: V. kapitulua Bilaketa hau laburtzea
Page 156 and 157: VI . Xuxen : bi mailatako morfologi
Page 158 and 159: Xuxen : bi nrnilatako rruufologi(n
Page 160 and 161: Xuxen : bi mailatako morfologian oi
Page 164 and 165: Xuxen : bi Inuilatako niofoloçian
Page 166 and 167: Xuxen : bi mailatako morfologirnt o
Page 168 and 169: :2: mailatako sistema. . . estandar
Page 170 and 171: Xuxen : bi mailatako mar fologian o
Page 172 and 173: Xuxen : bi mailatako n)oifologian o
Page 176 and 177: Hurbilpen horretan testu pateko 500
Page 178 and 179: Xuxen : bi muilotako morfologian oi
Page 180 and 181: ONDORIOAK ETA AURRERA BEGIRAKOAK VI
Page 182 and 183: Ondorioak eta zabaldutako ikerlerro
Page 184 and 185: Ondorioak eta zabaldutako ikerlerro
Page 186 and 187: BIBLIOGRAFIA Morfologia Agirre E .,
Page 188 and 189: Bibliografia Kaplan R . M . Regular
Page 190 and 191: Egiaztapen/zuzenketa ortografikoa .
Page 192 and 193: Bibliografia Mays E, Damerau F, Mer
Page 194 and 195: Marlin W ., I-leymans R . and F . P
show all

Euskal morfologiaren tratamendu automatikorako tresnak

Create successful ePaper yourself

Delete template?

Save as template?