22.04.2013 Views

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

Euskal morfologiaren tratamendu automatikorako tresnak

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

V. kapitulua<br />

zuzentzaile arrunten erahilerak errore-kopurua laburtzen du heretako hitzarenak kenduta,<br />

ondorioz azken hauen portzentaia igoz .<br />

Aipatutako datuak ingeleserako datuak dira, eta heste hizkuntzetarako ez da halako<br />

daturik aurkitzen . Euskara hezalako hizkuntza eranskarietan portzentaia boli txikiagoa izatea<br />

espero daiteke hitzak luzeagoak izan ohi direlako eta zera baitago frogatuta : benetako<br />

hitzaren errore bat sortzeko probabilitatea txikiagoa dela hitz luzeetan, motzetan baino .<br />

Gainera, zuzentzaile ortografikoen erabilera murritzagoa dela eta bestelako en •o reak ez dira<br />

gutxiagotzen .<br />

Hitz-mugaren gaineko erroreak askotan ez dira kontuan hartzen, heren <strong>tratamendu</strong><br />

konplexuagoa dela eta, token bat baino gehiago kontuan hartu behar haiza . Hala ere,<br />

oinarrizko errore bezala ikus daiteke zuriuneal, karaktere arruntzat jotzen haldin hada . Bi<br />

multzotan kana daitezke errore hauek : zuriunearen galerarengatik hi hitz hakar hatean<br />

hiltzekoak (run-on words), etaz_urnuleren bateli agerpenarengatik hitz bat kitan zatitzekoak<br />

(split wor (Is) . Kukich-en ustez (1992), detektaturiko erroreen '/(%15a mota honetakoak dira<br />

(% 13 eta %2 hurrenez hurren) . Tratamendu egokirik gahe hauei dagozkien zuzenketak edo<br />

proposamenak desegokiak izango dira . Mota honetako erroreek Iritz_ ezagun hat noiz sortzen<br />

duen ere azterturik dauka Mitton-ek .<br />

Errore hauen <strong>tratamendu</strong>ari dagokionez, herriz, tratatzen dituztenen artean hi multzo<br />

bereiz daitezke : <strong>tratamendu</strong> herezitu partikularra ematen dutenak (Pollock &Zamora, 84)<br />

(Kernighan, 91) katetik, eta luttice 2 izeneko sare harez teilakatze-aukera guztiak aztertzen<br />

dituztenak (Carter, 92) .<br />

V .3 .1 .2 Aplikazioarekin lotutako erroreak .<br />

Aurreko atalean azaldutako haieztapen edo neurri haizuk herraztertu egin behar dira<br />

aplikazioaren eta testu-iturriaren arahera, zeren desherdinak hailira pertsona hatek teklak<br />

sakatzean sortzen dituen erroreak, OCR unitate hatek sortzen dituenak edo mikrofono eta<br />

hizketa-testu sistema hatean sortzen direnak . Kasuaren arahera, aurretik ikusitako zenhait<br />

errore maiztasun handiagoz edo gutxiagoz gertatuko dira, edo kasuistika hereziak sortuko<br />

dira . Horren aurrean teknika herriak edo teknika orokorren egokitzapenak izango dira<br />

gomendagarri . Ongien aztertutako aplikazioak OCR motakoak eta testu-edizioa direnezz hi<br />

horietan zentratuko gara .<br />

OCR kidezko irakurketetan honako ezaugarri hauek detektatu dira :<br />

1 Zuriunea hitz-mugaren sinonimotzar ha luko dugu .<br />

2 Vossc-k (1992) lattIce egitura hera proposatzen du lokuzioen eta hitzz anitzeko terminoen trufamendurako .<br />

136

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!