26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

VII.8 Hiztegi aberask<strong>eta</strong> 285<br />

VII.8 Hiztegi aberask<strong>eta</strong><br />

VII.8.1 Sarrera<br />

Aurreko atalean Euskal Hiztegiak aditzen azpikategorizazioaren inguruan<br />

hutsune batzuk dituela ikusi dugu. Hutsune horiek betetzeko, hots aditzei<br />

buruzko informazioa aberasteko, proposamen bat egingo dugu atal hon<strong>eta</strong>n<br />

(Díaz de Ilarraza et al., 2007a). Aberask<strong>eta</strong>rako proposamenak, azpikategorizazioarekin<br />

lotutako alarma faltsuen kopurua gutxitzen lagun lezakeela<br />

uste dugu, baina hala ere, oraingoz ez dugu erabili. Azpimarratu nahi dugu,<br />

gurea proposamen bat besterik ez dela. Ez dago gure esku EH hiztegiaren<br />

inguruko erabakirik hartzea. Gure helburua, topatutako ahultasunak aurkeztea<br />

da, baita <strong>errore</strong>en detekzioarekin zerikusirik ez duen Saroi tresnaren<br />

aplikazio bat erakustea ere.<br />

Hiztegiak oinarrizko baliabideak dira. Informazio lexikoaren iturri aberatsak,<br />

gainera. Haatik, denbora luzea behar da hiztegiak sortzeko <strong>eta</strong> batzu<strong>eta</strong>n<br />

ez dituzte hizkuntzaren erabileran ematen diren aldak<strong>eta</strong>k islatzen.<br />

Lan ugari garatu dira hiztegiak automatikoki aberasteko helburuarekin.<br />

Horiek lantzen dituzten alderdiak ugariak dira, baita iturritzat hartutako<br />

edo sortutako baliabideak ere. Adibidez, Gelbukh et al. (2004) egileek<br />

aurkeztutako lanean, hitz-konbinazioekin osatutako hiztegi bat aberastu<br />

egin zuten mendekotasun-egitur<strong>eta</strong>n oinarritutako analizatzaile sintaktiko<br />

bat erabiliz. “Prague Dependency Treebanka” ikask<strong>eta</strong> automatikoko teknikak<br />

erabiliz txekiera hizkuntzako aditzen azpikategorizazio-egiturak ikasteko<br />

erabili zuten Zeman <strong>eta</strong> Sarkar (2000) lanean. Briscoe <strong>eta</strong> Carroll-ek<br />

(1997) agerpen-maiztasunak erakusten dituen aditz-azpikategorizazio egituren<br />

hiztegi bat sortu zuten estatistikan oinarritutako analizatzaile bat erabilita.<br />

“BulTreeBank” izeneko beste treebank bat erabili zuten Simov <strong>eta</strong><br />

Osenova-k (2004) lexikoi semantiko bat sortzeko. Kilgarrif-ek (1997) hitzen<br />

maiztasunak corpus batetik erauzi zituen <strong>eta</strong> Longman Dictionary hiztegian<br />

gehitu.<br />

Gure kasuan, helburu dugun hiztegia lehenago ere aipatu dugun Euskal<br />

Hiztegia (EH) (Sarasola, 1996) da. Hauxe 1996 urtean sortu zen. Orduz<br />

geroztik Euskaltzaindiak hitz batzuen forma estandarrei buruzko erabakiak<br />

hartu dituenez, 2003 urtean hiztegiko sarreren estandarizazio lan bat egin<br />

zen (Arregi et al., 2003). Bestalde, corpus<strong>eta</strong>n hizkuntzaren aldak<strong>eta</strong>k hiztegi<strong>eta</strong>n<br />

baino hobeto islatzen direnez, testu<strong>eta</strong>tik abiatuta hiztegiko aditz-<br />

-informazioan topatutako hutsuneak betetzeko lanari ekin diogu.<br />

Hiztegia aberasteko prozesua ahalik <strong>eta</strong> automatikoena izan dadin saiatu<br />

gara, eskuzko lana minimora murrizteko asmoa dugularik; ahal izanez

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!