26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

298 Saroi <strong>eta</strong> komunztadura-<strong>errore</strong>ak<br />

VII.9.2 Aditzen aberask<strong>eta</strong>ri dagokionez<br />

Corpusak <strong>eta</strong> treebanka erabiliz hiztegiak aditz-informazioarekin aberasteko<br />

bi aukera aztertu ditugu. Esperimentuak honakoak topatzeko garatu dira:<br />

alde batetik, dagoeneko hiztegian agertzen den, baina testu<strong>eta</strong>tik jasotakoarekin<br />

bat ez datorren aditz-informazioa jasotzeko; <strong>eta</strong> bestetik, corpusean<br />

<strong>eta</strong> treebankean agertzen diren <strong>eta</strong> hiztegian agertzen ez diren aditzak topatzeko.<br />

Lan honek hiztegiak aberasteko corpusen <strong>eta</strong> treebanken erabilera<br />

erakusten du.<br />

Existitzen diren baliabideak berrerabiliz, corpusetik emaitzak lortzeko<br />

<strong>eta</strong> hiztegia aberasteko egin dugun eskuzko lana minimoa izan da. Ezaugarri<br />

hau interesgarria iruditzen zaigu, hiztegiak garatzeko egin behar izaten den<br />

lana oso gogorra <strong>eta</strong> denbora luzekoa izan ohi baita.<br />

Hiztegia aditz-sarrerekin aberasteko garatutako esperimentuko VII.21<br />

emaitza-taula aztertuz gero, corpuseko agerpen kopurua alde batera utzita,<br />

kaz<strong>eta</strong>ritzako testuekin osatutako treebankean 4 alditan baino gehiagotan<br />

agertzen diren aditz guztiak proposamen moduan onartzen direla ikus dezakegu.<br />

Treebankaren zati honek euskararen egungo erabilera <strong>eta</strong> hizkuntzaren<br />

zuzentasuna konbinatzen ditu. Aditzen onarpen-tasak argi uzten du informazio-iturri<br />

gisa treebankek duten baliagarritasuna.<br />

Erabili dugun metodologia edozein hizkuntzarako orokorra dela uste dugu.<br />

Hala ere, eskakizun pare bat bete behar da: a) hizkuntza horr<strong>eta</strong>rako<br />

hizkuntza-baliabide egokiek eskuragarri egon behar dute, <strong>eta</strong> b) hizkuntza-<br />

-informazioak Saroirako zehaztutako sarrera-espezifikazioak bete behar ditu.<br />

Hau da, mendekotasun-zuhaitzak XML erabiliz errepresentatuta behar dira.<br />

Gure ustez, atal hon<strong>eta</strong>n aditzentzat egin dugun lana erraz heda daiteke<br />

hiztegiko gainontzeko hitz<strong>eta</strong>ra. Esate baterako, izen, adjektibo, adberbio<br />

<strong>eta</strong> gainontzeko kategoriatako hiztegi-sarrerak, kategoriari, adibideei edo<br />

erabilera-eremuei buruzko informazioarekin aberas daitezke. Testu-bilduma<br />

aldatuz gero, domeinu zehatz<strong>eta</strong>ko hitzak (adibidez, kirola, politika, ekonomia.<br />

..) gehi daitezke hiztegian. Era berean, euskalkien arabera sailkatutako<br />

testuak erabilita, informazio honekin aberastuko genuke hiztegia.<br />

WordNet-eko informazioa Saroiko aberask<strong>eta</strong> modulua erabilita analisi<strong>eta</strong>n<br />

gehituz gero, hiztegiak corpus<strong>eta</strong>tik erauzitako informazio semantikoarekin<br />

aberas daitezke. Etorkizunean, gai honen inguruan zenbait esperimentu<br />

garatzeko asmoa dugu.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!