26.08.2013 Views

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

IV.2 Errepresentazioa: XML bidezko anotazio-amarauna 101<br />

IXA taldean markak<strong>eta</strong>rako eskema banatua deritzona erabiltzea erabaki<br />

dugu. Eskema banatua edozein informazio linguistiko edo egitura adierazteko<br />

gai da elementu gutxi batzuk erabilita. Eredu banatuan (ingelesez<br />

stand-off, sparse edo distributed annotation) informazio linguistikoa sarrerako<br />

testutik aparteko dokumentu<strong>eta</strong>n jasotzen da, <strong>eta</strong> testuaren <strong>eta</strong> analisiak<br />

gordetzen dituzten dokumentuen artean estekak ezartzen dira.<br />

Analisi-katean azaldu dugun tresna bakoitzaren irteera XML dokumentu<br />

ezberdinekin osatuta dagoenez, anotazio-amaraun batekin lanean ari garela<br />

esan dezakegu. Amaraunean dokumentu mota hauek topa ditzakegu:<br />

• Aingurak: elementu hauek sarrerako testu<strong>eta</strong>n topa daitezkeen elementu<br />

fisikoak (offset 18 adierazpenak edo xptr 19 adierazpenak), aurreko<br />

anotazio-prozesuen ondorio diren elementuak (morfemak, unitate bakarreko<br />

<strong>eta</strong> unitate anitzeko tokenak, kateak. ..) <strong>eta</strong> azken hauen interpr<strong>eta</strong>zio<br />

linguistikoak dira. Testu-aingurak tokenizatu ondoren edo<br />

hitz anitzeko unitateak identifikatu ondoren lortutako elementuak dira.<br />

Interpr<strong>eta</strong>zio-aingurak, berriz, anotazio-elementuak edo aingura bereziak<br />

dira (informazio linguistikoa gehitu ahal izateko sortutako elementuak).<br />

Aingura bereziek aurreko prozesu<strong>eta</strong>n sortutako interpr<strong>eta</strong>zio-<br />

-identifikadoreen arteko bildura (join 20 TEIn) moduan lan egiten dute.<br />

Hauen artean hitz sekuentziak, sintagmak <strong>eta</strong> aditz-kateak, aingura<br />

berezi moduan sailka ditzakegu. Egiturazko anbiguotasuna teilakatzen<br />

diren ainguren bidez adierazten da.<br />

• Anotazio-estekak: aingurak <strong>eta</strong> dagozkien analisiak lotzen dituzte anotazio-estekek.<br />

Anbiguotasuna esteka hauen bidez adierazten da, aingura<br />

bati hainbat interpr<strong>eta</strong>zio-analisi lotzea posiblea baita. Desanbiguaziorako,<br />

hau<strong>eta</strong>ko esteka bat zuzen moduan markatzea <strong>eta</strong> gainontzekoak<br />

oker moduan markatzea nahikoa da.<br />

• Informazio linguistikoa: ezaugarri-egitura motatuak erabiltzen dira analisi-prozesuaren<br />

ondorioz sortutako mota ezberdin<strong>eta</strong>ko informazio linguistikoa<br />

biltegiratzeko. Adibidez, segmentazio morfologikoaren edo<br />

lematizazioaren emaitza modu hon<strong>eta</strong>n gordetzen da.<br />

18<br />

Offset: denborazko edo lekuzko adierazpen erlatibo baten partea da. Adierazpeneko<br />

bi daten, edo bi denboren edo bi lekuren arteko desplazamendua <strong>eta</strong> noranzkoa adierazten<br />

ditu. IXA taldean, tokenen arteko karaktere-desplazamendua adierazteko erabiltzen da.<br />

19<br />

xptr edo erakusle hedatua: uneko dokumentu bateko edo kanpoko dokumentu bateko<br />

kokaleku batera erakusle bat definitzen du.<br />

20<br />

Join: zatitua egon daitekeen testu-zatia adierazten du, bera osatzen duten osagaiei<br />

(jarraituak edo ez-jarraituak) erreferentzia eginez.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!