25.01.2014 Views

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Linea 1.3 ItalWordnet<br />

• fornire i synset di una breve definizione 3 e, se necessario, anche di un esempio (la rete<br />

italiana costruita nell’ambito di EWN ne era priva in quanto tutti i database delle diverse<br />

lingue di EWN usufruiscono delle definizioni in inglese di WN 1.5 attraverso l’ILI);<br />

• controllare il legame dei nostri synset all’inglese partendo dai synset con troppe relazioni<br />

di equivalenza all’ILI (3 o più), quasi sicuramente originate da procedure automatiche<br />

(spesso fonti di errori).<br />

Per l’attività di ampliamento della rete semantica gli obiettivi sono stati:<br />

• codificare nuove entrate sia di singoli lemmi che di unità polilessicali <strong>per</strong> garantire<br />

innanzi tutto la co<strong>per</strong>tura del corpus di TAL;<br />

• codificare aggettivi, avverbi e nomi propri, in particolare geografici e di <strong>per</strong>sona, a<br />

partire da quelli che hanno dato origine a derivati già presenti nella rete.<br />

1.1.1 Sostantivi e verbi<br />

Per quanto riguarda queste categorie, già presenti nel database di EWN, il lavoro si è concentrato<br />

soprattutto sulla revisione e dunque: il completamento di gran parte delle entrate con tutti i sensi, il<br />

controllo delle entrate inserite automaticamente, il collegamento all’inglese, e la valutazione dei<br />

‘base concepts’. In particolare:<br />

• entrate inserite automaticamente, che riproducevano synset già creati a mano, sono state<br />

eliminate;<br />

• synset costruiti automaticamente sono stati talvolta accorpati a formare synset più ampi;<br />

• relazioni di i<strong>per</strong>onimia e diverse relazioni di xpos_near_synonymy tra nomi e verbi<br />

create automaticamente sono state riviste e corrette;<br />

• relazioni di equivalenza all’ILI inserite automaticamente sono state riviste e corrette.<br />

Oltre a questo lavoro di revisione e completamento delle entrate esistenti, si sono codificati più<br />

di 4000 nuovi lemmi, <strong>per</strong> la maggior parte individuati attraverso vari confronti a livello di lemma<br />

con il Dizionario di Macchina (DMI) e con il Corpus di PAROLE. Altre integrazioni sono venute<br />

dalle segnalazioni degli annotatori del corpus di TAL, soprattutto <strong>per</strong> quanto riguarda le unità<br />

polilessicali, ma anche <strong>per</strong> quanto riguarda alcuni sensi mancanti. Nella figura che segue si possono<br />

vedere ad esempio gli iponimi di corte 5 che fanno parte di queste nuove acquisizioni di unità<br />

polilessicali.<br />

3 Questo lavoro, non previsto nel capitolato, è stato richiesto dagli annotatori del corpus <strong>per</strong> motivi pratici di rapidità<br />

nella scelta dei sensi, e sarà di grande utilità <strong>per</strong> i futuri utenti <strong>per</strong> consultare la risorsa.<br />

5

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!