ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Linea 1.3 ItalWordnet<br />
• fornire i synset di una breve definizione 3 e, se necessario, anche di un esempio (la rete<br />
italiana costruita nell’ambito di EWN ne era priva in quanto tutti i database delle diverse<br />
lingue di EWN usufruiscono delle definizioni in inglese di WN 1.5 attraverso l’ILI);<br />
• controllare il legame dei nostri synset all’inglese partendo dai synset con troppe relazioni<br />
di equivalenza all’ILI (3 o più), quasi sicuramente originate da procedure automatiche<br />
(spesso fonti di errori).<br />
Per l’attività di ampliamento della rete semantica gli obiettivi sono stati:<br />
• codificare nuove entrate sia di singoli lemmi che di unità polilessicali <strong>per</strong> garantire<br />
innanzi tutto la co<strong>per</strong>tura del corpus di TAL;<br />
• codificare aggettivi, avverbi e nomi propri, in particolare geografici e di <strong>per</strong>sona, a<br />
partire da quelli che hanno dato origine a derivati già presenti nella rete.<br />
1.1.1 Sostantivi e verbi<br />
Per quanto riguarda queste categorie, già presenti nel database di EWN, il lavoro si è concentrato<br />
soprattutto sulla revisione e dunque: il completamento di gran parte delle entrate con tutti i sensi, il<br />
controllo delle entrate inserite automaticamente, il collegamento all’inglese, e la valutazione dei<br />
‘base concepts’. In particolare:<br />
• entrate inserite automaticamente, che riproducevano synset già creati a mano, sono state<br />
eliminate;<br />
• synset costruiti automaticamente sono stati talvolta accorpati a formare synset più ampi;<br />
• relazioni di i<strong>per</strong>onimia e diverse relazioni di xpos_near_synonymy tra nomi e verbi<br />
create automaticamente sono state riviste e corrette;<br />
• relazioni di equivalenza all’ILI inserite automaticamente sono state riviste e corrette.<br />
Oltre a questo lavoro di revisione e completamento delle entrate esistenti, si sono codificati più<br />
di 4000 nuovi lemmi, <strong>per</strong> la maggior parte individuati attraverso vari confronti a livello di lemma<br />
con il Dizionario di Macchina (DMI) e con il Corpus di PAROLE. Altre integrazioni sono venute<br />
dalle segnalazioni degli annotatori del corpus di TAL, soprattutto <strong>per</strong> quanto riguarda le unità<br />
polilessicali, ma anche <strong>per</strong> quanto riguarda alcuni sensi mancanti. Nella figura che segue si possono<br />
vedere ad esempio gli iponimi di corte 5 che fanno parte di queste nuove acquisizioni di unità<br />
polilessicali.<br />
3 Questo lavoro, non previsto nel capitolato, è stato richiesto dagli annotatori del corpus <strong>per</strong> motivi pratici di rapidità<br />
nella scelta dei sensi, e sarà di grande utilità <strong>per</strong> i futuri utenti <strong>per</strong> consultare la risorsa.<br />
5