ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Linea 1.3 ItalWordnet<br />
1 Introduzione<br />
Nel <strong>per</strong>iodo corrispondente alla linea 1.3 del progetto SI-TAL è stato ampliato e sviluppato il<br />
prototipo di <strong>ItalWordNet</strong> realizzato nella fase precedente. Ne diamo qui un resoconto <strong>per</strong> quanto<br />
riguarda il lavoro svolto e i risultati raggiunti, sia <strong>per</strong> la parte generale che <strong>per</strong> quella terminologica<br />
economico-finanziaria. Nella sezione seguente è presentata una valutazione del software di accesso<br />
alla risorsa e della co<strong>per</strong>tura lessicale, la terza sezione contiene la descrizione del software di<br />
gestione e il manuale <strong>per</strong> l’utente.<br />
1.1 Lessico generale<br />
La rete semantica dell’italiano <strong>ItalWordNet</strong> (da ora in poi IWN), come è stato detto nel<br />
documento di specifiche, ha ereditato sia i dati sia la maggior parte delle relazioni semantiche da<br />
EuroWordNet (da ora in poi EWN), nel cui ambito è stata inizialmente progettata e sviluppata. Il<br />
modello di relazioni semantiche e l’ontologia contengono alcune modifiche che si sono rese<br />
necessarie <strong>per</strong> rappresentare la nuova categoria degli aggettivi 1 .<br />
Per quanto riguarda i dati, nel passaggio da EWN a IWN la rete ha subito due tipi di intervento:<br />
uno di controllo e di correzione necessario <strong>per</strong> quella parte di dati che erano stati trattati solo<br />
automaticamente, l’altro di ampliamento con la codifica in particolare di aggettivi, avverbi e nomi<br />
propri.<br />
Le categorie dei nomi e dei verbi, che già erano presenti, sono state arricchite di nuovi lemmi e/o<br />
sensi. Le categorie degli aggettivi e avverbi, che esistevano solo come target di relazioni semantiche<br />
dalle prime due categorie, sono state codificate ‘ex novo’ come pure l’insieme di nomi propri. Le<br />
fonti di questi dati sono varie, tra le più importanti il Dizionario di Macchina dell’Italiano (DMI) e<br />
il corpus lemmatizzato scelto <strong>per</strong> l’annotazione semantica della Treebank.<br />
Nel lavoro di revisione i principali obiettivi sono stati i seguenti:<br />
• verificare che tutti i principali sensi di ogni lemma fossero codificati nella rete. Da un<br />
punto di vista metodologico è stato deciso di iniziare questo controllo (ed eventuale<br />
completamento) partendo i) dai livelli più alti del lessico ii) da una lista di lemmi comuni<br />
alle due partizioni del corpus (finanziario e bilanciato) da annotare semanticamente <strong>per</strong><br />
la Treebank;<br />
• completare i synset, sia con l’aiuto di dizionari di sinonimi, sia attraverso la revisione<br />
sistematica di entrate isolate 2 molte delle quali potevano essere riunite in synset più<br />
ampi;<br />
1 Per una dettagliata descrizione delle relazioni semantiche, dell’ontologia e dei cambiamenti introdotti dalla<br />
codifica degli aggettivi si rimanda al documento delle specifiche.<br />
2 Queste entrate (circa 6000), inserite nel database con procedure automatiche, avevano una sola relazione interna di<br />
i<strong>per</strong>onimia e, generalmente, più di due relazioni di equivalenza all’ILI, create anch’esse con procedure automatiche e<br />
non corrette. La correzione di tutte queste entrate è stata completata nella linea 1.3.<br />
4