25.01.2014 Views

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Linea 1.3 ItalWordnet<br />

1 Introduzione<br />

Nel <strong>per</strong>iodo corrispondente alla linea 1.3 del progetto SI-TAL è stato ampliato e sviluppato il<br />

prototipo di <strong>ItalWordNet</strong> realizzato nella fase precedente. Ne diamo qui un resoconto <strong>per</strong> quanto<br />

riguarda il lavoro svolto e i risultati raggiunti, sia <strong>per</strong> la parte generale che <strong>per</strong> quella terminologica<br />

economico-finanziaria. Nella sezione seguente è presentata una valutazione del software di accesso<br />

alla risorsa e della co<strong>per</strong>tura lessicale, la terza sezione contiene la descrizione del software di<br />

gestione e il manuale <strong>per</strong> l’utente.<br />

1.1 Lessico generale<br />

La rete semantica dell’italiano <strong>ItalWordNet</strong> (da ora in poi IWN), come è stato detto nel<br />

documento di specifiche, ha ereditato sia i dati sia la maggior parte delle relazioni semantiche da<br />

EuroWordNet (da ora in poi EWN), nel cui ambito è stata inizialmente progettata e sviluppata. Il<br />

modello di relazioni semantiche e l’ontologia contengono alcune modifiche che si sono rese<br />

necessarie <strong>per</strong> rappresentare la nuova categoria degli aggettivi 1 .<br />

Per quanto riguarda i dati, nel passaggio da EWN a IWN la rete ha subito due tipi di intervento:<br />

uno di controllo e di correzione necessario <strong>per</strong> quella parte di dati che erano stati trattati solo<br />

automaticamente, l’altro di ampliamento con la codifica in particolare di aggettivi, avverbi e nomi<br />

propri.<br />

Le categorie dei nomi e dei verbi, che già erano presenti, sono state arricchite di nuovi lemmi e/o<br />

sensi. Le categorie degli aggettivi e avverbi, che esistevano solo come target di relazioni semantiche<br />

dalle prime due categorie, sono state codificate ‘ex novo’ come pure l’insieme di nomi propri. Le<br />

fonti di questi dati sono varie, tra le più importanti il Dizionario di Macchina dell’Italiano (DMI) e<br />

il corpus lemmatizzato scelto <strong>per</strong> l’annotazione semantica della Treebank.<br />

Nel lavoro di revisione i principali obiettivi sono stati i seguenti:<br />

• verificare che tutti i principali sensi di ogni lemma fossero codificati nella rete. Da un<br />

punto di vista metodologico è stato deciso di iniziare questo controllo (ed eventuale<br />

completamento) partendo i) dai livelli più alti del lessico ii) da una lista di lemmi comuni<br />

alle due partizioni del corpus (finanziario e bilanciato) da annotare semanticamente <strong>per</strong><br />

la Treebank;<br />

• completare i synset, sia con l’aiuto di dizionari di sinonimi, sia attraverso la revisione<br />

sistematica di entrate isolate 2 molte delle quali potevano essere riunite in synset più<br />

ampi;<br />

1 Per una dettagliata descrizione delle relazioni semantiche, dell’ontologia e dei cambiamenti introdotti dalla<br />

codifica degli aggettivi si rimanda al documento delle specifiche.<br />

2 Queste entrate (circa 6000), inserite nel database con procedure automatiche, avevano una sola relazione interna di<br />

i<strong>per</strong>onimia e, generalmente, più di due relazioni di equivalenza all’ILI, create anch’esse con procedure automatiche e<br />

non corrette. La correzione di tutte queste entrate è stata completata nella linea 1.3.<br />

4

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!