ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

More documents

Recommendations

Info

Linea 1.3 ItalWordnet 1 Introduzione Nel periodo corrispondente alla linea 1.3 del progetto SI-TAL è stato ampliato e sviluppato il prototipo di ItalWordNet realizzato nella fase precedente. Ne diamo qui un resoconto per quanto riguarda il lavoro svolto e i risultati raggiunti, sia per la parte generale che per quella terminologica economico-finanziaria. Nella sezione seguente è presentata una valutazione del software di accesso alla risorsa e della copertura lessicale, la terza sezione contiene la descrizione del software di gestione e il manuale per l’utente. 1.1 Lessico generale La rete semantica dell’italiano ItalWordNet (da ora in poi IWN), come è stato detto nel documento di specifiche, ha ereditato sia i dati sia la maggior parte delle relazioni semantiche da EuroWordNet (da ora in poi EWN), nel cui ambito è stata inizialmente progettata e sviluppata. Il modello di relazioni semantiche e l’ontologia contengono alcune modifiche che si sono rese necessarie per rappresentare la nuova categoria degli aggettivi 1 . Per quanto riguarda i dati, nel passaggio da EWN a IWN la rete ha subito due tipi di intervento: uno di controllo e di correzione necessario per quella parte di dati che erano stati trattati solo automaticamente, l’altro di ampliamento con la codifica in particolare di aggettivi, avverbi e nomi propri. Le categorie dei nomi e dei verbi, che già erano presenti, sono state arricchite di nuovi lemmi e/o sensi. Le categorie degli aggettivi e avverbi, che esistevano solo come target di relazioni semantiche dalle prime due categorie, sono state codificate ‘ex novo’ come pure l’insieme di nomi propri. Le fonti di questi dati sono varie, tra le più importanti il Dizionario di Macchina dell’Italiano (DMI) e il corpus lemmatizzato scelto per l’annotazione semantica della Treebank. Nel lavoro di revisione i principali obiettivi sono stati i seguenti: • verificare che tutti i principali sensi di ogni lemma fossero codificati nella rete. Da un punto di vista metodologico è stato deciso di iniziare questo controllo (ed eventuale completamento) partendo i) dai livelli più alti del lessico ii) da una lista di lemmi comuni alle due partizioni del corpus (finanziario e bilanciato) da annotare semanticamente per la Treebank; • completare i synset, sia con l’aiuto di dizionari di sinonimi, sia attraverso la revisione sistematica di entrate isolate 2 molte delle quali potevano essere riunite in synset più ampi; 1 Per una dettagliata descrizione delle relazioni semantiche, dell’ontologia e dei cambiamenti introdotti dalla codifica degli aggettivi si rimanda al documento delle specifiche. 2 Queste entrate (circa 6000), inserite nel database con procedure automatiche, avevano una sola relazione interna di iperonimia e, generalmente, più di due relazioni di equivalenza all’ILI, create anch’esse con procedure automatiche e non corrette. La correzione di tutte queste entrate è stata completata nella linea 1.3. 4
Linea 1.3 ItalWordnet • fornire i synset di una breve definizione 3 e, se necessario, anche di un esempio (la rete italiana costruita nell’ambito di EWN ne era priva in quanto tutti i database delle diverse lingue di EWN usufruiscono delle definizioni in inglese di WN 1.5 attraverso l’ILI); • controllare il legame dei nostri synset all’inglese partendo dai synset con troppe relazioni di equivalenza all’ILI (3 o più), quasi sicuramente originate da procedure automatiche (spesso fonti di errori). Per l’attività di ampliamento della rete semantica gli obiettivi sono stati: • codificare nuove entrate sia di singoli lemmi che di unità polilessicali per garantire innanzi tutto la copertura del corpus di TAL; • codificare aggettivi, avverbi e nomi propri, in particolare geografici e di persona, a partire da quelli che hanno dato origine a derivati già presenti nella rete. 1.1.1 Sostantivi e verbi Per quanto riguarda queste categorie, già presenti nel database di EWN, il lavoro si è concentrato soprattutto sulla revisione e dunque: il completamento di gran parte delle entrate con tutti i sensi, il controllo delle entrate inserite automaticamente, il collegamento all’inglese, e la valutazione dei ‘base concepts’. In particolare: • entrate inserite automaticamente, che riproducevano synset già creati a mano, sono state eliminate; • synset costruiti automaticamente sono stati talvolta accorpati a formare synset più ampi; • relazioni di iperonimia e diverse relazioni di xpos_near_synonymy tra nomi e verbi create automaticamente sono state riviste e corrette; • relazioni di equivalenza all’ILI inserite automaticamente sono state riviste e corrette. Oltre a questo lavoro di revisione e completamento delle entrate esistenti, si sono codificati più di 4000 nuovi lemmi, per la maggior parte individuati attraverso vari confronti a livello di lemma con il Dizionario di Macchina (DMI) e con il Corpus di PAROLE. Altre integrazioni sono venute dalle segnalazioni degli annotatori del corpus di TAL, soprattutto per quanto riguarda le unità polilessicali, ma anche per quanto riguarda alcuni sensi mancanti. Nella figura che segue si possono vedere ad esempio gli iponimi di corte 5 che fanno parte di queste nuove acquisizioni di unità polilessicali. 3 Questo lavoro, non previsto nel capitolato, è stato richiesto dagli annotatori del corpus per motivi pratici di rapidità nella scelta dei sensi, e sarà di grande utilità per i futuri utenti per consultare la risorsa. 5
Page 1 and 2: SI-TAL ItalWordNet: Rete Semantico-
Page 3: Linea 1.3 ItalWordnet Sezione 1 Il
Page 7 and 8: Linea 1.3 ItalWordnet del nome prop
Page 9 and 10: Linea 1.3 ItalWordnet non è possib
Page 11 and 12: Linea 1.3 ItalWordnet Brutto 1 11 e
Page 13 and 14: Linea 1.3 ItalWordnet IN_MANNER 172
Page 15 and 16: Linea 1.3 ItalWordnet interrogato m
Page 17 and 18: Linea 1.3 ItalWordnet Le tre relazi
Page 19 and 20: Linea 1.3 ItalWordnet INVOLVED_TARG
Page 21 and 22: Linea 1.3 ItalWordnet Sezione 2 Val
Page 23 and 24: Linea 1.3 ItalWordnet ontology di w
Page 25 and 26: Linea 1.3 ItalWordnet DB generico 4
Page 27 and 28: Linea 1.3 ItalWordnet elementi ‘s
Page 29 and 30: Linea 1.3 ItalWordnet DEFLATTORE DE
Page 31 and 32: Linea 1.3 ItalWordnet MEGAOFFERTA M
Page 33 and 34: Linea 1.3 ItalWordnet STAMANI STANP
Page 35 and 36: Linea 1.3 ItalWordnet AT&AMP;T ATES
Page 37 and 38: Linea 1.3 ItalWordnet INTERATTIVA I
Page 39 and 40: Linea 1.3 ItalWordnet SOCIALEMENT S
Page 41 and 42: Linea 1.3 ItalWordnet DLR. DMAIL.IT
Page 43 and 44: Linea 1.3 ItalWordnet 5.1.3 Cancell
Page 45 and 46: Linea 1.3 ItalWordnet 3.4 Installaz
Page 47 and 48: Linea 1.3 ItalWordnet Figura 2: Int
Page 49 and 50: Linea 1.3 ItalWordnet Figura 4. Bar
Page 51 and 52: Linea 1.3 ItalWordnet 5.1.5 Menù
Page 53 and 54: Linea 1.3 ItalWordnet 5.1.7.2 Botto
Page 55 and 56:
Linea 1.3 ItalWordnet tramite la vo
Page 57 and 58:
Linea 1.3 ItalWordnet Figura 9. Nav
Page 59 and 60:
Linea 1.3 ItalWordnet - il synset d
Page 61 and 62:
Linea 1.3 ItalWordnet • La second
Page 63 and 64:
Linea 1.3 ItalWordnet sense CDATA #
Page 65 and 66:
Linea 1.3 ItalWordnet Figura 16. Mo
Page 67 and 68:
Linea 1.3 ItalWordnet 8.1 Comando:
Page 69 and 70:
Linea 1.3 ItalWordnet Es. (api-word
Page 71 and 72:
Page 73 and 74:
Page 75 and 76:
75 Linea 1.3 ItalWordnet
Page 77:
1.3 ItalWordNet ]>
show all

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?