25.01.2014 Views

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

SI-TAL<br />

<strong>ItalWordNet</strong>: <strong>Rete</strong> <strong>Semantico</strong>-<strong>Lessicale</strong><br />

<strong>per</strong> l’Italiano<br />

Linea 1.3<br />

Documentazione del lessico, valutazione della<br />

co<strong>per</strong>tura lessicale e manuale d'uso del software di<br />

gestione<br />

* *<br />

Consorzio Pisa Ricerche - (CPR)<br />

Istituto Trentino di Cultura - Istituto <strong>per</strong> la Ricerca Scientifica e<br />

Tecnologica - (ITC-irst)<br />

Quinary


Linea 1.3 ItalWordnet<br />

Sommario Generale<br />

Sezione 1. Il Lessico della Risorsa <strong>ItalWordNet</strong><br />

Sezione 2. Valutazione della Co<strong>per</strong>tura <strong>Lessicale</strong><br />

Sezione 3. Software di Gestione di <strong>ItalWordNet</strong>: Manuale <strong>per</strong> l'Utente<br />

2


Linea 1.3 ItalWordnet<br />

Sezione 1<br />

Il lessico della risorsa <strong>ItalWordNet</strong><br />

1 INTRODUZIONE....................................................................................................................................... 4<br />

1.1 Lessico generale................................................................................................................................. 4<br />

1.1.1 Sostantivi e verbi.......................................................................................................................... 5<br />

1.1.2 Nomi propri................................................................................................................................... 6<br />

1.1.3 Aggettivi e avverbi........................................................................................................................ 8<br />

1.1.4 Dati quantitativi .......................................................................................................................... 11<br />

1.2 Lessico economico finanziario ....................................................................................................... 13<br />

1.2.1 Fonti ........................................................................................................................................... 13<br />

1.2.2 Modalità di realizzazione............................................................................................................ 14<br />

1.2.3 Unità polilessicali (multiwords)................................................................................................... 16<br />

1.2.4 Consultazione integrata del lessico generale a del lessico economico-finanziario................... 16<br />

1.2.5 Prosecuzione del lavoro............................................................................................................. 18<br />

1.2.6 Dati quantitativi .......................................................................................................................... 18<br />

RIFERIMENTI BIBLIOGRAFICI................................................................................................................. 20<br />

3


Linea 1.3 ItalWordnet<br />

1 Introduzione<br />

Nel <strong>per</strong>iodo corrispondente alla linea 1.3 del progetto SI-TAL è stato ampliato e sviluppato il<br />

prototipo di <strong>ItalWordNet</strong> realizzato nella fase precedente. Ne diamo qui un resoconto <strong>per</strong> quanto<br />

riguarda il lavoro svolto e i risultati raggiunti, sia <strong>per</strong> la parte generale che <strong>per</strong> quella terminologica<br />

economico-finanziaria. Nella sezione seguente è presentata una valutazione del software di accesso<br />

alla risorsa e della co<strong>per</strong>tura lessicale, la terza sezione contiene la descrizione del software di<br />

gestione e il manuale <strong>per</strong> l’utente.<br />

1.1 Lessico generale<br />

La rete semantica dell’italiano <strong>ItalWordNet</strong> (da ora in poi IWN), come è stato detto nel<br />

documento di specifiche, ha ereditato sia i dati sia la maggior parte delle relazioni semantiche da<br />

EuroWordNet (da ora in poi EWN), nel cui ambito è stata inizialmente progettata e sviluppata. Il<br />

modello di relazioni semantiche e l’ontologia contengono alcune modifiche che si sono rese<br />

necessarie <strong>per</strong> rappresentare la nuova categoria degli aggettivi 1 .<br />

Per quanto riguarda i dati, nel passaggio da EWN a IWN la rete ha subito due tipi di intervento:<br />

uno di controllo e di correzione necessario <strong>per</strong> quella parte di dati che erano stati trattati solo<br />

automaticamente, l’altro di ampliamento con la codifica in particolare di aggettivi, avverbi e nomi<br />

propri.<br />

Le categorie dei nomi e dei verbi, che già erano presenti, sono state arricchite di nuovi lemmi e/o<br />

sensi. Le categorie degli aggettivi e avverbi, che esistevano solo come target di relazioni semantiche<br />

dalle prime due categorie, sono state codificate ‘ex novo’ come pure l’insieme di nomi propri. Le<br />

fonti di questi dati sono varie, tra le più importanti il Dizionario di Macchina dell’Italiano (DMI) e<br />

il corpus lemmatizzato scelto <strong>per</strong> l’annotazione semantica della Treebank.<br />

Nel lavoro di revisione i principali obiettivi sono stati i seguenti:<br />

• verificare che tutti i principali sensi di ogni lemma fossero codificati nella rete. Da un<br />

punto di vista metodologico è stato deciso di iniziare questo controllo (ed eventuale<br />

completamento) partendo i) dai livelli più alti del lessico ii) da una lista di lemmi comuni<br />

alle due partizioni del corpus (finanziario e bilanciato) da annotare semanticamente <strong>per</strong><br />

la Treebank;<br />

• completare i synset, sia con l’aiuto di dizionari di sinonimi, sia attraverso la revisione<br />

sistematica di entrate isolate 2 molte delle quali potevano essere riunite in synset più<br />

ampi;<br />

1 Per una dettagliata descrizione delle relazioni semantiche, dell’ontologia e dei cambiamenti introdotti dalla<br />

codifica degli aggettivi si rimanda al documento delle specifiche.<br />

2 Queste entrate (circa 6000), inserite nel database con procedure automatiche, avevano una sola relazione interna di<br />

i<strong>per</strong>onimia e, generalmente, più di due relazioni di equivalenza all’ILI, create anch’esse con procedure automatiche e<br />

non corrette. La correzione di tutte queste entrate è stata completata nella linea 1.3.<br />

4


Linea 1.3 ItalWordnet<br />

• fornire i synset di una breve definizione 3 e, se necessario, anche di un esempio (la rete<br />

italiana costruita nell’ambito di EWN ne era priva in quanto tutti i database delle diverse<br />

lingue di EWN usufruiscono delle definizioni in inglese di WN 1.5 attraverso l’ILI);<br />

• controllare il legame dei nostri synset all’inglese partendo dai synset con troppe relazioni<br />

di equivalenza all’ILI (3 o più), quasi sicuramente originate da procedure automatiche<br />

(spesso fonti di errori).<br />

Per l’attività di ampliamento della rete semantica gli obiettivi sono stati:<br />

• codificare nuove entrate sia di singoli lemmi che di unità polilessicali <strong>per</strong> garantire<br />

innanzi tutto la co<strong>per</strong>tura del corpus di TAL;<br />

• codificare aggettivi, avverbi e nomi propri, in particolare geografici e di <strong>per</strong>sona, a<br />

partire da quelli che hanno dato origine a derivati già presenti nella rete.<br />

1.1.1 Sostantivi e verbi<br />

Per quanto riguarda queste categorie, già presenti nel database di EWN, il lavoro si è concentrato<br />

soprattutto sulla revisione e dunque: il completamento di gran parte delle entrate con tutti i sensi, il<br />

controllo delle entrate inserite automaticamente, il collegamento all’inglese, e la valutazione dei<br />

‘base concepts’. In particolare:<br />

• entrate inserite automaticamente, che riproducevano synset già creati a mano, sono state<br />

eliminate;<br />

• synset costruiti automaticamente sono stati talvolta accorpati a formare synset più ampi;<br />

• relazioni di i<strong>per</strong>onimia e diverse relazioni di xpos_near_synonymy tra nomi e verbi<br />

create automaticamente sono state riviste e corrette;<br />

• relazioni di equivalenza all’ILI inserite automaticamente sono state riviste e corrette.<br />

Oltre a questo lavoro di revisione e completamento delle entrate esistenti, si sono codificati più<br />

di 4000 nuovi lemmi, <strong>per</strong> la maggior parte individuati attraverso vari confronti a livello di lemma<br />

con il Dizionario di Macchina (DMI) e con il Corpus di PAROLE. Altre integrazioni sono venute<br />

dalle segnalazioni degli annotatori del corpus di TAL, soprattutto <strong>per</strong> quanto riguarda le unità<br />

polilessicali, ma anche <strong>per</strong> quanto riguarda alcuni sensi mancanti. Nella figura che segue si possono<br />

vedere ad esempio gli iponimi di corte 5 che fanno parte di queste nuove acquisizioni di unità<br />

polilessicali.<br />

3 Questo lavoro, non previsto nel capitolato, è stato richiesto dagli annotatori del corpus <strong>per</strong> motivi pratici di rapidità<br />

nella scelta dei sensi, e sarà di grande utilità <strong>per</strong> i futuri utenti <strong>per</strong> consultare la risorsa.<br />

5


Linea 1.3 ItalWordnet<br />

Figura 1<br />

Questo lavoro di revisione ha ovviamente contribuito ad aumentare la media di varianti <strong>per</strong><br />

synset (da 1,2 a 1,3), e a migliorare la precisione del mapping all’inglese. Infatti, in confronto ai dati<br />

iniziali, le relazioni di equivalenza sono diminuite da una media di 1,8 a quella di 1,1 <strong>per</strong> synset.<br />

1.1.2 Nomi propri<br />

Partendo dal corpus di TAL, sono stati selezionati e presi in considerazione i nomi propri che vi<br />

compaiono. Tra questi sono stati individuati diversi tipi o classi semantiche come nomi di luoghi,<br />

enti, <strong>per</strong>sone, giornali, o<strong>per</strong>e teatrali, cinematografiche, letterarie etc 4 . Non tutti questi nomi sono<br />

stati introdotti nella rete, ma solo alcuni scelti in base ai due principali criteri della stabilità di uso e<br />

della capacità di dare origine a lemmi derivati di tipo comune. I primi ad essere trattati sono stati i<br />

nomi geografici che, nella grande maggioranza, soddisfano entrambi i criteri. Nei casi di nomi<br />

geografici che negli ultimi anni sono stati cambiati, come ad esempio Birmania o Persia, è stato<br />

inserito sia il nome attuale della nazione, Myannmar e Iran, sia il nome antico, ma più noto, come<br />

variante. Questi nomi geografici, circa 1300, suddivisi in tipi o classi (oltre 25: nazioni, città,<br />

regioni, mari, etc.) sono stati codificati come instances e collegati con la relazione di appartenenza<br />

alle rispettive classi. Quando esiste un termine inglese diverso da quello italiano, viene codificato<br />

un legame anche al corrispondente termine inglese con una relazione di equivalenza (Firenze -<br />

Florence, Londra – London etc.), quando il nome inglese non esiste o non è stato trovato in WN 1.5<br />

si è usata la relazione “Eq_belongs_to class” <strong>per</strong> indicare anche in inglese la classe di appartenenza<br />

4 Per informazioni più dettagliate si rimanda all’Appendice D delle specifiche.<br />

6


Linea 1.3 ItalWordnet<br />

del nome proprio. I nomi di stati, che presentano il fenomeno della polisemia regolare indicando sia<br />

il territorio che il popolo che vi abita, hanno un doppio legame di appartenenza alle due classi.<br />

E’ stato codificato anche un insieme (circa 250) di nomi di <strong>per</strong>sonaggi famosi che hanno dato<br />

origine a aggettivi e/o a nomi comuni come Ario, Machiavelli, Parkinson, Galileo, etc. .Questi<br />

nomi, tramite la relazione “derivation”, sono stati collegati ai loro derivati (vedi figura 2); questo<br />

sottoinsieme è stato inoltre ampliato con altri nomi propri ricavati da una lista di aggettivi<br />

provenienti dal corpus. Di tutti questi nomi di <strong>per</strong>sonaggi noti è stata data una breve definizione.<br />

L’insieme dei nomi propri codificati comprende più di 3000 lemmi appartenenti a 144 classi,<br />

nella tavola 1 sotto si possono vedere le classi più rappresentate.<br />

Tavola 1. Classi con i relativi numeri di “istances”.<br />

Classe di appartenenza N° di “istances”<br />

città 556<br />

museo 240<br />

teatro 172<br />

porto 153<br />

nazione 130<br />

stato 130<br />

popolo 129<br />

fiume 126<br />

comune 124<br />

regione1 106<br />

divinità 104<br />

costellazione 93<br />

parco nazionale 80<br />

cometa 76<br />

ditta 75<br />

o<strong>per</strong>a lirica 74<br />

stella 70<br />

località archeologica 64<br />

monte 60<br />

lago 54<br />

luna 53<br />

isola 41<br />

passo montano 41<br />

valle 39<br />

scrittore 34<br />

poeta 33<br />

filosofo 32<br />

mare 28<br />

parco naturale 25<br />

golfo 23<br />

regione2 20<br />

istituto 17<br />

stretto 16<br />

musicista 15<br />

riserva marina 15<br />

catena(montuosa) 14<br />

compagnia 12<br />

<strong>per</strong>sonaggio mitologico 12<br />

segno zodiacale 12<br />

im<strong>per</strong>atore 10<br />

statista 10<br />

territorio 10<br />

7


Linea 1.3 ItalWordnet<br />

Figura 2<br />

1.1.3 Aggettivi e avverbi<br />

La codifica degli aggettivi, più di 5000 lemmi, e di un sottoinsieme di avverbi in –mente da essi<br />

derivati (circa 800), è stata realizzata completamente nell’ambito di IWN. In EWN esistevano circa<br />

1400 tra aggettivi e avverbi ma solo come target di relazioni da nomi e verbi. Come si è detto nelle<br />

specifiche, la codifica di questa nuova categoria ha portato da un lato a definire nuove relazioni<br />

semantiche come la <strong>per</strong>tain_to e la liable_to che <strong>per</strong>mettono di creare un legame rispettivamente tra<br />

aggettivi e nomi e tra aggettivi e verbi, dall’altro a s<strong>per</strong>imentare la relazione di ip(er)onimia tra<br />

aggettivi (vedi specifiche 3.23.2). Come si è detto nelle specifiche, WordNet non prevede questo<br />

tipo di relazione semantica <strong>per</strong> questa categoria, ma l’analisi delle definizioni degli aggettivi del<br />

DMI, che in molti casi presentano una struttura del tipo genus+differentia, ci ha indotto a codificare<br />

<strong>per</strong> alcuni gruppi omogenei <strong>per</strong> tipo di definizione, e spesso <strong>per</strong> formazione derivazionale, la<br />

relazione di ip(er)onimia.<br />

L’es<strong>per</strong>ienza fatta ha evidenziato che vi sono diversità sia nel tipo di iponimia che nelle possibili<br />

inferenze. Nel caso dell’aggettivo pieno, ad esempio, è stato possibile distinguere un senso proprio i<br />

cui iponimi sono entità del primo ordine (sabbioso ‘pieno di sabbia’) e un senso, figurato, che<br />

seleziona invece entità del secondo ordine (dubbioso ‘pieno di dubbi’). Con la relazione di<br />

‘<strong>per</strong>tains_to’, invece, né l’i<strong>per</strong>onimo (attinente, relativo) né la relazione, al momento, <strong>per</strong>mettono di<br />

fare inferenze sul tipo di entità implicata dall’aggettivo (etico <strong>per</strong>tains_to etica (II ordine), cardiaco<br />

<strong>per</strong>tains_to cuore (I ordine)). In alcuni casi, inoltre, l’i<strong>per</strong>onimo aggettivale è sostituibile<br />

all’aggettivo iponimo, anche se con la <strong>per</strong>dita di alcuni tratti (in accordo con la definizione della<br />

relazione di i<strong>per</strong>onimia) ad esempio: ‘x è raffredato – x è malato’; ‘x è rosso – x è colorato’. Questo<br />

8


Linea 1.3 ItalWordnet<br />

non è possibile invece con altri i<strong>per</strong>onimi in cui il tipo di relazione è molto più generico: ‘x è<br />

dubbioso – x è pieno’; ‘ x è ignorante – x è privo’. Il primo tipo (malato, colorato) sembra ricalcare<br />

più da vicino l’i<strong>per</strong>onimia nominale, in cui la sostituibilità lessicale è utilizzata, ad esempio, nel<br />

caso di anafore nominali (il gatto…l’animale) mentre il secondo tipo è da assimilarsi piuttosto<br />

all’i<strong>per</strong>onimia che troviamo con alcune classi di verbi (come <strong>per</strong> esempio l’insieme degli iponimi di<br />

‘diventare’ / ‘rendere’ che presentano il fenomeno dell’alternanza causativo / incoativo). Questa<br />

precisazione ci appare necessaria in vista di un utilizzo del database <strong>per</strong> diverse attività di<br />

trattamento automatico della lingua. Nella figura 3 sotto si può vedere la codifica di malato e alcuni<br />

dei suoi iponimi.<br />

Figura 3<br />

Un esempio interessante è costituito dagli aggettivi che indicano i colori. Questo insieme è stato<br />

oggetto di vari studi e alcune considerazioni in particolare sono apparse utili <strong>per</strong> la codifica.<br />

Berlin&Kay (1969) individuano undici colori fondamentali (bianco, nero, rosso, giallo, verde,<br />

azzurro, marrone, rosa, viola, arancione, grigio) che potremmo collocare ad un primo livello. Gli<br />

eventuali termini che possono aggiungersi a questi verranno definiti iponimi dei primi (cfr. anche<br />

Dixon, 1982). Possiamo dunque codificare celeste, indaco, carminio, amaranto, ocra ad un livello<br />

più basso rispetto a blu, rosso, giallo, etc. Nella figura che segue si può vedere come è stato<br />

codificato l’aggettivo azzurro e i suoi iponimi.<br />

9


Linea 1.3 ItalWordnet<br />

Figura 4<br />

Sulla base del numero di relazioni con altri synset della rete e della frequenza nel corpus della<br />

Treebank sono stati inoltre selezionati alcuni aggettivi che possono considerarsi i “base concepts” di<br />

questa categoria.<br />

Tavola 2. Base concepts degli aggettivi ordinati secondo il numero di relazioni.<br />

Synset Senso Relazioni interne Relazione di equivalenza ILI record Frequenza<br />

Relativo 3 1400 eq_near_synonym 1515003 7<br />

Relativo 3 1400 eq_near_synonym 1516350 7<br />

Malato 1 110 eq_synonym 1930434<br />

Colorato 1 63 eq_synonym 286908 7<br />

Adatto 1 44 eq_near_synonym 1073331 4<br />

Simile 2 42 eq_near_synonym 109963 25<br />

Pieno 4 31 eq_near_synonym 815726 49<br />

Privo 2 30 eq_near_synonym 43685 4<br />

Privo 2 30 eq_near_synonym 43685 4<br />

Pieno 3 26 eq_near_synonym 815726 49<br />

Grande 1 23 eq_synonym 1052939 262<br />

Dotato 1 15 eq_near_synonym 828431 2<br />

Piccolo 1 14 eq_synonym 1058548 115<br />

Simile 1 14 eq_near_synonym 1073331 25<br />

Cattivo 1 13 eq_near_synonym 860791 8<br />

Infelice 1 13 eq_synonym 874669<br />

Forte 1 12 eq_synonym 1763617 44<br />

10


Linea 1.3 ItalWordnet<br />

Brutto 1 11 eq_synonym 174354 21<br />

Difficile 2 10 eq_synonym 865466 50<br />

Ricco 1 10 eq_synonym 1550014 20<br />

Bello 1 9 eq_synonym 174354 70<br />

Buono 2 8 eq_synonym 1045234 92<br />

Facile 1 8 eq_near_synonym 626877 33<br />

Facile 1 8 eq_near_synonym 1432831 33<br />

Felice 1 8 eq_near_synonym 1376476 44<br />

Vecchio 1 8 eq_near_synonym 1258871 52<br />

Difficile 1 7 eq_synonym 561690 50<br />

Povero 1 7 eq_synonym 1552546 25<br />

Corto 2 6 eq_near_synonym 1097554 14<br />

Possibile 1 6 eq_synonym 1392040 74<br />

Povero 2 6 eq_synonym 1776126 25<br />

Alto 1 5 eq_synonym 915675 73<br />

Forte 4 5 eq_near_synonym 1763617 44<br />

Impossibile 1 5 eq_synonym 1393725 21<br />

Intenso 1 5 eq_near_synonym 598318 9<br />

Rapido 1 5 eq_near_synonym 730240 10<br />

Leggero 3 4 eq_synonym 902532 12<br />

Basso 1 4 eq_synonym 928788 14<br />

Buono 1 4 eq_near_synonym 1562169 92<br />

Leggero 3 4 eq_near_synonym 530835 12<br />

Pesante 1 4 eq_synonym 901535 25<br />

Corto 1 3 eq_synonym 1093896 14<br />

Lungo 1 3 eq_synonym 1092397 88<br />

Successivo 1 3 eq_synonym 103715 13<br />

Lungo 3 2 eq_near_synonym 1094615 88<br />

Precedente 1 2 eq_synonym 98677 26<br />

Stanco 1 2 eq_synonym 1841132 5<br />

1.1.4 Dati quantitativi<br />

Nella tavola seguente sono mostrati i dati quantitativi relativi al lessico generale della rete<br />

semantica.<br />

Tavola 3<br />

<strong>ItalWordNet</strong> Nomi Verbi Aggettivi Avverbi Nomi propri Totale<br />

Synset 31828 9512 4109 498 3161 49109<br />

Numero di sensi (varianti) 64249<br />

X varianti <strong>per</strong> synset 1,3<br />

Correspondenti a lemmi 27881 7785 5195 789 3356 45006<br />

X sensi <strong>per</strong> lemma 1,4<br />

Relazioni interne 126326<br />

Media <strong>per</strong> synset 2,5<br />

Relazioni di equivalenza a (WN1.5) ILI 56624<br />

Media <strong>per</strong> synset 1,1<br />

Relazioni interne in dettaglio Nomi Verbi Aggettivi Avverbi Nomi propri Totale<br />

Synset 31828 9512 4109 498 3161 49109<br />

NEAR_SYNONYM 1424<br />

XPOS_NEAR_SYNONYM 9350<br />

ANTONYM 1318<br />

COMPL_ANTONYM<br />

GRAD_ANTONYM<br />

XPOS_ANTONYM<br />

11


Linea 1.3 ItalWordnet<br />

XPOS_NEAR_ANTONYM 28<br />

HAS_HYPERONYM 44615<br />

HAS_HYPONYM 44615<br />

HAS_XPOS_HYPERONYM 70<br />

HAS_XPOS_HYPONYM 70<br />

LIABLE_TO 227<br />

HAS_LIABILITY 225<br />

IS_A_VALUE_OF<br />

HAS_VALUE<br />

PERTAINS_TO 896<br />

HAS_PERTAINED 889<br />

HAS_INSTANCE 3339<br />

BELONGS_TO_CLASS 3339<br />

DERIVATION 840<br />

HAS_HOLONYM 352<br />

HAS_HOLO_PART 740<br />

HAS_HOLO_MEMBER 443<br />

HAS_HOLO_PORTION 10<br />

HAS_HOLO_MADEOF 285<br />

HAS_HOLO_LOCATION 114<br />

HAS_MERONYM 353<br />

HAS_MERO_PART 756<br />

HAS_MERO_MEMBER 443<br />

HAS_MERO_PORTION 10<br />

HAS_MERO_MADEOF 285<br />

HAS_MERO_LOCATION 114<br />

CO_ROLE 110<br />

CO_AGENT_PATIENT<br />

CO_PATIENT_AGENT<br />

CO_AGENT_INSTRUMENT 6<br />

CO_INSTRUMENT_AGENT 6<br />

CO_AGENT_RESULT<br />

CO_RESULT_AGENT<br />

CO_PATIENT_INSTRUMENT<br />

CO_INSTRUMENT_PATIENT<br />

CO_PATIENT_RESULT<br />

CO_RESULT_PATIENT<br />

CO_INSTRUMENT_RESULT 1<br />

CO_RESULT_INSTRUMENT 1<br />

CAUSES 1045<br />

IS_CAUSED_BY 1046<br />

RESULTS_IN<br />

IS_RESULT_OF<br />

FOR_PURPOSE_OF<br />

IS_PURPOSE_OF<br />

IS_MEANS_FOR<br />

HAS_MEANS<br />

HAS_SUBEVENT 186<br />

IS_SUBEVENT_OF 185<br />

INVOLVED 477<br />

INVOLVED_AGENT 1274<br />

INVOVED_PATIENT 412<br />

INVOLVED_DIRECTION 15<br />

INVOLVED_SOURCE_DIRECTION 50<br />

INVOLVED_TARGET_DIRECTION 49<br />

INVOLVED_LOCATION 123<br />

INVOLVED_INSTRUMENT 466<br />

INVOLVED_RESULT 117<br />

12


Linea 1.3 ItalWordnet<br />

IN_MANNER 172<br />

MANNER_OF 172<br />

ROLE 475<br />

ROLE_AGENT 1274<br />

ROLE_PATIENT 413<br />

ROLE_DIRECTION 15<br />

ROLE_SOURCE_DIRECTION 50<br />

ROLE_TARGET_DIRECTION 49<br />

ROLE_LOCATION 122<br />

ROLE_INSTRUMENT 466<br />

ROLE_RESULT 119<br />

BE_IN_STATE 498<br />

STATE_OF 498<br />

FUZZYNYM 435<br />

XPOS_FUZZYNYM 972<br />

TOTAL 126326<br />

Tavola 4 Relazioni di equivalenza in dettaglio<br />

EQ_SYNONYM 17210<br />

EQ_NEAR_SYNONYM 16133<br />

EQ_XPOS_NEAR_SYNONYM 3<br />

EQ_HAS_HYPERONYM 18882<br />

EQ_HAS_HYPONYM 99<br />

EQ_HAS_HOLONYM 36<br />

EQ_HAS_MERONYM 57<br />

EQ_INVOLVED 747<br />

EQ_ROLE 29<br />

EQ_CAUSES 192<br />

EQ_IS_CAUSED_BY 151<br />

EQ_HAS_SUBEVENT 12<br />

EQ_IS_SUBEVENT_OF 11<br />

EQ_BE_IN_STATE 64<br />

EQ_IS_STATE_OF 68<br />

EQ_BELONGS_TO_CLASS 2432<br />

EQ_METONYM 470<br />

EQ_DIATHESIS 28<br />

Totale 56624<br />

1.2 Lessico economico finanziario<br />

L’obiettivo della Linea 1.3, <strong>per</strong> quanto riguarda il lessico terminologico, consisteva nel<br />

completamento del wordnet economico finanziario sviluppato nell’ambito della linea 1.2, mediante<br />

il raggiungimento di una co<strong>per</strong>tura di circa 5.000 termini.<br />

1.2.1 Fonti<br />

Per la definizione del wordnet terminologico relativamente al dominio economico finanziario<br />

sono state considerate le seguenti fonti di informazione:<br />

13


Linea 1.3 ItalWordnet<br />

• Nomenclatura Garzanti. Comprende circa mille termini suddivisi nelle voci “Borsa e<br />

Banca” e “Economia e Finanza”. I termini hanno una ulteriore strutturazione in<br />

sottovoci, quali ad esempio “attività di borsa”.<br />

• Economic and Business - Zanichelli. Comprende circa 23.000 termini italiani con<br />

rispettive traduzioni in inglese. Dispone inoltre di tavole di nomenclatura strutturate in 9<br />

voci maggiori, con circa 2.000 termini italiano/inglese. Disponibile solo in versione<br />

cartacea.<br />

• Dizionario bilingue Italiano-Inglese, Inglese-Italiano (COLLINS), sfruttando le etichette<br />

di dominio presenti, ad esempio “Econ” e “Comm”.<br />

• Testi economico-finanziari, ricavati ad esempio da numeri del quotidiano Sole24Ore.<br />

Questi testi sono particolarmente utili <strong>per</strong> l’individuazione di nomi propri.<br />

• Il corpus economico della componente Treebank di TAL.<br />

1.2.2 Modalità di realizzazione<br />

La struttura della risorsa IWN relativa al dominio economico-finanziario (d’ora in avanti Ecown)<br />

è rimasta invariata rispetto al modello adottato nella fase precedente: un insieme di synset <strong>per</strong><br />

la lingua italiana organizzati secondo le relazioni previste nelle specifiche di IWN (principalmente<br />

relazioni di sinonimia e i<strong>per</strong>onimia/iponimia) e collegati tramite relazioni di equivalenza ad un<br />

indice non strutturato (Eco-ILI) di synset inglesi tratti da WordNet1.6.<br />

Il completamento di Eco-wn è stato realizzato come segue:<br />

i. Dalle fonti elencate in 1.2.1, in particolare da numeri del quotidiano Sole24Ore, sono stati<br />

estratti circa 1.500 nomi propri riferiti a titoli azionari e a fondi monetari, che sono poi<br />

stati inseriti in Eco-wn e collegati all’indice Eco-ILI mediante procedure automatiche.<br />

ii. I 70 “root concepts” del dominio economico, a partire dai quali sono state organizzate tutte<br />

le singole sottogerarchie, nell’ambito della linea 1.2 non erano stati in alcun modo<br />

collegati tra loro, sebbene vi fossero, in alcuni casi, relazioni concettuali piuttosto evidenti.<br />

L’organizzazione dei concetti del dominio economico-finanziario è stata completata<br />

nell’ambito della linea 1.3 mediante un’analisi del significato di questi synset e delle<br />

relazioni esistenti tra synset con significato affine, che ha portato a una loro<br />

ristrutturazione gerarchica, o<strong>per</strong>azione in cui i lessicografi sono stati affiancati da un<br />

es<strong>per</strong>to del dominio economico-finanziario. In figura 6 sono elencati in ordine alfabetico,<br />

a carattere esemplificativo, alcuni dei synset che al termine della linea 1.2 costituivano il<br />

livello dei “root synsets”. Nell’ambito della ristrutturazione effettuata in questa seconda<br />

fase, come si vede in figura 7, {azione} e {obbligazione} sono stati spostati ad un livello<br />

più basso, cioè tra gli iponimi di {titolo}; allo stesso modo anche {società}, {rendita} e<br />

{assicurazione} sono stati spostati più in basso nella gerarchia in quanto iponimi di<br />

{contratto}, così come {borsa}, che è un iponimo di {mercato}. Da questa fase è così<br />

emerso l’insieme dei “base concepts”, ovvero dei concetti che rivestono un ruolo di<br />

particolare importanza all’interno del dominio economico-finanziario.<br />

iii. Mediante il tool di navigazione ed editing implementato <strong>per</strong> <strong>ItalWordNet</strong>, sono stati<br />

inseriti manualmente circa mille sostantivi, individuati all’interno del corpus economico<br />

della componente Treebank di TAL e considerati dall’es<strong>per</strong>to di dominio come<br />

appartenenti al lessico economico-finanziario. In questa fase Wordnet1.6 è stato<br />

14


Linea 1.3 ItalWordnet<br />

interrogato manualmente <strong>per</strong> determinare i synset Eco-ILI a cui dovesse essere agganciata<br />

la relazione di equivalenza (o le relazioni di equivalenza) di ciascun synset.<br />

iv. Per quanto riguarda i verbi del dominio economico finanziario, sono state individuate due<br />

sottoclassi distinte: da un lato troviamo verbi con significato strettamente economico,<br />

ovvero verbi monosemici con significato economico (<strong>per</strong> esempio “demonetizzare” e<br />

“conguagliare”) e verbi polisemici caratterizzati da un’accezione con significato<br />

economico (ad esempio “evadere” e “investire”) e dall’altro verbi con significato generico,<br />

come “emettere”, che acquisiscono significato specificamente economico soltanto se<br />

abbinati a determinati termini appartenenti al dominio economico-finanziario (come <strong>per</strong><br />

esempio “moneta”, “assegni” o “fatture”, nel caso di “emettere”). Per caratterizzare questi<br />

verbi come appartenenti al dominio economico si è <strong>per</strong>tanto reso necessario stabilire<br />

relazioni “involved-role” con i nomi che ne determinano il significato attinente al<br />

dominio.<br />

v. Per quanto riguarda gli aggettivi del dominio economico finanziario, sono stati creati 57<br />

synset, <strong>per</strong> un totale di 65 lemmi. La struttura gerarchica degli aggettivi comprende due<br />

soli livelli: a circa trenta aggettivi derivati morfologicamente da sostantivi, come<br />

“borsistico” e “bancario”, è stato attribuito come i<strong>per</strong>onimo il synset {attinente relativo}, a<br />

una quindicina di aggettivi derivati da verbi, come “trasferibile” e “pagabile”, è stato<br />

attribuito come i<strong>per</strong>onimo il synset {passibile} 5 , mentre gli altri sono sullo stesso livello di<br />

{attinente relativo} e {passibile}.<br />

vi. Ciascuno dei synset è stato annotato con uno o più concetti della Domain Ontology. La<br />

Domain Ontology <strong>per</strong> il dominio economico-finanziario, modificata rispetto a quella<br />

definita nella linea 1.2 con l’introduzione del concetto “law”, comprende ora undici<br />

concetti, strutturati in gerarchia come in Figura 5.<br />

vii. Infine, ad ogni synset appartenente al database specialistico è stata applicata una procedura<br />

<strong>per</strong> l’assegnazione automatica di concetti derivati dalla Top Ontology di EuroWordNet,<br />

sulla base delle relazioni di equivalenza all’indice Eco-ILI. Nei casi in cui un synset<br />

economico risultasse collegato ad uno o più synset inglesi rientranti nella categoria dei<br />

“top concepts”, tale synset ereditava, insieme a tutti i suoi iponimi di ogni livello, lo stesso<br />

concetto (o gli stessi concetti) della Top Ontology. Laddove un synset non risultasse<br />

collegato ad alcuno dei “top concepts”, si è saliti nella gerarchia fino a trovare un<br />

i<strong>per</strong>onimo di livello su<strong>per</strong>iore che fosse collegato ad un “top concept” dal quale ereditare<br />

un concetto della Top Ontology. In molti casi ciò non è stato sufficiente <strong>per</strong> trovare un<br />

concetto da assegnare automaticamente e di conseguenza ai synset appartenenti ad alcune<br />

sottogerarchie non è stato possibile assegnare automaticamente alcun concetto della Top<br />

Ontology. Questi synset, quindi, potranno avere un collegamento con un concetto della<br />

Top Ontology soltanto nell’ambito della consultazione integrata, dove ciascuno di essi<br />

sarà direttamente o indirettamente collegato a concetti più generici di IWN.<br />

________________________________________________________________________________<br />

DO-Top<br />

economy<br />

book_keeping<br />

exchange<br />

tax<br />

5 Alcuni degli iponimi di{attinente relativo} e {passibile} sono stati collegati ai sostantivi e ai verbi da cui derivano,<br />

rispettivamente mediante relazioni “<strong>per</strong>tains_to” e “liable_to”.<br />

15


Linea 1.3 ItalWordnet<br />

money<br />

enterprise<br />

banking<br />

insurance<br />

commerce<br />

law<br />

transport<br />

Figura 5. Concetti della Domain Ontology Economico-finanziaria.<br />

ASSICURAZIONE<br />

AZIONE<br />

BORSA<br />

CONTRATTO<br />

MERCATO<br />

OBBLIGAZIONE<br />

RENDITA<br />

SOCIETÀ<br />

TITOLO<br />

Figura 6. Alcuni dei base concept economici così come apparivano al termine della linea 1.2, cioè privi di<br />

interrelazioni.<br />

CONTRATTO<br />

SOCIETÀ<br />

CONTRATTO ALEATORIO<br />

RENDITA<br />

ASSICURAZIONE<br />

MERCATO<br />

BORSA<br />

TITOLO<br />

AZIONE<br />

OBBLIGAZIONE<br />

Figura 7. I synset rappresentati in figura 6, dopo la ristrutturazione gerarchica effettuata nell’ambito della linea 1.3.<br />

1.2.3 Unità polilessicali (multiwords)<br />

Per il trattamento dei termini polilessicali, il problema di decidere quali varianti di un termine<br />

inserire nel synset come sinonimi è stato rilevante anche in questa seconda fase. In particolare, si è<br />

cercato di limitare la proliferazione di varianti, almeno a livello ortografico. Per quanto concerne le<br />

varianti apostrofate, ad esempio, nel database è stata inserita soltanto la forma estesa (quindi<br />

tasso_di_interesse e non tasso_d’_interesse) ma, tramite una serie di trasformazioni automatiche<br />

gestite dal software di accesso alla risorsa, è stato reso possibile accedervi anche tramite la variante<br />

apostrofata. Lo stesso metodo è stato applicato anche a varianti maiuscole/minuscole e a diversi<br />

caratteri di accento.<br />

1.2.4 Consultazione integrata del lessico generale a del lessico economico-finanziario<br />

Per <strong>per</strong>mettere la navigazione integrata delle due risorse è stato necessario collegare i synset<br />

economici a corrispondenti synset della risorsa generica e risolvere tutti i casi possibili di<br />

contraddizioni. A questo scopo sono state messe a punto due tipi di procedure: le relazioni di plugin<br />

e la procedura di oscuramento.<br />

16


Linea 1.3 ItalWordnet<br />

Le tre relazioni di plug-in sono:<br />

• PLUG_SYNONYMY, utilizzata <strong>per</strong> stabilire collegamenti tra coppie di synset del<br />

generico e del terminologico nei casi in cui sia possibile trovare coppie di synset che si<br />

sovrappongono semanticamente.<br />

• PLUG_NEAR_SYNONYMY, utilizzata <strong>per</strong> collegare coppie di synset che hanno un<br />

significato molto simile tra loro, ma non identico.<br />

• PLUG_HYPONYMY, impiegata <strong>per</strong> collegare un synset del lessico economico ad un<br />

synset del lessico generico con significato più generico, nei casi in cui nel lessico<br />

generico non esista alcun synset che vi si sovrapponga semanticamente.<br />

La procedura di oscuramento viene utilizzata, affinché nella consultazione integrata non<br />

appaiano doppioni, <strong>per</strong> oscurare i synset del lessico generico che si sovrappongono semanticamente<br />

con synset del lessico specialistico ma sono posizionati in maniera incoerente rispetto alla<br />

tassonomia di quest’ultimo. È il caso di {comodato}IWN, <strong>per</strong> esempio, che ha lo stesso significato<br />

di {comodato}Eco-wn, pur trovandosi tra gli iponimi di {credito#2 …}IWN anziché insieme ad<br />

altri tipi di {contratto}, come avviene invece nel database economico.<br />

Il numero totale di relazioni create <strong>per</strong> innestare Eco-wn in IWN, cioè <strong>per</strong> collegare almeno tutti<br />

i nodi terminali di Eco-wn, ammonta a 275 (99 relazioni di PLUG_SYNONYMY, 40 di<br />

PLUG_NEAR_SYNONYMY e 136 di PLUG_HYPONYMY), mentre 136 synset appartenenti a IWN sono<br />

stati eclissati <strong>per</strong> evitare che comparissero dei doppioni nella consultazione integrata. In totale, sono<br />

stati connessi a IWN più di 4.650 synset di Eco-wn (mentre soltanto poche decine di synset di alto<br />

livello stati oscurati <strong>per</strong> effetto delle relazioni di plug-in), il che significa che ogni relazione collega<br />

mediamente oltre una quindicina di synset. Il collegamento ha riguardato direttamente poco più di<br />

250 synset appartenenti a Eco-wn 6 , cioè una <strong>per</strong>centuale che si aggira attorno al 5,3% del totale.<br />

L’es<strong>per</strong>to di dominio si è mosso prendendo in considerazione l’insieme dei base concept di Ecown,<br />

che occupano i livelli più alti della gerarchia. In particolare, <strong>per</strong> ogni base concept si è cercato<br />

un synset IWN con lo stesso significato, a cui agganciare una relazione di PLUG_SYNONYMY o di<br />

PLUG_NEAR_SYNONYMY, secondo il grado di sovrapposizione semantica e lessicale<br />

({contratto}Eco-wn, <strong>per</strong> esempio, è stato collegato a {contratto}IWN mediante la relazione di<br />

PLUG_SYNONYMY, mentre la relazione di PLUG_NEAR_SYNONYMY è stata usata nel caso di<br />

{assunzione}Eco-wn e {assunzione ingaggio}IWN). In questo modo sono stati resi raggiungibili<br />

nella consultazione integrata anche gli iponimi dei livelli più bassi e, di conseguenza, si è rivelata<br />

necessaria una verifica costante dei synset di IWN da oscurare al fine di evitare doppioni.<br />

Nei casi in cui non è stato possibile trovare alcun synset corrispondente, laddove cioè sia stato<br />

riscontrato un “gap” nel database generico, si è cercato un synset con un significato più generico al<br />

quale agganciare una relazione di PLUG_HYPONYMY, verificando di volta in volta quali synset<br />

dovessero essere oscurati <strong>per</strong> evitare doppioni.<br />

6 Il numero di synset coinvolti è minore di quello delle relazioni create in quanto alcuni synset ECOWN sono stati<br />

collegati a due o più IWN synset.<br />

17


Linea 1.3 ItalWordnet<br />

1.2.5 Prosecuzione del lavoro<br />

Il risultato ottenuto al termine della linea 1.3 consiste in un wordnet economico finanziario con<br />

co<strong>per</strong>tura di circa 5.100 lemmi del dominio, in cui sono rappresentate le principali parti del<br />

discorso, sostantivi, verbi e aggettivi. L’attività proseguirà nella linea 1.4 lungo le seguenti<br />

direzioni:<br />

• Mantenere aggiornata la risorsa.<br />

• Correggere eventuali errori.<br />

• Fornire il supporto necessario <strong>per</strong> la valutazione della risorsa.<br />

1.2.6 Dati quantitativi<br />

Nella tavola seguente sono mostrati i dati quantitativi relativi al lessico economico-finanziario.<br />

Tavola 5<br />

<strong>ItalWordNet</strong> economico Nomi Verbi Aggettivi TOTALE<br />

Synset 4500 132 57 4689<br />

Numero di sensi (varianti) 5307<br />

X varianti <strong>per</strong> synset 1,13<br />

Corrispondenti a lemmi 4922 138 65 5125<br />

X sensi <strong>per</strong> lemma 1,04<br />

Relazioni interne 9372<br />

Media <strong>per</strong> synset 2<br />

Relazioni di equivalenza a (WN1.6) Eco-ILI 4776<br />

Media <strong>per</strong> synset 1,02<br />

Relazioni interne in dettaglio Nomi Verbi Aggettivi TOTALE<br />

NEAR_SYNONYM 4 4<br />

XPOS_NEAR_SYNONYM<br />

ANTONYM 6 6<br />

XPOS_ANTONYM<br />

HAS_HYPERONYM 2866 115 42 3025<br />

HAS_HYPONYM 2866 115 42 3025<br />

HAS_XPOS_HYPERONYM<br />

HAS_HOLONYM<br />

HAS_HOLO_PART<br />

HAS_HOLO_MEMBER<br />

HAS_HOLO_PORTION<br />

HAS_HOLO_MADEOF<br />

HAS_HOLO_LOCATION<br />

HAS_MERONYM<br />

HAS_MERO_PART<br />

HAS_MERO_MEMBER<br />

HAS_MERO_PORTION<br />

HAS_MERO_MADEOF<br />

HAS_MERO_LOCATION<br />

CAUSES<br />

IS_CAUSED_BY<br />

HAS_SUBEVENT<br />

IS_SUBEVENT_OF<br />

INVOLVED<br />

INVOLVED_AGENT 20 20<br />

INVOVED_PATIENT 64 64<br />

INVOLVED_DIRECTION<br />

INVOLVED_SOURCE_DIRECTION<br />

18


Linea 1.3 ItalWordnet<br />

INVOLVED_TARGET_DIRECTION 2 2<br />

INVOLVED_LOCATION 1 1<br />

INVOLVED_INSTRUMENT<br />

INVOLVED_RESULT<br />

IN_MANNER<br />

ROLE<br />

ROLE_AGENT 20 20<br />

ROLE_PATIENT 64 64<br />

ROLE_DIRECTION<br />

ROLE_SOURCE_DIRECTION<br />

ROLE_TARGET_DIRECTION 2 2<br />

ROLE_LOCATION 1 1<br />

ROLE_INSTRUMENT<br />

ROLE_RESULT<br />

BE_IN_STATE<br />

STATE_OF<br />

FUZZYNYM<br />

XPOS_FUZZYNYM<br />

PERTAINS_TO 18 18<br />

HAS_PERTAINED 18 18<br />

LIABLE_TO<br />

HAS_LIABILITY<br />

HAS_INSTANCE 1552 1552<br />

BELONGS_TO_CLASS 1552 1552<br />

TOTALE 8941 328 103 9372<br />

Relazioni di equivalenza in dettaglio Nomi Verbi Aggettivi TOTALE<br />

EQ SYNONYM 744 79 25 848<br />

EQ XPOS NEAR SYNONYM 1 3 20 24<br />

EQ NEAR SYNONYM 98 42 15 155<br />

EQ HAS HYPERONYM 2159 21 20 2200<br />

EQ HAS HYPONYM<br />

EQ ANTONYM<br />

EQ HAS HOLONYM<br />

EQ HAS MERONYM<br />

EQ INVOLVED<br />

EQ ROLE<br />

EQ CO ROLE<br />

EQ CAUSES<br />

EQ IS CAUSED BY<br />

EQ HAS SUBEVENT<br />

EQ IS SUBEVENT OF<br />

EQ IN MANNER<br />

EQ BE IN STATE<br />

EQ IS STATE OF<br />

EQ HAS INSTANCE<br />

EQ BELONGS TO CLASS 1549 1549<br />

EQ GENERALISATION<br />

EQ METONYM<br />

EQ DIATHESIS<br />

TOTALE 4551 145 80 4776<br />

19


Linea 1.3 ItalWordnet<br />

Riferimenti bibliografici<br />

Alonge, A., Bertagna, F., Calzolari, N., Roventini, A., Zampolli, A., 2000, “Encoding Information<br />

on adjectives in a lexical semantic net for computational applications” in Proceedings of the 1st<br />

Conference of the North American Chapter of the Associationfor Computational Linguistics,<br />

April, Seattle.<br />

Alonge, A., Bertagna, F., Calzolari, N., Roventini A. 1999. The Italian Wordnet. In: EWN CD-Rom<br />

(anche: http://www.hum.uva.nl/~ewn).<br />

Berlin, B. & Kay, P., 1969, Basic Colour Terms. Their Universality and Evolution, University of<br />

California Press, Berkeley and Los Angeles.<br />

Dixon, R.M.W., 1982, Where have all the adjectives gone? And others essays in semantics and<br />

syntax, Berlin, Mouton Publisher.<br />

Gruppo di Pisa, 1979, “Il Dizionario di Macchina del<strong>l'Italiano</strong>”. In: D. Gambarara, F. Lo Piparo, G.<br />

Ruggiero (a cura di), Linguaggi e formalizzazioni, Atti del Convegno Internazionale di Studi,<br />

Catania 1976, Roma, Bulzoni, pp.683-707.<br />

<strong>ItalWordNet</strong>: <strong>Rete</strong> <strong>Semantico</strong> lessicale <strong>per</strong> l’italiano, in: Documento di Specifiche Tecniche di SI-<br />

TAL, Manuale O<strong>per</strong>ativo, cap. 2., Gennaio 2000, Pisa.<br />

Zingarelli, N., 1989, Vocabolario della lingua italiana, Zanichelli, Bologna.<br />

20


Linea 1.3 ItalWordnet<br />

Sezione 2<br />

Valutazione della co<strong>per</strong>tura lessicale<br />

1 VALUTAZIONE ...................................................................................................................................... 22<br />

1.1 Ambiente e modalità di valutazione................................................................................................ 22<br />

1.2 Corrispondenza del modello alle specifiche ................................................................................. 22<br />

1.3 Valutazione di usabilità dell'interfaccia di ‘browsing’ .................................................................. 25<br />

1.4 Valutazione di integrabilità del software........................................................................................ 26<br />

1.5 Valutazione di co<strong>per</strong>tura del lessico .............................................................................................. 26<br />

1.5.1 Risultati dei test 27<br />

1.5.1.1 Test 1 – database generico - (su tutti i lemmi presenti nel corpus) ...................................................... 27<br />

1.5.1.2 Test 2 – database generico (sui lemmi rilevanti al fine della classificazione)...................................... 33<br />

1.5.1.3 Test 3 – database economico - (su tutti i lemmi presenti nel corpus)................................................... 34<br />

1.5.1.4 Test 4 – database economico (sui lemmi rilevanti al fine della classificazione).................................. 39<br />

1.6 note sui risultati dei test: ................................................................................................................. 40<br />

1.7 Trattamento MultiWord .................................................................................................................... 41<br />

21


Linea 1.3 ItalWordnet<br />

1 Valutazione<br />

Durante la linea 1.3 è stata effettuata una ri-validazione preliminare della risorsa e del software<br />

<strong>ItalWordNet</strong>, al fine di controllare l’evoluzione rispetto a quanto reso disponibile al termine della<br />

linea 1.2. L’attività è stata circoscritta ad una semplice rivalutazione di quanto già emerso, essendo<br />

una valutazione completa soggetto della successiva linea 1.4.<br />

In particolare, è stata effettuata una valutazione qualitativa delle funzionalità di interfaccia, una<br />

verifica dell’API (via il programma già sviluppato <strong>per</strong> il test effettuato nella linea 1.2,<br />

opportunamente esteso e modificato, ove necessario, a seguito di variazioni delle API) e sono poi<br />

stati ripetuti gli stessi test di co<strong>per</strong>tura effettuati al termine della linea 1.2, sugli stessi data set.<br />

Nel seguito vengono riportate informazioni riguardo all’ambiente hardware e software nel quale<br />

è stata valutata la risorsa, ai metodi seguiti e ai risultati delle valutazioni.<br />

1.1 Ambiente e modalità di valutazione<br />

Il sofware Italwordnet è stato installato su due Personal Computer (PC) connessi in rete:<br />

• un PC con 256 Mb di RAM e processore Intel PentiumIII, in ambiente Microsoft Windows NT<br />

4.0, Service Pack 6<br />

• un PC con 128 Mb di RAM e processore Intel III, in ambiente Microsoft Windows NT 4.0,<br />

Service Pack 6<br />

Sul primo PC è stato installato il server, il client e l’interfaccia grafica <strong>per</strong> il test delle API. Sul<br />

secondo PC è stato installato il client e l’interfaccia grafica <strong>per</strong> il test delle API.<br />

Il software è stato scaricato dal sito ILC (ftp.ilc.pi.cnr.it) il 2 aprile 2001 (archivi toolfile.zip,<br />

iwnclient.zip, gen_eco_hash.zip). L’istallazione e’ stata effettuata unzippando i sudetti file in una<br />

directory (toolfile.zip e gen_eco_hash.zip <strong>per</strong> il server, iwnclient <strong>per</strong> il solo client). Tutti i test sono<br />

stati fatti sul gen_eco_hash.zip datato 23/03/2001. Il software è stato testato da due collaboratori di<br />

Quinary, entrambi sviluppatori software con conoscenza pregressa del modello di <strong>ItalWordNet</strong>.<br />

La versione utilizzata era da considerarsi ‘pre final’; al di là di alcuni problemi minori, la cui<br />

risoluzione è attesa <strong>per</strong> la versione finale del sistema, la maggiore limitazione è stata legata alla<br />

mancanza di un ambiente integrante la risorsa generica e quella finanziaria. Tale limitazione era<br />

tuttavia in fase di risoluzione ed i test sono stati effettuati in modo da minimizzare l’impatto della<br />

mancanza.<br />

1.2 Corrispondenza del modello alle specifiche<br />

Come già visto al termine della linea 1.2, il modello, così come presentato dall’interfaccia di<br />

‘browsing’, corrisponde in termini di informazioni re<strong>per</strong>ibili e relazioni esplorabili al modello<br />

definito nel documento finale della linea 1.1.<br />

Rispetto a quanto visto nella prima valutazione sono state aggiunte informazioni sui domini nella<br />

risorsa economica: nella sezione domain fields <strong>per</strong> ogni synset e' visualizzata una lista di concetti,<br />

come law, economy, enterprise. Non e' chiaro <strong>per</strong>ò se sia una lista piatta di concetti oppure se<br />

organizzata in una gerarchia, come avviene <strong>per</strong> gli "ontology concepts", che sono collegati alla top<br />

22


Linea 1.3 ItalWordnet<br />

ontology di wordnet; apparentemente non esistono inoltre funzionalita'/API di search/browsing sui<br />

domain fields.<br />

Diverse relazioni sono ancora non valorizzate, anche se sono state effettuate aggiunte, come si<br />

evince osservando le statistiche <strong>per</strong> risorsa dall’interfaccia. Questo è particolarmente vero <strong>per</strong> il<br />

lessico economico, che risulta tuttora scorporato, mancando la relazione di innesto tra la parte<br />

generica e la parte specifica della risorsa. Per ora il database generico e quello contenente i termini<br />

economici-finanziari sono utilizzabili in alternativa, mentre, in seguito, dovrebbe essere possibile<br />

utilizzare un’unica risorsa, dove i nodi della rete corrispondente al lessico specifico sono innestati<br />

opportunamente nella rete corrispondente al lessico generico. Nell’ambito della linea 1.3 è stata<br />

quindi fatta una valutazione della co<strong>per</strong>tura lessicale delle due reti disgiunte (ma tenendo conto<br />

della mutua co<strong>per</strong>tura, come meglio dettagliato nel seguito) mentre ci si propone di valutare con<br />

attenzione la versione integrata nella linea 1.4.<br />

Si evidenzia ancora l’utilità che si avrebbe dalla presenza di glosse associate ai sensi, esistenti<br />

ma non complete. Va <strong>per</strong>ò detto che l’inserimento di glosse e definizioni non era previsto nel<br />

contratto, in quanto il legame a Wordnet avrebbe fornito anche una definizione, se pure in inglese, e<br />

che nel lavoro di revisione e di accrescimento realizzato nella linea 1.3 è stato evidentemente fatto il<br />

possibile <strong>per</strong> aumentare il numero delle definizioni.<br />

23


Linea 1.3 ItalWordnet<br />

DB economico<br />

4689 synsets (2948 nomi, 132 verbi, 57 aggettivi, 1551 nomi propri)<br />

5125 lemmi (3343 nomi, 138 verbi, 65 aggettivi, 1579 nomi propri)<br />

9372 relazioni interne, 4776 relazioni esterne<br />

relation n relation n<br />

near_synonym 4 co_agent_instrument<br />

xpos_near_synonym co_instrument_agent<br />

has_hy<strong>per</strong>onym 3025 co_agent_result<br />

has_hyponym 3025 co_result_agent<br />

has_xpos_hy<strong>per</strong>onym co_patient_instrument<br />

has_xpos_hyponym co_instrument_patient<br />

antonym 6 co_patient_result<br />

compl_antonym co_result_patient<br />

grad_antonym co_instrument_result<br />

xpos_antonym co_result_instrument<br />

xpos_near_antonym be_in_state<br />

has_holonym state_of<br />

has_meronym in_manner<br />

has_mero_part manner_of<br />

has_holo_part derivation<br />

has_mero_member liable_to<br />

has_holo_member has_liability<br />

has_mero_madeof is_a_value_of<br />

has_holo_madeof has_value<br />

has_mero_portion <strong>per</strong>tains_to 18<br />

has_holo_portion has_<strong>per</strong>tained 18<br />

has_mero_location has_instance 1552<br />

has_holo_location belongs_to_class 1552<br />

causes fuzzynym<br />

is_caused_by xpos_fuzzynym<br />

results_in eq_synonym 848<br />

is_result_of eq_xpos_near_synonym 24<br />

for_purpose_of eq_near_synonym 155<br />

is_purpose_of eq_has_hy<strong>per</strong>onym 2200<br />

is_means_for eq_has_hyponym<br />

has_means eq_antonym<br />

has_subevent eq_has_holonym<br />

is_subevent_of eq_has_meronym<br />

involved eq_involved<br />

role eq_role<br />

involved_agent 20 eq_co_role<br />

role_agent 20 eq_causes<br />

involved_patient 64 eq_is_caused_by<br />

role_patient 64 eq_has_subevent<br />

involved_instrument eq_is_subevent_of<br />

role_instrument eq_in_manner<br />

involved_location 1 eq_be_in_state<br />

role_location 1 eq_is_state_of<br />

involved_direction eq_has_instance<br />

role_direction eq_belong_to_class 1549<br />

involved_source_direction eq_metonym<br />

role_source_direction eq_diathesis<br />

involved_target_direction 2 co_agent_patient<br />

role_target_direction 2 co_patient_agent<br />

involved_result<br />

role_result<br />

co_role<br />

Tabella 1<br />

24


Linea 1.3 ItalWordnet<br />

DB generico<br />

49109 synsets (31828 nomi, 9512 verbi, 4109 aggettivi, 498 avverbi, 3161 nomi propri<br />

45006 lemmi (27881 nomi, 7785 verbi, 5195 aggettivi, 789 avvebi, 3356 nomi propri)<br />

126326 relazioni interne, 56624 relazioni esterne<br />

relation n relation n<br />

near_synonym 1424 co_role 110<br />

xpos_near_synonym 9350 co_agent_patient<br />

has_hy<strong>per</strong>onym 44615 co_patient_agent<br />

has_hyponym 44615 co_agent_instrument 6<br />

has_xpos_hy<strong>per</strong>onym 70 co_instrument_agent 6<br />

has_xpos_hyponym 70 co_agent_result<br />

antonym 1318 co_result_agent<br />

compl_antonym co_patient_instrument<br />

grad_antonym co_instrument_patient<br />

xpos_antonym co_patient_result<br />

xpos_near_antonym 28 co_result_patient<br />

has_holonym 352 co_instrument_result 1<br />

has_meronym 353 co_result_instrument 1<br />

has_mero_part 756 be_in_state 498<br />

has_holo_part 740 state_of 498<br />

has_mero_member 443 in_manner 172<br />

has_holo_member 443 manner_of 172<br />

has_mero_madeof 285 derivation 840<br />

has_holo_madeof 285 liable_to 227<br />

has_mero_portion 10 has_liability 225<br />

has_holo_portion 10 is_a_value_of<br />

has_mero_location 114 has_value<br />

has_holo_location 114 <strong>per</strong>tains_to 896<br />

causes 1045 has_<strong>per</strong>tained 890<br />

is_caused_by 1046 has_instance 3339<br />

results_in belongs_to_class 3339<br />

is_result_of fuzzynym 435<br />

for_purpose_of xpos_fuzzynym 972<br />

is_purpose_of eq_synonym 17210<br />

is_means_for eq_xpos_near_synonym 3<br />

has_means eq_near_synonym 16133<br />

has_subevent 186 eq_has_hy<strong>per</strong>onym 18882<br />

is_subevent_of 185 eq_has_hyponym 99<br />

involved 477 eq_antonym<br />

role 475 eq_has_holonym 36<br />

involved_agent 1274 eq_has_meronym 57<br />

role_agent 1274 eq_involved 747<br />

involved_patient 412 eq_role 29<br />

role_patient 413 eq_co_role<br />

involved_instrument 466 eq_causes 192<br />

role_instrument 466 eq_is_caused_by 151<br />

involved_location 123 eq_has_subevent 12<br />

role_location 122 eq_is_subevent_of 11<br />

involved_direction 15 eq_in_manner<br />

role_direction 15 eq_be_in_state 64<br />

involved_source_direction 50 eq_is_state_of 68<br />

role_source_direction 50 eq_has_instance<br />

involved_target_direction 49 eq_belong_to_class 2432<br />

role_target_direction 49 eq_metonym 470<br />

involved_result 117 eq_diathesis 28<br />

role_result 119<br />

Tabella 2<br />

1.3 Valutazione di usabilità dell'interfaccia di ‘browsing’<br />

La novita’ piu’ rilevante <strong>per</strong> quanto riguarda l’interfaccia client di ItalWordnet e’ la possibilita’<br />

di importare/esportare dati in formato XML (anche se non e’ ancora attivo l’export selettivo su<br />

synset specifici). Le relazioni anomale (con target a NIL) sono scomparse. Per quanto riguarda<br />

25


Linea 1.3 ItalWordnet<br />

l’usabilità dell’interfaccia valgono sostanzialmente le considerazioni espresse nel documento<br />

precedente.<br />

1.4 Valutazione di integrabilità del software<br />

Le API di IWN sono state testate sia utilizzando l’interfaccia Tcl/Tk sviluppata da IRST che<br />

integrando le chiamate di funzioni in un modulo software Java.<br />

Tutte le API testate funzionano correttamente e sembrano fornire una co<strong>per</strong>tura adeguata in<br />

termine di funzionalità di ricerca. Una funzionalità tuttora non co<strong>per</strong>ta dalle API, che forse potrebbe<br />

essere utile <strong>per</strong> un’applicazione esterna è la ricerca <strong>per</strong> sottostringhe.<br />

Difficile da utilizzare è <strong>per</strong>ò la sintassi LISP-like di output delle API: la presenza di parentesi<br />

graffe e di stringhe con apici quotati rende difficile l’interpretazione dei risultati e necessario lo<br />

sviluppo di parser specifici. Tra le possibili alternative, si suggerisce di valutare l’utilizzo opzionale<br />

di XML come formato di output <strong>per</strong> le chiamate API.<br />

La documentazione delle API, fornita in linea con l’interfaccia grafica e in formato testuale, è<br />

abbastanza dettagliata da <strong>per</strong>mettere l’utilizzo delle funzioni. Al fine di rendere possibile la<br />

distribuzione ad utenti finali, è <strong>per</strong>ò necessario integrarla con alcuni esempi di utilizzo all’interno di<br />

alcuni linguaggi di programmazione.<br />

Al fine di iniziare a valutare i tempi medi di risposta delle funzioni di accesso si è misurato il<br />

tempo di CPU utilizzato dal programma realizzato <strong>per</strong> valutare la co<strong>per</strong>tura lessicale della risorsa. Il<br />

test è stato eseguito accedendo con un client Java al server Lisp Italwordnet, installato sulla stessa<br />

macchina (Windows NT, 256 MB RAM, processore Pentium III). Il tempo medio di risposta <strong>per</strong> la<br />

chiamata API alla funzionalità di overview (utilizzata dal programma di test) è stato di 200 ms,<br />

inclusi i tempi di lettura/scrittura su socket. Lo stesso test effettuato sulla versione rilasciata al<br />

termine della linea 1.2 aveva dato 250 ms (ma su una macchina meno potente, un Pentium 200 con<br />

128 Mb di Ram)<br />

Per alcune API le specifiche nel manuale utente non sono allineate con cio’ che e’ realmente<br />

richiesto/prodotto dal server ItalWordnet:<br />

api-variant: in input e’ richiesto il POS del termine cercato<br />

api-relation: in output vengono prodotti anche l’ IR-ID, il POS<br />

api-ili-lemmas: in input e’ richiesto, come al solito, il DATABASE da utilizzare<br />

1.5 Valutazione di co<strong>per</strong>tura del lessico<br />

In questa linea è stata effettuata una valutazione automatica di co<strong>per</strong>tura, utilizzando il corpus e<br />

la metodologià utilizzati <strong>per</strong> la valutazione al termine della linea 1.2. Sono stati utilizzate le stesse 2<br />

liste di lemmi usate nella linea 1.2, derivate rispettivamente da una semplice lemmatizzazione dei<br />

testi del corpus e dai soli lemmi usati <strong>per</strong> la classificazione delle notizie. Entrambe le liste sono state<br />

poi utilizzate <strong>per</strong> verificare la co<strong>per</strong>tura della risorsa generica e di quella finanziaria.<br />

Al contrario di quanto riportato al termine della linea 1.2 tuttavia, i test sono stati effettuati sul<br />

corpus ‘as is’, ovvero senza elimimare preventivamente (cosa che era stata fatta <strong>per</strong> i test della linea<br />

1.2) l’ insieme di token corrispondenti a errori tipografici (es. ANNì, CAPACVIT`), sigle ed altri<br />

26


Linea 1.3 ItalWordnet<br />

elementi ‘spurii’. Questo al fine di avere una valutazione non solo della co<strong>per</strong>tura rispetto ad un<br />

testo ‘ideale’ (una stima si ottiene comunque dal quarto test, e misure più precise saranno<br />

comunque derivate nella linea 1.4) ma anche rispetto a testi reali, contenti un normale ‘rumore’<br />

dovuto ad errori o altro.<br />

1.5.1 Risultati dei test<br />

Vengono riportati nel seguito i risultati dei test automatici di co<strong>per</strong>tura, eseguiti <strong>per</strong> la risorsa<br />

generica e <strong>per</strong> quella finanziaria. La non disponibilità alla data dei test dell’integrazione delle due<br />

risorse ha ovviamente rappresentato una limitazione, ma i test, anche separati, <strong>per</strong>mettono<br />

comunque di valure l’ipotetica co<strong>per</strong>tura di una risorsa integrata. Nella valutazione dei risultati della<br />

risorsa economica sono stati infatti ‘esclusi’ i termini mancanti ma risultanti da una ricerca nella<br />

risorsa generica. In questo modo è stato possibile valutare almeno qualitativamente i risultati<br />

ottenibili sulla risorsa integrata.<br />

La co<strong>per</strong>tura sembra ragionevole (considerando i due lessici come integrati, ovvero valutando i<br />

risultati complessivi); la maggior parte dei lemmi non trovati sono rappresentati da errori<br />

tipografici, parole straniere, sigle ed altro, una parte è rappresentata da aggettivi e solo una parte<br />

ridotta rappresenta una effettiva mancata co<strong>per</strong>tura. Il successivo paragrafo riporta le casistiche<br />

determinate. E’ tuttavia da notare che considerando queste casistiche si rimane su valori (76%<br />

quando il test viene effettuato su tutti i lemmi presenti nel corpus e 90% quanto il test è eseguito sui<br />

lemmi rilevanti al fine della classificazione) di cui bisogna tener conto nel confronto su un corpus<br />

‘reale’ e non filtrato a priori.<br />

1.5.1.1 Test 1 – database generico - (su tutti i lemmi presenti nel corpus)<br />

Numero Lemmi cercati: 5577<br />

Numero e <strong>per</strong>centuale Lemmi trovati nella risorsa generica: 4235 (76%), non trovati 1342<br />

Lista Lemmi non presenti in IWN<br />

A.D. A.S.ROMA A130MILA ABBASTANZA<br />

ACCELERAIZONE ACCELERE ACCISE ACCOGLIBILE<br />

ACCORD ACCUMULE ACQUISI ACQUISTER`<br />

ACTION ACTIONNARIAT ADB ADDEBITABILE<br />

ADDIRITTURA ADESSO ADOLOR ADOTTANDO<br />

AERIENNES AFETR AFTER AFTER-SERVICE<br />

AGEVOLATO AGOSTO-SETTEMBRE AGR AGRANDIT<br />

AIUTER` ALIMENTE ALLEMAND ALLEMANDES<br />

ALLIANCE ALLIE ALLIER ALLORA<br />

ALMENO ALTRIMENTI AMERICAINE AMM-MLP-R<br />

AMM-MLP-R-Y AMM-R AMM-Y-R ANCHE<br />

ANCHENELLA ANDRIESE ANNEE ANNONCENT<br />

ANNì ANS ANTI-GATES ANTI-INFLAZIONE<br />

ANTI-TRUST ANTICOMPETITIVE ANTICONCORRENZIALI ANTIMONOPOLISTICI<br />

ANTINFLATTIVO ANTIRICICLAGGIO ANZITEMPO APPELLENT<br />

APPENA APPLICATIONS APPOSITO APPOSITO<br />

APPREZZATORI APR APRES APRILE-INIZIO<br />

APRILEGIUGNO ART ASPIRAPOLVERI ASSAI<br />

ASSEMBLEARI ASSET ASSURANCES AT&AMP;T<br />

AT&AMP;T ATESA ATTEINT ATTENDENDERSI<br />

27


Linea 1.3 ItalWordnet<br />

ATTENTION ATTESDAS ATTIRENT ATTIVITA<br />

ATTIVIT` AU AU AUGMENTE<br />

AUTO(MARZO AUX AVANZATO AVERTISSEMENT<br />

AVOCATS AVR` AVVALERE AVVIATO<br />

AZERO BACK BACK-UP BAHT<br />

BAISSE BAISSER BANCASSURANCE BANK<br />

BANKING BAPTJME BARRAGE BARS<br />

BAS BELGE BELL BENASSI<br />

BENEFIT BENINO BENZ BERGO<br />

BERSANI BICAMERALE BIEN BIENTOT<br />

BILATERALE BLACK BLOCKBUSTER BLUE-CHIP<br />

BLUE-CHIPS BMW BNL-S.PAOLO BOARD<br />

BOEING BOOK BORSINI BOURSE<br />

BRANLE-BAS BRASSEUR BREVE/MEDIO BRITANNIQUES<br />

BTP.<br />

BUSINESS-TO-<br />

BUY<br />

BUYBACK<br />

BUSINESS<br />

BY C' C.AGRICOLE C.SINISTRA<br />

C.SINISTRA CABLE CADAUNA CADEAU<br />

CAFFH CAFFI CALER` CALL<br />

CALL CAMBI:ANALISI CANDITO CANOSANI<br />

CAP CAPACVIT` CAPITAL CAPITOLINA<br />

CARD CARO-DOLLARO CARODOLLARO CARRIER<br />

CARTARI CARTARIE CARTOLARIZZAZIONE CASH-FLOW<br />

CASTAGNETTI CATERING CCT. CDA<br />

CEDER` CENTER CENTS CERCLE<br />

CETTE CHAEBOL CHAEBOL CHARGEDE<br />

CHARITY CHAT-ROOM CHAUDS CHEVRE<br />

CHIP CHIPS CHITI CHOU<br />

CHUTE CHUTER CIANINESSUN CIN<br />

CINQ CIR CIRCA CITATO<br />

CLICCA CLOSE CO-LEAD COALBED<br />

COGMBINI COL-AMR COLLOCATORE COLLOCHEWRà<br />

COM-AMM-G-R COM-AMM-GR-R COM-AMM-R COM-AMM-Y-R<br />

COM-COL-R COM-EMI-SD COM-FDR-R COM-GAL-PA<br />

COM-GGZ-R COM-GIC-P-R COM-GIC-R COM-MAR-R<br />

COM-MCT-R COM-MLP-R COM-PDA-R-Y COM-RRO-DM-R<br />

COM-RRO-G-R COM-RRO-LC-R COM-RRO-P-R COM-RRO-R<br />

COM-RRO-Y-R COM-SAL-R COM-STG-R COMBINIS<br />

COMBUSTIBILì COMMENT COMMERCE COMMISSAIRES<br />

COMMODITIES COMMUNICATION COMMUNICATIONS COMPAGNIES<br />

COMPANY COMPETITOR COMPOSITE COMPRAVEDITA<br />

COMPRESSO COMPROMIS COMPTAIT COMUNQUE<br />

CONCAMBI CONCENTRE CONDAMNE CONDIZINATO<br />

CONFESERCENTI CONFIANCE CONGRUITà CONIGLIETTO<br />

CONNETTIVITà CONNOTATO CONSEGUENTEMENTE CONSEILS<br />

CONSENSUS CONSIDERATO CONSIDERENT CONSIGLIATO<br />

CONSOMMATEUR CONSORTILE CONSUMER CONSUNTIVATI<br />

CONTEMPO CONTINURà CONTRALTARE CONTRE-ATTAQUE<br />

CONTRO-OFFERTA CONTRO-OPA CONTRO-PROPOSTA CONTRODEDUZIONE<br />

CONTROLLATO CONTROPA CONTROPARTITà CONTRTLE<br />

CONVENIENCE CONVICENTE COORDINATOR CORPORATION<br />

CORRECT COSIDDETTO COSL COST<br />

COSTI-RICAVI COSì COUNTER COVERED<br />

CO{T CRAINTE CRASH CREATIONS<br />

CREDIT CREDITORE CREVE CRISE<br />

CROISSANCE CUSTOMIZZATI CW DA<br />

DA DACCAPO DANS DAVVERO<br />

DAY DAYTRADER DEBACLE DEBITORIO<br />

DECHIRE DECOLLENT DEFLATORE DEFLATORE<br />

28


Linea 1.3 ItalWordnet<br />

DEFLATTORE DEGNO DEGRINGOLER DEL'AMBIENTE<br />

DELIBERATO DELL DELLì DEMANDER<br />

DEMANIALI DEMANTELEMENT DEPENSES DER<br />

DERAPAGE DERNIERE DESCENTE DESENGAGE<br />

DESK DESTAGIONALIZZATI DETERMINATO DETTAGLIATO<br />

DETTAGLIATO DEUX DEVISE DEVISES<br />

DEVRONT DIESEL DIETIMI DIETRO<br />

DIFATTO DIFFICOLT` DIFFUSIOEN DIGITAL<br />

DIGITALIZZAZIONE DIGITALWORK.COM DIGITAZIONE DILATORIO<br />

DILIGENCE DILUTIVO DIRECTORSHIP DISCOUNT<br />

DISCREZIONALITà DISDETTATO DISINVESTIMENTO DISMETTERE<br />

DISMISSIONE DISMISSIONI DISPONIBLE DIVISENT<br />

DIX.IT DL DL DLR<br />

DLR DLR. DMAIL.IT DMH<br />

DOCENZA DOLLARO/BOND DONT DOPO<br />

DOPODOMANI DORE DOT DOVERE+VERB+PRESI<br />

ND<br />

DOVUTO DOWN-MOVE DRAMMATIZZAZIONE DU<br />

E-BUSINESS E-COMMERCE E-ECONOMY E-EXCELLENCE<br />

E-MAIL E-TRADE E.BISCOM E.BISCOM<br />

E.COMMERCE E.COMMERCE E.VOCI E.VOCI<br />

EBITDA EBUSINESS ECCO ECHEC<br />

ECONOMETRICI ECONOMIQUE ECONOMIQUE ECONOMIQUES<br />

ECONOMY EDIFICABILI EFFETTUTO EFFRAIE<br />

ELARGISSEMENT ELETTRICITA EMI-PA EMMANUELLI<br />

EMOLUMENTI EMPJCHE EN ENCHERES<br />

ENCORE END ENFERS ENFONCE<br />

ENGINEERING ENNESIMO ENTAMENT ENTERTAINMENT<br />

ENTITA ENTRAINE ENTRANTS ENTREE<br />

ENTREPRISES ENTREVOIT ENTRY ENVISAGE<br />

ENVISAGENT EPARGNE EPARGNEE EPREUVE<br />

ESERCITABILI ESERCIZIOIN ESERCIZIò ESPNASIONE<br />

ESPORTATORE ESPRIT ESSENCE EST-CE<br />

ESTERA-VENERDì ETHIQUE ETRANGER EURO<br />

EUROBANCOMAT EUROBBLIGAZIONARI EUROPEENNE<br />

EUROPEENNES<br />

O<br />

EUROPEENS EUROS EURò EX-BIN<br />

EXCLUT EXPANSION EXPENSIVE EXTRACARATTERISTIC<br />

A<br />

FABRICANT FACE FACILITEE FAIBLIT<br />

FAILLI FAIRE FAIRE FAIT<br />

FAUT-IL FDR-NEP-P-R FDR-R FDR-R-Y<br />

FDR-Y-R FEBB FER FESTIVIT`<br />

FEU FF FILING FINANZIARI-<br />

ASSICURATIVI<br />

FINCANTIERI FINO FINORA FISCALITE<br />

FISCALITà FISSATO FLANCHENT FLASHMALL.IT<br />

FLAT FLOW FOIRE FONDER`<br />

FORCEE FORFETARIE FORMALISE FORMER<br />

FRANCIA-BUDGET FRANCS FRANGAIS FRANGAISE<br />

FRATTEMPO FRAUDE FRAZIONALMENTE FRAZIONATO<br />

FREINER FUTURES GAGNE GASIERI<br />

GBTEAU GE.SI GEFRANONLINE.IT GENERIQUES<br />

GENNAIO-FEBBRAIO GENNAIO-MARZO GENNAIOMARZO GG<br />

GGZ-R-Y GIA GIC-P-R GIC-R<br />

GIORNALMENTE GIOVEDI GIY GI`<br />

GIà GJNE GLOBAL GLOBAL<br />

GOG-MCT-PDA-NEP-P-R GOG-MCT-PDA-NEP-R-<br />

Y<br />

GOG-NEP-PDA-G-R GOG-PDA-G-R<br />

29


Linea 1.3 ItalWordnet<br />

GOG-PDA-R GOG-R GOG-R-Y GOLDEN<br />

GOURME.COM GOURMET.COM GOURMET.COM GOURMET.NET<br />

GOUVERNEMENT GRAFICISTI GRAND GRANDES<br />

GREEN GROUP GUERRINI GUETTE<br />

HANDLING HARD HAUSSE HAUSSES<br />

HAWKISH HDP HEURE HI-TECH<br />

HIGH HIT HOC HORS<br />

HOURS HUB I.NET IDENTIT`<br />

IDROELETTRICO IERIHA II ILLIQUIDA<br />

ILLUSTRERA ILRISULTATO IMMOBILIARIA IMMODIFICABILITà<br />

IMPLANTE IMPLEMENTAZIONE IMPORTATION IMPORTATORE<br />

IMPRENDITORIALE IMPRENDO IMPTTS IMPUGNATIVA<br />

IMS IN INCARICATO INCIDER`<br />

INCIRCA INCOME INCOMPENTENTI INCREMENTABILI<br />

INCUBATORE INDEX.HTML INDICATO INDICIZZATO<br />

INDIETRO INDUSTRIARE INEFFICACE INFEROCITI<br />

INFEROCITO INFINE INFLATION INFLATION<br />

INFLATIVE INFLATIVI INFLATIVO INFORMATION<br />

INFORMATIONS INFORMES INGROSSO INIDONEITà<br />

INNANZITUTTO INNERVOSIRE INOLTRE INSIDER<br />

INSOMMA INSTALLAZIONE INSù INTANTO<br />

INTENSIFICARE INTENZIONATO INTERATTIVA INTERCONTINENTALE<br />

INTERCOREANI INTERGOVERNATIVO INTERGRUPPO INTERJT<br />

INTERLOCKING INTERMARKET INTERMEDIATO INTERMEDIO<br />

INTERMINISTERIALE INTERNET-2 INTEROPERATIVI INTEROPERATIVO<br />

INTEROPERATIVO INTINI INTORNO INTRADAY<br />

INTRODUCTION INV INVECE INVERTITO<br />

INVESTISSEURS INVESTMENT INZIATE IRREALISTICI<br />

IT ITALOINGLESE ITINERE JACKPOT<br />

JE JKIGYO JOINT JOINT-VENTURE<br />

JP JSG JTRE JUSQù<br />

JUSTIFIER JV KILOBYTES KM.<br />

L' L' L?INTERESSE LAB<br />

LAN-PA LANCEMENT LANCER LANCIATO<br />

LAND LARIANO LAVAGNINI LAVORATO<br />

LEAD LEASING LEGAUX LEGERE<br />

LES LEUR LEURS LEVERAGED<br />

LEXAR LIBERALDEMOCRATICI LIBRARY LICENCES<br />

LIGNE LII LINEATTIVA LINUXCARE<br />

LIQUIDIT` LIVRES LOCAL LOCALES<br />

LOCALIZZATO LOMBARDINI LONG LOOP<br />

LOR-AMR LUCCHINI LUNEDL LUP<br />

LUP-AMR LUP-Y Lì MACRO<br />

MACROECOMICI MACROECONOMICHE MACROECONOMICI MADE<br />

MADE MAG MAGGIORMANETE MAGOT<br />

MAI MAJORITE MALADES MALFUNZIONAMENTO<br />

MALGRE MALO MAN-AMR-M MAN-AMR-M-Y<br />

MAN-AMR-Y-M MAN-EST-M MANOVRINA MANTENUTO<br />

MANZINI MAPPATURA MAR-R MARGINALIZZAZIONE<br />

MARIAGE MARTEDI MARTERDì MAS-R<br />

MASSIMIZZARE MASTER MAX MAX-MIN<br />

MAXIDIVIDENDO MAXIESBORSO MAXIPLUSVALENZE MCI<br />

MCI MCT-GOG-G-R MCT-GOG-GR-R MCT-GOG-NEP-PDA-R-<br />

Y<br />

MCT-GOG-PDA-G-R MCT-GOG-PDA-NEP-R- MCT-PDA-GOG-NEP MCT-PDA-GOG-NEP-R<br />

Y<br />

MCT-PDA-GOG-NEP-R- MCT-R MCT-R-Y MCT-Y-R<br />

Y<br />

MDS MEDIASETONLINE.IT MEDICAMENTS MEDIO-LUNGO<br />

30


Linea 1.3 ItalWordnet<br />

MEGAOFFERTA MEGAWATT MENACEE MENAGE<br />

MERCHANT MESA MESE/INIZIO MET<br />

METHANE MEZZ' MICROCHIP MICRODANNI<br />

MICROIMPRESE MIEUX MILA MILLIARDS<br />

MILLION MINI-STRETTA MINISTRES MINUTA<br />

MIS MLN MLN MLP-AMM-R<br />

MLP-LC-R MLP-LC-R-Y MOBILES MODERNIZZAZIONE<br />

MODUS MOL MONEY MONITORANDO<br />

MONOPOLE MONOPOLISTA MORALISEE MORGANDO<br />

MOUVEMENTS MOVERS MUENCHENER MULTI-MARCA<br />

MULTICANALE MULTIMEDIALE MULTIPLIE MULTISERVIZI<br />

MULTISERVIZIO MULTIUTILITY NAV NAZIONALIZZATA<br />

NAZIONALIZZATE NEANCHE NEGATIVITà NEGOZIABILITà<br />

NELL NEOLAVORATORI NEOMINISTRI NEP-G-R<br />

NEP-GOG-PDA-MCT-P-R NEP-GR-R NEP-LC-R NEP-MCT-GOG-PDA-<br />

GR-R<br />

NEP-MCT-PDA-GOG- NEP-PDA-GOG-P-Y NEP-PDA-R-Y NEPPURE<br />

GR-R<br />

NERò NETWORKING NEUTRO-NEGATIVO NEW<br />

NEWSLETTER NON NON-INFLAZIONISTICA NORDCOREANO<br />

NORDCOREANO NOTA_DEL_REDATTOR NOUVEAU<br />

NOUVEAUX<br />

E<br />

NOUVELLE NOUVELLES NUMBER NUTRITO<br />

Nè Nè OBSTACLES OCCHIELLò<br />

ODG OFFSHORE OK OLD<br />

OLD OLTRE OLTREFRONTIERA OLTREOCEANO<br />

ON-A-CHIP ONLINE OPA OPAS<br />

OPTIONS ORAMAI ORD ORD.<br />

ORDIANRIO ORIENTATO ORMAI OSTA<br />

OTTIMALè OUT OUT-OF-THE OUTLOOK<br />

OVE OVER OVERBIDDING P.CREMONA<br />

PAGAMMENTO PAGANO PAIEMENT PAN-EUROPEO<br />

PAR PARIMENTI PARITA PARITARIO<br />

PART PARTENAIRES PARTICOLAR PARTIELLE<br />

PARTIS PAS PASSACANTANDO PAY<br />

PCO-PA PDA-DM-R PDA-FDR-R PDA-G-R<br />

PDA-G-Y-R PDA-MCT-DM-R PDA-MCT-DM-R-Y PDA-MCT-GOG-NEP-R-<br />

Y<br />

PDA-MCT-GOG-P-R-Y PDA-MCT-GOG-R PDA-MCT-NEP-GOG-R PDA-MCT-R<br />

PDA-MCT-R-Y PDA-NEP-GR-R PDA-NEP-P-R-Y PDA-NEP-R<br />

PDA-P-R PDA-R PENCE PERALTRO<br />

PERCHI PERD PERDUTO PERFINO<br />

PERR PERSEGUIRA PERSINO PESOS<br />

PG PHONE PICK PIEGER<br />

PIU PIU PIUTTOSTO PIY<br />

PLAN PLANCHERS PLAYER PLENARIO<br />

PLURIENNALE PLUS PMI POCHINO<br />

POIDS-LOURDS POLE POLICY POLTRONISSIMA<br />

PORTABILITY POSITION POSIZIONAMENTO POSIZIONARSI<br />

POSSIBILIT` POST POSTVENDITA POTEBBERO<br />

POTR` POUND POUR POUR<br />

POURRAIENT POURRAIT POURSUIT POUSSE<br />

POUSSEE PRE PRE-APERTURA PRE-CRISI<br />

PRE-SELECTION PREACCORDO PREAPERTURA PRECONSUNTIVO<br />

PRECOTTO PREDEFINIRE PREFERRED PREGRESSA<br />

PREMERCATO PREND PRENNENT PREPARE<br />

PREPARE PREPARENT PRESIDENT PRETS<br />

PREVENDITA PREVIO PREZZATO PRICE<br />

PRICE-CAP PRIMAVERA-ESTATE PRIOPRIO PRIV<br />

31


Linea 1.3 ItalWordnet<br />

PRIX PRJTS PROCAPITE PROCESSING<br />

PROCHAINS PROCHES PROCINTO PROD<br />

PROD. PRODUCTION PRODUZIONE+05% PROFORMA<br />

PROLUNGATO PROPRIET` PROSEGURE PROSIMI<br />

PROTEGE PROVVISTO PRUDENZIALI PT<br />

PUCES PUNATNDO PUO PURE<br />

PURTROPPO PUT Pò QUALE<br />

QUALI QUALITA QUANTIFICARE QUARTIER<br />

QUASI QUE QUE QUERELLE<br />

QUI QUINQUENNALE RACHAT RACHETERAIT<br />

RADICAMENTO RADIOCOR RAFLE RAISONS<br />

RANGE RAPITORE RAPPORTE RAREFARE<br />

RAREFATTO RATING RATIO RC<br />

RED RED RED-CIN-PA RED-RMI-SD<br />

REDDITIVITA REDDITOMETRO REDDITUALI REDINE<br />

REDUCE REFORMATEUR REFORME REFORMES<br />

REGALA.IT REGOLATO REGOLATORIA REGULATIONS<br />

RELEVE RELEVEE RELEVER RENAULT<br />

RENCONTRE RENCONTRER RENDICONTAZIONE RENVOIE<br />

REPO REPORT REPOUSSER RESIDUALE<br />

RESO RESSERRE RESULTAT RETAIL<br />

RETAILERS RETROACTIF RIALZISTA RIALZISTE<br />

RIALZISTE RIALZISTI RIASSEGNARSI RIAVVIANO<br />

RIBASSISTE RIBASSISTI RIBILANCIAMENTO RIBILANCIARE<br />

RICENTRARSI RICHIESTO RICHIO RICOMPRESE<br />

RICONSIDERAZIONE RICOPERTURE RIDENOMINARE RIEQUILIBRIO<br />

RIFINANZIAMENTO RIGUARDER` RILENTO RIMARCARE<br />

RINGGIT RIOFFERTA RIPARTO RIPONDENDO<br />

RIPOSIZIONAMENTO RIPOSIZIONARSI RIS RISCHIO-TASSI<br />

RISCUOTIBILI RISOSPESA RISOSPESO RISP<br />

RISPONDITORE RISULTANZA RITARDATO RMI-Y<br />

RNC ROAD ROAMING ROE<br />

RONDELLI ROUTE RPT RRO-R<br />

RT RUMOR RUMORS RYRYRYRYRYRYRYRY<br />

RYRYRYRYRYRYRYRY<br />

RYRYRYRYRYRYRYRY<br />

RY<br />

S&AMP;P S&AMP;P SAL-GR-R SAL-P-R<br />

SAL-R SAL-Y-R SALARIATE SALARIES<br />

SALVI SANCTIONNEE SANZIONATORI SARA<br />

SAR` SAR` SATELLITARI SCALABILE<br />

SCALETTATI SCELTO SCOEITà SECURITIES<br />

SEDUIT SEGMENTARE SEGNATO SEGUIR`<br />

SEMAINE SEMESTRALE SEMI-FESTIVA SEMI-FESTIVO<br />

SEMIFESTIVO SEMISOMMERGIBILE SEMPRE SENATRICE<br />

SENG SENTIMENT SERAIENT SERVIR`<br />

SERVIZIOAPPALTI.ILSO SES SETTLEMENT SHARE<br />

LE24ORE.IT<br />

SHARES SHARING SHOE SHORTLIST<br />

SHOW/SU SIDE SIDEWAYS SIGNES<br />

SIM SINERGIè SITO-WEB SMALTIMENTO<br />

SNELLIMENTO SOC SOCIALEMENT SOCIAUX<br />

SOCIETA SOCIETA-MERCATO SOCIET` SOCIET`<br />

SOFT SOPRATTUTTO SOPRATUTTO SOPRAVVALUTAZIONE<br />

SORT SOSPESIONI SOSTENIBILITà SOSTENUTO<br />

SOUTIEN SOVRAPREZZATE SPA SPECIALIST<br />

SPECTRE SPECULATION SPECULATRICES SPIN-OFF<br />

SPLIT SPLITTING SPREAD SPYSTOCKS.IT<br />

SRL SRUDIARE STABILIT` STAMANE<br />

32


Linea 1.3 ItalWordnet<br />

STAMANI STANPOOR'S START-UP STASERA<br />

STAZIONARE STELLAGE STEREO STG<br />

STG-R STILARE STOCK-OPTIONS STORES<br />

STOUT STRAP STRATEGIST STRIKE<br />

STRIP STRUCTURELLES SUBITO SUDCOREANO<br />

SUDCOREANO SUDDETTO SUPERATO SUPERBORSA<br />

SUPERDOLLARO SUPPLENTE SUPPLIERMARKET.CO SUPPORTATI<br />

M<br />

SUR SUR SUSSIDIARIO SWITCHING<br />

SYSTEMATIQUES Sì TAIWANESE TANDIS<br />

TANTO TANTOPIù TARIFFARIA TARIFFARIE<br />

TAUX TECH TECNICO-OPERATIVA TEDESCO-AMERICANA<br />

TEDESCO-AMERICANO TELCO TELEPHONES TELEPHONIE<br />

TEMPISTICO TEMPJTE TEND TERM<br />

TFR TH TICK TIE-UP<br />

TIROLI TISCALI TITOLI-INCASSO TLC<br />

TLC. TMM-SD TMMS-SD TO-CONSUMER<br />

TOURNANT TOUTES TRACENT TRACKING<br />

TRADER TRADING TRASFORNARSI TRAVAIL<br />

TRENTENNALE TRIM TRIMESTRELA TRIPLA<br />

TURNOVER TUTTORA TX ULTRAPROTETTO<br />

UNBUNDLING UNIFAMILIARE UNIQUE UNIT`<br />

UP USCENTE UTILITIES VALIDAZIONE<br />

VALORISE VALUE VALUTARIO VENDERA<br />

VENERDI VENTE VENTIESIMO VENTURO<br />

VERITEDE VERR` VERS VEUT<br />

VEUVAGE VI VICEMINISTRO VICIEUX<br />

VIDEOGIOCHI VIEW VIGENTE VIGENTI<br />

VIRAGE VIRTUAL VITA-INVESTIMENTO VOCE-DATI<br />

VOULAIS WARRANT WARRANTS WEB<br />

WEEK WHEREVER.NET WIRELESS WON<br />

WWW. WWW.BORSAITALIA.IT XII XX<br />

Y&AMP;R ZLOTY ZONES<br />

1.5.1.2 Test 2 – database generico (sui lemmi rilevanti al fine della classificazione)<br />

Numero Lemmi cercati: 1120<br />

Numero Lemmi trovati nella risorsa generica: 1003 (~90 %), non trovati 117<br />

Lista Lemmi non presenti in IWN<br />

A.D. ALMENO ANCHE ANTI-TRUST<br />

APPOSITO BAHT BANCASSURANCE BANK<br />

BANKING BARS BICAMERALE BLUE-CHIP<br />

BLUE-CHIPS BMW CALL CALL<br />

CAPACVIT` CAPITAL CATERING CDA<br />

CHIP CHIPS CIR CIRCA<br />

COMPOSITE CONTRO-OPA CONTROLLATO COSì<br />

CREDIT CREDITORE DA DEBITORIO<br />

DELL DEMANIALI DESTAGIONALIZZATI DETERMINATO<br />

DL DLR DLR DOPO<br />

E.BISCOM E.BISCOM E.VOCI EURO<br />

EUROBBLIGAZIONARIO FINO FLOW FUTURES<br />

HDP I.NET IMPORTATORE INGROSSO<br />

INOLTRE INSù INVECE JOINT<br />

33


Linea 1.3 ItalWordnet<br />

JOINT-VENTURE JV L' LEASING<br />

MACROECONOMICI MADE MADE MAX<br />

MESA MLN MULTI-MARCA NON<br />

OLTRE ONLINE OPA ORD<br />

PESOS PIY PMI PREFERRED<br />

PROFORMA PURE PUT QUASI<br />

RADIOCOR RATING RC RENAULT<br />

RINGGIT ROE SEMESTRALE SEMPRE<br />

SHARES SIM SOCIETA SOPRATTUTTO<br />

SOPRATUTTO SPA SPREAD SRL<br />

STANPOOR'S SUBITO SUDCOREANO TANTO<br />

TFR TICK TISCALI TLC<br />

TRENTENNALE TRIM TURNOVER USCENTE<br />

VALUTARIO VENTURO VICEMINISTRO VOCE-DATI<br />

WON<br />

1.5.1.3 Test 3 – database economico - (su tutti i lemmi presenti nel corpus)<br />

Numero Lemmi cercati: 5577<br />

Numero e <strong>per</strong>centuale Lemmi trovati nella risorsa economica: 475 (~9%)<br />

Considerando i soli lemmi non trovati che non vengono anche trovati nella risorsa generica, il<br />

numero di lemmi non trovati si riduce da 5102 (5577 – 475) a 1293.<br />

Eliminando le sigle degli autori (e.g. COM-AMM-GR-R 7 ), ma lasciando altri termini spurii (si<br />

vedano le note al termine) il numero di lemmi non trovati si riduce a 1156.<br />

Lista Lemmi non presenti in IWN finanziario e in IWN generico<br />

A.D. A130MILA ABBASTANZA ACCELERAIZONE<br />

ACCELERE ACCISE ACCOGLIBILE ACCORD<br />

ACCUMULE ACQUISI ACQUISTER` ACTION<br />

ACTIONNARIAT ADB ADDIRITTURA ADESSO<br />

ADOLOR ADOTTANDO AERIENNES AFETR<br />

AFTER AFTER-SERVICE AGOSTO-SETTEMBRE AGR<br />

AGRANDIT AIUTER` ALIMENTE ALLEMAND<br />

ALLEMANDES ALLIANCE ALLIE ALLIER<br />

ALLORA ALMENO ALTRIMENTI AMERICAINE<br />

ANCHE ANCHENELLA ANDRIESE ANNEE<br />

ANNONCENT ANNì ANS ANTI-GATES<br />

ANTI-INFLAZIONE ANTI-TRUST ANTICOMPETITIVE ANTICONCORRENZIALI<br />

ANTIMONOPOLISTICI ANTINFLATTIVO ANTIRICICLAGGIO ANZITEMPO<br />

APPELLENT APPENA APPLICATIONS APPOSITO<br />

APPOSITO APPREZZATORI APR APRES<br />

APRILE-INIZIO APRILEGIUGNO ART ASPIRAPOLVERI<br />

ASSAI ASSEMBLEARI ASSET ASSURANCES<br />

7 Sigle di questo tipo sono normalmente sigle degli autori, che compaiono nei testi Radiocor all’interno della notizia<br />

(e non come informazioni di testata).<br />

34


Linea 1.3 ItalWordnet<br />

AT&AMP;T ATESA ATTEINT ATTENDENDERSI<br />

ATTENTION ATTESDAS ATTIRENT ATTIVITA<br />

ATTIVIT` ATTORNO AU AUGMENTE<br />

AUTO(MARZO AUX AVANTI AVANZATO<br />

AVERTISSEMENT AVOCATS AVR` AVVALERE<br />

AVVIATO AZERO BACK BACK-UP<br />

BAISSE BAISSER BANCASSURANCE BANK<br />

BANKING BAPTJME BARRAGE BARS<br />

BAS BELGE BELL BENASSI<br />

BENEFIT BENINO BENZ BERGO<br />

BERSANI BICAMERALE BIEN BIENTOT<br />

BILATERALE BLACK BLOCKBUSTER BLUE-CHIP<br />

BLUE-CHIPS BMW BNL-S.PAOLO BOARD<br />

BOEING BOOK BORSINI BOURSE<br />

BRANLE-BAS BRASSEUR BREVE/MEDIO BRITANNIQUES<br />

BTP. BUSINESS-TO-BUSINESS BUY BUYBACK<br />

BY C' C.AGRICOLE C.SINISTRA<br />

CABLE CADAUNA CADEAU CAFFH<br />

CAFFI CALER` CALL CAMBI:ANALISI<br />

CANDITO CANOSANI CAP CAPACVIT`<br />

CAPITAL CAPITOLINA CARD CARO-DOLLARO<br />

CARODOLLARO CARRIER CARTARI CARTARIE<br />

CARTOLARIZZAZIONE CASH-FLOW CASTAGNETTI CATERING<br />

CCT. CEDER` CENTER CENTS<br />

CERCLE CETTE CHAEBOL CHARGEDE<br />

CHARITY CHAT-ROOM CHAUDS CHEVRE<br />

CHIP CHIPS CHITI CHOU<br />

CHUTE CHUTER CIANINESSUN CIN<br />

CINQ CIRCA CITATO CLICCA<br />

CLOSE CO-LEAD COALBED COGMBINI<br />

COLLOCATORE COLLOCHEWRà COMBINIS COMBUSTIBILì<br />

COMMENT COMMERCE COMMISSAIRES COMMODITIES<br />

COMMUNICATION COMMUNICATIONS COMPAGNIES COMPANY<br />

COMPETITOR COMPOSITE COMPRAVEDITA COMPRESSO<br />

COMPROMIS COMPTAIT COMUNQUE CONCAMBI<br />

CONCENTRE CONDAMNE CONDIZINATO CONFIANCE<br />

CONGRUITà CONIGLIETTO CONNETTIVITà CONNOTATO<br />

CONSEGUENTEMENTE CONSEILS CONSENSUS CONSIDERATO<br />

CONSIDERENT CONSIGLIATO CONSOMMATEUR CONSORTILE<br />

CONSUMER CONSUNTIVATI CONTEMPO CONTINURà<br />

CONTRALTARE CONTRE-ATTAQUE CONTRO-OFFERTA CONTRO-OPA<br />

CONTRO-PROPOSTA CONTRODEDUZIONE CONTROLLATO CONTROPA<br />

CONTROPARTITà CONTRTLE CONVENIENCE CONVICENTE<br />

COORDINATOR CORPORATION CORRECT COSIDDETTO<br />

COSL COST COSTI-RICAVI COSì<br />

COUNTER COVERED CO{T CRAINTE<br />

CRASH CREATIONS CREDIT CREVE<br />

CRISE CROISSANCE CUSTOMIZZATI CW<br />

DA DACCAPO DANS DAVANTI<br />

DAVVERO DAY DAYTRADER DEBACLE<br />

DECHIRE DECOLLENT DEFLATTORE DEGNO<br />

DEGRINGOLER DEL'AMBIENTE DELIBERATO DELL<br />

DELLì DEMANDER DEMANIALI DEMANTELEMENT<br />

DEPENSES DER DERAPAGE DERNIERE<br />

DESCENTE DESENGAGE DESK DESTAGIONALIZZATI<br />

DETERMINATO DETTAGLIATO DEUX DEVISE<br />

DEVISES DEVRONT DIESEL DIETIMI<br />

DIETRO DIFATTO DIFFICOLT` DIFFUSIOEN<br />

DIGITAL DIGITALIZZAZIONE DIGITALWORK.COM DIGITAZIONE<br />

35


Linea 1.3 ItalWordnet<br />

DILATORIO DILIGENCE DILUTIVO DIRECTORSHIP<br />

DISCOUNT DISCREZIONALITà DISDETTATO DISMETTERE<br />

DISMISSIONE DISMISSIONI DISPONIBLE DISTANTE<br />

DIVISENT DIX.IT DL DLR<br />

DLR. DMAIL.IT DMH DOCENZA<br />

DOLLARO/BOND DONT DOPO DOPODOMANI<br />

DOVUTO DRAMMATIZZAZIONE DU E-ECONOMY<br />

E-EXCELLENCE E-MAIL E-TRADE E.COMMERCE<br />

E.VOCI EBITDA EBUSINESS ECCO<br />

ECHEC ECONOMETRICI ECONOMIQUE ECONOMIQUES<br />

ECONOMY EDIFICABILI EFFETTUTO EFFRAIE<br />

ELARGISSEMENT ELETTRICITA EMI-PA EMMANUELLI<br />

EMOLUMENTI EMPJCHE EN ENCHERES<br />

ENCORE END ENFERS ENFONCE<br />

ENGINEERING ENNESIMO ENTAMENT ENTERTAINMENT<br />

ENTITA ENTRAINE ENTRANTS ENTREE<br />

ENTREPRISES ENTREVOIT ENTRY ENVISAGE<br />

ENVISAGENT EPARGNE EPARGNEE EPREUVE<br />

ESERCITABILI ESERCIZIOIN ESERCIZIò ESPNASIONE<br />

ESPRIT ESSENCE EST-CE ESTERA-VENERDì<br />

ETHIQUE ETRANGER EURO EUROBANCOMAT<br />

EUROPEENNE EUROPEENNES EUROPEENS EUROS<br />

EURò EX-BIN EXCLUT EXPANSION<br />

EXPENSIVE EXTRACARATTERISTICA FABRICANT FACE<br />

FACILITEE FAIBLIT FAILLI FAIRE<br />

FAIRE FAIT FAUT-IL FEBB<br />

FER FESTIVIT` FEU FF<br />

FILING<br />

FINANZIARI-<br />

FINCANTIERI<br />

FINO<br />

ASSICURATIVI<br />

FINORA FISCALITE FISCALITà FISSATO<br />

FLANCHENT FLASHMALL.IT FLAT FLOW<br />

FOIRE FONDER` FORCEE FORFETARIE<br />

FORMALISE FORMER FRANCIA-BUDGET FRANCS<br />

FRANGAIS FRANGAISE FRATTEMPO FRAUDE<br />

FRAZIONALMENTE FRAZIONATO FREINER FUORI<br />

GAGNE GASIERI GBTEAU GE.SI<br />

GEFRANONLINE.IT GENERIQUES GENNAIO-FEBBRAIO GENNAIO-MARZO<br />

GENNAIOMARZO GG GIA GIORNALMENTE<br />

GIOVEDI GIY GI` GIà<br />

GIù GJNE GLOBAL GOLDEN<br />

GOURME.COM GOURMET.COM GOURMET.NET GOUVERNEMENT<br />

GRAFICISTI GRAND GRANDES GRATIS<br />

GREEN GROUP GUERRINI GUETTE<br />

HANDLING HARD HAUSSE HAUSSES<br />

HAWKISH HEURE HI-TECH HIGH<br />

HIT HOC HORS HOURS<br />

HUB IDENTIT` IDROELETTRICO IERIHA<br />

II ILLIQUIDA ILLUSTRERA ILRISULTATO<br />

IMMOBILIARIA IMMODIFICABILITà IMPLANTE IMPLEMENTAZIONE<br />

IMPORTATION IMPRENDO IMPTTS IMPUGNATIVA<br />

IMS IN INCARICATO INCIDER`<br />

INCIRCA INCOME INCOMPENTENTI INCREMENTABILI<br />

INCUBATORE INDEX.HTML INDICATO INDICIZZATO<br />

INDIETRO INDUSTRIARE INEFFICACE INFEROCITI<br />

INFEROCITO INFINE INFLATION INFLATIVE<br />

INFLATIVI INFORMATION INFORMATIONS INFORMES<br />

INGROSSO INIDONEITà INNANZITUTTO INNERVOSIRE<br />

INOLTRE INSIDER INSOMMA INSTALLAZIONE<br />

INSù INTANTO INTENSIFICARE INTENZIONATO<br />

36


Linea 1.3 ItalWordnet<br />

INTERATTIVA INTERCONTINENTALE INTERCOREANI INTERGOVERNATIVO<br />

INTERGRUPPO INTERJT INTERLOCKING INTERMARKET<br />

INTERMEDIATO INTERMEDIO INTERMINISTERIALE INTERNET-2<br />

INTEROPERATIVI INTEROPERATIVO INTINI INTORNO<br />

INTRADAY INTRODUCTION INV INVECE<br />

INVERTITO INVESTISSEURS INVESTMENT INZIATE<br />

IRREALISTICI IT ITALOINGLESE ITINERE<br />

JACKPOT JE JKIGYO JOINT<br />

JOINT-VENTURE JP JSG JTRE<br />

JUSQù JUSTIFIER JV KILOBYTES<br />

KM. L' L?INTERESSE LAB<br />

LANCEMENT LANCER LANCIATO LAND<br />

LARIANO LAVAGNINI LEAD LEGAUX<br />

LEGERE LES LEUR LEURS<br />

LEVERAGED LEXAR LIBERALDEMOCRATICI LIBRARY<br />

LICENCES LIGNE LII LINEATTIVA<br />

LINUXCARE LIQUIDIT` LIVRES LOCAL<br />

LOCALES LOCALIZZATO LOMBARDINI LONG<br />

LONTANO LOOP LUCCHINI LUNEDL<br />

LUP Lì MACRO MACROECOMICI<br />

MACROECONOMICHE MACROECONOMICI MADE MAG<br />

MAGGIORMANETE MAGGIORMENTE MAGOT MAI<br />

MAJORITE MALADES MALE MALFUNZIONAMENTO<br />

MALGRE MALO MANOVRINA MANTENUTO<br />

MANZINI MAPPATURA MARGINALIZZAZIONE MARIAGE<br />

MARTEDI MARTERDì MASTER MAX<br />

MAX-MIN MAXIESBORSO MAXIPLUSVALENZE MCI<br />

MDS MEDIASETONLINE.IT MEDICAMENTS MEDIO-LUNGO<br />

MEGAOFFERTA MEGAWATT MENACEE MENAGE<br />

MERCHANT MESA MESE/INIZIO MET<br />

METHANE MEZZ' MICROCHIP MICRODANNI<br />

MICROIMPRESE MIEUX MILA MILLIARDS<br />

MILLION MINI-STRETTA MINISTRES MINUTA<br />

MIS MLN MOBILES MODERNIZZAZIONE<br />

MODUS MOL MONEY MONITORANDO<br />

MONOPOLE MONOPOLISTA MORALISEE MORGANDO<br />

MOUVEMENTS MOVERS MUENCHENER MULTI-MARCA<br />

MULTICANALE MULTIMEDIALE MULTIPLIE MULTISERVIZI<br />

MULTISERVIZIO MULTIUTILITY NAV NAZIONALIZZATA<br />

NAZIONALIZZATE NEANCHE NEGATIVITà NEGOZIABILITà<br />

NELL NEOLAVORATORI NEOMINISTRI NEPPURE<br />

NERò NETWORKING NEUTRO-NEGATIVO NEW<br />

NEWSLETTER NON NON-INFLAZIONISTICA NORDCOREANO<br />

NOTA_DEL_REDATTOR NOUVEAU NOUVEAUX NOUVELLE<br />

E<br />

NOUVELLES NUMBER NUTRITO Nè<br />

Nè OBSTACLES OCCHIELLò ODG<br />

OFFSHORE OK OLD OLTRE<br />

OLTREFRONTIERA OLTREOCEANO ON-A-CHIP ONLINE<br />

OPAS OPTIONS ORAMAI ORD<br />

ORD. ORDIANRIO ORIENTATO ORMAI<br />

OSTA OTTIMALè OUT OUT-OF-THE<br />

OUTLOOK OVE OVER OVERBIDDING<br />

P.CREMONA PAGAMMENTO PAGANO PAIEMENT<br />

PAN-EUROPEO PAR PARIMENTI PARITA<br />

PARITARIO PART PARTENAIRES PARTICOLAR<br />

PARTIELLE PARTIS PAS PASSACANTANDO<br />

PAY PENCE PERALTRO PERCHI<br />

PERD PERDUTO PERFINO PERR<br />

37


Linea 1.3 ItalWordnet<br />

PERSEGUIRA PERSINO PESOS PG<br />

PHONE PICK PIEGER PIU<br />

PIUTTOSTO PIY PLAN PLANCHERS<br />

PLAYER PLENARIO PLURIENNALE PLUS<br />

PMI POCHINO POIDS-LOURDS POLE<br />

POLICY POLTRONISSIMA PORTABILITY POSITION<br />

POSIZIONAMENTO POSIZIONARSI POSSIBILIT` POST<br />

POSTVENDITA POTEBBERO POTR` POUND<br />

POUR POURRAIENT POURRAIT POURSUIT<br />

POUSSE POUSSEE PRE PRE-APERTURA<br />

PRE-CRISI PRE-SELECTION PREACCORDO PREAPERTURA<br />

PRECOTTO PREDEFINIRE PREFERRED PREGRESSA<br />

PREMERCATO PREND PRENNENT PREPARE<br />

PREPARENT PRESIDENT PRETS PREVIO<br />

PREZZATO PRICE PRICE-CAP PRIMAVERA-ESTATE<br />

PRIOPRIO PRIV PRIX PRJTS<br />

PROCAPITE PROCESSING PROCHAINS PROCHES<br />

PROCINTO PROD PROD. PRODUCTION<br />

PRODUZIONE+05% PROFORMA PROLUNGATO PROPRIET`<br />

PROSEGURE PROSIMI PROTEGE PROVVISTO<br />

PRUDENZIALI PT PUCES PUNATNDO<br />

PUO PURE PURTROPPO PUT<br />

Pò QUALE QUALI QUALITA<br />

QUARTIER QUASI QUE QUE<br />

QUERELLE QUI QUINQUENNALE RACHAT<br />

RACHETERAIT RADICAMENTO RADIOCOR RAFLE<br />

RAISONS RANGE RAPITORE RAPPORTE<br />

RAREFARE RAREFATTO RATING RATIO<br />

RC RED REDDITIVITA REDDITUALI<br />

REDINE REDUCE REFORMATEUR REFORME<br />

REFORMES REGALA.IT REGOLATO REGOLATORIA<br />

REGULATIONS RELEVE RELEVEE RELEVER<br />

RENCONTRE RENCONTRER RENVOIE REPO<br />

REPORT REPOUSSER RESO RESSERRE<br />

RESULTAT RETAIL RETAILERS RETROACTIF<br />

RIALZISTE RIALZISTI RIASSEGNARSI RIAVVIANO<br />

RIBASSISTE RIBASSISTI RIBILANCIAMENTO RIBILANCIARE<br />

RICENTRARSI RICHIESTO RICHIO RICOMPRESE<br />

RICONSIDERAZIONE RICOPERTURE RIDENOMINARE RIEQUILIBRIO<br />

RIFINANZIAMENTO RIGUARDER` RILENTO RIMARCARE<br />

RIOFFERTA RIPONDENDO RIPOSIZIONAMENTO RIPOSIZIONARSI<br />

RIS RISCHIO-TASSI RISCUOTIBILI RISOSPESA<br />

RISOSPESO RISP RISPONDITORE RISULTANZA<br />

RITARDATO RNC ROAD ROAMING<br />

ROE RONDELLI ROUTE RPT<br />

RT RUMOR RUMORS S&AMP;P<br />

SALARIATE SALARIES SALVI SANCTIONNEE<br />

SANZIONATORI SARA SAR` SAR`<br />

SATELLITARI SCALABILE SCALETTATI SCELTO<br />

SCOEITà SECURITIES SEDUIT SEGMENTARE<br />

SEGNATO SEGUIR` SEMAINE SEMESTRALE<br />

SEMI-FESTIVA SEMI-FESTIVO SEMIFESTIVO SEMISOMMERGIBILE<br />

SEMPRE SENATRICE SENG SENTIMENT<br />

SERAIENT SERVIR` SERVIZIOAPPALTI.ILSO SES<br />

LE24ORE.IT<br />

SETTLEMENT SHARE SHARES SHARING<br />

SHOE SHORTLIST SHOW/SU SIDE<br />

SIDEWAYS SIGNES SIM SINERGIè<br />

SITO-WEB SMALTIMENTO SNELLIMENTO SOC<br />

38


Linea 1.3 ItalWordnet<br />

SOCIALEMENT SOCIAUX SOCIETA SOCIETA-MERCATO<br />

SOCIET` SOFT SOLO SOLTANTO<br />

SOPRA SOPRATTUTTO SOPRATUTTO SOPRAVVALUTAZIONE<br />

SORT SOSPESIONI SOSTENIBILITà SOSTENUTO<br />

SOUTIEN SOVRAPREZZATE SPECTRE SPECULATION<br />

SPECULATRICES SPESSO SPESSO SPIN-OFF<br />

SPLIT SPLITTING SPREAD SPYSTOCKS.IT<br />

SRUDIARE STABILIT` STAMANE STAMANI<br />

STANPOOR'S START-UP STASERA STAZIONARE<br />

STELLAGE STEREO STG STG-R<br />

STILARE STOCK-OPTIONS STORES STOUT<br />

STRAP STRATEGIST STRIKE STRIP<br />

STRUCTURELLES SU SUBITO SUDCOREANO<br />

SUDDETTO SUPERATO SUPERBORSA SUPERDOLLARO<br />

SUPPLENTE<br />

SUPPLIERMARKET.CO SUPPORTATI<br />

SUR<br />

M<br />

SUSSIDIARIO SWITCHING SYSTEMATIQUES Sì<br />

TAIWANESE TANDIS TANTO TANTOPIù<br />

TARIFFARIA TARIFFARIE TAUX TECH<br />

TECNICO-OPERATIVA TEDESCO-AMERICANA TEDESCO-AMERICANO TELCO<br />

TELEPHONES TELEPHONIE TEMPISTICO TEMPJTE<br />

TEND TERM TH TICK<br />

TIE-UP TIROLI TITOLI-INCASSO TLC<br />

TLC. TO-CONSUMER TOURNANT TOUTES<br />

TRACENT TRACKING TRADER TRADING<br />

TRASFORNARSI TRAVAIL TRENTENNALE TRIM<br />

TRIMESTRELA TRIPLA TROPPO TURNOVER<br />

TUTTORA TX ULTRAPROTETTO UNBUNDLING<br />

UNIFAMILIARE UNIQUE UNIT` UP<br />

USCENTE UTILITIES VALIDAZIONE VALORISE<br />

VALUE VENDERA VENERDI VENTE<br />

VENTIESIMO VENTURO VERITEDE VERR`<br />

VERS VEUT VEUVAGE VI<br />

VICEMINISTRO VICIEUX VIDEOGIOCHI VIEW<br />

VIGENTE VIGENTI VIRAGE VIRTUAL<br />

VITA-INVESTIMENTO VOCE-DATI VOULAIS WARRANT<br />

WARRANTS WEB WEEK WHEREVER.NET<br />

WIRELESS WWW. WWW.BORSAITALIA.IT XII<br />

XX Y&AMP;R ZONES ZUCCHERO<br />

1.5.1.4 Test 4 – database economico (sui lemmi rilevanti al fine della<br />

classificazione)<br />

Numero Lemmi cercati: 1120<br />

Numero Lemmi trovati nella risorsa economica: 271 (~24 %).<br />

Considerando i soli lemmi non trovati che non vengono anche trovati nella risorsa generica, il<br />

numero di lemmi non trovati si riduce da 849 (1120 – 271) a 94.<br />

Lista Lemmi non presenti in IWN finanziario e in IWN generico<br />

A.D. ALMENO ANCHE ANTI-TRUST<br />

APPOSITO BANCASSURANCE BANK BANKING<br />

BARS BICAMERALE BLUE-CHIP BLUE-CHIPS<br />

BMW CALL CALL CAPACVIT`<br />

CAPITAL CATERING CHIP CHIPS<br />

CIRCA COMPOSITE CONTRO-OPA CONTROLLATO<br />

39


Linea 1.3 ItalWordnet<br />

COSì CREDIT DA DELL<br />

DEMANIALI DESTAGIONALIZZATI DETERMINATO DL<br />

DLR DLR DOPO E.VOCI<br />

EURO FINO FLOW GIù<br />

INGROSSO INOLTRE INSù INVECE<br />

JOINT JOINT-VENTURE JV L'<br />

MACROECONOMICI MADE MADE MAX<br />

MESA MLN MULTI-MARCA NON<br />

OLTRE ONLINE ORD PESOS<br />

PIY PMI PREFERRED PROFORMA<br />

PURE PUT QUASI RADIOCOR<br />

RATING RC ROE SEMESTRALE<br />

SEMPRE SHARES SIM SOCIETA<br />

SOLO SOPRATTUTTO SOPRATUTTO SPREAD<br />

STANPOOR'S SUBITO SUDCOREANO TANTO<br />

TICK TLC TRENTENNALE TRIM<br />

TURNOVER USCENTE VENTURO VICEMINISTRO<br />

VOCE-DATI<br />

ZUCCHERO<br />

1.6 note sui risultati dei test:<br />

I termini non riconosciuti si possono raggruppare nelle seguenti categorie:<br />

1. termini assenti in italwordnet , ad esempio<br />

ALTRIMENTI APPENA BICAMERALE INCARICATO<br />

2. termini inglesi,francesi,etc. ad esempio<br />

BLUE-CHIP BOOK BLACK BOARD<br />

CHARITY CHAT-ROOM ECONOMIQUE ETHIQUE<br />

3. gibberish a cui, comunque, il tokenizzatore statistico ha assegnato una categoria sintattica,<br />

ad esempio<br />

Y&AMP;R<br />

RYRYRYRYRYRYRYRY<br />

RYRYRYRYRYRYRYRY<br />

RYRYRYRYRYRYRYRY<br />

RY<br />

S&AMP;P<br />

NOTA_DEL_REDATTOR<br />

E<br />

4. errori sintattici, termini mal tokenizzati, ad esempio<br />

A130MILA AIUTER` ANNì AUTO(MARZO<br />

AVR` CAFFH CAPACVIT` ATTENDENDERSI<br />

5. termini con stem non unico, ad esempio<br />

ASPIRAPOLVERI ( aspirapolvere e' presente in italwordnet)<br />

6. sigle, ad esempio<br />

40


Linea 1.3 ItalWordnet<br />

DLR. DMAIL.IT DIGITALWORK.COM COM-AMM-GR-R 8<br />

7. termini presenti ma non trovati causa mancata (o errata) lemmatizzazione da parte del<br />

sistema di test:<br />

MACROECOMICI MACROECONOMICHE MACROECONOMICI<br />

1.7 Trattamento MultiWord<br />

Il trattamento di termini polilessicali o ‘multiword’ (quali ad esempio ‘tasso di sconto’)<br />

rappresenta un problema, già evidenziato e tuttora esistente. La valutazione quantitativa<br />

dell’impatto di questa tematica non è stata effettuata, poichè le procedure di test utilizzate lavorano<br />

sul singolo lemma e, in tutti i casi, il giudizio sul fatto che un dato ‘concetto’ debba o non debba<br />

essere co<strong>per</strong>to da una entry in wordnet sono tutt’altro che oggettivi. Tuttavia, quand’anche fosse<br />

ipotizzabile verificare la presenza di termini multiword tramite ‘multilookup’ nel sistema (e.s. in<br />

presenza di termini quali ‘tasso’ seguiti nel corpus da ‘di sconto’, verificare, sul match del primo<br />

elemento il completamento) questo richiederebbe estensioni alle API <strong>per</strong> <strong>per</strong>metterlo. Il fenomeno<br />

non è triviale, visto che nel wordnet economico-finanziario si hanno 3579 multiword su 4708<br />

nouns.<br />

La tematica deve essere affrontata e rappresenterà uno dei temi della linea 1.4.<br />

8 Sigle di questo tipo sono normalmente sigle degli autori, che compaiono nei testi Radiocor all’interno della notizia<br />

(e non come informazioni di testata).<br />

41


Linea 1.3 ItalWordnet<br />

Sezione 3<br />

Software di Gestione di <strong>ItalWordNet</strong>: Manuale <strong>per</strong> l'Utente<br />

1. INTRODUZIONE..................................................................................................................................... 44<br />

2. INSTALLAZIONE ................................................................................................................................... 44<br />

2.1 Requisiti............................................................................................................................................. 44<br />

2.2 Installazione server .......................................................................................................................... 44<br />

2.3 Installazione client............................................................................................................................ 45<br />

2.3.1 Finestra di startup.......................................................................................................................................... 45<br />

3. FUNZIONI DEL SERVER ....................................................................................................................... 46<br />

4. FUNZIONI DI BROWSING ..................................................................................................................... 47<br />

4.1 Barra dei menù.................................................................................................................................. 48<br />

4.1.1 Menù “File” .................................................................................................................................................. 49<br />

4.1.2 Menù “Modifica”......................................................................................................................................... 50<br />

4.1.3 Menù “History”............................................................................................................................................. 50<br />

4.1.4 Menù “Opzioni”............................................................................................................................................ 51<br />

4.1.5 Menù “Visualizza”........................................................................................................................................ 51<br />

4.1.6 Menù “Ricerche” .......................................................................................................................................... 52<br />

4.1.7 Menù “Help”................................................................................................................................................. 53<br />

4.2 Area di ricerca su synset ................................................................................................................. 53<br />

4.2.1 Ricerca di synset nel Wordnet ...................................................................................................................... 54<br />

4.2.2 Ricerca di synset nell’indice ILI ................................................................................................................... 54<br />

4.2.3 Presentazione dei synset ............................................................................................................................... 54<br />

4.2.4 Ricerche troppo pesanti ................................................................................................................................ 55<br />

4.3 Area delle varianti............................................................................................................................. 55<br />

4.3.1 Dati sul synset............................................................................................................................................... 55<br />

4.3.2 Dati sulla variante ......................................................................................................................................... 55<br />

4.4 Area delle relazioni........................................................................................................................... 56<br />

4.4.1 Relazioni su wordnet italiano........................................................................................................................ 56<br />

4.4.2 Relazioni su ILI ............................................................................................................................................ 56<br />

4.5 Navigazione della Top Ontology..................................................................................................... 56<br />

5. FUNZIONI DI EDITING........................................................................................................................... 57<br />

5.1 Editing di synset e varianti .............................................................................................................. 57<br />

5.1.1 Modifica synset............................................................................................................................................. 58<br />

5.1.2 Nuovo synset ................................................................................................................................................ 58<br />

42


Linea 1.3 ItalWordnet<br />

5.1.3 Cancellazione synset..................................................................................................................................... 59<br />

5.2 Editing di relazioni............................................................................................................................ 59<br />

5.2.1 Modifica relazione ........................................................................................................................................ 59<br />

5.2.2 Nuova relazione ............................................................................................................................................ 60<br />

5.2.3 Cancellazione relazione ................................................................................................................................ 61<br />

6. FUNZIONI DI IMPORT/EXPORT............................................................................................................ 61<br />

6.1 Modello XML <strong>per</strong> ItalWordnet .......................................................................................................... 62<br />

6.2 Modello XML <strong>per</strong> word_meaning .................................................................................................... 62<br />

6.3 Modello XML <strong>per</strong> Top_Ontology e Domain_Ontology .................................................................. 64<br />

7. INTERFACCIA DA PROGRAMMA (API) .............................................................................................. 66<br />

7.1 Messaggio di registrazione ............................................................................................................. 66<br />

7.2 Messaggio di de-registrazione ........................................................................................................ 66<br />

7.3 Messaggio di accesso ai dati .......................................................................................................... 66<br />

7.4 Comando: api-data-versions ........................................................................................................... 67<br />

7.5 Comando: api-wordnet .................................................................................................................... 67<br />

7.6 Comando: api-wordmeaning ........................................................................................................... 68<br />

7.7 Comando: api-variant....................................................................................................................... 69<br />

7.8 Comando: api-wm-lemmas.............................................................................................................. 70<br />

7.9 Comando: api-relation ..................................................................................................................... 71<br />

7.10 Comando: api-ili................................................................................................................................ 71<br />

7.11 Comando: api-ili-lemmas................................................................................................................. 73<br />

7.12 Comando: api-top-concept.............................................................................................................. 73<br />

7.13 Comando: api-wn-from-lemma........................................................................................................ 74<br />

8. PROBLEMI NOTI ................................................................................................................................... 74<br />

9. BIBLIOGRAFIA ...................................................................................................................................... 74<br />

43


Linea 1.3 ItalWordnet<br />

2 Introduzione<br />

IWN-BEST (<strong>ItalWordNet</strong> – Browsing and Editing Software Tools) è un pacchetto software che<br />

include una serie di strumenti che consentono il completo utilizzo dei dati di ItalWordnet [Manuale<br />

2000].<br />

L’interfaccia grafica della risorsa ItalWordnet è stata sviluppata <strong>per</strong> due situazioni d’uso:<br />

• Interfaccia grafica <strong>per</strong> l’utente finale. Consente all’utente finale di utilizzare la risorsa<br />

ItalWordnet <strong>per</strong> accedere alle informazioni contenute nel database. Visualizza le parole (lemmi)<br />

disponibili, la struttura relazionale dei synset, gli agganci con synset della lingua inglese.<br />

• Interfaccia grafica <strong>per</strong> lo sviluppatore. Permette di visualizzare, inserire e modificare<br />

informazioni presenti nel database della risorsa ItalWordnet. Consente il lavoro contemporaneo<br />

di più sviluppatori dallo stesso sito sulla medesima installazione.<br />

3 Installazione<br />

3.1.1.1.1 Questa sezione descrive la procedura di installazione di IWN-BEST in ambiente Windows.<br />

L’installazione tipica avviene da Cd-Rom.<br />

3.2 Requisiti<br />

3.2.1.1.1 Windows 95, 98, NT<br />

Intel Pentium o su<strong>per</strong>iore<br />

32 MB RAM (64+ consigliato)<br />

120 MB spazio libero su Hard Disk (server)<br />

4 MB spazio libero su Hard Disk (client)<br />

3.3 Installazione server<br />

Deve essere effettuata sulla macchina server.<br />

Lanciare (doppio click) il programma di installazione sotto "/server/setup.exe". Verrà richiesto il<br />

nome della directory (d'ora in poi HOME) sotto la quale installare il software. Per effettuare<br />

l'installazione cliccare il bottone con l'icona di un computer. L'installazione del server richiede<br />

pochi minuti.<br />

44


Linea 1.3 ItalWordnet<br />

3.4 Installazione client<br />

Lanciare (doppio click) il programma di installazione sotto "/client/setup.exe". Verrà richiesto il<br />

nome della directory sotto la quale installare il software. Per effettuare l'installazione cliccare il<br />

bottone con l'icona di un computer.<br />

3.4.1 Finestra di startup<br />

Per lanciare il client:<br />

• fare doppio clic dalla HOME, utilizzando il File Manager di Windows, sul file iwn-client.exe;<br />

• oppure dalla voce “Esegui” del menu “Start” sulla barra di Windows, selezionare il file iwnclient.exe<br />

nella directory HOME e premere il bottone OK.<br />

Per poter interrogare la base di dati l’interfaccia client si deve collegare al server, specificando i<br />

parametri di connessione, che vengono immessi dall’utente tramite la finestra di startup (Figura 1). I<br />

parametri richiesti sono:<br />

- login dell’utente<br />

- hostname ed il numero di porta della macchina dove è stato caricato il programma server;<br />

Figura 1. Interfaccia di connessione client<br />

La finestra di startup <strong>per</strong>mette inoltre di definire alcune caratteristiche del layout, quali la<br />

modalità video, la lingua utilizzata nei menu e nei messaggi, la visualizzazione di una finestra di<br />

debug <strong>per</strong> il monitoraggio dei dati che client e server si scambiano e l’abilitazione delle funzionalità<br />

di editing.<br />

45


Linea 1.3 ItalWordnet<br />

Una volta configurata questa finestra le informazioni verranno memorizzate <strong>per</strong> gli avvii<br />

successivi.<br />

È possibile anche specificare gli argomenti dalla riga di comando con la seguente sintassi:<br />

iwn-client.exe [-host ] [-port ] [-screen color|blackwhite] [-<br />

debug yes|no] [-tool browser|edit]<br />

Nel caso di figura 1:<br />

iwn-client.exe –host calvino –port 1036 –screen color –debug yes –tool edit<br />

4 Funzioni del server<br />

La gestione multiutente delle risorse di <strong>ItalWordNet</strong> avviene tramite un programma server a cui si<br />

possono collegare più interfacce client. Maggiore sarà il numero di client collegati minori saranno<br />

le prestazioni che si potranno raggiungere; inoltre anche il tipo ricerche effettuate da ogni client<br />

avrà effetto sulla velocità delle risposte.<br />

Il server viene attivato attraverso il programma italwordnet.exe, che può essere lanciato con le<br />

seguenti opzioni:<br />

-host <strong>per</strong> specificare il nome (l'hostname o l'indirizzo IP) della macchina;<br />

-port il numero di porta su cui il servizio è disponibile;<br />

-lang <strong>per</strong> avere i messaggi nella lingua desiderata (“italiano” <strong>per</strong> default oppure “english”).<br />

Un esempio può essere:<br />

italwordnet.exe -host calvino -port 1035 -lang english<br />

Il programma deve essere lanciato dalla HOME di IWN-BEST; in caso contrario l'applicazione non<br />

riesce a trovare i database ed i file di configurazione, producendo un messaggio di errore.<br />

L’aspetto dell’interfaccia server è quello di Figura 2. La finestra presenta le informazioni sullo stato<br />

del server (in basso sulla barra di stato), la lista di tutti gli utenti collegati (compreso la macchina su<br />

cui sono collegati) ed una zona riservata ai messaggi sul loro stato.<br />

Ogni volta che si collega un nuovo utente la zona dei messaggi viene aggiornata (vedi Figura 2).<br />

Allo stesso modo quando un utente chiude l’interfaccia client viene visualizzato il messaggio di<br />

cessata connessione (riga 2 in Figura 2).<br />

Il controllo dei client è possibile anche cliccando con il tasto sinistro del mouse su un qualsiasi<br />

utente tra quelli collegati. Con questa o<strong>per</strong>azione viene creata un finestra che dà la possibilità al<br />

gestore del server di controllare che un utente sia ancora effettivamente collegato (nel caso ad<br />

esempio sia soltanto interrotta la comunicazione) ma anche di spedire messaggi, ad esempio <strong>per</strong><br />

avvertire l’utente che il servizio verrà temporaneamente interrotto.<br />

46


Linea 1.3 ItalWordnet<br />

Figura 2: Interfaccia server<br />

4.1.1.1.1.1 Per interrom<strong>per</strong>e l’esecuzione del server utilizzare dal menu “File” il bottone “Esci”. Tale<br />

o<strong>per</strong>azione sarà preceduta dall’invio di un messaggio a tutti gli utenti collegati della imminente<br />

disattivazione del server stesso.<br />

5 Funzioni di browsing<br />

La finestra di browsing (Figura 3) è composta da quattro zone principali:<br />

1. La barra dei menu (area 1 in figura 3). Essa contiene le funzionalità secondarie che l’utente<br />

potrà invocare attraverso la selezione delle voci contenute nei vari menù a tendina. Ad esempio,<br />

l’attivazione delle aree di dettaglio, la gestione del tipo di carattere, la visualizzazione della<br />

history delle ricerche effettuate, la chiusura dell’interfaccia, l’import/export da e su file, ecc.<br />

2. L’area di ricerca dei synset (area 2 in figura 3). Essa comprende sia la zona dove verranno<br />

impostati i parametri utili alla ricerca, sia quella dove verranno visualizzate le informazioni<br />

trovate. Queste ultime sono sempre dei synset. Attraverso la selezione di un synset visualizzato<br />

tutte le informazioni di quel synset sono visualizzate in sottoframe di dettaglio (vedi aree 3 e 4<br />

della figura 3).<br />

3. L’area delle varianti (area 3 in figura 3). Presenta le informazioni generali del synset<br />

(definizione, concetti della top-ontology e della domain ontology, identificatore), e di ogni sua<br />

variante.<br />

4. L’area delle relazioni (area 4 in figura 3). In questa zona sono mostrate tutte le relazioni a<br />

partire da un singolo synset divise <strong>per</strong> tipo.<br />

47


Linea 1.3 ItalWordnet<br />

4<br />

Figura 3. Interfaccia di browsing<br />

Le zone 2, 3 e 4 sono dimensionabili dall’utente, sia in larghezza che in altezza.<br />

3.1 Barra dei menù<br />

5.1.1.1.1 La barra dei menù consente di effettuare le o<strong>per</strong>azioni principali messe a disposizione dal<br />

tool.<br />

5.1.1.1.2<br />

5.1.1.1.3<br />

48


Linea 1.3 ItalWordnet<br />

Figura 4. Barra dei menù<br />

5.1.2 Menù “File”<br />

5.1.2.1 Bottone “Nuova versione”<br />

5.1.2.2 Consente di creare una nuova versione dei dati specificando il nome che la<br />

identifica.<br />

5.1.2.3 E` possibile indicare inoltre la versione dell’ILI (1.5 o 1.6) a cui il nuovo<br />

database fa riferimento.<br />

5.1.2.4 Bottone “Elimina versione”<br />

5.1.2.5 Permette di eliminare i dati della versione correntemente utilizzata.<br />

Attenzione che possono venir irreversibilmente eliminati tutti i dati<br />

dell’italiano di una delle versione presenti nel menu “Versioni database”.<br />

49


Linea 1.3 ItalWordnet<br />

5.1.2.6 Bottone “Versioni database”<br />

Consente di cambiare il database su cui vengono effettuate le ricerche. Attualmente sono presenti<br />

due database: “generic”, <strong>per</strong> la risorsa generica, “economic” <strong>per</strong> il database del dominio economicofinanziario.<br />

5.1.2.7<br />

5.1.2.8 Bottone “Importa”<br />

5.1.2.8.1 Non attivo nella versione attuale. Permetterà di importare dati da file in formato XML<br />

(vedere sezione 6).<br />

5.1.2.9 Bottone “Esporta”<br />

5.1.2.9.1 Non attivo nella versione attuale. Permetterà di esportare dati su file in formato XML<br />

(vedere sezione 6).<br />

5.1.2.10 Bottone “Esci”<br />

Chiude il client ItalwordNet.<br />

5.1.3 Menù “Modifica”<br />

5.1.3.1 Bottone “Annulla”<br />

5.1.3.1.1 Non attivo nella versione attuale.<br />

5.1.3.2 Bottone “Seleziona tutto”<br />

Consente di selezionare tutti i dati presentati sulla finestra di ricerca synset <strong>per</strong> copiarli su file.<br />

Selezioni di dati parziali sono possibili con il trascinamento del mouse sulla finestra dove<br />

compaiono i dati.<br />

5.1.4 Menù “History”<br />

Permette di accedere alle ultime ricerche già effettuate. Selezionando una ricerca dal menù i dati<br />

vengono ricalcolati.<br />

50


Linea 1.3 ItalWordnet<br />

5.1.5 Menù “Opzioni”<br />

5.1.5.1 Bottone “Caratteri area varianti”<br />

Permette di modificare il tipo e la dimensione del carattere utilizzato nell’area variante e nell’area<br />

delle relazioni (zone 3 e 4 in figura 3).<br />

5.1.5.2 Bottone “Caratteri area synset”<br />

Permette di modificare il tipo e la dimensione del carattere usato nell’area synset (zona 2 in figura<br />

3).<br />

5.1.5.3 Bottone “Lunghezza max dell’history”<br />

Imposta il numero massimo di ricerche che vengono inserite nel menù “history”.<br />

5.1.6 Menù “Visualizza”<br />

Permette di <strong>per</strong>sonalizzare alcuni output delle ricerche.<br />

5.1.6.1 Bottone “Mostra id synset”<br />

Nell’output di ricerche di synset aggiunge l’identificatore numerico alle informazioni del synset.<br />

5.1.6.2<br />

5.1.6.3 Bottone “Mostra il numero di senso”<br />

Negli output di ricerche di synset mostra il numero di senso delle varianti del synset.<br />

5.1.6.4 Bottone “Dettagli area varianti”<br />

Permette di configurare i dati presentati nella area della variante (zona 3 in figura 3).<br />

5.1.6.5 Bottone “Finestra di editing”<br />

Attiva la finestra di editing, anche se non vi sono synset selezionati. La finestra di editing si apre<br />

anche tramite il click del mouse destro su un synset presente nell’area di ricerca synset.<br />

51


Linea 1.3 ItalWordnet<br />

5.1.6.6 Bottone “Statistiche”<br />

5.1.6.6.1 Mostra le informazioni, in termini quantitativi, dei dati contenuti nella versione<br />

correntemente usata. In particolare vengono mostrati il numero di synset, di sensi, di parole, di<br />

relazioni interne e di equivalenza. Un esempio delle statistiche è riportato in Figura 5.<br />

FIGURA 5. FINESTRA DELLE STATISTICHE.<br />

5.1.7 Menù “Ricerche”<br />

5.1.7.1 Bottone “Synset senza padre”<br />

5.1.7.1.1 Mostra, dopo aver scelto la POS da un’apposita finestra di pop-up, tutti i synset di quella<br />

POS senza padre. Per i nomi propri si tratta di synset senza relazione BELONGS_TO, mentre <strong>per</strong><br />

le altre POS di synset senza alcuna relazione HAS_HYPERNYM.<br />

52


Linea 1.3 ItalWordnet<br />

5.1.7.2 Bottone “ Synset senza ili”<br />

5.1.7.2.1 Mostra, dopo aver scelto la POS da un’apposita finestra di pop-up, tutti i synset senza alcuna<br />

relazione con l’ILI.<br />

5.1.8 Menù “Help”<br />

5.1.8.1 Bottone “Guida in linea”<br />

5.1.8.1.1 Non attivo nella versione attuale.<br />

5.1.8.2 Bottone “Informazioni su …”<br />

5.1.8.2.1 Mostra una finestra contenente le informazioni sulla versione e l’autore del software.<br />

3.2 Area di ricerca su synset<br />

In questa area vengono mostrati, in modo sintetico, elenchi di synset recu<strong>per</strong>ati secondo varie<br />

modalità di ricerca. Ciascun synset è un oggetto attivo che, una volta selezionato, viene presentato<br />

in modalità analitica (con tutte le sue proprietà) nell’area delle varianti.<br />

FIGURA 6. AREA DI RICERCA SU SYNSET<br />

53


Linea 1.3 ItalWordnet<br />

5.1.9 Ricerca di synset nel Wordnet<br />

5.1.9.1 Ricerca da lemma<br />

Si inserisce un lemma e il risultato è la lista dei synset, suddivisi <strong>per</strong> Part of Speech (POS), in cui il<br />

lemma compare. Il lemma è la forma canonica di una parola, tipicamente quella riportata nei<br />

dizionari. L’accesso è case-insensitve, cioè possono essere usati indifferentemente caratteri<br />

maiuscoli o minuscoli. Le lettere accentate possono essere scritte sia con un unico carattere<br />

(“libertà”), sia con due caratteri (“libertà” “liberta`”). Nel caso di parole composte il separatore è il<br />

trattino (“Alto-Adige”). Nel caso di espressioni complesse il separatore è la spaziatura (“casa di<br />

riposo”).<br />

5.1.9.2 Ricerca <strong>per</strong> sottostringa<br />

E` possibile utilizzare il carattere jolly “*”, che indica una qualsiasi sequenza di caratteri, <strong>per</strong><br />

cercare tutte le parole che soddisfano una determinata struttura. Ad esempio, “*posto” ritorna tutte<br />

le parole che finiscono con “posto” (“avamposto”, “composto”, ecc.); “casa*” ritorna tutte le parole<br />

che iniziano con “casa” (“casa di riposo”, “casato” , “casa editrice”, ecc.); “*barca*” ritorna tutte le<br />

parole che iniziano o terminano con “barca” (“barcaiolo”, “imbarcare”, “barca”, ecc.); “pa*la”<br />

ritorna tutte le parole che iniziano con “pa” e finiscono con “la” (“palla”, “parola”, ecc.). Le parole<br />

recu<strong>per</strong>ate vengono mostrate in un menù, dal quale possono essere selezionate.<br />

5.1.9.3 Ricerca da concetto della top ontology<br />

Visualizza i synset che possono essere ricondotti con un certo concetto della Top Ontology. Il<br />

concetto viene selezionato da un menù ad albero (vedi Sezione 4.5).<br />

5.1.10 Ricerca di synset nell’indice ILI<br />

5.1.10.1 Ricerca da lemma<br />

Inserendo un lemma inglese si ottengono i synset dell’indice ILI che contengono il lemma. Essendo<br />

l’ILI un elenco non strutturato, su questi synset non sono possibili ulteriori ricerche (es: iponimi,<br />

i<strong>per</strong>onimi, ecc.). Per il wordnet generico sono visualizzati i synset della versione 1.5 di wordnet<br />

inglese, mentre <strong>per</strong> il wordnet economico sono visualizzati quelli della versione 1.6. Anche <strong>per</strong><br />

ottenere i synset dell’ILI è possibile utilizzare la ricerca <strong>per</strong> sottostringa vista in precedenza (vedi<br />

sezione 4.2.1)<br />

5.1.11 Presentazione dei synset<br />

5.1.11.1.1 I synset recu<strong>per</strong>ati sono presentati inizialmente in modalità “overview” (Figura 6), vale a<br />

dire suddivisi <strong>per</strong> POS. A partire da questa presentazione è possibile navigare la rete di<br />

ItalWordnet seguendo le relazioni concettuali previste nel modello. In base alle POS presenti <strong>per</strong><br />

un certo lemma vengono attivati i pulsanti “nome”, “verbo”, “aggettivo”, “avverbio” o “nome<br />

proprio”, ad ognuno dei quali sono associate le ricerche concettuali possibili <strong>per</strong> i synset presenti<br />

nella overview. Dato il numero elevato delle ricerche teoricamente possibili, queste sono state<br />

divise in principali, sempre visibili aprendo il menù di una POS attiva, e secondarie, visibili<br />

54


Linea 1.3 ItalWordnet<br />

tramite la voce “altre ricerche”. Entrambe le ricerche, principali e secondarie, sono accessibili<br />

solo se la relativa voce nel menù è attiva.<br />

5.1.12 Ricerche troppo pesanti<br />

Alcune ricerche, <strong>per</strong> la loro intrinseca complessità, possono richiedere tempi di attesa lunghi. Per<br />

ovviare, parzialmente, al problema sono stati realizzate due possibilità di interruzione della ricerca.<br />

La prima consiste in un messaggio che, non appena inviato il comando, notifica all’utente la<br />

complessità della ricerca (es: “esistono 5000 synset iponimi di “oggetto”), <strong>per</strong>mettendogli di non<br />

dare inizio alla ricerca. La seconda possibilità è un pulsante “interrompi” che termina una ricerca in<br />

corso in qualsiasi momento, senza ritornare alcun risultato.<br />

3.3 Area delle varianti<br />

5.1.12.1.1 Presenta informazioni di dettaglio sul synset e sulle sue varianti (Figura 7).<br />

Personalizzazioni sono possibili tramite il menù “Scegli dettagli synset” (vedi sezione 4.5.1).<br />

Figura 7. Area delle varianti<br />

5.1.13 Dati sul synset<br />

Sono riportati l’identificatore numerico del synset, la definizione, distinguendo tra pubblica e<br />

privata, i concetti della Top Ontology e della Domain Ontology.<br />

5.1.14 Dati sulla variante<br />

5.1.14.1.1 Le varianti sono ispezionabili singolarmente, e riportano il numero di senso, sia in<br />

ItalWordnet che in EuroWordnet, lo stato della variabile, esempi, features sull’uso della variante,<br />

autore e data dell’ultima modifica e un campo <strong>per</strong> commenti.<br />

55


Linea 1.3 ItalWordnet<br />

3.4 Area delle relazioni<br />

5.1.14.1.2 In questa area vengono mostrate le relazioni che il synset selezionato (synset attivo)<br />

nell’area di ricerca synset ha con altri synset presenti all’interno di wordnet italiano, dell’indice<br />

ILI, del Wordnet inglese (o eventualmente di un’altra lingua, purchè collegato all’indice ILI da<br />

relazioni di equivalenza), e della risorsa terminologica (purchè collegata tramite relazioni di<br />

“innesto”). Il collegamento con Wordnet di un’altra lingua è teoricamente possibile dato l’utilizzo<br />

dell’indice di EuroWordNet, ma non verrà realizzato nel corso del progetto; il collegamento con<br />

wordnet specialistici, nel caso quello economico-finanziario, verrà realizzato nelle prossime<br />

versioni.<br />

5.1.15 Relazioni su wordnet italiano<br />

5.1.15.1.1 Visualizza tutte le relazioni che partono dal synset attivo e raggiungono synset interni al<br />

wordnet italiano. Ciascun tipo di relazione viene presentato con una cartella con il nome della<br />

relazione e il numero di istanze della relazione effettivamente presenti. Questa indicazione può<br />

fornire una stima approssimativa dei tempi di attesa <strong>per</strong> la completa visualizzazione delle<br />

relazioni. Ciascuna istanza di relazione viene presentata mostrando il synset target della relazione<br />

stessa.<br />

Figura 8. Area delle relazioni<br />

5.1.16 Relazioni su ILI<br />

Le relazioni di equivalenza con l’indice ILI sono presentate con modalità analoghe a quelle usate<br />

<strong>per</strong> le relazioni interne a wordnet (vedi 4.4.1).<br />

3.5 Navigazione della Top Ontology<br />

5.1.16.1.1 La Top Ontology può essere navigata tramite un menù ad albero (Figura 9). Il concetto<br />

selezionato è pronto <strong>per</strong> una ricerca (vedi 4.2.1) dei synset ad esso collegati.<br />

56


Linea 1.3 ItalWordnet<br />

Figura 9. Navigazione della Top Ontology<br />

6 Funzioni di editing<br />

L'editing è attivabile in fase di avvio dalla finestra di startup attraverso la selezione del tasto "Edit"<br />

della voce "Strumenti" (tale scelta è possibile nelle distribuzioni complete mentre non è presente in<br />

quelle dedicate alla sola consultazione).<br />

6.1.1.1.1 Le funzioni di editing avvengono sempre su una finestra diversa da quella di browsing. Per<br />

aprire questa finestra si può procedere in due modi:<br />

- cliccare con il tasto destro del mouse su un synset visualizzato nell'area synset o su una relazione<br />

presente nell'area relazioni;<br />

- cliccare dal menu "Visualizza" sul bottone "Finestra di editing".<br />

Nel primo caso nella finestra di editing verranno inserite le informazioni del synset o della relazione<br />

cliccata; nel secondo la finestra sarà priva di informazioni.<br />

La finestra di editing è composta da una barra dei menu e da due cartelle rispettivamente riservate<br />

alla modifica dei synset e delle relative varianti, e delle relazioni.<br />

3.6 Editing di synset e varianti<br />

Nella cartella riservata all'editing dei synset (Figura 10a) è possibile modificare le seguenti<br />

informazioni (con "no" vengono indicati i campi presenti ma non modificabili con questa versione<br />

del sistema):<br />

• campi semantici (no): a quali campi semantici il synset appartiene;<br />

• concetti dell'ontologia (no): i concetti a cui il synset è collegato;<br />

• definizione pubblica: la glossa principale del synset;<br />

• definizione privata: la glossa secondaria;<br />

• varianti: tutte le varianti presenti nel synset.<br />

57


Linea 1.3 ItalWordnet<br />

10a. Editing di synset e varianti<br />

Per ogni variante si possono modificare i campi stato, esempi, uso, caratteristiche ed il commento.<br />

Di seguito si riportano le istruzioni <strong>per</strong> le o<strong>per</strong>azioni di modifica, creazione e cancellazione di<br />

synset.<br />

6.1.2 Modifica synset<br />

Dalla finestra di editing di synset, cliccando sui campi presentati si può modificarne il valore nella<br />

parte bassa della finestra. Una volta effettuata la modifica cliccare sul bottone "Aggiorna" oppure<br />

premere il tasto "Esc" (posto di solito in alto a sinistra sulla tastiera); questa o<strong>per</strong>azione determinaa<br />

il cambiamento del valore del campo e mantiene tale modifica fino a quando l'utente non deciderà<br />

di salvarlo definitivamente. Tutti i synset modificati e non ancora salvati vengono presentati nella<br />

finestra di browsing con l’icona .<br />

6.1.3 Nuovo synset<br />

Per la creazione di un nuovo synset utilizzare il bottone "Nuovo synset" dal menu "Synset". Il<br />

sistema chiede all'utente di indicare la POS del synset. Ogni campo del synset può essere<br />

modificato con la modalità descritta in 5.5.1.<br />

Il salvataggio di un nuovo synset si ottiene cliccando il bottone "Conferma synset" posto nel menu<br />

"Synset". Il sistema riepiloga le modifiche apportate e chiede all'utente una conferma definitiva.<br />

Con questo comando viene salvato solo il synset correntemente visualizzato nella finestra di<br />

editing; se si vogliono confermare tutti i synset fino ad ora modificati cliccare sul bottone<br />

"Conferma tutti i synset" del menu "Synset".<br />

Le condizioni necessarie <strong>per</strong> confermare la creazione di un nuovo synset sono;<br />

58


Linea 1.3 ItalWordnet<br />

- il synset deve contenere almeno una variante;<br />

- il synset deve essere specificato il suo padre oppure che si sta creando un synset al top della<br />

gerarchia. Il synset padre si determina, una volta visualizzato nell’area di ricerca synset, cliccando<br />

sul quadratino grigio presente a fianco di ogni synset che si ottiene come risultato di una ricerca.<br />

Se il nuovo synset si vuole inserirlo al top della gerarchia, e quindi senza nessun padre, si deve<br />

cliccare sul bottone “Crea senza padre” presente nella scheda di editing del synset.<br />

Figura 10b. Esempio di inserimento di un nuovo synset<br />

6.1.4 Cancellazione synset<br />

Il synset correntemente visualizzato può essere cancellato cliccando il bottone "Elimina synset"<br />

presente nel menu "Synset".<br />

3.7 Editing di relazioni<br />

Dalla finestra di editing delle relazioni (Figura 11) si possono creare nuove relazioni tra synset o<br />

modificarne di esistenti. Le informazioni che identificano una relazione sono:<br />

- il synset di partenza;<br />

- il synset di destinazione;<br />

- il tipo di relazione (che dipende dai synset di partenza e di destinazione);<br />

- eventuali tratti che ne specificano le caratteristiche.<br />

6.1.5 Modifica relazione<br />

Di una relazione esistente è possibile modificarne soltanto i tratti (o caratteristiche).<br />

È possibile, visualizzata un relazione, selezionare un tipo diverso di relazione ma tale o<strong>per</strong>azione è<br />

uguale a creare una nuova relazione partendo dal passo 3 della procedura di creazione di una nuova<br />

relazione descritta qui di seguito. La stessa cosa vale se si modifica il synset di destinazione.<br />

59


Linea 1.3 ItalWordnet<br />

Figura 11. Editing di relazioni<br />

6.1.5.1.1.1 Tutte le relazioni modificate e non ancora salvate vengono presentate nella finestra di<br />

browsing con l’icona .<br />

6.1.6 Nuova relazione<br />

Per creare una nuova relazione si possono seguire due modalità.<br />

• La prima utilizza il menu "Relazioni" della finestra di editing:<br />

Passo 1: cliccare sul bottone "Nuova relazione".<br />

Passo 2: visualizzare il synset di partenza nell’area synset; cliccare con il tasto destro del mouse<br />

sul quadratino che sta a fianco del synset visualizzato; selezionare synset di partenza dal menù<br />

che si apre.<br />

Passo 3: impostare il tipo di relazione selezionandone una tra quelle presenti aprendo il menu<br />

del campo "Tipo di relazione" (i tipi di relazione presenti saranno quelli che ammettono come<br />

synset di partenza quello selezionato al passo 2).<br />

Passo 4: impostare il synset di destinazione con la stessa modalità descritta al passo 2.<br />

Passo 5: inserire i tratti della relazione, anche se non è obbligatorio, dopo aver cliccato sul<br />

bottone "Caratteristiche".<br />

60


Linea 1.3 ItalWordnet<br />

• La seconda modalità consente di creare una relazione a partire dal synset correntemente<br />

selezionato nella finestra principale. Per questo si utilizzano i bottoni “Relazione interna” e<br />

“Relazione equivalenza” presenti nell’area relazioni della finestra principale (Figura 8).<br />

Passo1: cliccare su uno dei due bottoni e scegliere dai relativi menu a tendina il tipo di relazione<br />

che si vuole inserire (<strong>per</strong> annullare l’o<strong>per</strong>azione cliccare la voce “Annulla” del menu<br />

“Modifica”.<br />

Passo 2: una volta determinata la relazione il cursore del mouse si trasforma in un pallino nero<br />

con cui selezionare il synset di destinazione cliccandolo tra quelli presenti nell’area di ricerca<br />

synset.<br />

Passo 3: A questo punto la relazione viene visualizzata nella finestra di editing delle relazioni<br />

dove è possibile modificare qualsiasi valore prima della conferma definitiva.<br />

Il salvataggio della relazione che è stata modificata o creata deve essere confermato attraverso il<br />

bottone "Conferma relazione" del menu "Relazione".<br />

6.1.7 Cancellazione relazione<br />

Una relazione può essere cancellata tramite il bottone "Elimina relazione" posto nel menu<br />

"Relazione" della finestra di editing.<br />

7 Funzioni di import/export<br />

IWN-BEST consente di importare e esportare dati da file e su file di tipo testo strutturati secondo le<br />

specifiche in formato XML che vengono riportate in questa sezione.<br />

La finestra di export si apre cliccando il bottone “Export” presente nel menu “File” della finestra<br />

principale (Figura 12).<br />

I dati si possono esportare sia parzialmente che nella loro totalità specificando il nome del file in cui<br />

verranno salcvati i dati (tale file verrà creato <strong>per</strong> default nella directory HOME/export/).<br />

In particolare si possono esportare synset (sia dell’ili che di ItalWordnet), la domain ontology e la<br />

top ontology. È inoltre possibile decidere di esportare i synset in base alla POS o soltanto i preferiti<br />

(questa funzionalità non è disponibile nella versione attuale).<br />

Figura 12. Finestra di export dei dati.<br />

61


Linea 1.3 ItalWordnet<br />

3.8 Modello XML <strong>per</strong> ItalWordnet<br />

Al livello più alto dello schema XML ci sono i cinque componenti dell’export (Figura 13):<br />

• system contiene le informazioni sui dati contenuti nell’export <strong>per</strong> un’eventuale import;<br />

• wn è la parte che ospita il wordnet italiano (generico oppure specialistico);<br />

• ili è l’interlingua (WordNet ingles 1.5 o 1.6);<br />

• top_ontology in cui trovano posto i concetti dell’ontologia;<br />

• domain_ontology e`la gerarchia di campi semantici.<br />

<br />

<br />

<br />

<br />

<br />

<br />

Figura 13. Parte di alto livello del DTD <strong>per</strong> la descrizione del formato di import/export di<br />

<strong>ItalWordNet</strong><br />

3.9 Modello XML <strong>per</strong> word_meaning<br />

7.1.1.1.1 Il modello “word_meaning” (Figura 14) è usato <strong>per</strong> descrivere sia synset del wordnet<br />

italiano (generico – esempio in Figura 15 o specialistico), sia synset dell’interlingua.<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />


Linea 1.3 ItalWordnet<br />

sense CDATA #REQUIRED<br />

ewn_sense CDATA #IMPLIED<br />

status CDATA #IMPLIED><br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

FIGURA 14. DTD DELL’ELEMENTO WORD_MEANING<br />

63


Linea 1.3 ItalWordnet<br />

WORD_MEANING ID="n#8" PART_OF_SPEECH="n"><br />

figura geometrica generata da un rettangolo che ruota intorno a uno<br />

dei suoi lati. <br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Figura 15. Esempio di word_meaning italiano<br />

3.10 Modello XML <strong>per</strong> Top_Ontology e Domain_Ontology<br />

Il modello “concept” (Figura 16) è usato <strong>per</strong> descrivere sia concetti della Top Ontology (un esempio<br />

riportato in Figura 17) sia concetti della Domain Ontology.<br />

<br />

<br />

<br />

<br />

<br />

<br />

64


Linea 1.3 ItalWordnet<br />

Figura 16. Modello XML <strong>per</strong> import/export <strong>per</strong> concetti della top ontology e della domain<br />

ontology<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Figura 17. Esempio di concetto della top ontology<br />

65


Linea 1.3 ItalWordnet<br />

8 Interfaccia da programma (API)<br />

L’interfaccia da programma di IWN-BEST si basa sullo scambio di messaggi tra una applicazione<br />

client e il server ItalWordnet. Un messaggio è composto da un <strong>per</strong>formativo (ad esempio tell,<br />

register-uname, ecc.) e da una serie di coppie attributo valore); la sintassi dei messaggi è la<br />

seguente:<br />

(<strong>per</strong>formativo :attributo-1 valore-1 :attributo-2 valore-2 :attributo-n valore-n)<br />

Gli attributi tipicamente includono un :sender, l’identificatore del client che esegue una richiesta, un<br />

:receiver, l’identificatore del server a cui il messaggio è indirizzato, e un :content, l’effettiva<br />

richiesta che viene inoltrata.<br />

3.11 Messaggio di registrazione<br />

Il messaggio di registrazione <strong>per</strong>mette al server di ItalWordnet di creare un canale di comunicazione<br />

<strong>per</strong> ogni utente che utilizzerà la risorsa. L’identificatore che viene ritornato servirà <strong>per</strong> comporre i<br />

messaggi <strong>per</strong> l'accesso ai dati.<br />

(register-uname :sender :receiver magma)<br />

> C: (register-uname :sender PIPPO :receiver magma)<br />

> S: (ack :sender magma :receiver < PIPPO-MAG4 > :time 3168574274)<br />

3.12 Messaggio di de-registrazione<br />

Questo messaggio cancella la registrazione a partire dall'identificativo dell'utente (ID-NAME)<br />

restituendo una stringa vuota.<br />

> C: (unregister :sender PIPPO-MAG4 :receiver magma)<br />

3.13 Messaggio di accesso ai dati<br />

Le richieste al database di Italwordnet si inviano con il <strong>per</strong>formativo tell e inserendo un comando<br />

API come valore dell’attributo :content. Il :sender sarà l’identificativo dell’utente (ricevuto in<br />

risposta ad un messaggio di registrazione) e il :receiver sarà “italwordnet”.<br />

(tell :sender :receiver italwordnet :content “”)<br />

Es. (tell :sender PIPPO-MAG4<br />

:receiver italwordnet<br />

:content "(api-wordnet \"overview\" \"casa\" \"all\" \"Italian\" \"generic\")"<br />

)<br />

Il messaggio che il server ritorna è a sua volta un messaggio di tipo tell e i dati, come risultato<br />

dell’elaborazione, sono contenuti nel valore dell’argomento :content. Tale valore è sempre una<br />

stringa formata da una parola chiave che identifica il tipo di risultato e dal risultato stesso.<br />

Di seguito riportiamo i comandi API disponibili nella corrente versione di IWN-BEST.<br />

66


Linea 1.3 ItalWordnet<br />

8.1 Comando: api-data-versions<br />

Il messaggio "api-data-versions" <strong>per</strong>mette di sa<strong>per</strong>e quali versioni di database possono essere<br />

consultate. Non ha parametri in input.<br />

Ritorna le versioni disponibili come un lista di stringhe. Ognuna di queste stringhe può essere uno<br />

dei valori del campo DATABASE in tutti gli altri messaggi API.<br />

Es. (api-data-versions)<br />

Sintassi OUTPUT:<br />

AVAILABLE-VERSION {}<br />

dove e` una lista di DATABASE<br />

3.14 Comando: api-wordnet<br />

Il comando "api-wordnet" <strong>per</strong>mette di ottenere informazioni sulla gerarchia di ItalWordnet partendo<br />

da uno o da tutti i sensi che contengono un determinato lemma (WORD).<br />

(api-wordnet )<br />

Es. (api-wordnet \"overview\" \"casa\" \"n\" \"Italian\" \"generic\")")<br />

Parametri di INPUT:<br />

è il tipo di ricerca che è possibile eseguire. Una tra le seguenti:<br />

"overview" "synonyms-frequency" "coordinate-terms" "hy<strong>per</strong>nyms" "hyponyms-brief"<br />

"hyponyms-full" "holonyms-inherited" "holonyms-regular" "meronyms-regular"<br />

"meronyms-inherited" "belongs_to_class" "has_instance" "antonyms" "x_pos"<br />

"causes" "is_caused_by" "has_subevent" "is_subevent_of" "role" "involved"<br />

"manner" "result_in" "for_purpose_of" "is_purpose_of" "has_means" "is_means_for"<br />

"derivation" "co_role" "be_in_state" "fuzzy".<br />

il lemma su cui si effettua la ricerca.<br />

è la categoria sintattica (part of speech). Può essere: "n" (noun), "v" (verb), "r" (adverb), "a"<br />

(adjective), "p" (pro<strong>per</strong>), "all" (ricerca su tutte le pos).<br />

è la lingua in cui viene cercato il lemma. Nella versione corrente di ItalWordnet è<br />

sempre "Italian".<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions).<br />

Sintassi OUTPUT:<br />

"WORDNET { {}}"<br />

Il primo elemento è la keyword WORDNET. Il secondo è una lista dove i primi 4 valori (<br />

) sono il riepilogo della ricerca effettuata mentre<br />

è il risultato dell'elaborazione con la seguente sintassi:<br />

::<br />

67


Linea 1.3 ItalWordnet<br />

| <br />

::<br />

#-- if = "overview"<br />

list-of { } | <br />

#-- in all other cases<br />

list-of { } | <br />

#-- è il numero totale di sensi <strong>per</strong> ogni pos. È un numero.<br />

:: list_of <br />

:: list-of <br />

:: | | <br />

#-- if = "overview", "synonyms_frequency", "antonyms"<br />

::<br />

{ }<br />

#-- in all other cases<br />

::<br />

{ (list-of )}<br />

::<br />

{ (list-of )} | <br />

#-- indica la posizione del synset all'interno del .<br />

È un numero. Questo campo è presente solo nei synset che sono sensi della forma di parola che si<br />

sta cercando.<br />

#-- è l'identificatore di un word meaning. È una stringa.<br />

#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) di un determinato<br />

word meaning (es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />

#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />

precedute dal simbolo '\'.<br />

:: @string | <br />

#-- identifica lo stato di inserimento o sviluppo del synset.<br />

#-- specifica il tipo di relazione del synset.<br />

È usato <strong>per</strong> esempio <strong>per</strong> la diversa visualizzazione dei synset. Assume uno dei valori di TYPE-OF-<br />

SEARCH.<br />

:: NIL<br />

3.15 Comando: api-wordmeaning<br />

Il messaggio "api-wordmeaning" <strong>per</strong>mette di ottenere tutte le informazioni di un singolo word<br />

meaning.<br />

(api- wordmeaning < LANGUAGE> )<br />

68


Linea 1.3 ItalWordnet<br />

Es. (api-wordmeaning \"n#11368\" \"n\" \"Italian\" \"generic\")<br />

Parametri di INPUT<br />

è l'identificatore di un word meaning.<br />

è la categoria sintattica (part of speech). Come in api-wordnet.<br />

è la lingua in cui cercare la forma desiderata.<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

"WORDMEANING { }"<br />

#-- :: { <br />

{}}<br />

#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) del word meaning<br />

(es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />

#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />

precedute dal simbolo '\'.<br />

:: @string | <br />

#-- è il campo semantico a cui il senso appartiene.<br />

#-- è il concetto dell'ontologia collegato.<br />

#-- mantiengono le informazioni di chi, dove e quando è stata effettuate<br />

l'ultima modifica al word meaning.<br />

#-- contiene i commenti<br />

#-- è una lista di due elementi<br />

:: {list-of } | {list-of }<br />

#-- è una lista di coppie di valori dove il primo rappresenta il tipo di relazione con l'ili<br />

ed il secondo le sue occorrenze.<br />

#-- è una lista di coppie di valori dove il primo rappresenta il tipo di relazione<br />

all'interno della gerarchia italiana ed il secondo le sue occorrenze.<br />

3.16 Comando: api-variant<br />

Il messaggio "api-variant" <strong>per</strong>mette di ottenere tutte le informazione associate alle varianti di un<br />

word meaning.<br />

(api-variant )<br />

Es. (api-variant \"n#11368\" \"casa\" \"Italian\" \"generic\")<br />

Parametri di INPUT<br />

è l'identificatore di un word meaning.<br />

69


Linea 1.3 ItalWordnet<br />

è la forma di parola cercata. È una stringa.<br />

è la lingua in cui cercare la forma desiderata.<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

"VARIANT { }"<br />

#-- è una lista di 8 elementi<br />

:: { <br />

}<br />

#-- è il numero di senso che la variante aveva in EuroWordnet<br />

#-- è il numero di senso che la variante ha in ItalWordnet<br />

#-- rappresenta lo stato della variante.<br />

#-- contiene eventuali esempi.<br />

#-- contiene eventuali attribuiti sull'uso della variante. Per esempio l'origine.<br />

#-- contiene eventuali attribuiti sulle carateristiche della variante. Per esempio il genere<br />

o il numero.<br />

#-- contiene eventuali commenti.<br />

#-- altre informazioni <strong>per</strong> ora non presenti.<br />

3.17 Comando: api-wm-lemmas<br />

Il messaggio "api-wm-lemmas" <strong>per</strong>mette di avere le varianti di un word meaning.<br />

(api-wm-lemmas )<br />

Es. (api-wm-lemmas \"n#11368\" \"Italian\" \"generic\")<br />

Parametri di INPUT:<br />

è l'identificatore di un word meaning.<br />

è la lingua in cui viene effettuata la ricerca del lemma.<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

"LEMMAS { }"<br />

#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) del word meaning<br />

(es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />

70


Linea 1.3 ItalWordnet<br />

3.18 Comando: api-relation<br />

Il messaggio "api-relation" <strong>per</strong>mette di avere, a partire da un word meaning, le informazioni sui<br />

word meaning ad esso collegati attraverso una qualsiasi relazione.<br />

(api-relation )<br />

Es. (api-relation \"n#11368\" \"Italian\" \"has_hy<strong>per</strong>onym\" \"generic\")<br />

Parametri di INPUT:<br />

è l'identificatore di un word meaning.<br />

è la lingua in cui viene effettuata la ricerca del lemma.<br />

è una delle relazioni del modello <strong>ItalWordNet</strong> (cfr. [SI-TAL 2000]).<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

"RELATION { {}}"<br />

:: list-of <br />

:: { <br />

}<br />

#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) del word meaning<br />

(es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />

#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />

precedute dal simbolo '\'.<br />

:: @string | <br />

#-- identifica lo stato di inserimento o sviluppo del synset. Per ora è sempre "ok" ma in<br />

fase di editing potrà assume altri valori.<br />

:: NIL<br />

3.19 Comando: api-ili<br />

Il messaggio "api-ili" <strong>per</strong>mette di ottenere informazioni sui word meaning dell'ili (synset inglesi di<br />

Wordnet 1.5). Essendo un lista piatta non è possibile compiere tutte le ricerche presenti <strong>per</strong><br />

ItalWordnet.<br />

(api-ili )<br />

Es. (api-ili \"overview\" \"home\" \"n\" \"generic\")<br />

Parametri di INPUT:<br />

è il tipo di ricerca che è possibile eseguire. Uno dei seguenti:<br />

è la forma di parola cercata. È una stringa.<br />

è la categoria sintattica (part of speech). Può essere "n" | "v" | "r" | "a" | "p" | "all"<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

71


Linea 1.3 ItalWordnet<br />

"ILI { "ili" {}}"<br />

:: | <br />

::<br />

#-- if = "overview"<br />

list-of { {}} | <br />

#-- in all other cases<br />

list-of ( {}) | <br />

#-- è il numero totale di sensi <strong>per</strong> ogni pos. È un numero<br />

:: list_of <br />

:: list-of <br />

:: | | <br />

## if = "overview"<br />

::<br />

{ }<br />

## in all other cases<br />

::<br />

{ (list-of )}<br />

:: { (list-of )}<br />

| <br />

#-- indica la posizione del synset all'interno del .<br />

È un numero. Questo campo è presente solo nei synset che sono sensi della forma di parola che si<br />

sta cercando<br />

#-- è l'identificatore di un word meaning. È una stringa<br />

#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) di un determinato<br />

word meaning (es. {"dwelling#1" "home#1" "domicile#1"}). È una lista di stringhe.<br />

#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />

precedute dal simbolo '\'<br />

:: @string | <br />

#-- identifica lo stato di inserimento o sviluppo del synset. Per ora è sempre "ok" ma in<br />

fase di editing potrà assume altri valori.<br />

#-- specifica il tipo di relazione del synset.<br />

È usato <strong>per</strong> esempio <strong>per</strong> la diversa visualizzazione dei synset. Assume uno dei valori di ILI-TYPE-<br />

OF-SEARCH.<br />

:: NIL<br />

72


Linea 1.3 ItalWordnet<br />

3.20 Comando: api-ili-lemmas<br />

Il messaggio "api-ili-lemmas" <strong>per</strong>mette di avere le varianti di un ili record.<br />

(api-ili-lemmas )<br />

Es. (api-ili-lemmas \"n#02456156\" \"generic\")<br />

Parametri di INPUT:<br />

e` l'identificatore del synset di wordnet inglese (ILI). E` una stringa composta da due<br />

parti: la pos e l’identificatore di synset separati dal carattere “#”.<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

"ILI-LEMMAS { }"<br />

#-- sono i sinonimi (con il relativo numero di senso) dell'ili (es. {"dwelling#1"<br />

"home#1" "domicile#1"}). È una lista di stringhe.<br />

3.21 Comando: api-top-concept<br />

Il messaggio "api-top-concept" <strong>per</strong>mette di avere tutti i word_meaning associati ad un determinato<br />

concetto dell'ontologia.<br />

(api-top-concept )<br />

Es. (api-top-concept \"human\" \"generic\")<br />

Parametri di INPUT:<br />

) è uno dei concetti dell'ontologia del modello.<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

"TOPCONCEPT { \"overview\" \"topconcept\" {}}<br />

#-- è il numero sensi inglesi (Wordnet 1.5) collegati al concetto di cui si sta<br />

visualizzando le informazioni. È un numero<br />

:: | <br />

:: list-of { {}} |<br />

#-- è la categoria sintattica (part of speech). Può essere "n" | "v" | "r" | "a" | "p"<br />

#-- è il numero di word meaning italiani collegati al senso inglese. È un numero<br />

:: list-of | <br />

:: { }<br />

73


Linea 1.3 ItalWordnet<br />

#-- è l'identificatore di un word meaning. È una stringa<br />

#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) di un determinato<br />

word meaning (es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />

#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />

precedute dal simbolo '\'.<br />

:: @string | <br />

#-- identifica lo stato di inserimento o sviluppo del synset. Per ora è sempre "ok" ma in<br />

fase di editing potrà assume altri valori.<br />

#-- specifica il tipo di relazione del word meaning italiano con quello inglese.<br />

:: NIL<br />

3.22 Comando: api-wn-from-lemma<br />

Il messaggio "api-wm-from-lemma" <strong>per</strong>mette di avere tutti gli identificatori di word meaning che<br />

contengo una determinata forma di parola suddivisi <strong>per</strong> categoria sintattica.<br />

(api-wm-from-lemma )<br />

Es. (api-wm-from-lemma \"casa\" \"generic\")<br />

Parametri di INPUT:<br />

è la forma di parola cercata. È una stringa<br />

e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />

Sintassi OUTPUT:<br />

"WM-INDEX { (list-of { })}<br />

#-- è la categoria sintattica (part of speech). Può essere "n" | "v" | "r" | "a" | "p"<br />

#-- è una lista di WM-ID. È una lista di stringhe (es. {"n#11368" "n#11495"<br />

"n#34420"}).<br />

9 Problemi noti<br />

• Alcune ricerche, ad esempio quelle sulla top ontology, possono essere inefficienti, <strong>per</strong>ché non<br />

ancora ottimizzate.<br />

10 Bibliografia<br />

[SI-TAL 2000] Documento di specifiche Tecniche di SI-TAL – Manuale o<strong>per</strong>ativo. Capitolo 2 –<br />

<strong>ItalWordNet</strong>: <strong>Rete</strong> semantico lessicale <strong>per</strong> l’italiano. CPR, ITC-irst, Quinary, 2000.<br />

74


75<br />

Linea 1.3 ItalWordnet


1.3 <strong>ItalWordNet</strong><br />

Appendice I: XML DTD <strong>per</strong> ItalWordnet<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

76


1.3 <strong>ItalWordNet</strong><br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

]><br />

77

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!