ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
ItalWordNet: Rete Semantico-Lessicale per l'Italiano - Cnr
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
SI-TAL<br />
<strong>ItalWordNet</strong>: <strong>Rete</strong> <strong>Semantico</strong>-<strong>Lessicale</strong><br />
<strong>per</strong> l’Italiano<br />
Linea 1.3<br />
Documentazione del lessico, valutazione della<br />
co<strong>per</strong>tura lessicale e manuale d'uso del software di<br />
gestione<br />
* *<br />
Consorzio Pisa Ricerche - (CPR)<br />
Istituto Trentino di Cultura - Istituto <strong>per</strong> la Ricerca Scientifica e<br />
Tecnologica - (ITC-irst)<br />
Quinary
Linea 1.3 ItalWordnet<br />
Sommario Generale<br />
Sezione 1. Il Lessico della Risorsa <strong>ItalWordNet</strong><br />
Sezione 2. Valutazione della Co<strong>per</strong>tura <strong>Lessicale</strong><br />
Sezione 3. Software di Gestione di <strong>ItalWordNet</strong>: Manuale <strong>per</strong> l'Utente<br />
2
Linea 1.3 ItalWordnet<br />
Sezione 1<br />
Il lessico della risorsa <strong>ItalWordNet</strong><br />
1 INTRODUZIONE....................................................................................................................................... 4<br />
1.1 Lessico generale................................................................................................................................. 4<br />
1.1.1 Sostantivi e verbi.......................................................................................................................... 5<br />
1.1.2 Nomi propri................................................................................................................................... 6<br />
1.1.3 Aggettivi e avverbi........................................................................................................................ 8<br />
1.1.4 Dati quantitativi .......................................................................................................................... 11<br />
1.2 Lessico economico finanziario ....................................................................................................... 13<br />
1.2.1 Fonti ........................................................................................................................................... 13<br />
1.2.2 Modalità di realizzazione............................................................................................................ 14<br />
1.2.3 Unità polilessicali (multiwords)................................................................................................... 16<br />
1.2.4 Consultazione integrata del lessico generale a del lessico economico-finanziario................... 16<br />
1.2.5 Prosecuzione del lavoro............................................................................................................. 18<br />
1.2.6 Dati quantitativi .......................................................................................................................... 18<br />
RIFERIMENTI BIBLIOGRAFICI................................................................................................................. 20<br />
3
Linea 1.3 ItalWordnet<br />
1 Introduzione<br />
Nel <strong>per</strong>iodo corrispondente alla linea 1.3 del progetto SI-TAL è stato ampliato e sviluppato il<br />
prototipo di <strong>ItalWordNet</strong> realizzato nella fase precedente. Ne diamo qui un resoconto <strong>per</strong> quanto<br />
riguarda il lavoro svolto e i risultati raggiunti, sia <strong>per</strong> la parte generale che <strong>per</strong> quella terminologica<br />
economico-finanziaria. Nella sezione seguente è presentata una valutazione del software di accesso<br />
alla risorsa e della co<strong>per</strong>tura lessicale, la terza sezione contiene la descrizione del software di<br />
gestione e il manuale <strong>per</strong> l’utente.<br />
1.1 Lessico generale<br />
La rete semantica dell’italiano <strong>ItalWordNet</strong> (da ora in poi IWN), come è stato detto nel<br />
documento di specifiche, ha ereditato sia i dati sia la maggior parte delle relazioni semantiche da<br />
EuroWordNet (da ora in poi EWN), nel cui ambito è stata inizialmente progettata e sviluppata. Il<br />
modello di relazioni semantiche e l’ontologia contengono alcune modifiche che si sono rese<br />
necessarie <strong>per</strong> rappresentare la nuova categoria degli aggettivi 1 .<br />
Per quanto riguarda i dati, nel passaggio da EWN a IWN la rete ha subito due tipi di intervento:<br />
uno di controllo e di correzione necessario <strong>per</strong> quella parte di dati che erano stati trattati solo<br />
automaticamente, l’altro di ampliamento con la codifica in particolare di aggettivi, avverbi e nomi<br />
propri.<br />
Le categorie dei nomi e dei verbi, che già erano presenti, sono state arricchite di nuovi lemmi e/o<br />
sensi. Le categorie degli aggettivi e avverbi, che esistevano solo come target di relazioni semantiche<br />
dalle prime due categorie, sono state codificate ‘ex novo’ come pure l’insieme di nomi propri. Le<br />
fonti di questi dati sono varie, tra le più importanti il Dizionario di Macchina dell’Italiano (DMI) e<br />
il corpus lemmatizzato scelto <strong>per</strong> l’annotazione semantica della Treebank.<br />
Nel lavoro di revisione i principali obiettivi sono stati i seguenti:<br />
• verificare che tutti i principali sensi di ogni lemma fossero codificati nella rete. Da un<br />
punto di vista metodologico è stato deciso di iniziare questo controllo (ed eventuale<br />
completamento) partendo i) dai livelli più alti del lessico ii) da una lista di lemmi comuni<br />
alle due partizioni del corpus (finanziario e bilanciato) da annotare semanticamente <strong>per</strong><br />
la Treebank;<br />
• completare i synset, sia con l’aiuto di dizionari di sinonimi, sia attraverso la revisione<br />
sistematica di entrate isolate 2 molte delle quali potevano essere riunite in synset più<br />
ampi;<br />
1 Per una dettagliata descrizione delle relazioni semantiche, dell’ontologia e dei cambiamenti introdotti dalla<br />
codifica degli aggettivi si rimanda al documento delle specifiche.<br />
2 Queste entrate (circa 6000), inserite nel database con procedure automatiche, avevano una sola relazione interna di<br />
i<strong>per</strong>onimia e, generalmente, più di due relazioni di equivalenza all’ILI, create anch’esse con procedure automatiche e<br />
non corrette. La correzione di tutte queste entrate è stata completata nella linea 1.3.<br />
4
Linea 1.3 ItalWordnet<br />
• fornire i synset di una breve definizione 3 e, se necessario, anche di un esempio (la rete<br />
italiana costruita nell’ambito di EWN ne era priva in quanto tutti i database delle diverse<br />
lingue di EWN usufruiscono delle definizioni in inglese di WN 1.5 attraverso l’ILI);<br />
• controllare il legame dei nostri synset all’inglese partendo dai synset con troppe relazioni<br />
di equivalenza all’ILI (3 o più), quasi sicuramente originate da procedure automatiche<br />
(spesso fonti di errori).<br />
Per l’attività di ampliamento della rete semantica gli obiettivi sono stati:<br />
• codificare nuove entrate sia di singoli lemmi che di unità polilessicali <strong>per</strong> garantire<br />
innanzi tutto la co<strong>per</strong>tura del corpus di TAL;<br />
• codificare aggettivi, avverbi e nomi propri, in particolare geografici e di <strong>per</strong>sona, a<br />
partire da quelli che hanno dato origine a derivati già presenti nella rete.<br />
1.1.1 Sostantivi e verbi<br />
Per quanto riguarda queste categorie, già presenti nel database di EWN, il lavoro si è concentrato<br />
soprattutto sulla revisione e dunque: il completamento di gran parte delle entrate con tutti i sensi, il<br />
controllo delle entrate inserite automaticamente, il collegamento all’inglese, e la valutazione dei<br />
‘base concepts’. In particolare:<br />
• entrate inserite automaticamente, che riproducevano synset già creati a mano, sono state<br />
eliminate;<br />
• synset costruiti automaticamente sono stati talvolta accorpati a formare synset più ampi;<br />
• relazioni di i<strong>per</strong>onimia e diverse relazioni di xpos_near_synonymy tra nomi e verbi<br />
create automaticamente sono state riviste e corrette;<br />
• relazioni di equivalenza all’ILI inserite automaticamente sono state riviste e corrette.<br />
Oltre a questo lavoro di revisione e completamento delle entrate esistenti, si sono codificati più<br />
di 4000 nuovi lemmi, <strong>per</strong> la maggior parte individuati attraverso vari confronti a livello di lemma<br />
con il Dizionario di Macchina (DMI) e con il Corpus di PAROLE. Altre integrazioni sono venute<br />
dalle segnalazioni degli annotatori del corpus di TAL, soprattutto <strong>per</strong> quanto riguarda le unità<br />
polilessicali, ma anche <strong>per</strong> quanto riguarda alcuni sensi mancanti. Nella figura che segue si possono<br />
vedere ad esempio gli iponimi di corte 5 che fanno parte di queste nuove acquisizioni di unità<br />
polilessicali.<br />
3 Questo lavoro, non previsto nel capitolato, è stato richiesto dagli annotatori del corpus <strong>per</strong> motivi pratici di rapidità<br />
nella scelta dei sensi, e sarà di grande utilità <strong>per</strong> i futuri utenti <strong>per</strong> consultare la risorsa.<br />
5
Linea 1.3 ItalWordnet<br />
Figura 1<br />
Questo lavoro di revisione ha ovviamente contribuito ad aumentare la media di varianti <strong>per</strong><br />
synset (da 1,2 a 1,3), e a migliorare la precisione del mapping all’inglese. Infatti, in confronto ai dati<br />
iniziali, le relazioni di equivalenza sono diminuite da una media di 1,8 a quella di 1,1 <strong>per</strong> synset.<br />
1.1.2 Nomi propri<br />
Partendo dal corpus di TAL, sono stati selezionati e presi in considerazione i nomi propri che vi<br />
compaiono. Tra questi sono stati individuati diversi tipi o classi semantiche come nomi di luoghi,<br />
enti, <strong>per</strong>sone, giornali, o<strong>per</strong>e teatrali, cinematografiche, letterarie etc 4 . Non tutti questi nomi sono<br />
stati introdotti nella rete, ma solo alcuni scelti in base ai due principali criteri della stabilità di uso e<br />
della capacità di dare origine a lemmi derivati di tipo comune. I primi ad essere trattati sono stati i<br />
nomi geografici che, nella grande maggioranza, soddisfano entrambi i criteri. Nei casi di nomi<br />
geografici che negli ultimi anni sono stati cambiati, come ad esempio Birmania o Persia, è stato<br />
inserito sia il nome attuale della nazione, Myannmar e Iran, sia il nome antico, ma più noto, come<br />
variante. Questi nomi geografici, circa 1300, suddivisi in tipi o classi (oltre 25: nazioni, città,<br />
regioni, mari, etc.) sono stati codificati come instances e collegati con la relazione di appartenenza<br />
alle rispettive classi. Quando esiste un termine inglese diverso da quello italiano, viene codificato<br />
un legame anche al corrispondente termine inglese con una relazione di equivalenza (Firenze -<br />
Florence, Londra – London etc.), quando il nome inglese non esiste o non è stato trovato in WN 1.5<br />
si è usata la relazione “Eq_belongs_to class” <strong>per</strong> indicare anche in inglese la classe di appartenenza<br />
4 Per informazioni più dettagliate si rimanda all’Appendice D delle specifiche.<br />
6
Linea 1.3 ItalWordnet<br />
del nome proprio. I nomi di stati, che presentano il fenomeno della polisemia regolare indicando sia<br />
il territorio che il popolo che vi abita, hanno un doppio legame di appartenenza alle due classi.<br />
E’ stato codificato anche un insieme (circa 250) di nomi di <strong>per</strong>sonaggi famosi che hanno dato<br />
origine a aggettivi e/o a nomi comuni come Ario, Machiavelli, Parkinson, Galileo, etc. .Questi<br />
nomi, tramite la relazione “derivation”, sono stati collegati ai loro derivati (vedi figura 2); questo<br />
sottoinsieme è stato inoltre ampliato con altri nomi propri ricavati da una lista di aggettivi<br />
provenienti dal corpus. Di tutti questi nomi di <strong>per</strong>sonaggi noti è stata data una breve definizione.<br />
L’insieme dei nomi propri codificati comprende più di 3000 lemmi appartenenti a 144 classi,<br />
nella tavola 1 sotto si possono vedere le classi più rappresentate.<br />
Tavola 1. Classi con i relativi numeri di “istances”.<br />
Classe di appartenenza N° di “istances”<br />
città 556<br />
museo 240<br />
teatro 172<br />
porto 153<br />
nazione 130<br />
stato 130<br />
popolo 129<br />
fiume 126<br />
comune 124<br />
regione1 106<br />
divinità 104<br />
costellazione 93<br />
parco nazionale 80<br />
cometa 76<br />
ditta 75<br />
o<strong>per</strong>a lirica 74<br />
stella 70<br />
località archeologica 64<br />
monte 60<br />
lago 54<br />
luna 53<br />
isola 41<br />
passo montano 41<br />
valle 39<br />
scrittore 34<br />
poeta 33<br />
filosofo 32<br />
mare 28<br />
parco naturale 25<br />
golfo 23<br />
regione2 20<br />
istituto 17<br />
stretto 16<br />
musicista 15<br />
riserva marina 15<br />
catena(montuosa) 14<br />
compagnia 12<br />
<strong>per</strong>sonaggio mitologico 12<br />
segno zodiacale 12<br />
im<strong>per</strong>atore 10<br />
statista 10<br />
territorio 10<br />
7
Linea 1.3 ItalWordnet<br />
Figura 2<br />
1.1.3 Aggettivi e avverbi<br />
La codifica degli aggettivi, più di 5000 lemmi, e di un sottoinsieme di avverbi in –mente da essi<br />
derivati (circa 800), è stata realizzata completamente nell’ambito di IWN. In EWN esistevano circa<br />
1400 tra aggettivi e avverbi ma solo come target di relazioni da nomi e verbi. Come si è detto nelle<br />
specifiche, la codifica di questa nuova categoria ha portato da un lato a definire nuove relazioni<br />
semantiche come la <strong>per</strong>tain_to e la liable_to che <strong>per</strong>mettono di creare un legame rispettivamente tra<br />
aggettivi e nomi e tra aggettivi e verbi, dall’altro a s<strong>per</strong>imentare la relazione di ip(er)onimia tra<br />
aggettivi (vedi specifiche 3.23.2). Come si è detto nelle specifiche, WordNet non prevede questo<br />
tipo di relazione semantica <strong>per</strong> questa categoria, ma l’analisi delle definizioni degli aggettivi del<br />
DMI, che in molti casi presentano una struttura del tipo genus+differentia, ci ha indotto a codificare<br />
<strong>per</strong> alcuni gruppi omogenei <strong>per</strong> tipo di definizione, e spesso <strong>per</strong> formazione derivazionale, la<br />
relazione di ip(er)onimia.<br />
L’es<strong>per</strong>ienza fatta ha evidenziato che vi sono diversità sia nel tipo di iponimia che nelle possibili<br />
inferenze. Nel caso dell’aggettivo pieno, ad esempio, è stato possibile distinguere un senso proprio i<br />
cui iponimi sono entità del primo ordine (sabbioso ‘pieno di sabbia’) e un senso, figurato, che<br />
seleziona invece entità del secondo ordine (dubbioso ‘pieno di dubbi’). Con la relazione di<br />
‘<strong>per</strong>tains_to’, invece, né l’i<strong>per</strong>onimo (attinente, relativo) né la relazione, al momento, <strong>per</strong>mettono di<br />
fare inferenze sul tipo di entità implicata dall’aggettivo (etico <strong>per</strong>tains_to etica (II ordine), cardiaco<br />
<strong>per</strong>tains_to cuore (I ordine)). In alcuni casi, inoltre, l’i<strong>per</strong>onimo aggettivale è sostituibile<br />
all’aggettivo iponimo, anche se con la <strong>per</strong>dita di alcuni tratti (in accordo con la definizione della<br />
relazione di i<strong>per</strong>onimia) ad esempio: ‘x è raffredato – x è malato’; ‘x è rosso – x è colorato’. Questo<br />
8
Linea 1.3 ItalWordnet<br />
non è possibile invece con altri i<strong>per</strong>onimi in cui il tipo di relazione è molto più generico: ‘x è<br />
dubbioso – x è pieno’; ‘ x è ignorante – x è privo’. Il primo tipo (malato, colorato) sembra ricalcare<br />
più da vicino l’i<strong>per</strong>onimia nominale, in cui la sostituibilità lessicale è utilizzata, ad esempio, nel<br />
caso di anafore nominali (il gatto…l’animale) mentre il secondo tipo è da assimilarsi piuttosto<br />
all’i<strong>per</strong>onimia che troviamo con alcune classi di verbi (come <strong>per</strong> esempio l’insieme degli iponimi di<br />
‘diventare’ / ‘rendere’ che presentano il fenomeno dell’alternanza causativo / incoativo). Questa<br />
precisazione ci appare necessaria in vista di un utilizzo del database <strong>per</strong> diverse attività di<br />
trattamento automatico della lingua. Nella figura 3 sotto si può vedere la codifica di malato e alcuni<br />
dei suoi iponimi.<br />
Figura 3<br />
Un esempio interessante è costituito dagli aggettivi che indicano i colori. Questo insieme è stato<br />
oggetto di vari studi e alcune considerazioni in particolare sono apparse utili <strong>per</strong> la codifica.<br />
Berlin&Kay (1969) individuano undici colori fondamentali (bianco, nero, rosso, giallo, verde,<br />
azzurro, marrone, rosa, viola, arancione, grigio) che potremmo collocare ad un primo livello. Gli<br />
eventuali termini che possono aggiungersi a questi verranno definiti iponimi dei primi (cfr. anche<br />
Dixon, 1982). Possiamo dunque codificare celeste, indaco, carminio, amaranto, ocra ad un livello<br />
più basso rispetto a blu, rosso, giallo, etc. Nella figura che segue si può vedere come è stato<br />
codificato l’aggettivo azzurro e i suoi iponimi.<br />
9
Linea 1.3 ItalWordnet<br />
Figura 4<br />
Sulla base del numero di relazioni con altri synset della rete e della frequenza nel corpus della<br />
Treebank sono stati inoltre selezionati alcuni aggettivi che possono considerarsi i “base concepts” di<br />
questa categoria.<br />
Tavola 2. Base concepts degli aggettivi ordinati secondo il numero di relazioni.<br />
Synset Senso Relazioni interne Relazione di equivalenza ILI record Frequenza<br />
Relativo 3 1400 eq_near_synonym 1515003 7<br />
Relativo 3 1400 eq_near_synonym 1516350 7<br />
Malato 1 110 eq_synonym 1930434<br />
Colorato 1 63 eq_synonym 286908 7<br />
Adatto 1 44 eq_near_synonym 1073331 4<br />
Simile 2 42 eq_near_synonym 109963 25<br />
Pieno 4 31 eq_near_synonym 815726 49<br />
Privo 2 30 eq_near_synonym 43685 4<br />
Privo 2 30 eq_near_synonym 43685 4<br />
Pieno 3 26 eq_near_synonym 815726 49<br />
Grande 1 23 eq_synonym 1052939 262<br />
Dotato 1 15 eq_near_synonym 828431 2<br />
Piccolo 1 14 eq_synonym 1058548 115<br />
Simile 1 14 eq_near_synonym 1073331 25<br />
Cattivo 1 13 eq_near_synonym 860791 8<br />
Infelice 1 13 eq_synonym 874669<br />
Forte 1 12 eq_synonym 1763617 44<br />
10
Linea 1.3 ItalWordnet<br />
Brutto 1 11 eq_synonym 174354 21<br />
Difficile 2 10 eq_synonym 865466 50<br />
Ricco 1 10 eq_synonym 1550014 20<br />
Bello 1 9 eq_synonym 174354 70<br />
Buono 2 8 eq_synonym 1045234 92<br />
Facile 1 8 eq_near_synonym 626877 33<br />
Facile 1 8 eq_near_synonym 1432831 33<br />
Felice 1 8 eq_near_synonym 1376476 44<br />
Vecchio 1 8 eq_near_synonym 1258871 52<br />
Difficile 1 7 eq_synonym 561690 50<br />
Povero 1 7 eq_synonym 1552546 25<br />
Corto 2 6 eq_near_synonym 1097554 14<br />
Possibile 1 6 eq_synonym 1392040 74<br />
Povero 2 6 eq_synonym 1776126 25<br />
Alto 1 5 eq_synonym 915675 73<br />
Forte 4 5 eq_near_synonym 1763617 44<br />
Impossibile 1 5 eq_synonym 1393725 21<br />
Intenso 1 5 eq_near_synonym 598318 9<br />
Rapido 1 5 eq_near_synonym 730240 10<br />
Leggero 3 4 eq_synonym 902532 12<br />
Basso 1 4 eq_synonym 928788 14<br />
Buono 1 4 eq_near_synonym 1562169 92<br />
Leggero 3 4 eq_near_synonym 530835 12<br />
Pesante 1 4 eq_synonym 901535 25<br />
Corto 1 3 eq_synonym 1093896 14<br />
Lungo 1 3 eq_synonym 1092397 88<br />
Successivo 1 3 eq_synonym 103715 13<br />
Lungo 3 2 eq_near_synonym 1094615 88<br />
Precedente 1 2 eq_synonym 98677 26<br />
Stanco 1 2 eq_synonym 1841132 5<br />
1.1.4 Dati quantitativi<br />
Nella tavola seguente sono mostrati i dati quantitativi relativi al lessico generale della rete<br />
semantica.<br />
Tavola 3<br />
<strong>ItalWordNet</strong> Nomi Verbi Aggettivi Avverbi Nomi propri Totale<br />
Synset 31828 9512 4109 498 3161 49109<br />
Numero di sensi (varianti) 64249<br />
X varianti <strong>per</strong> synset 1,3<br />
Correspondenti a lemmi 27881 7785 5195 789 3356 45006<br />
X sensi <strong>per</strong> lemma 1,4<br />
Relazioni interne 126326<br />
Media <strong>per</strong> synset 2,5<br />
Relazioni di equivalenza a (WN1.5) ILI 56624<br />
Media <strong>per</strong> synset 1,1<br />
Relazioni interne in dettaglio Nomi Verbi Aggettivi Avverbi Nomi propri Totale<br />
Synset 31828 9512 4109 498 3161 49109<br />
NEAR_SYNONYM 1424<br />
XPOS_NEAR_SYNONYM 9350<br />
ANTONYM 1318<br />
COMPL_ANTONYM<br />
GRAD_ANTONYM<br />
XPOS_ANTONYM<br />
11
Linea 1.3 ItalWordnet<br />
XPOS_NEAR_ANTONYM 28<br />
HAS_HYPERONYM 44615<br />
HAS_HYPONYM 44615<br />
HAS_XPOS_HYPERONYM 70<br />
HAS_XPOS_HYPONYM 70<br />
LIABLE_TO 227<br />
HAS_LIABILITY 225<br />
IS_A_VALUE_OF<br />
HAS_VALUE<br />
PERTAINS_TO 896<br />
HAS_PERTAINED 889<br />
HAS_INSTANCE 3339<br />
BELONGS_TO_CLASS 3339<br />
DERIVATION 840<br />
HAS_HOLONYM 352<br />
HAS_HOLO_PART 740<br />
HAS_HOLO_MEMBER 443<br />
HAS_HOLO_PORTION 10<br />
HAS_HOLO_MADEOF 285<br />
HAS_HOLO_LOCATION 114<br />
HAS_MERONYM 353<br />
HAS_MERO_PART 756<br />
HAS_MERO_MEMBER 443<br />
HAS_MERO_PORTION 10<br />
HAS_MERO_MADEOF 285<br />
HAS_MERO_LOCATION 114<br />
CO_ROLE 110<br />
CO_AGENT_PATIENT<br />
CO_PATIENT_AGENT<br />
CO_AGENT_INSTRUMENT 6<br />
CO_INSTRUMENT_AGENT 6<br />
CO_AGENT_RESULT<br />
CO_RESULT_AGENT<br />
CO_PATIENT_INSTRUMENT<br />
CO_INSTRUMENT_PATIENT<br />
CO_PATIENT_RESULT<br />
CO_RESULT_PATIENT<br />
CO_INSTRUMENT_RESULT 1<br />
CO_RESULT_INSTRUMENT 1<br />
CAUSES 1045<br />
IS_CAUSED_BY 1046<br />
RESULTS_IN<br />
IS_RESULT_OF<br />
FOR_PURPOSE_OF<br />
IS_PURPOSE_OF<br />
IS_MEANS_FOR<br />
HAS_MEANS<br />
HAS_SUBEVENT 186<br />
IS_SUBEVENT_OF 185<br />
INVOLVED 477<br />
INVOLVED_AGENT 1274<br />
INVOVED_PATIENT 412<br />
INVOLVED_DIRECTION 15<br />
INVOLVED_SOURCE_DIRECTION 50<br />
INVOLVED_TARGET_DIRECTION 49<br />
INVOLVED_LOCATION 123<br />
INVOLVED_INSTRUMENT 466<br />
INVOLVED_RESULT 117<br />
12
Linea 1.3 ItalWordnet<br />
IN_MANNER 172<br />
MANNER_OF 172<br />
ROLE 475<br />
ROLE_AGENT 1274<br />
ROLE_PATIENT 413<br />
ROLE_DIRECTION 15<br />
ROLE_SOURCE_DIRECTION 50<br />
ROLE_TARGET_DIRECTION 49<br />
ROLE_LOCATION 122<br />
ROLE_INSTRUMENT 466<br />
ROLE_RESULT 119<br />
BE_IN_STATE 498<br />
STATE_OF 498<br />
FUZZYNYM 435<br />
XPOS_FUZZYNYM 972<br />
TOTAL 126326<br />
Tavola 4 Relazioni di equivalenza in dettaglio<br />
EQ_SYNONYM 17210<br />
EQ_NEAR_SYNONYM 16133<br />
EQ_XPOS_NEAR_SYNONYM 3<br />
EQ_HAS_HYPERONYM 18882<br />
EQ_HAS_HYPONYM 99<br />
EQ_HAS_HOLONYM 36<br />
EQ_HAS_MERONYM 57<br />
EQ_INVOLVED 747<br />
EQ_ROLE 29<br />
EQ_CAUSES 192<br />
EQ_IS_CAUSED_BY 151<br />
EQ_HAS_SUBEVENT 12<br />
EQ_IS_SUBEVENT_OF 11<br />
EQ_BE_IN_STATE 64<br />
EQ_IS_STATE_OF 68<br />
EQ_BELONGS_TO_CLASS 2432<br />
EQ_METONYM 470<br />
EQ_DIATHESIS 28<br />
Totale 56624<br />
1.2 Lessico economico finanziario<br />
L’obiettivo della Linea 1.3, <strong>per</strong> quanto riguarda il lessico terminologico, consisteva nel<br />
completamento del wordnet economico finanziario sviluppato nell’ambito della linea 1.2, mediante<br />
il raggiungimento di una co<strong>per</strong>tura di circa 5.000 termini.<br />
1.2.1 Fonti<br />
Per la definizione del wordnet terminologico relativamente al dominio economico finanziario<br />
sono state considerate le seguenti fonti di informazione:<br />
13
Linea 1.3 ItalWordnet<br />
• Nomenclatura Garzanti. Comprende circa mille termini suddivisi nelle voci “Borsa e<br />
Banca” e “Economia e Finanza”. I termini hanno una ulteriore strutturazione in<br />
sottovoci, quali ad esempio “attività di borsa”.<br />
• Economic and Business - Zanichelli. Comprende circa 23.000 termini italiani con<br />
rispettive traduzioni in inglese. Dispone inoltre di tavole di nomenclatura strutturate in 9<br />
voci maggiori, con circa 2.000 termini italiano/inglese. Disponibile solo in versione<br />
cartacea.<br />
• Dizionario bilingue Italiano-Inglese, Inglese-Italiano (COLLINS), sfruttando le etichette<br />
di dominio presenti, ad esempio “Econ” e “Comm”.<br />
• Testi economico-finanziari, ricavati ad esempio da numeri del quotidiano Sole24Ore.<br />
Questi testi sono particolarmente utili <strong>per</strong> l’individuazione di nomi propri.<br />
• Il corpus economico della componente Treebank di TAL.<br />
1.2.2 Modalità di realizzazione<br />
La struttura della risorsa IWN relativa al dominio economico-finanziario (d’ora in avanti Ecown)<br />
è rimasta invariata rispetto al modello adottato nella fase precedente: un insieme di synset <strong>per</strong><br />
la lingua italiana organizzati secondo le relazioni previste nelle specifiche di IWN (principalmente<br />
relazioni di sinonimia e i<strong>per</strong>onimia/iponimia) e collegati tramite relazioni di equivalenza ad un<br />
indice non strutturato (Eco-ILI) di synset inglesi tratti da WordNet1.6.<br />
Il completamento di Eco-wn è stato realizzato come segue:<br />
i. Dalle fonti elencate in 1.2.1, in particolare da numeri del quotidiano Sole24Ore, sono stati<br />
estratti circa 1.500 nomi propri riferiti a titoli azionari e a fondi monetari, che sono poi<br />
stati inseriti in Eco-wn e collegati all’indice Eco-ILI mediante procedure automatiche.<br />
ii. I 70 “root concepts” del dominio economico, a partire dai quali sono state organizzate tutte<br />
le singole sottogerarchie, nell’ambito della linea 1.2 non erano stati in alcun modo<br />
collegati tra loro, sebbene vi fossero, in alcuni casi, relazioni concettuali piuttosto evidenti.<br />
L’organizzazione dei concetti del dominio economico-finanziario è stata completata<br />
nell’ambito della linea 1.3 mediante un’analisi del significato di questi synset e delle<br />
relazioni esistenti tra synset con significato affine, che ha portato a una loro<br />
ristrutturazione gerarchica, o<strong>per</strong>azione in cui i lessicografi sono stati affiancati da un<br />
es<strong>per</strong>to del dominio economico-finanziario. In figura 6 sono elencati in ordine alfabetico,<br />
a carattere esemplificativo, alcuni dei synset che al termine della linea 1.2 costituivano il<br />
livello dei “root synsets”. Nell’ambito della ristrutturazione effettuata in questa seconda<br />
fase, come si vede in figura 7, {azione} e {obbligazione} sono stati spostati ad un livello<br />
più basso, cioè tra gli iponimi di {titolo}; allo stesso modo anche {società}, {rendita} e<br />
{assicurazione} sono stati spostati più in basso nella gerarchia in quanto iponimi di<br />
{contratto}, così come {borsa}, che è un iponimo di {mercato}. Da questa fase è così<br />
emerso l’insieme dei “base concepts”, ovvero dei concetti che rivestono un ruolo di<br />
particolare importanza all’interno del dominio economico-finanziario.<br />
iii. Mediante il tool di navigazione ed editing implementato <strong>per</strong> <strong>ItalWordNet</strong>, sono stati<br />
inseriti manualmente circa mille sostantivi, individuati all’interno del corpus economico<br />
della componente Treebank di TAL e considerati dall’es<strong>per</strong>to di dominio come<br />
appartenenti al lessico economico-finanziario. In questa fase Wordnet1.6 è stato<br />
14
Linea 1.3 ItalWordnet<br />
interrogato manualmente <strong>per</strong> determinare i synset Eco-ILI a cui dovesse essere agganciata<br />
la relazione di equivalenza (o le relazioni di equivalenza) di ciascun synset.<br />
iv. Per quanto riguarda i verbi del dominio economico finanziario, sono state individuate due<br />
sottoclassi distinte: da un lato troviamo verbi con significato strettamente economico,<br />
ovvero verbi monosemici con significato economico (<strong>per</strong> esempio “demonetizzare” e<br />
“conguagliare”) e verbi polisemici caratterizzati da un’accezione con significato<br />
economico (ad esempio “evadere” e “investire”) e dall’altro verbi con significato generico,<br />
come “emettere”, che acquisiscono significato specificamente economico soltanto se<br />
abbinati a determinati termini appartenenti al dominio economico-finanziario (come <strong>per</strong><br />
esempio “moneta”, “assegni” o “fatture”, nel caso di “emettere”). Per caratterizzare questi<br />
verbi come appartenenti al dominio economico si è <strong>per</strong>tanto reso necessario stabilire<br />
relazioni “involved-role” con i nomi che ne determinano il significato attinente al<br />
dominio.<br />
v. Per quanto riguarda gli aggettivi del dominio economico finanziario, sono stati creati 57<br />
synset, <strong>per</strong> un totale di 65 lemmi. La struttura gerarchica degli aggettivi comprende due<br />
soli livelli: a circa trenta aggettivi derivati morfologicamente da sostantivi, come<br />
“borsistico” e “bancario”, è stato attribuito come i<strong>per</strong>onimo il synset {attinente relativo}, a<br />
una quindicina di aggettivi derivati da verbi, come “trasferibile” e “pagabile”, è stato<br />
attribuito come i<strong>per</strong>onimo il synset {passibile} 5 , mentre gli altri sono sullo stesso livello di<br />
{attinente relativo} e {passibile}.<br />
vi. Ciascuno dei synset è stato annotato con uno o più concetti della Domain Ontology. La<br />
Domain Ontology <strong>per</strong> il dominio economico-finanziario, modificata rispetto a quella<br />
definita nella linea 1.2 con l’introduzione del concetto “law”, comprende ora undici<br />
concetti, strutturati in gerarchia come in Figura 5.<br />
vii. Infine, ad ogni synset appartenente al database specialistico è stata applicata una procedura<br />
<strong>per</strong> l’assegnazione automatica di concetti derivati dalla Top Ontology di EuroWordNet,<br />
sulla base delle relazioni di equivalenza all’indice Eco-ILI. Nei casi in cui un synset<br />
economico risultasse collegato ad uno o più synset inglesi rientranti nella categoria dei<br />
“top concepts”, tale synset ereditava, insieme a tutti i suoi iponimi di ogni livello, lo stesso<br />
concetto (o gli stessi concetti) della Top Ontology. Laddove un synset non risultasse<br />
collegato ad alcuno dei “top concepts”, si è saliti nella gerarchia fino a trovare un<br />
i<strong>per</strong>onimo di livello su<strong>per</strong>iore che fosse collegato ad un “top concept” dal quale ereditare<br />
un concetto della Top Ontology. In molti casi ciò non è stato sufficiente <strong>per</strong> trovare un<br />
concetto da assegnare automaticamente e di conseguenza ai synset appartenenti ad alcune<br />
sottogerarchie non è stato possibile assegnare automaticamente alcun concetto della Top<br />
Ontology. Questi synset, quindi, potranno avere un collegamento con un concetto della<br />
Top Ontology soltanto nell’ambito della consultazione integrata, dove ciascuno di essi<br />
sarà direttamente o indirettamente collegato a concetti più generici di IWN.<br />
________________________________________________________________________________<br />
DO-Top<br />
economy<br />
book_keeping<br />
exchange<br />
tax<br />
5 Alcuni degli iponimi di{attinente relativo} e {passibile} sono stati collegati ai sostantivi e ai verbi da cui derivano,<br />
rispettivamente mediante relazioni “<strong>per</strong>tains_to” e “liable_to”.<br />
15
Linea 1.3 ItalWordnet<br />
money<br />
enterprise<br />
banking<br />
insurance<br />
commerce<br />
law<br />
transport<br />
Figura 5. Concetti della Domain Ontology Economico-finanziaria.<br />
ASSICURAZIONE<br />
AZIONE<br />
BORSA<br />
CONTRATTO<br />
MERCATO<br />
OBBLIGAZIONE<br />
RENDITA<br />
SOCIETÀ<br />
TITOLO<br />
Figura 6. Alcuni dei base concept economici così come apparivano al termine della linea 1.2, cioè privi di<br />
interrelazioni.<br />
CONTRATTO<br />
SOCIETÀ<br />
CONTRATTO ALEATORIO<br />
RENDITA<br />
ASSICURAZIONE<br />
MERCATO<br />
BORSA<br />
TITOLO<br />
AZIONE<br />
OBBLIGAZIONE<br />
Figura 7. I synset rappresentati in figura 6, dopo la ristrutturazione gerarchica effettuata nell’ambito della linea 1.3.<br />
1.2.3 Unità polilessicali (multiwords)<br />
Per il trattamento dei termini polilessicali, il problema di decidere quali varianti di un termine<br />
inserire nel synset come sinonimi è stato rilevante anche in questa seconda fase. In particolare, si è<br />
cercato di limitare la proliferazione di varianti, almeno a livello ortografico. Per quanto concerne le<br />
varianti apostrofate, ad esempio, nel database è stata inserita soltanto la forma estesa (quindi<br />
tasso_di_interesse e non tasso_d’_interesse) ma, tramite una serie di trasformazioni automatiche<br />
gestite dal software di accesso alla risorsa, è stato reso possibile accedervi anche tramite la variante<br />
apostrofata. Lo stesso metodo è stato applicato anche a varianti maiuscole/minuscole e a diversi<br />
caratteri di accento.<br />
1.2.4 Consultazione integrata del lessico generale a del lessico economico-finanziario<br />
Per <strong>per</strong>mettere la navigazione integrata delle due risorse è stato necessario collegare i synset<br />
economici a corrispondenti synset della risorsa generica e risolvere tutti i casi possibili di<br />
contraddizioni. A questo scopo sono state messe a punto due tipi di procedure: le relazioni di plugin<br />
e la procedura di oscuramento.<br />
16
Linea 1.3 ItalWordnet<br />
Le tre relazioni di plug-in sono:<br />
• PLUG_SYNONYMY, utilizzata <strong>per</strong> stabilire collegamenti tra coppie di synset del<br />
generico e del terminologico nei casi in cui sia possibile trovare coppie di synset che si<br />
sovrappongono semanticamente.<br />
• PLUG_NEAR_SYNONYMY, utilizzata <strong>per</strong> collegare coppie di synset che hanno un<br />
significato molto simile tra loro, ma non identico.<br />
• PLUG_HYPONYMY, impiegata <strong>per</strong> collegare un synset del lessico economico ad un<br />
synset del lessico generico con significato più generico, nei casi in cui nel lessico<br />
generico non esista alcun synset che vi si sovrapponga semanticamente.<br />
La procedura di oscuramento viene utilizzata, affinché nella consultazione integrata non<br />
appaiano doppioni, <strong>per</strong> oscurare i synset del lessico generico che si sovrappongono semanticamente<br />
con synset del lessico specialistico ma sono posizionati in maniera incoerente rispetto alla<br />
tassonomia di quest’ultimo. È il caso di {comodato}IWN, <strong>per</strong> esempio, che ha lo stesso significato<br />
di {comodato}Eco-wn, pur trovandosi tra gli iponimi di {credito#2 …}IWN anziché insieme ad<br />
altri tipi di {contratto}, come avviene invece nel database economico.<br />
Il numero totale di relazioni create <strong>per</strong> innestare Eco-wn in IWN, cioè <strong>per</strong> collegare almeno tutti<br />
i nodi terminali di Eco-wn, ammonta a 275 (99 relazioni di PLUG_SYNONYMY, 40 di<br />
PLUG_NEAR_SYNONYMY e 136 di PLUG_HYPONYMY), mentre 136 synset appartenenti a IWN sono<br />
stati eclissati <strong>per</strong> evitare che comparissero dei doppioni nella consultazione integrata. In totale, sono<br />
stati connessi a IWN più di 4.650 synset di Eco-wn (mentre soltanto poche decine di synset di alto<br />
livello stati oscurati <strong>per</strong> effetto delle relazioni di plug-in), il che significa che ogni relazione collega<br />
mediamente oltre una quindicina di synset. Il collegamento ha riguardato direttamente poco più di<br />
250 synset appartenenti a Eco-wn 6 , cioè una <strong>per</strong>centuale che si aggira attorno al 5,3% del totale.<br />
L’es<strong>per</strong>to di dominio si è mosso prendendo in considerazione l’insieme dei base concept di Ecown,<br />
che occupano i livelli più alti della gerarchia. In particolare, <strong>per</strong> ogni base concept si è cercato<br />
un synset IWN con lo stesso significato, a cui agganciare una relazione di PLUG_SYNONYMY o di<br />
PLUG_NEAR_SYNONYMY, secondo il grado di sovrapposizione semantica e lessicale<br />
({contratto}Eco-wn, <strong>per</strong> esempio, è stato collegato a {contratto}IWN mediante la relazione di<br />
PLUG_SYNONYMY, mentre la relazione di PLUG_NEAR_SYNONYMY è stata usata nel caso di<br />
{assunzione}Eco-wn e {assunzione ingaggio}IWN). In questo modo sono stati resi raggiungibili<br />
nella consultazione integrata anche gli iponimi dei livelli più bassi e, di conseguenza, si è rivelata<br />
necessaria una verifica costante dei synset di IWN da oscurare al fine di evitare doppioni.<br />
Nei casi in cui non è stato possibile trovare alcun synset corrispondente, laddove cioè sia stato<br />
riscontrato un “gap” nel database generico, si è cercato un synset con un significato più generico al<br />
quale agganciare una relazione di PLUG_HYPONYMY, verificando di volta in volta quali synset<br />
dovessero essere oscurati <strong>per</strong> evitare doppioni.<br />
6 Il numero di synset coinvolti è minore di quello delle relazioni create in quanto alcuni synset ECOWN sono stati<br />
collegati a due o più IWN synset.<br />
17
Linea 1.3 ItalWordnet<br />
1.2.5 Prosecuzione del lavoro<br />
Il risultato ottenuto al termine della linea 1.3 consiste in un wordnet economico finanziario con<br />
co<strong>per</strong>tura di circa 5.100 lemmi del dominio, in cui sono rappresentate le principali parti del<br />
discorso, sostantivi, verbi e aggettivi. L’attività proseguirà nella linea 1.4 lungo le seguenti<br />
direzioni:<br />
• Mantenere aggiornata la risorsa.<br />
• Correggere eventuali errori.<br />
• Fornire il supporto necessario <strong>per</strong> la valutazione della risorsa.<br />
1.2.6 Dati quantitativi<br />
Nella tavola seguente sono mostrati i dati quantitativi relativi al lessico economico-finanziario.<br />
Tavola 5<br />
<strong>ItalWordNet</strong> economico Nomi Verbi Aggettivi TOTALE<br />
Synset 4500 132 57 4689<br />
Numero di sensi (varianti) 5307<br />
X varianti <strong>per</strong> synset 1,13<br />
Corrispondenti a lemmi 4922 138 65 5125<br />
X sensi <strong>per</strong> lemma 1,04<br />
Relazioni interne 9372<br />
Media <strong>per</strong> synset 2<br />
Relazioni di equivalenza a (WN1.6) Eco-ILI 4776<br />
Media <strong>per</strong> synset 1,02<br />
Relazioni interne in dettaglio Nomi Verbi Aggettivi TOTALE<br />
NEAR_SYNONYM 4 4<br />
XPOS_NEAR_SYNONYM<br />
ANTONYM 6 6<br />
XPOS_ANTONYM<br />
HAS_HYPERONYM 2866 115 42 3025<br />
HAS_HYPONYM 2866 115 42 3025<br />
HAS_XPOS_HYPERONYM<br />
HAS_HOLONYM<br />
HAS_HOLO_PART<br />
HAS_HOLO_MEMBER<br />
HAS_HOLO_PORTION<br />
HAS_HOLO_MADEOF<br />
HAS_HOLO_LOCATION<br />
HAS_MERONYM<br />
HAS_MERO_PART<br />
HAS_MERO_MEMBER<br />
HAS_MERO_PORTION<br />
HAS_MERO_MADEOF<br />
HAS_MERO_LOCATION<br />
CAUSES<br />
IS_CAUSED_BY<br />
HAS_SUBEVENT<br />
IS_SUBEVENT_OF<br />
INVOLVED<br />
INVOLVED_AGENT 20 20<br />
INVOVED_PATIENT 64 64<br />
INVOLVED_DIRECTION<br />
INVOLVED_SOURCE_DIRECTION<br />
18
Linea 1.3 ItalWordnet<br />
INVOLVED_TARGET_DIRECTION 2 2<br />
INVOLVED_LOCATION 1 1<br />
INVOLVED_INSTRUMENT<br />
INVOLVED_RESULT<br />
IN_MANNER<br />
ROLE<br />
ROLE_AGENT 20 20<br />
ROLE_PATIENT 64 64<br />
ROLE_DIRECTION<br />
ROLE_SOURCE_DIRECTION<br />
ROLE_TARGET_DIRECTION 2 2<br />
ROLE_LOCATION 1 1<br />
ROLE_INSTRUMENT<br />
ROLE_RESULT<br />
BE_IN_STATE<br />
STATE_OF<br />
FUZZYNYM<br />
XPOS_FUZZYNYM<br />
PERTAINS_TO 18 18<br />
HAS_PERTAINED 18 18<br />
LIABLE_TO<br />
HAS_LIABILITY<br />
HAS_INSTANCE 1552 1552<br />
BELONGS_TO_CLASS 1552 1552<br />
TOTALE 8941 328 103 9372<br />
Relazioni di equivalenza in dettaglio Nomi Verbi Aggettivi TOTALE<br />
EQ SYNONYM 744 79 25 848<br />
EQ XPOS NEAR SYNONYM 1 3 20 24<br />
EQ NEAR SYNONYM 98 42 15 155<br />
EQ HAS HYPERONYM 2159 21 20 2200<br />
EQ HAS HYPONYM<br />
EQ ANTONYM<br />
EQ HAS HOLONYM<br />
EQ HAS MERONYM<br />
EQ INVOLVED<br />
EQ ROLE<br />
EQ CO ROLE<br />
EQ CAUSES<br />
EQ IS CAUSED BY<br />
EQ HAS SUBEVENT<br />
EQ IS SUBEVENT OF<br />
EQ IN MANNER<br />
EQ BE IN STATE<br />
EQ IS STATE OF<br />
EQ HAS INSTANCE<br />
EQ BELONGS TO CLASS 1549 1549<br />
EQ GENERALISATION<br />
EQ METONYM<br />
EQ DIATHESIS<br />
TOTALE 4551 145 80 4776<br />
19
Linea 1.3 ItalWordnet<br />
Riferimenti bibliografici<br />
Alonge, A., Bertagna, F., Calzolari, N., Roventini, A., Zampolli, A., 2000, “Encoding Information<br />
on adjectives in a lexical semantic net for computational applications” in Proceedings of the 1st<br />
Conference of the North American Chapter of the Associationfor Computational Linguistics,<br />
April, Seattle.<br />
Alonge, A., Bertagna, F., Calzolari, N., Roventini A. 1999. The Italian Wordnet. In: EWN CD-Rom<br />
(anche: http://www.hum.uva.nl/~ewn).<br />
Berlin, B. & Kay, P., 1969, Basic Colour Terms. Their Universality and Evolution, University of<br />
California Press, Berkeley and Los Angeles.<br />
Dixon, R.M.W., 1982, Where have all the adjectives gone? And others essays in semantics and<br />
syntax, Berlin, Mouton Publisher.<br />
Gruppo di Pisa, 1979, “Il Dizionario di Macchina del<strong>l'Italiano</strong>”. In: D. Gambarara, F. Lo Piparo, G.<br />
Ruggiero (a cura di), Linguaggi e formalizzazioni, Atti del Convegno Internazionale di Studi,<br />
Catania 1976, Roma, Bulzoni, pp.683-707.<br />
<strong>ItalWordNet</strong>: <strong>Rete</strong> <strong>Semantico</strong> lessicale <strong>per</strong> l’italiano, in: Documento di Specifiche Tecniche di SI-<br />
TAL, Manuale O<strong>per</strong>ativo, cap. 2., Gennaio 2000, Pisa.<br />
Zingarelli, N., 1989, Vocabolario della lingua italiana, Zanichelli, Bologna.<br />
20
Linea 1.3 ItalWordnet<br />
Sezione 2<br />
Valutazione della co<strong>per</strong>tura lessicale<br />
1 VALUTAZIONE ...................................................................................................................................... 22<br />
1.1 Ambiente e modalità di valutazione................................................................................................ 22<br />
1.2 Corrispondenza del modello alle specifiche ................................................................................. 22<br />
1.3 Valutazione di usabilità dell'interfaccia di ‘browsing’ .................................................................. 25<br />
1.4 Valutazione di integrabilità del software........................................................................................ 26<br />
1.5 Valutazione di co<strong>per</strong>tura del lessico .............................................................................................. 26<br />
1.5.1 Risultati dei test 27<br />
1.5.1.1 Test 1 – database generico - (su tutti i lemmi presenti nel corpus) ...................................................... 27<br />
1.5.1.2 Test 2 – database generico (sui lemmi rilevanti al fine della classificazione)...................................... 33<br />
1.5.1.3 Test 3 – database economico - (su tutti i lemmi presenti nel corpus)................................................... 34<br />
1.5.1.4 Test 4 – database economico (sui lemmi rilevanti al fine della classificazione).................................. 39<br />
1.6 note sui risultati dei test: ................................................................................................................. 40<br />
1.7 Trattamento MultiWord .................................................................................................................... 41<br />
21
Linea 1.3 ItalWordnet<br />
1 Valutazione<br />
Durante la linea 1.3 è stata effettuata una ri-validazione preliminare della risorsa e del software<br />
<strong>ItalWordNet</strong>, al fine di controllare l’evoluzione rispetto a quanto reso disponibile al termine della<br />
linea 1.2. L’attività è stata circoscritta ad una semplice rivalutazione di quanto già emerso, essendo<br />
una valutazione completa soggetto della successiva linea 1.4.<br />
In particolare, è stata effettuata una valutazione qualitativa delle funzionalità di interfaccia, una<br />
verifica dell’API (via il programma già sviluppato <strong>per</strong> il test effettuato nella linea 1.2,<br />
opportunamente esteso e modificato, ove necessario, a seguito di variazioni delle API) e sono poi<br />
stati ripetuti gli stessi test di co<strong>per</strong>tura effettuati al termine della linea 1.2, sugli stessi data set.<br />
Nel seguito vengono riportate informazioni riguardo all’ambiente hardware e software nel quale<br />
è stata valutata la risorsa, ai metodi seguiti e ai risultati delle valutazioni.<br />
1.1 Ambiente e modalità di valutazione<br />
Il sofware Italwordnet è stato installato su due Personal Computer (PC) connessi in rete:<br />
• un PC con 256 Mb di RAM e processore Intel PentiumIII, in ambiente Microsoft Windows NT<br />
4.0, Service Pack 6<br />
• un PC con 128 Mb di RAM e processore Intel III, in ambiente Microsoft Windows NT 4.0,<br />
Service Pack 6<br />
Sul primo PC è stato installato il server, il client e l’interfaccia grafica <strong>per</strong> il test delle API. Sul<br />
secondo PC è stato installato il client e l’interfaccia grafica <strong>per</strong> il test delle API.<br />
Il software è stato scaricato dal sito ILC (ftp.ilc.pi.cnr.it) il 2 aprile 2001 (archivi toolfile.zip,<br />
iwnclient.zip, gen_eco_hash.zip). L’istallazione e’ stata effettuata unzippando i sudetti file in una<br />
directory (toolfile.zip e gen_eco_hash.zip <strong>per</strong> il server, iwnclient <strong>per</strong> il solo client). Tutti i test sono<br />
stati fatti sul gen_eco_hash.zip datato 23/03/2001. Il software è stato testato da due collaboratori di<br />
Quinary, entrambi sviluppatori software con conoscenza pregressa del modello di <strong>ItalWordNet</strong>.<br />
La versione utilizzata era da considerarsi ‘pre final’; al di là di alcuni problemi minori, la cui<br />
risoluzione è attesa <strong>per</strong> la versione finale del sistema, la maggiore limitazione è stata legata alla<br />
mancanza di un ambiente integrante la risorsa generica e quella finanziaria. Tale limitazione era<br />
tuttavia in fase di risoluzione ed i test sono stati effettuati in modo da minimizzare l’impatto della<br />
mancanza.<br />
1.2 Corrispondenza del modello alle specifiche<br />
Come già visto al termine della linea 1.2, il modello, così come presentato dall’interfaccia di<br />
‘browsing’, corrisponde in termini di informazioni re<strong>per</strong>ibili e relazioni esplorabili al modello<br />
definito nel documento finale della linea 1.1.<br />
Rispetto a quanto visto nella prima valutazione sono state aggiunte informazioni sui domini nella<br />
risorsa economica: nella sezione domain fields <strong>per</strong> ogni synset e' visualizzata una lista di concetti,<br />
come law, economy, enterprise. Non e' chiaro <strong>per</strong>ò se sia una lista piatta di concetti oppure se<br />
organizzata in una gerarchia, come avviene <strong>per</strong> gli "ontology concepts", che sono collegati alla top<br />
22
Linea 1.3 ItalWordnet<br />
ontology di wordnet; apparentemente non esistono inoltre funzionalita'/API di search/browsing sui<br />
domain fields.<br />
Diverse relazioni sono ancora non valorizzate, anche se sono state effettuate aggiunte, come si<br />
evince osservando le statistiche <strong>per</strong> risorsa dall’interfaccia. Questo è particolarmente vero <strong>per</strong> il<br />
lessico economico, che risulta tuttora scorporato, mancando la relazione di innesto tra la parte<br />
generica e la parte specifica della risorsa. Per ora il database generico e quello contenente i termini<br />
economici-finanziari sono utilizzabili in alternativa, mentre, in seguito, dovrebbe essere possibile<br />
utilizzare un’unica risorsa, dove i nodi della rete corrispondente al lessico specifico sono innestati<br />
opportunamente nella rete corrispondente al lessico generico. Nell’ambito della linea 1.3 è stata<br />
quindi fatta una valutazione della co<strong>per</strong>tura lessicale delle due reti disgiunte (ma tenendo conto<br />
della mutua co<strong>per</strong>tura, come meglio dettagliato nel seguito) mentre ci si propone di valutare con<br />
attenzione la versione integrata nella linea 1.4.<br />
Si evidenzia ancora l’utilità che si avrebbe dalla presenza di glosse associate ai sensi, esistenti<br />
ma non complete. Va <strong>per</strong>ò detto che l’inserimento di glosse e definizioni non era previsto nel<br />
contratto, in quanto il legame a Wordnet avrebbe fornito anche una definizione, se pure in inglese, e<br />
che nel lavoro di revisione e di accrescimento realizzato nella linea 1.3 è stato evidentemente fatto il<br />
possibile <strong>per</strong> aumentare il numero delle definizioni.<br />
23
Linea 1.3 ItalWordnet<br />
DB economico<br />
4689 synsets (2948 nomi, 132 verbi, 57 aggettivi, 1551 nomi propri)<br />
5125 lemmi (3343 nomi, 138 verbi, 65 aggettivi, 1579 nomi propri)<br />
9372 relazioni interne, 4776 relazioni esterne<br />
relation n relation n<br />
near_synonym 4 co_agent_instrument<br />
xpos_near_synonym co_instrument_agent<br />
has_hy<strong>per</strong>onym 3025 co_agent_result<br />
has_hyponym 3025 co_result_agent<br />
has_xpos_hy<strong>per</strong>onym co_patient_instrument<br />
has_xpos_hyponym co_instrument_patient<br />
antonym 6 co_patient_result<br />
compl_antonym co_result_patient<br />
grad_antonym co_instrument_result<br />
xpos_antonym co_result_instrument<br />
xpos_near_antonym be_in_state<br />
has_holonym state_of<br />
has_meronym in_manner<br />
has_mero_part manner_of<br />
has_holo_part derivation<br />
has_mero_member liable_to<br />
has_holo_member has_liability<br />
has_mero_madeof is_a_value_of<br />
has_holo_madeof has_value<br />
has_mero_portion <strong>per</strong>tains_to 18<br />
has_holo_portion has_<strong>per</strong>tained 18<br />
has_mero_location has_instance 1552<br />
has_holo_location belongs_to_class 1552<br />
causes fuzzynym<br />
is_caused_by xpos_fuzzynym<br />
results_in eq_synonym 848<br />
is_result_of eq_xpos_near_synonym 24<br />
for_purpose_of eq_near_synonym 155<br />
is_purpose_of eq_has_hy<strong>per</strong>onym 2200<br />
is_means_for eq_has_hyponym<br />
has_means eq_antonym<br />
has_subevent eq_has_holonym<br />
is_subevent_of eq_has_meronym<br />
involved eq_involved<br />
role eq_role<br />
involved_agent 20 eq_co_role<br />
role_agent 20 eq_causes<br />
involved_patient 64 eq_is_caused_by<br />
role_patient 64 eq_has_subevent<br />
involved_instrument eq_is_subevent_of<br />
role_instrument eq_in_manner<br />
involved_location 1 eq_be_in_state<br />
role_location 1 eq_is_state_of<br />
involved_direction eq_has_instance<br />
role_direction eq_belong_to_class 1549<br />
involved_source_direction eq_metonym<br />
role_source_direction eq_diathesis<br />
involved_target_direction 2 co_agent_patient<br />
role_target_direction 2 co_patient_agent<br />
involved_result<br />
role_result<br />
co_role<br />
Tabella 1<br />
24
Linea 1.3 ItalWordnet<br />
DB generico<br />
49109 synsets (31828 nomi, 9512 verbi, 4109 aggettivi, 498 avverbi, 3161 nomi propri<br />
45006 lemmi (27881 nomi, 7785 verbi, 5195 aggettivi, 789 avvebi, 3356 nomi propri)<br />
126326 relazioni interne, 56624 relazioni esterne<br />
relation n relation n<br />
near_synonym 1424 co_role 110<br />
xpos_near_synonym 9350 co_agent_patient<br />
has_hy<strong>per</strong>onym 44615 co_patient_agent<br />
has_hyponym 44615 co_agent_instrument 6<br />
has_xpos_hy<strong>per</strong>onym 70 co_instrument_agent 6<br />
has_xpos_hyponym 70 co_agent_result<br />
antonym 1318 co_result_agent<br />
compl_antonym co_patient_instrument<br />
grad_antonym co_instrument_patient<br />
xpos_antonym co_patient_result<br />
xpos_near_antonym 28 co_result_patient<br />
has_holonym 352 co_instrument_result 1<br />
has_meronym 353 co_result_instrument 1<br />
has_mero_part 756 be_in_state 498<br />
has_holo_part 740 state_of 498<br />
has_mero_member 443 in_manner 172<br />
has_holo_member 443 manner_of 172<br />
has_mero_madeof 285 derivation 840<br />
has_holo_madeof 285 liable_to 227<br />
has_mero_portion 10 has_liability 225<br />
has_holo_portion 10 is_a_value_of<br />
has_mero_location 114 has_value<br />
has_holo_location 114 <strong>per</strong>tains_to 896<br />
causes 1045 has_<strong>per</strong>tained 890<br />
is_caused_by 1046 has_instance 3339<br />
results_in belongs_to_class 3339<br />
is_result_of fuzzynym 435<br />
for_purpose_of xpos_fuzzynym 972<br />
is_purpose_of eq_synonym 17210<br />
is_means_for eq_xpos_near_synonym 3<br />
has_means eq_near_synonym 16133<br />
has_subevent 186 eq_has_hy<strong>per</strong>onym 18882<br />
is_subevent_of 185 eq_has_hyponym 99<br />
involved 477 eq_antonym<br />
role 475 eq_has_holonym 36<br />
involved_agent 1274 eq_has_meronym 57<br />
role_agent 1274 eq_involved 747<br />
involved_patient 412 eq_role 29<br />
role_patient 413 eq_co_role<br />
involved_instrument 466 eq_causes 192<br />
role_instrument 466 eq_is_caused_by 151<br />
involved_location 123 eq_has_subevent 12<br />
role_location 122 eq_is_subevent_of 11<br />
involved_direction 15 eq_in_manner<br />
role_direction 15 eq_be_in_state 64<br />
involved_source_direction 50 eq_is_state_of 68<br />
role_source_direction 50 eq_has_instance<br />
involved_target_direction 49 eq_belong_to_class 2432<br />
role_target_direction 49 eq_metonym 470<br />
involved_result 117 eq_diathesis 28<br />
role_result 119<br />
Tabella 2<br />
1.3 Valutazione di usabilità dell'interfaccia di ‘browsing’<br />
La novita’ piu’ rilevante <strong>per</strong> quanto riguarda l’interfaccia client di ItalWordnet e’ la possibilita’<br />
di importare/esportare dati in formato XML (anche se non e’ ancora attivo l’export selettivo su<br />
synset specifici). Le relazioni anomale (con target a NIL) sono scomparse. Per quanto riguarda<br />
25
Linea 1.3 ItalWordnet<br />
l’usabilità dell’interfaccia valgono sostanzialmente le considerazioni espresse nel documento<br />
precedente.<br />
1.4 Valutazione di integrabilità del software<br />
Le API di IWN sono state testate sia utilizzando l’interfaccia Tcl/Tk sviluppata da IRST che<br />
integrando le chiamate di funzioni in un modulo software Java.<br />
Tutte le API testate funzionano correttamente e sembrano fornire una co<strong>per</strong>tura adeguata in<br />
termine di funzionalità di ricerca. Una funzionalità tuttora non co<strong>per</strong>ta dalle API, che forse potrebbe<br />
essere utile <strong>per</strong> un’applicazione esterna è la ricerca <strong>per</strong> sottostringhe.<br />
Difficile da utilizzare è <strong>per</strong>ò la sintassi LISP-like di output delle API: la presenza di parentesi<br />
graffe e di stringhe con apici quotati rende difficile l’interpretazione dei risultati e necessario lo<br />
sviluppo di parser specifici. Tra le possibili alternative, si suggerisce di valutare l’utilizzo opzionale<br />
di XML come formato di output <strong>per</strong> le chiamate API.<br />
La documentazione delle API, fornita in linea con l’interfaccia grafica e in formato testuale, è<br />
abbastanza dettagliata da <strong>per</strong>mettere l’utilizzo delle funzioni. Al fine di rendere possibile la<br />
distribuzione ad utenti finali, è <strong>per</strong>ò necessario integrarla con alcuni esempi di utilizzo all’interno di<br />
alcuni linguaggi di programmazione.<br />
Al fine di iniziare a valutare i tempi medi di risposta delle funzioni di accesso si è misurato il<br />
tempo di CPU utilizzato dal programma realizzato <strong>per</strong> valutare la co<strong>per</strong>tura lessicale della risorsa. Il<br />
test è stato eseguito accedendo con un client Java al server Lisp Italwordnet, installato sulla stessa<br />
macchina (Windows NT, 256 MB RAM, processore Pentium III). Il tempo medio di risposta <strong>per</strong> la<br />
chiamata API alla funzionalità di overview (utilizzata dal programma di test) è stato di 200 ms,<br />
inclusi i tempi di lettura/scrittura su socket. Lo stesso test effettuato sulla versione rilasciata al<br />
termine della linea 1.2 aveva dato 250 ms (ma su una macchina meno potente, un Pentium 200 con<br />
128 Mb di Ram)<br />
Per alcune API le specifiche nel manuale utente non sono allineate con cio’ che e’ realmente<br />
richiesto/prodotto dal server ItalWordnet:<br />
api-variant: in input e’ richiesto il POS del termine cercato<br />
api-relation: in output vengono prodotti anche l’ IR-ID, il POS<br />
api-ili-lemmas: in input e’ richiesto, come al solito, il DATABASE da utilizzare<br />
1.5 Valutazione di co<strong>per</strong>tura del lessico<br />
In questa linea è stata effettuata una valutazione automatica di co<strong>per</strong>tura, utilizzando il corpus e<br />
la metodologià utilizzati <strong>per</strong> la valutazione al termine della linea 1.2. Sono stati utilizzate le stesse 2<br />
liste di lemmi usate nella linea 1.2, derivate rispettivamente da una semplice lemmatizzazione dei<br />
testi del corpus e dai soli lemmi usati <strong>per</strong> la classificazione delle notizie. Entrambe le liste sono state<br />
poi utilizzate <strong>per</strong> verificare la co<strong>per</strong>tura della risorsa generica e di quella finanziaria.<br />
Al contrario di quanto riportato al termine della linea 1.2 tuttavia, i test sono stati effettuati sul<br />
corpus ‘as is’, ovvero senza elimimare preventivamente (cosa che era stata fatta <strong>per</strong> i test della linea<br />
1.2) l’ insieme di token corrispondenti a errori tipografici (es. ANNì, CAPACVIT`), sigle ed altri<br />
26
Linea 1.3 ItalWordnet<br />
elementi ‘spurii’. Questo al fine di avere una valutazione non solo della co<strong>per</strong>tura rispetto ad un<br />
testo ‘ideale’ (una stima si ottiene comunque dal quarto test, e misure più precise saranno<br />
comunque derivate nella linea 1.4) ma anche rispetto a testi reali, contenti un normale ‘rumore’<br />
dovuto ad errori o altro.<br />
1.5.1 Risultati dei test<br />
Vengono riportati nel seguito i risultati dei test automatici di co<strong>per</strong>tura, eseguiti <strong>per</strong> la risorsa<br />
generica e <strong>per</strong> quella finanziaria. La non disponibilità alla data dei test dell’integrazione delle due<br />
risorse ha ovviamente rappresentato una limitazione, ma i test, anche separati, <strong>per</strong>mettono<br />
comunque di valure l’ipotetica co<strong>per</strong>tura di una risorsa integrata. Nella valutazione dei risultati della<br />
risorsa economica sono stati infatti ‘esclusi’ i termini mancanti ma risultanti da una ricerca nella<br />
risorsa generica. In questo modo è stato possibile valutare almeno qualitativamente i risultati<br />
ottenibili sulla risorsa integrata.<br />
La co<strong>per</strong>tura sembra ragionevole (considerando i due lessici come integrati, ovvero valutando i<br />
risultati complessivi); la maggior parte dei lemmi non trovati sono rappresentati da errori<br />
tipografici, parole straniere, sigle ed altro, una parte è rappresentata da aggettivi e solo una parte<br />
ridotta rappresenta una effettiva mancata co<strong>per</strong>tura. Il successivo paragrafo riporta le casistiche<br />
determinate. E’ tuttavia da notare che considerando queste casistiche si rimane su valori (76%<br />
quando il test viene effettuato su tutti i lemmi presenti nel corpus e 90% quanto il test è eseguito sui<br />
lemmi rilevanti al fine della classificazione) di cui bisogna tener conto nel confronto su un corpus<br />
‘reale’ e non filtrato a priori.<br />
1.5.1.1 Test 1 – database generico - (su tutti i lemmi presenti nel corpus)<br />
Numero Lemmi cercati: 5577<br />
Numero e <strong>per</strong>centuale Lemmi trovati nella risorsa generica: 4235 (76%), non trovati 1342<br />
Lista Lemmi non presenti in IWN<br />
A.D. A.S.ROMA A130MILA ABBASTANZA<br />
ACCELERAIZONE ACCELERE ACCISE ACCOGLIBILE<br />
ACCORD ACCUMULE ACQUISI ACQUISTER`<br />
ACTION ACTIONNARIAT ADB ADDEBITABILE<br />
ADDIRITTURA ADESSO ADOLOR ADOTTANDO<br />
AERIENNES AFETR AFTER AFTER-SERVICE<br />
AGEVOLATO AGOSTO-SETTEMBRE AGR AGRANDIT<br />
AIUTER` ALIMENTE ALLEMAND ALLEMANDES<br />
ALLIANCE ALLIE ALLIER ALLORA<br />
ALMENO ALTRIMENTI AMERICAINE AMM-MLP-R<br />
AMM-MLP-R-Y AMM-R AMM-Y-R ANCHE<br />
ANCHENELLA ANDRIESE ANNEE ANNONCENT<br />
ANNì ANS ANTI-GATES ANTI-INFLAZIONE<br />
ANTI-TRUST ANTICOMPETITIVE ANTICONCORRENZIALI ANTIMONOPOLISTICI<br />
ANTINFLATTIVO ANTIRICICLAGGIO ANZITEMPO APPELLENT<br />
APPENA APPLICATIONS APPOSITO APPOSITO<br />
APPREZZATORI APR APRES APRILE-INIZIO<br />
APRILEGIUGNO ART ASPIRAPOLVERI ASSAI<br />
ASSEMBLEARI ASSET ASSURANCES AT&T<br />
AT&T ATESA ATTEINT ATTENDENDERSI<br />
27
Linea 1.3 ItalWordnet<br />
ATTENTION ATTESDAS ATTIRENT ATTIVITA<br />
ATTIVIT` AU AU AUGMENTE<br />
AUTO(MARZO AUX AVANZATO AVERTISSEMENT<br />
AVOCATS AVR` AVVALERE AVVIATO<br />
AZERO BACK BACK-UP BAHT<br />
BAISSE BAISSER BANCASSURANCE BANK<br />
BANKING BAPTJME BARRAGE BARS<br />
BAS BELGE BELL BENASSI<br />
BENEFIT BENINO BENZ BERGO<br />
BERSANI BICAMERALE BIEN BIENTOT<br />
BILATERALE BLACK BLOCKBUSTER BLUE-CHIP<br />
BLUE-CHIPS BMW BNL-S.PAOLO BOARD<br />
BOEING BOOK BORSINI BOURSE<br />
BRANLE-BAS BRASSEUR BREVE/MEDIO BRITANNIQUES<br />
BTP.<br />
BUSINESS-TO-<br />
BUY<br />
BUYBACK<br />
BUSINESS<br />
BY C' C.AGRICOLE C.SINISTRA<br />
C.SINISTRA CABLE CADAUNA CADEAU<br />
CAFFH CAFFI CALER` CALL<br />
CALL CAMBI:ANALISI CANDITO CANOSANI<br />
CAP CAPACVIT` CAPITAL CAPITOLINA<br />
CARD CARO-DOLLARO CARODOLLARO CARRIER<br />
CARTARI CARTARIE CARTOLARIZZAZIONE CASH-FLOW<br />
CASTAGNETTI CATERING CCT. CDA<br />
CEDER` CENTER CENTS CERCLE<br />
CETTE CHAEBOL CHAEBOL CHARGEDE<br />
CHARITY CHAT-ROOM CHAUDS CHEVRE<br />
CHIP CHIPS CHITI CHOU<br />
CHUTE CHUTER CIANINESSUN CIN<br />
CINQ CIR CIRCA CITATO<br />
CLICCA CLOSE CO-LEAD COALBED<br />
COGMBINI COL-AMR COLLOCATORE COLLOCHEWRà<br />
COM-AMM-G-R COM-AMM-GR-R COM-AMM-R COM-AMM-Y-R<br />
COM-COL-R COM-EMI-SD COM-FDR-R COM-GAL-PA<br />
COM-GGZ-R COM-GIC-P-R COM-GIC-R COM-MAR-R<br />
COM-MCT-R COM-MLP-R COM-PDA-R-Y COM-RRO-DM-R<br />
COM-RRO-G-R COM-RRO-LC-R COM-RRO-P-R COM-RRO-R<br />
COM-RRO-Y-R COM-SAL-R COM-STG-R COMBINIS<br />
COMBUSTIBILì COMMENT COMMERCE COMMISSAIRES<br />
COMMODITIES COMMUNICATION COMMUNICATIONS COMPAGNIES<br />
COMPANY COMPETITOR COMPOSITE COMPRAVEDITA<br />
COMPRESSO COMPROMIS COMPTAIT COMUNQUE<br />
CONCAMBI CONCENTRE CONDAMNE CONDIZINATO<br />
CONFESERCENTI CONFIANCE CONGRUITà CONIGLIETTO<br />
CONNETTIVITà CONNOTATO CONSEGUENTEMENTE CONSEILS<br />
CONSENSUS CONSIDERATO CONSIDERENT CONSIGLIATO<br />
CONSOMMATEUR CONSORTILE CONSUMER CONSUNTIVATI<br />
CONTEMPO CONTINURà CONTRALTARE CONTRE-ATTAQUE<br />
CONTRO-OFFERTA CONTRO-OPA CONTRO-PROPOSTA CONTRODEDUZIONE<br />
CONTROLLATO CONTROPA CONTROPARTITà CONTRTLE<br />
CONVENIENCE CONVICENTE COORDINATOR CORPORATION<br />
CORRECT COSIDDETTO COSL COST<br />
COSTI-RICAVI COSì COUNTER COVERED<br />
CO{T CRAINTE CRASH CREATIONS<br />
CREDIT CREDITORE CREVE CRISE<br />
CROISSANCE CUSTOMIZZATI CW DA<br />
DA DACCAPO DANS DAVVERO<br />
DAY DAYTRADER DEBACLE DEBITORIO<br />
DECHIRE DECOLLENT DEFLATORE DEFLATORE<br />
28
Linea 1.3 ItalWordnet<br />
DEFLATTORE DEGNO DEGRINGOLER DEL'AMBIENTE<br />
DELIBERATO DELL DELLì DEMANDER<br />
DEMANIALI DEMANTELEMENT DEPENSES DER<br />
DERAPAGE DERNIERE DESCENTE DESENGAGE<br />
DESK DESTAGIONALIZZATI DETERMINATO DETTAGLIATO<br />
DETTAGLIATO DEUX DEVISE DEVISES<br />
DEVRONT DIESEL DIETIMI DIETRO<br />
DIFATTO DIFFICOLT` DIFFUSIOEN DIGITAL<br />
DIGITALIZZAZIONE DIGITALWORK.COM DIGITAZIONE DILATORIO<br />
DILIGENCE DILUTIVO DIRECTORSHIP DISCOUNT<br />
DISCREZIONALITà DISDETTATO DISINVESTIMENTO DISMETTERE<br />
DISMISSIONE DISMISSIONI DISPONIBLE DIVISENT<br />
DIX.IT DL DL DLR<br />
DLR DLR. DMAIL.IT DMH<br />
DOCENZA DOLLARO/BOND DONT DOPO<br />
DOPODOMANI DORE DOT DOVERE+VERB+PRESI<br />
ND<br />
DOVUTO DOWN-MOVE DRAMMATIZZAZIONE DU<br />
E-BUSINESS E-COMMERCE E-ECONOMY E-EXCELLENCE<br />
E-MAIL E-TRADE E.BISCOM E.BISCOM<br />
E.COMMERCE E.COMMERCE E.VOCI E.VOCI<br />
EBITDA EBUSINESS ECCO ECHEC<br />
ECONOMETRICI ECONOMIQUE ECONOMIQUE ECONOMIQUES<br />
ECONOMY EDIFICABILI EFFETTUTO EFFRAIE<br />
ELARGISSEMENT ELETTRICITA EMI-PA EMMANUELLI<br />
EMOLUMENTI EMPJCHE EN ENCHERES<br />
ENCORE END ENFERS ENFONCE<br />
ENGINEERING ENNESIMO ENTAMENT ENTERTAINMENT<br />
ENTITA ENTRAINE ENTRANTS ENTREE<br />
ENTREPRISES ENTREVOIT ENTRY ENVISAGE<br />
ENVISAGENT EPARGNE EPARGNEE EPREUVE<br />
ESERCITABILI ESERCIZIOIN ESERCIZIò ESPNASIONE<br />
ESPORTATORE ESPRIT ESSENCE EST-CE<br />
ESTERA-VENERDì ETHIQUE ETRANGER EURO<br />
EUROBANCOMAT EUROBBLIGAZIONARI EUROPEENNE<br />
EUROPEENNES<br />
O<br />
EUROPEENS EUROS EURò EX-BIN<br />
EXCLUT EXPANSION EXPENSIVE EXTRACARATTERISTIC<br />
A<br />
FABRICANT FACE FACILITEE FAIBLIT<br />
FAILLI FAIRE FAIRE FAIT<br />
FAUT-IL FDR-NEP-P-R FDR-R FDR-R-Y<br />
FDR-Y-R FEBB FER FESTIVIT`<br />
FEU FF FILING FINANZIARI-<br />
ASSICURATIVI<br />
FINCANTIERI FINO FINORA FISCALITE<br />
FISCALITà FISSATO FLANCHENT FLASHMALL.IT<br />
FLAT FLOW FOIRE FONDER`<br />
FORCEE FORFETARIE FORMALISE FORMER<br />
FRANCIA-BUDGET FRANCS FRANGAIS FRANGAISE<br />
FRATTEMPO FRAUDE FRAZIONALMENTE FRAZIONATO<br />
FREINER FUTURES GAGNE GASIERI<br />
GBTEAU GE.SI GEFRANONLINE.IT GENERIQUES<br />
GENNAIO-FEBBRAIO GENNAIO-MARZO GENNAIOMARZO GG<br />
GGZ-R-Y GIA GIC-P-R GIC-R<br />
GIORNALMENTE GIOVEDI GIY GI`<br />
GIà GJNE GLOBAL GLOBAL<br />
GOG-MCT-PDA-NEP-P-R GOG-MCT-PDA-NEP-R-<br />
Y<br />
GOG-NEP-PDA-G-R GOG-PDA-G-R<br />
29
Linea 1.3 ItalWordnet<br />
GOG-PDA-R GOG-R GOG-R-Y GOLDEN<br />
GOURME.COM GOURMET.COM GOURMET.COM GOURMET.NET<br />
GOUVERNEMENT GRAFICISTI GRAND GRANDES<br />
GREEN GROUP GUERRINI GUETTE<br />
HANDLING HARD HAUSSE HAUSSES<br />
HAWKISH HDP HEURE HI-TECH<br />
HIGH HIT HOC HORS<br />
HOURS HUB I.NET IDENTIT`<br />
IDROELETTRICO IERIHA II ILLIQUIDA<br />
ILLUSTRERA ILRISULTATO IMMOBILIARIA IMMODIFICABILITà<br />
IMPLANTE IMPLEMENTAZIONE IMPORTATION IMPORTATORE<br />
IMPRENDITORIALE IMPRENDO IMPTTS IMPUGNATIVA<br />
IMS IN INCARICATO INCIDER`<br />
INCIRCA INCOME INCOMPENTENTI INCREMENTABILI<br />
INCUBATORE INDEX.HTML INDICATO INDICIZZATO<br />
INDIETRO INDUSTRIARE INEFFICACE INFEROCITI<br />
INFEROCITO INFINE INFLATION INFLATION<br />
INFLATIVE INFLATIVI INFLATIVO INFORMATION<br />
INFORMATIONS INFORMES INGROSSO INIDONEITà<br />
INNANZITUTTO INNERVOSIRE INOLTRE INSIDER<br />
INSOMMA INSTALLAZIONE INSù INTANTO<br />
INTENSIFICARE INTENZIONATO INTERATTIVA INTERCONTINENTALE<br />
INTERCOREANI INTERGOVERNATIVO INTERGRUPPO INTERJT<br />
INTERLOCKING INTERMARKET INTERMEDIATO INTERMEDIO<br />
INTERMINISTERIALE INTERNET-2 INTEROPERATIVI INTEROPERATIVO<br />
INTEROPERATIVO INTINI INTORNO INTRADAY<br />
INTRODUCTION INV INVECE INVERTITO<br />
INVESTISSEURS INVESTMENT INZIATE IRREALISTICI<br />
IT ITALOINGLESE ITINERE JACKPOT<br />
JE JKIGYO JOINT JOINT-VENTURE<br />
JP JSG JTRE JUSQù<br />
JUSTIFIER JV KILOBYTES KM.<br />
L' L' L?INTERESSE LAB<br />
LAN-PA LANCEMENT LANCER LANCIATO<br />
LAND LARIANO LAVAGNINI LAVORATO<br />
LEAD LEASING LEGAUX LEGERE<br />
LES LEUR LEURS LEVERAGED<br />
LEXAR LIBERALDEMOCRATICI LIBRARY LICENCES<br />
LIGNE LII LINEATTIVA LINUXCARE<br />
LIQUIDIT` LIVRES LOCAL LOCALES<br />
LOCALIZZATO LOMBARDINI LONG LOOP<br />
LOR-AMR LUCCHINI LUNEDL LUP<br />
LUP-AMR LUP-Y Lì MACRO<br />
MACROECOMICI MACROECONOMICHE MACROECONOMICI MADE<br />
MADE MAG MAGGIORMANETE MAGOT<br />
MAI MAJORITE MALADES MALFUNZIONAMENTO<br />
MALGRE MALO MAN-AMR-M MAN-AMR-M-Y<br />
MAN-AMR-Y-M MAN-EST-M MANOVRINA MANTENUTO<br />
MANZINI MAPPATURA MAR-R MARGINALIZZAZIONE<br />
MARIAGE MARTEDI MARTERDì MAS-R<br />
MASSIMIZZARE MASTER MAX MAX-MIN<br />
MAXIDIVIDENDO MAXIESBORSO MAXIPLUSVALENZE MCI<br />
MCI MCT-GOG-G-R MCT-GOG-GR-R MCT-GOG-NEP-PDA-R-<br />
Y<br />
MCT-GOG-PDA-G-R MCT-GOG-PDA-NEP-R- MCT-PDA-GOG-NEP MCT-PDA-GOG-NEP-R<br />
Y<br />
MCT-PDA-GOG-NEP-R- MCT-R MCT-R-Y MCT-Y-R<br />
Y<br />
MDS MEDIASETONLINE.IT MEDICAMENTS MEDIO-LUNGO<br />
30
Linea 1.3 ItalWordnet<br />
MEGAOFFERTA MEGAWATT MENACEE MENAGE<br />
MERCHANT MESA MESE/INIZIO MET<br />
METHANE MEZZ' MICROCHIP MICRODANNI<br />
MICROIMPRESE MIEUX MILA MILLIARDS<br />
MILLION MINI-STRETTA MINISTRES MINUTA<br />
MIS MLN MLN MLP-AMM-R<br />
MLP-LC-R MLP-LC-R-Y MOBILES MODERNIZZAZIONE<br />
MODUS MOL MONEY MONITORANDO<br />
MONOPOLE MONOPOLISTA MORALISEE MORGANDO<br />
MOUVEMENTS MOVERS MUENCHENER MULTI-MARCA<br />
MULTICANALE MULTIMEDIALE MULTIPLIE MULTISERVIZI<br />
MULTISERVIZIO MULTIUTILITY NAV NAZIONALIZZATA<br />
NAZIONALIZZATE NEANCHE NEGATIVITà NEGOZIABILITà<br />
NELL NEOLAVORATORI NEOMINISTRI NEP-G-R<br />
NEP-GOG-PDA-MCT-P-R NEP-GR-R NEP-LC-R NEP-MCT-GOG-PDA-<br />
GR-R<br />
NEP-MCT-PDA-GOG- NEP-PDA-GOG-P-Y NEP-PDA-R-Y NEPPURE<br />
GR-R<br />
NERò NETWORKING NEUTRO-NEGATIVO NEW<br />
NEWSLETTER NON NON-INFLAZIONISTICA NORDCOREANO<br />
NORDCOREANO NOTA_DEL_REDATTOR NOUVEAU<br />
NOUVEAUX<br />
E<br />
NOUVELLE NOUVELLES NUMBER NUTRITO<br />
Nè Nè OBSTACLES OCCHIELLò<br />
ODG OFFSHORE OK OLD<br />
OLD OLTRE OLTREFRONTIERA OLTREOCEANO<br />
ON-A-CHIP ONLINE OPA OPAS<br />
OPTIONS ORAMAI ORD ORD.<br />
ORDIANRIO ORIENTATO ORMAI OSTA<br />
OTTIMALè OUT OUT-OF-THE OUTLOOK<br />
OVE OVER OVERBIDDING P.CREMONA<br />
PAGAMMENTO PAGANO PAIEMENT PAN-EUROPEO<br />
PAR PARIMENTI PARITA PARITARIO<br />
PART PARTENAIRES PARTICOLAR PARTIELLE<br />
PARTIS PAS PASSACANTANDO PAY<br />
PCO-PA PDA-DM-R PDA-FDR-R PDA-G-R<br />
PDA-G-Y-R PDA-MCT-DM-R PDA-MCT-DM-R-Y PDA-MCT-GOG-NEP-R-<br />
Y<br />
PDA-MCT-GOG-P-R-Y PDA-MCT-GOG-R PDA-MCT-NEP-GOG-R PDA-MCT-R<br />
PDA-MCT-R-Y PDA-NEP-GR-R PDA-NEP-P-R-Y PDA-NEP-R<br />
PDA-P-R PDA-R PENCE PERALTRO<br />
PERCHI PERD PERDUTO PERFINO<br />
PERR PERSEGUIRA PERSINO PESOS<br />
PG PHONE PICK PIEGER<br />
PIU PIU PIUTTOSTO PIY<br />
PLAN PLANCHERS PLAYER PLENARIO<br />
PLURIENNALE PLUS PMI POCHINO<br />
POIDS-LOURDS POLE POLICY POLTRONISSIMA<br />
PORTABILITY POSITION POSIZIONAMENTO POSIZIONARSI<br />
POSSIBILIT` POST POSTVENDITA POTEBBERO<br />
POTR` POUND POUR POUR<br />
POURRAIENT POURRAIT POURSUIT POUSSE<br />
POUSSEE PRE PRE-APERTURA PRE-CRISI<br />
PRE-SELECTION PREACCORDO PREAPERTURA PRECONSUNTIVO<br />
PRECOTTO PREDEFINIRE PREFERRED PREGRESSA<br />
PREMERCATO PREND PRENNENT PREPARE<br />
PREPARE PREPARENT PRESIDENT PRETS<br />
PREVENDITA PREVIO PREZZATO PRICE<br />
PRICE-CAP PRIMAVERA-ESTATE PRIOPRIO PRIV<br />
31
Linea 1.3 ItalWordnet<br />
PRIX PRJTS PROCAPITE PROCESSING<br />
PROCHAINS PROCHES PROCINTO PROD<br />
PROD. PRODUCTION PRODUZIONE+05% PROFORMA<br />
PROLUNGATO PROPRIET` PROSEGURE PROSIMI<br />
PROTEGE PROVVISTO PRUDENZIALI PT<br />
PUCES PUNATNDO PUO PURE<br />
PURTROPPO PUT Pò QUALE<br />
QUALI QUALITA QUANTIFICARE QUARTIER<br />
QUASI QUE QUE QUERELLE<br />
QUI QUINQUENNALE RACHAT RACHETERAIT<br />
RADICAMENTO RADIOCOR RAFLE RAISONS<br />
RANGE RAPITORE RAPPORTE RAREFARE<br />
RAREFATTO RATING RATIO RC<br />
RED RED RED-CIN-PA RED-RMI-SD<br />
REDDITIVITA REDDITOMETRO REDDITUALI REDINE<br />
REDUCE REFORMATEUR REFORME REFORMES<br />
REGALA.IT REGOLATO REGOLATORIA REGULATIONS<br />
RELEVE RELEVEE RELEVER RENAULT<br />
RENCONTRE RENCONTRER RENDICONTAZIONE RENVOIE<br />
REPO REPORT REPOUSSER RESIDUALE<br />
RESO RESSERRE RESULTAT RETAIL<br />
RETAILERS RETROACTIF RIALZISTA RIALZISTE<br />
RIALZISTE RIALZISTI RIASSEGNARSI RIAVVIANO<br />
RIBASSISTE RIBASSISTI RIBILANCIAMENTO RIBILANCIARE<br />
RICENTRARSI RICHIESTO RICHIO RICOMPRESE<br />
RICONSIDERAZIONE RICOPERTURE RIDENOMINARE RIEQUILIBRIO<br />
RIFINANZIAMENTO RIGUARDER` RILENTO RIMARCARE<br />
RINGGIT RIOFFERTA RIPARTO RIPONDENDO<br />
RIPOSIZIONAMENTO RIPOSIZIONARSI RIS RISCHIO-TASSI<br />
RISCUOTIBILI RISOSPESA RISOSPESO RISP<br />
RISPONDITORE RISULTANZA RITARDATO RMI-Y<br />
RNC ROAD ROAMING ROE<br />
RONDELLI ROUTE RPT RRO-R<br />
RT RUMOR RUMORS RYRYRYRYRYRYRYRY<br />
RYRYRYRYRYRYRYRY<br />
RYRYRYRYRYRYRYRY<br />
RY<br />
S&P S&P SAL-GR-R SAL-P-R<br />
SAL-R SAL-Y-R SALARIATE SALARIES<br />
SALVI SANCTIONNEE SANZIONATORI SARA<br />
SAR` SAR` SATELLITARI SCALABILE<br />
SCALETTATI SCELTO SCOEITà SECURITIES<br />
SEDUIT SEGMENTARE SEGNATO SEGUIR`<br />
SEMAINE SEMESTRALE SEMI-FESTIVA SEMI-FESTIVO<br />
SEMIFESTIVO SEMISOMMERGIBILE SEMPRE SENATRICE<br />
SENG SENTIMENT SERAIENT SERVIR`<br />
SERVIZIOAPPALTI.ILSO SES SETTLEMENT SHARE<br />
LE24ORE.IT<br />
SHARES SHARING SHOE SHORTLIST<br />
SHOW/SU SIDE SIDEWAYS SIGNES<br />
SIM SINERGIè SITO-WEB SMALTIMENTO<br />
SNELLIMENTO SOC SOCIALEMENT SOCIAUX<br />
SOCIETA SOCIETA-MERCATO SOCIET` SOCIET`<br />
SOFT SOPRATTUTTO SOPRATUTTO SOPRAVVALUTAZIONE<br />
SORT SOSPESIONI SOSTENIBILITà SOSTENUTO<br />
SOUTIEN SOVRAPREZZATE SPA SPECIALIST<br />
SPECTRE SPECULATION SPECULATRICES SPIN-OFF<br />
SPLIT SPLITTING SPREAD SPYSTOCKS.IT<br />
SRL SRUDIARE STABILIT` STAMANE<br />
32
Linea 1.3 ItalWordnet<br />
STAMANI STANPOOR'S START-UP STASERA<br />
STAZIONARE STELLAGE STEREO STG<br />
STG-R STILARE STOCK-OPTIONS STORES<br />
STOUT STRAP STRATEGIST STRIKE<br />
STRIP STRUCTURELLES SUBITO SUDCOREANO<br />
SUDCOREANO SUDDETTO SUPERATO SUPERBORSA<br />
SUPERDOLLARO SUPPLENTE SUPPLIERMARKET.CO SUPPORTATI<br />
M<br />
SUR SUR SUSSIDIARIO SWITCHING<br />
SYSTEMATIQUES Sì TAIWANESE TANDIS<br />
TANTO TANTOPIù TARIFFARIA TARIFFARIE<br />
TAUX TECH TECNICO-OPERATIVA TEDESCO-AMERICANA<br />
TEDESCO-AMERICANO TELCO TELEPHONES TELEPHONIE<br />
TEMPISTICO TEMPJTE TEND TERM<br />
TFR TH TICK TIE-UP<br />
TIROLI TISCALI TITOLI-INCASSO TLC<br />
TLC. TMM-SD TMMS-SD TO-CONSUMER<br />
TOURNANT TOUTES TRACENT TRACKING<br />
TRADER TRADING TRASFORNARSI TRAVAIL<br />
TRENTENNALE TRIM TRIMESTRELA TRIPLA<br />
TURNOVER TUTTORA TX ULTRAPROTETTO<br />
UNBUNDLING UNIFAMILIARE UNIQUE UNIT`<br />
UP USCENTE UTILITIES VALIDAZIONE<br />
VALORISE VALUE VALUTARIO VENDERA<br />
VENERDI VENTE VENTIESIMO VENTURO<br />
VERITEDE VERR` VERS VEUT<br />
VEUVAGE VI VICEMINISTRO VICIEUX<br />
VIDEOGIOCHI VIEW VIGENTE VIGENTI<br />
VIRAGE VIRTUAL VITA-INVESTIMENTO VOCE-DATI<br />
VOULAIS WARRANT WARRANTS WEB<br />
WEEK WHEREVER.NET WIRELESS WON<br />
WWW. WWW.BORSAITALIA.IT XII XX<br />
Y&R ZLOTY ZONES<br />
1.5.1.2 Test 2 – database generico (sui lemmi rilevanti al fine della classificazione)<br />
Numero Lemmi cercati: 1120<br />
Numero Lemmi trovati nella risorsa generica: 1003 (~90 %), non trovati 117<br />
Lista Lemmi non presenti in IWN<br />
A.D. ALMENO ANCHE ANTI-TRUST<br />
APPOSITO BAHT BANCASSURANCE BANK<br />
BANKING BARS BICAMERALE BLUE-CHIP<br />
BLUE-CHIPS BMW CALL CALL<br />
CAPACVIT` CAPITAL CATERING CDA<br />
CHIP CHIPS CIR CIRCA<br />
COMPOSITE CONTRO-OPA CONTROLLATO COSì<br />
CREDIT CREDITORE DA DEBITORIO<br />
DELL DEMANIALI DESTAGIONALIZZATI DETERMINATO<br />
DL DLR DLR DOPO<br />
E.BISCOM E.BISCOM E.VOCI EURO<br />
EUROBBLIGAZIONARIO FINO FLOW FUTURES<br />
HDP I.NET IMPORTATORE INGROSSO<br />
INOLTRE INSù INVECE JOINT<br />
33
Linea 1.3 ItalWordnet<br />
JOINT-VENTURE JV L' LEASING<br />
MACROECONOMICI MADE MADE MAX<br />
MESA MLN MULTI-MARCA NON<br />
OLTRE ONLINE OPA ORD<br />
PESOS PIY PMI PREFERRED<br />
PROFORMA PURE PUT QUASI<br />
RADIOCOR RATING RC RENAULT<br />
RINGGIT ROE SEMESTRALE SEMPRE<br />
SHARES SIM SOCIETA SOPRATTUTTO<br />
SOPRATUTTO SPA SPREAD SRL<br />
STANPOOR'S SUBITO SUDCOREANO TANTO<br />
TFR TICK TISCALI TLC<br />
TRENTENNALE TRIM TURNOVER USCENTE<br />
VALUTARIO VENTURO VICEMINISTRO VOCE-DATI<br />
WON<br />
1.5.1.3 Test 3 – database economico - (su tutti i lemmi presenti nel corpus)<br />
Numero Lemmi cercati: 5577<br />
Numero e <strong>per</strong>centuale Lemmi trovati nella risorsa economica: 475 (~9%)<br />
Considerando i soli lemmi non trovati che non vengono anche trovati nella risorsa generica, il<br />
numero di lemmi non trovati si riduce da 5102 (5577 – 475) a 1293.<br />
Eliminando le sigle degli autori (e.g. COM-AMM-GR-R 7 ), ma lasciando altri termini spurii (si<br />
vedano le note al termine) il numero di lemmi non trovati si riduce a 1156.<br />
Lista Lemmi non presenti in IWN finanziario e in IWN generico<br />
A.D. A130MILA ABBASTANZA ACCELERAIZONE<br />
ACCELERE ACCISE ACCOGLIBILE ACCORD<br />
ACCUMULE ACQUISI ACQUISTER` ACTION<br />
ACTIONNARIAT ADB ADDIRITTURA ADESSO<br />
ADOLOR ADOTTANDO AERIENNES AFETR<br />
AFTER AFTER-SERVICE AGOSTO-SETTEMBRE AGR<br />
AGRANDIT AIUTER` ALIMENTE ALLEMAND<br />
ALLEMANDES ALLIANCE ALLIE ALLIER<br />
ALLORA ALMENO ALTRIMENTI AMERICAINE<br />
ANCHE ANCHENELLA ANDRIESE ANNEE<br />
ANNONCENT ANNì ANS ANTI-GATES<br />
ANTI-INFLAZIONE ANTI-TRUST ANTICOMPETITIVE ANTICONCORRENZIALI<br />
ANTIMONOPOLISTICI ANTINFLATTIVO ANTIRICICLAGGIO ANZITEMPO<br />
APPELLENT APPENA APPLICATIONS APPOSITO<br />
APPOSITO APPREZZATORI APR APRES<br />
APRILE-INIZIO APRILEGIUGNO ART ASPIRAPOLVERI<br />
ASSAI ASSEMBLEARI ASSET ASSURANCES<br />
7 Sigle di questo tipo sono normalmente sigle degli autori, che compaiono nei testi Radiocor all’interno della notizia<br />
(e non come informazioni di testata).<br />
34
Linea 1.3 ItalWordnet<br />
AT&T ATESA ATTEINT ATTENDENDERSI<br />
ATTENTION ATTESDAS ATTIRENT ATTIVITA<br />
ATTIVIT` ATTORNO AU AUGMENTE<br />
AUTO(MARZO AUX AVANTI AVANZATO<br />
AVERTISSEMENT AVOCATS AVR` AVVALERE<br />
AVVIATO AZERO BACK BACK-UP<br />
BAISSE BAISSER BANCASSURANCE BANK<br />
BANKING BAPTJME BARRAGE BARS<br />
BAS BELGE BELL BENASSI<br />
BENEFIT BENINO BENZ BERGO<br />
BERSANI BICAMERALE BIEN BIENTOT<br />
BILATERALE BLACK BLOCKBUSTER BLUE-CHIP<br />
BLUE-CHIPS BMW BNL-S.PAOLO BOARD<br />
BOEING BOOK BORSINI BOURSE<br />
BRANLE-BAS BRASSEUR BREVE/MEDIO BRITANNIQUES<br />
BTP. BUSINESS-TO-BUSINESS BUY BUYBACK<br />
BY C' C.AGRICOLE C.SINISTRA<br />
CABLE CADAUNA CADEAU CAFFH<br />
CAFFI CALER` CALL CAMBI:ANALISI<br />
CANDITO CANOSANI CAP CAPACVIT`<br />
CAPITAL CAPITOLINA CARD CARO-DOLLARO<br />
CARODOLLARO CARRIER CARTARI CARTARIE<br />
CARTOLARIZZAZIONE CASH-FLOW CASTAGNETTI CATERING<br />
CCT. CEDER` CENTER CENTS<br />
CERCLE CETTE CHAEBOL CHARGEDE<br />
CHARITY CHAT-ROOM CHAUDS CHEVRE<br />
CHIP CHIPS CHITI CHOU<br />
CHUTE CHUTER CIANINESSUN CIN<br />
CINQ CIRCA CITATO CLICCA<br />
CLOSE CO-LEAD COALBED COGMBINI<br />
COLLOCATORE COLLOCHEWRà COMBINIS COMBUSTIBILì<br />
COMMENT COMMERCE COMMISSAIRES COMMODITIES<br />
COMMUNICATION COMMUNICATIONS COMPAGNIES COMPANY<br />
COMPETITOR COMPOSITE COMPRAVEDITA COMPRESSO<br />
COMPROMIS COMPTAIT COMUNQUE CONCAMBI<br />
CONCENTRE CONDAMNE CONDIZINATO CONFIANCE<br />
CONGRUITà CONIGLIETTO CONNETTIVITà CONNOTATO<br />
CONSEGUENTEMENTE CONSEILS CONSENSUS CONSIDERATO<br />
CONSIDERENT CONSIGLIATO CONSOMMATEUR CONSORTILE<br />
CONSUMER CONSUNTIVATI CONTEMPO CONTINURà<br />
CONTRALTARE CONTRE-ATTAQUE CONTRO-OFFERTA CONTRO-OPA<br />
CONTRO-PROPOSTA CONTRODEDUZIONE CONTROLLATO CONTROPA<br />
CONTROPARTITà CONTRTLE CONVENIENCE CONVICENTE<br />
COORDINATOR CORPORATION CORRECT COSIDDETTO<br />
COSL COST COSTI-RICAVI COSì<br />
COUNTER COVERED CO{T CRAINTE<br />
CRASH CREATIONS CREDIT CREVE<br />
CRISE CROISSANCE CUSTOMIZZATI CW<br />
DA DACCAPO DANS DAVANTI<br />
DAVVERO DAY DAYTRADER DEBACLE<br />
DECHIRE DECOLLENT DEFLATTORE DEGNO<br />
DEGRINGOLER DEL'AMBIENTE DELIBERATO DELL<br />
DELLì DEMANDER DEMANIALI DEMANTELEMENT<br />
DEPENSES DER DERAPAGE DERNIERE<br />
DESCENTE DESENGAGE DESK DESTAGIONALIZZATI<br />
DETERMINATO DETTAGLIATO DEUX DEVISE<br />
DEVISES DEVRONT DIESEL DIETIMI<br />
DIETRO DIFATTO DIFFICOLT` DIFFUSIOEN<br />
DIGITAL DIGITALIZZAZIONE DIGITALWORK.COM DIGITAZIONE<br />
35
Linea 1.3 ItalWordnet<br />
DILATORIO DILIGENCE DILUTIVO DIRECTORSHIP<br />
DISCOUNT DISCREZIONALITà DISDETTATO DISMETTERE<br />
DISMISSIONE DISMISSIONI DISPONIBLE DISTANTE<br />
DIVISENT DIX.IT DL DLR<br />
DLR. DMAIL.IT DMH DOCENZA<br />
DOLLARO/BOND DONT DOPO DOPODOMANI<br />
DOVUTO DRAMMATIZZAZIONE DU E-ECONOMY<br />
E-EXCELLENCE E-MAIL E-TRADE E.COMMERCE<br />
E.VOCI EBITDA EBUSINESS ECCO<br />
ECHEC ECONOMETRICI ECONOMIQUE ECONOMIQUES<br />
ECONOMY EDIFICABILI EFFETTUTO EFFRAIE<br />
ELARGISSEMENT ELETTRICITA EMI-PA EMMANUELLI<br />
EMOLUMENTI EMPJCHE EN ENCHERES<br />
ENCORE END ENFERS ENFONCE<br />
ENGINEERING ENNESIMO ENTAMENT ENTERTAINMENT<br />
ENTITA ENTRAINE ENTRANTS ENTREE<br />
ENTREPRISES ENTREVOIT ENTRY ENVISAGE<br />
ENVISAGENT EPARGNE EPARGNEE EPREUVE<br />
ESERCITABILI ESERCIZIOIN ESERCIZIò ESPNASIONE<br />
ESPRIT ESSENCE EST-CE ESTERA-VENERDì<br />
ETHIQUE ETRANGER EURO EUROBANCOMAT<br />
EUROPEENNE EUROPEENNES EUROPEENS EUROS<br />
EURò EX-BIN EXCLUT EXPANSION<br />
EXPENSIVE EXTRACARATTERISTICA FABRICANT FACE<br />
FACILITEE FAIBLIT FAILLI FAIRE<br />
FAIRE FAIT FAUT-IL FEBB<br />
FER FESTIVIT` FEU FF<br />
FILING<br />
FINANZIARI-<br />
FINCANTIERI<br />
FINO<br />
ASSICURATIVI<br />
FINORA FISCALITE FISCALITà FISSATO<br />
FLANCHENT FLASHMALL.IT FLAT FLOW<br />
FOIRE FONDER` FORCEE FORFETARIE<br />
FORMALISE FORMER FRANCIA-BUDGET FRANCS<br />
FRANGAIS FRANGAISE FRATTEMPO FRAUDE<br />
FRAZIONALMENTE FRAZIONATO FREINER FUORI<br />
GAGNE GASIERI GBTEAU GE.SI<br />
GEFRANONLINE.IT GENERIQUES GENNAIO-FEBBRAIO GENNAIO-MARZO<br />
GENNAIOMARZO GG GIA GIORNALMENTE<br />
GIOVEDI GIY GI` GIà<br />
GIù GJNE GLOBAL GOLDEN<br />
GOURME.COM GOURMET.COM GOURMET.NET GOUVERNEMENT<br />
GRAFICISTI GRAND GRANDES GRATIS<br />
GREEN GROUP GUERRINI GUETTE<br />
HANDLING HARD HAUSSE HAUSSES<br />
HAWKISH HEURE HI-TECH HIGH<br />
HIT HOC HORS HOURS<br />
HUB IDENTIT` IDROELETTRICO IERIHA<br />
II ILLIQUIDA ILLUSTRERA ILRISULTATO<br />
IMMOBILIARIA IMMODIFICABILITà IMPLANTE IMPLEMENTAZIONE<br />
IMPORTATION IMPRENDO IMPTTS IMPUGNATIVA<br />
IMS IN INCARICATO INCIDER`<br />
INCIRCA INCOME INCOMPENTENTI INCREMENTABILI<br />
INCUBATORE INDEX.HTML INDICATO INDICIZZATO<br />
INDIETRO INDUSTRIARE INEFFICACE INFEROCITI<br />
INFEROCITO INFINE INFLATION INFLATIVE<br />
INFLATIVI INFORMATION INFORMATIONS INFORMES<br />
INGROSSO INIDONEITà INNANZITUTTO INNERVOSIRE<br />
INOLTRE INSIDER INSOMMA INSTALLAZIONE<br />
INSù INTANTO INTENSIFICARE INTENZIONATO<br />
36
Linea 1.3 ItalWordnet<br />
INTERATTIVA INTERCONTINENTALE INTERCOREANI INTERGOVERNATIVO<br />
INTERGRUPPO INTERJT INTERLOCKING INTERMARKET<br />
INTERMEDIATO INTERMEDIO INTERMINISTERIALE INTERNET-2<br />
INTEROPERATIVI INTEROPERATIVO INTINI INTORNO<br />
INTRADAY INTRODUCTION INV INVECE<br />
INVERTITO INVESTISSEURS INVESTMENT INZIATE<br />
IRREALISTICI IT ITALOINGLESE ITINERE<br />
JACKPOT JE JKIGYO JOINT<br />
JOINT-VENTURE JP JSG JTRE<br />
JUSQù JUSTIFIER JV KILOBYTES<br />
KM. L' L?INTERESSE LAB<br />
LANCEMENT LANCER LANCIATO LAND<br />
LARIANO LAVAGNINI LEAD LEGAUX<br />
LEGERE LES LEUR LEURS<br />
LEVERAGED LEXAR LIBERALDEMOCRATICI LIBRARY<br />
LICENCES LIGNE LII LINEATTIVA<br />
LINUXCARE LIQUIDIT` LIVRES LOCAL<br />
LOCALES LOCALIZZATO LOMBARDINI LONG<br />
LONTANO LOOP LUCCHINI LUNEDL<br />
LUP Lì MACRO MACROECOMICI<br />
MACROECONOMICHE MACROECONOMICI MADE MAG<br />
MAGGIORMANETE MAGGIORMENTE MAGOT MAI<br />
MAJORITE MALADES MALE MALFUNZIONAMENTO<br />
MALGRE MALO MANOVRINA MANTENUTO<br />
MANZINI MAPPATURA MARGINALIZZAZIONE MARIAGE<br />
MARTEDI MARTERDì MASTER MAX<br />
MAX-MIN MAXIESBORSO MAXIPLUSVALENZE MCI<br />
MDS MEDIASETONLINE.IT MEDICAMENTS MEDIO-LUNGO<br />
MEGAOFFERTA MEGAWATT MENACEE MENAGE<br />
MERCHANT MESA MESE/INIZIO MET<br />
METHANE MEZZ' MICROCHIP MICRODANNI<br />
MICROIMPRESE MIEUX MILA MILLIARDS<br />
MILLION MINI-STRETTA MINISTRES MINUTA<br />
MIS MLN MOBILES MODERNIZZAZIONE<br />
MODUS MOL MONEY MONITORANDO<br />
MONOPOLE MONOPOLISTA MORALISEE MORGANDO<br />
MOUVEMENTS MOVERS MUENCHENER MULTI-MARCA<br />
MULTICANALE MULTIMEDIALE MULTIPLIE MULTISERVIZI<br />
MULTISERVIZIO MULTIUTILITY NAV NAZIONALIZZATA<br />
NAZIONALIZZATE NEANCHE NEGATIVITà NEGOZIABILITà<br />
NELL NEOLAVORATORI NEOMINISTRI NEPPURE<br />
NERò NETWORKING NEUTRO-NEGATIVO NEW<br />
NEWSLETTER NON NON-INFLAZIONISTICA NORDCOREANO<br />
NOTA_DEL_REDATTOR NOUVEAU NOUVEAUX NOUVELLE<br />
E<br />
NOUVELLES NUMBER NUTRITO Nè<br />
Nè OBSTACLES OCCHIELLò ODG<br />
OFFSHORE OK OLD OLTRE<br />
OLTREFRONTIERA OLTREOCEANO ON-A-CHIP ONLINE<br />
OPAS OPTIONS ORAMAI ORD<br />
ORD. ORDIANRIO ORIENTATO ORMAI<br />
OSTA OTTIMALè OUT OUT-OF-THE<br />
OUTLOOK OVE OVER OVERBIDDING<br />
P.CREMONA PAGAMMENTO PAGANO PAIEMENT<br />
PAN-EUROPEO PAR PARIMENTI PARITA<br />
PARITARIO PART PARTENAIRES PARTICOLAR<br />
PARTIELLE PARTIS PAS PASSACANTANDO<br />
PAY PENCE PERALTRO PERCHI<br />
PERD PERDUTO PERFINO PERR<br />
37
Linea 1.3 ItalWordnet<br />
PERSEGUIRA PERSINO PESOS PG<br />
PHONE PICK PIEGER PIU<br />
PIUTTOSTO PIY PLAN PLANCHERS<br />
PLAYER PLENARIO PLURIENNALE PLUS<br />
PMI POCHINO POIDS-LOURDS POLE<br />
POLICY POLTRONISSIMA PORTABILITY POSITION<br />
POSIZIONAMENTO POSIZIONARSI POSSIBILIT` POST<br />
POSTVENDITA POTEBBERO POTR` POUND<br />
POUR POURRAIENT POURRAIT POURSUIT<br />
POUSSE POUSSEE PRE PRE-APERTURA<br />
PRE-CRISI PRE-SELECTION PREACCORDO PREAPERTURA<br />
PRECOTTO PREDEFINIRE PREFERRED PREGRESSA<br />
PREMERCATO PREND PRENNENT PREPARE<br />
PREPARENT PRESIDENT PRETS PREVIO<br />
PREZZATO PRICE PRICE-CAP PRIMAVERA-ESTATE<br />
PRIOPRIO PRIV PRIX PRJTS<br />
PROCAPITE PROCESSING PROCHAINS PROCHES<br />
PROCINTO PROD PROD. PRODUCTION<br />
PRODUZIONE+05% PROFORMA PROLUNGATO PROPRIET`<br />
PROSEGURE PROSIMI PROTEGE PROVVISTO<br />
PRUDENZIALI PT PUCES PUNATNDO<br />
PUO PURE PURTROPPO PUT<br />
Pò QUALE QUALI QUALITA<br />
QUARTIER QUASI QUE QUE<br />
QUERELLE QUI QUINQUENNALE RACHAT<br />
RACHETERAIT RADICAMENTO RADIOCOR RAFLE<br />
RAISONS RANGE RAPITORE RAPPORTE<br />
RAREFARE RAREFATTO RATING RATIO<br />
RC RED REDDITIVITA REDDITUALI<br />
REDINE REDUCE REFORMATEUR REFORME<br />
REFORMES REGALA.IT REGOLATO REGOLATORIA<br />
REGULATIONS RELEVE RELEVEE RELEVER<br />
RENCONTRE RENCONTRER RENVOIE REPO<br />
REPORT REPOUSSER RESO RESSERRE<br />
RESULTAT RETAIL RETAILERS RETROACTIF<br />
RIALZISTE RIALZISTI RIASSEGNARSI RIAVVIANO<br />
RIBASSISTE RIBASSISTI RIBILANCIAMENTO RIBILANCIARE<br />
RICENTRARSI RICHIESTO RICHIO RICOMPRESE<br />
RICONSIDERAZIONE RICOPERTURE RIDENOMINARE RIEQUILIBRIO<br />
RIFINANZIAMENTO RIGUARDER` RILENTO RIMARCARE<br />
RIOFFERTA RIPONDENDO RIPOSIZIONAMENTO RIPOSIZIONARSI<br />
RIS RISCHIO-TASSI RISCUOTIBILI RISOSPESA<br />
RISOSPESO RISP RISPONDITORE RISULTANZA<br />
RITARDATO RNC ROAD ROAMING<br />
ROE RONDELLI ROUTE RPT<br />
RT RUMOR RUMORS S&P<br />
SALARIATE SALARIES SALVI SANCTIONNEE<br />
SANZIONATORI SARA SAR` SAR`<br />
SATELLITARI SCALABILE SCALETTATI SCELTO<br />
SCOEITà SECURITIES SEDUIT SEGMENTARE<br />
SEGNATO SEGUIR` SEMAINE SEMESTRALE<br />
SEMI-FESTIVA SEMI-FESTIVO SEMIFESTIVO SEMISOMMERGIBILE<br />
SEMPRE SENATRICE SENG SENTIMENT<br />
SERAIENT SERVIR` SERVIZIOAPPALTI.ILSO SES<br />
LE24ORE.IT<br />
SETTLEMENT SHARE SHARES SHARING<br />
SHOE SHORTLIST SHOW/SU SIDE<br />
SIDEWAYS SIGNES SIM SINERGIè<br />
SITO-WEB SMALTIMENTO SNELLIMENTO SOC<br />
38
Linea 1.3 ItalWordnet<br />
SOCIALEMENT SOCIAUX SOCIETA SOCIETA-MERCATO<br />
SOCIET` SOFT SOLO SOLTANTO<br />
SOPRA SOPRATTUTTO SOPRATUTTO SOPRAVVALUTAZIONE<br />
SORT SOSPESIONI SOSTENIBILITà SOSTENUTO<br />
SOUTIEN SOVRAPREZZATE SPECTRE SPECULATION<br />
SPECULATRICES SPESSO SPESSO SPIN-OFF<br />
SPLIT SPLITTING SPREAD SPYSTOCKS.IT<br />
SRUDIARE STABILIT` STAMANE STAMANI<br />
STANPOOR'S START-UP STASERA STAZIONARE<br />
STELLAGE STEREO STG STG-R<br />
STILARE STOCK-OPTIONS STORES STOUT<br />
STRAP STRATEGIST STRIKE STRIP<br />
STRUCTURELLES SU SUBITO SUDCOREANO<br />
SUDDETTO SUPERATO SUPERBORSA SUPERDOLLARO<br />
SUPPLENTE<br />
SUPPLIERMARKET.CO SUPPORTATI<br />
SUR<br />
M<br />
SUSSIDIARIO SWITCHING SYSTEMATIQUES Sì<br />
TAIWANESE TANDIS TANTO TANTOPIù<br />
TARIFFARIA TARIFFARIE TAUX TECH<br />
TECNICO-OPERATIVA TEDESCO-AMERICANA TEDESCO-AMERICANO TELCO<br />
TELEPHONES TELEPHONIE TEMPISTICO TEMPJTE<br />
TEND TERM TH TICK<br />
TIE-UP TIROLI TITOLI-INCASSO TLC<br />
TLC. TO-CONSUMER TOURNANT TOUTES<br />
TRACENT TRACKING TRADER TRADING<br />
TRASFORNARSI TRAVAIL TRENTENNALE TRIM<br />
TRIMESTRELA TRIPLA TROPPO TURNOVER<br />
TUTTORA TX ULTRAPROTETTO UNBUNDLING<br />
UNIFAMILIARE UNIQUE UNIT` UP<br />
USCENTE UTILITIES VALIDAZIONE VALORISE<br />
VALUE VENDERA VENERDI VENTE<br />
VENTIESIMO VENTURO VERITEDE VERR`<br />
VERS VEUT VEUVAGE VI<br />
VICEMINISTRO VICIEUX VIDEOGIOCHI VIEW<br />
VIGENTE VIGENTI VIRAGE VIRTUAL<br />
VITA-INVESTIMENTO VOCE-DATI VOULAIS WARRANT<br />
WARRANTS WEB WEEK WHEREVER.NET<br />
WIRELESS WWW. WWW.BORSAITALIA.IT XII<br />
XX Y&R ZONES ZUCCHERO<br />
1.5.1.4 Test 4 – database economico (sui lemmi rilevanti al fine della<br />
classificazione)<br />
Numero Lemmi cercati: 1120<br />
Numero Lemmi trovati nella risorsa economica: 271 (~24 %).<br />
Considerando i soli lemmi non trovati che non vengono anche trovati nella risorsa generica, il<br />
numero di lemmi non trovati si riduce da 849 (1120 – 271) a 94.<br />
Lista Lemmi non presenti in IWN finanziario e in IWN generico<br />
A.D. ALMENO ANCHE ANTI-TRUST<br />
APPOSITO BANCASSURANCE BANK BANKING<br />
BARS BICAMERALE BLUE-CHIP BLUE-CHIPS<br />
BMW CALL CALL CAPACVIT`<br />
CAPITAL CATERING CHIP CHIPS<br />
CIRCA COMPOSITE CONTRO-OPA CONTROLLATO<br />
39
Linea 1.3 ItalWordnet<br />
COSì CREDIT DA DELL<br />
DEMANIALI DESTAGIONALIZZATI DETERMINATO DL<br />
DLR DLR DOPO E.VOCI<br />
EURO FINO FLOW GIù<br />
INGROSSO INOLTRE INSù INVECE<br />
JOINT JOINT-VENTURE JV L'<br />
MACROECONOMICI MADE MADE MAX<br />
MESA MLN MULTI-MARCA NON<br />
OLTRE ONLINE ORD PESOS<br />
PIY PMI PREFERRED PROFORMA<br />
PURE PUT QUASI RADIOCOR<br />
RATING RC ROE SEMESTRALE<br />
SEMPRE SHARES SIM SOCIETA<br />
SOLO SOPRATTUTTO SOPRATUTTO SPREAD<br />
STANPOOR'S SUBITO SUDCOREANO TANTO<br />
TICK TLC TRENTENNALE TRIM<br />
TURNOVER USCENTE VENTURO VICEMINISTRO<br />
VOCE-DATI<br />
ZUCCHERO<br />
1.6 note sui risultati dei test:<br />
I termini non riconosciuti si possono raggruppare nelle seguenti categorie:<br />
1. termini assenti in italwordnet , ad esempio<br />
ALTRIMENTI APPENA BICAMERALE INCARICATO<br />
2. termini inglesi,francesi,etc. ad esempio<br />
BLUE-CHIP BOOK BLACK BOARD<br />
CHARITY CHAT-ROOM ECONOMIQUE ETHIQUE<br />
3. gibberish a cui, comunque, il tokenizzatore statistico ha assegnato una categoria sintattica,<br />
ad esempio<br />
Y&R<br />
RYRYRYRYRYRYRYRY<br />
RYRYRYRYRYRYRYRY<br />
RYRYRYRYRYRYRYRY<br />
RY<br />
S&P<br />
NOTA_DEL_REDATTOR<br />
E<br />
4. errori sintattici, termini mal tokenizzati, ad esempio<br />
A130MILA AIUTER` ANNì AUTO(MARZO<br />
AVR` CAFFH CAPACVIT` ATTENDENDERSI<br />
5. termini con stem non unico, ad esempio<br />
ASPIRAPOLVERI ( aspirapolvere e' presente in italwordnet)<br />
6. sigle, ad esempio<br />
40
Linea 1.3 ItalWordnet<br />
DLR. DMAIL.IT DIGITALWORK.COM COM-AMM-GR-R 8<br />
7. termini presenti ma non trovati causa mancata (o errata) lemmatizzazione da parte del<br />
sistema di test:<br />
MACROECOMICI MACROECONOMICHE MACROECONOMICI<br />
1.7 Trattamento MultiWord<br />
Il trattamento di termini polilessicali o ‘multiword’ (quali ad esempio ‘tasso di sconto’)<br />
rappresenta un problema, già evidenziato e tuttora esistente. La valutazione quantitativa<br />
dell’impatto di questa tematica non è stata effettuata, poichè le procedure di test utilizzate lavorano<br />
sul singolo lemma e, in tutti i casi, il giudizio sul fatto che un dato ‘concetto’ debba o non debba<br />
essere co<strong>per</strong>to da una entry in wordnet sono tutt’altro che oggettivi. Tuttavia, quand’anche fosse<br />
ipotizzabile verificare la presenza di termini multiword tramite ‘multilookup’ nel sistema (e.s. in<br />
presenza di termini quali ‘tasso’ seguiti nel corpus da ‘di sconto’, verificare, sul match del primo<br />
elemento il completamento) questo richiederebbe estensioni alle API <strong>per</strong> <strong>per</strong>metterlo. Il fenomeno<br />
non è triviale, visto che nel wordnet economico-finanziario si hanno 3579 multiword su 4708<br />
nouns.<br />
La tematica deve essere affrontata e rappresenterà uno dei temi della linea 1.4.<br />
8 Sigle di questo tipo sono normalmente sigle degli autori, che compaiono nei testi Radiocor all’interno della notizia<br />
(e non come informazioni di testata).<br />
41
Linea 1.3 ItalWordnet<br />
Sezione 3<br />
Software di Gestione di <strong>ItalWordNet</strong>: Manuale <strong>per</strong> l'Utente<br />
1. INTRODUZIONE..................................................................................................................................... 44<br />
2. INSTALLAZIONE ................................................................................................................................... 44<br />
2.1 Requisiti............................................................................................................................................. 44<br />
2.2 Installazione server .......................................................................................................................... 44<br />
2.3 Installazione client............................................................................................................................ 45<br />
2.3.1 Finestra di startup.......................................................................................................................................... 45<br />
3. FUNZIONI DEL SERVER ....................................................................................................................... 46<br />
4. FUNZIONI DI BROWSING ..................................................................................................................... 47<br />
4.1 Barra dei menù.................................................................................................................................. 48<br />
4.1.1 Menù “File” .................................................................................................................................................. 49<br />
4.1.2 Menù “Modifica”......................................................................................................................................... 50<br />
4.1.3 Menù “History”............................................................................................................................................. 50<br />
4.1.4 Menù “Opzioni”............................................................................................................................................ 51<br />
4.1.5 Menù “Visualizza”........................................................................................................................................ 51<br />
4.1.6 Menù “Ricerche” .......................................................................................................................................... 52<br />
4.1.7 Menù “Help”................................................................................................................................................. 53<br />
4.2 Area di ricerca su synset ................................................................................................................. 53<br />
4.2.1 Ricerca di synset nel Wordnet ...................................................................................................................... 54<br />
4.2.2 Ricerca di synset nell’indice ILI ................................................................................................................... 54<br />
4.2.3 Presentazione dei synset ............................................................................................................................... 54<br />
4.2.4 Ricerche troppo pesanti ................................................................................................................................ 55<br />
4.3 Area delle varianti............................................................................................................................. 55<br />
4.3.1 Dati sul synset............................................................................................................................................... 55<br />
4.3.2 Dati sulla variante ......................................................................................................................................... 55<br />
4.4 Area delle relazioni........................................................................................................................... 56<br />
4.4.1 Relazioni su wordnet italiano........................................................................................................................ 56<br />
4.4.2 Relazioni su ILI ............................................................................................................................................ 56<br />
4.5 Navigazione della Top Ontology..................................................................................................... 56<br />
5. FUNZIONI DI EDITING........................................................................................................................... 57<br />
5.1 Editing di synset e varianti .............................................................................................................. 57<br />
5.1.1 Modifica synset............................................................................................................................................. 58<br />
5.1.2 Nuovo synset ................................................................................................................................................ 58<br />
42
Linea 1.3 ItalWordnet<br />
5.1.3 Cancellazione synset..................................................................................................................................... 59<br />
5.2 Editing di relazioni............................................................................................................................ 59<br />
5.2.1 Modifica relazione ........................................................................................................................................ 59<br />
5.2.2 Nuova relazione ............................................................................................................................................ 60<br />
5.2.3 Cancellazione relazione ................................................................................................................................ 61<br />
6. FUNZIONI DI IMPORT/EXPORT............................................................................................................ 61<br />
6.1 Modello XML <strong>per</strong> ItalWordnet .......................................................................................................... 62<br />
6.2 Modello XML <strong>per</strong> word_meaning .................................................................................................... 62<br />
6.3 Modello XML <strong>per</strong> Top_Ontology e Domain_Ontology .................................................................. 64<br />
7. INTERFACCIA DA PROGRAMMA (API) .............................................................................................. 66<br />
7.1 Messaggio di registrazione ............................................................................................................. 66<br />
7.2 Messaggio di de-registrazione ........................................................................................................ 66<br />
7.3 Messaggio di accesso ai dati .......................................................................................................... 66<br />
7.4 Comando: api-data-versions ........................................................................................................... 67<br />
7.5 Comando: api-wordnet .................................................................................................................... 67<br />
7.6 Comando: api-wordmeaning ........................................................................................................... 68<br />
7.7 Comando: api-variant....................................................................................................................... 69<br />
7.8 Comando: api-wm-lemmas.............................................................................................................. 70<br />
7.9 Comando: api-relation ..................................................................................................................... 71<br />
7.10 Comando: api-ili................................................................................................................................ 71<br />
7.11 Comando: api-ili-lemmas................................................................................................................. 73<br />
7.12 Comando: api-top-concept.............................................................................................................. 73<br />
7.13 Comando: api-wn-from-lemma........................................................................................................ 74<br />
8. PROBLEMI NOTI ................................................................................................................................... 74<br />
9. BIBLIOGRAFIA ...................................................................................................................................... 74<br />
43
Linea 1.3 ItalWordnet<br />
2 Introduzione<br />
IWN-BEST (<strong>ItalWordNet</strong> – Browsing and Editing Software Tools) è un pacchetto software che<br />
include una serie di strumenti che consentono il completo utilizzo dei dati di ItalWordnet [Manuale<br />
2000].<br />
L’interfaccia grafica della risorsa ItalWordnet è stata sviluppata <strong>per</strong> due situazioni d’uso:<br />
• Interfaccia grafica <strong>per</strong> l’utente finale. Consente all’utente finale di utilizzare la risorsa<br />
ItalWordnet <strong>per</strong> accedere alle informazioni contenute nel database. Visualizza le parole (lemmi)<br />
disponibili, la struttura relazionale dei synset, gli agganci con synset della lingua inglese.<br />
• Interfaccia grafica <strong>per</strong> lo sviluppatore. Permette di visualizzare, inserire e modificare<br />
informazioni presenti nel database della risorsa ItalWordnet. Consente il lavoro contemporaneo<br />
di più sviluppatori dallo stesso sito sulla medesima installazione.<br />
3 Installazione<br />
3.1.1.1.1 Questa sezione descrive la procedura di installazione di IWN-BEST in ambiente Windows.<br />
L’installazione tipica avviene da Cd-Rom.<br />
3.2 Requisiti<br />
3.2.1.1.1 Windows 95, 98, NT<br />
Intel Pentium o su<strong>per</strong>iore<br />
32 MB RAM (64+ consigliato)<br />
120 MB spazio libero su Hard Disk (server)<br />
4 MB spazio libero su Hard Disk (client)<br />
3.3 Installazione server<br />
Deve essere effettuata sulla macchina server.<br />
Lanciare (doppio click) il programma di installazione sotto "/server/setup.exe". Verrà richiesto il<br />
nome della directory (d'ora in poi HOME) sotto la quale installare il software. Per effettuare<br />
l'installazione cliccare il bottone con l'icona di un computer. L'installazione del server richiede<br />
pochi minuti.<br />
44
Linea 1.3 ItalWordnet<br />
3.4 Installazione client<br />
Lanciare (doppio click) il programma di installazione sotto "/client/setup.exe". Verrà richiesto il<br />
nome della directory sotto la quale installare il software. Per effettuare l'installazione cliccare il<br />
bottone con l'icona di un computer.<br />
3.4.1 Finestra di startup<br />
Per lanciare il client:<br />
• fare doppio clic dalla HOME, utilizzando il File Manager di Windows, sul file iwn-client.exe;<br />
• oppure dalla voce “Esegui” del menu “Start” sulla barra di Windows, selezionare il file iwnclient.exe<br />
nella directory HOME e premere il bottone OK.<br />
Per poter interrogare la base di dati l’interfaccia client si deve collegare al server, specificando i<br />
parametri di connessione, che vengono immessi dall’utente tramite la finestra di startup (Figura 1). I<br />
parametri richiesti sono:<br />
- login dell’utente<br />
- hostname ed il numero di porta della macchina dove è stato caricato il programma server;<br />
Figura 1. Interfaccia di connessione client<br />
La finestra di startup <strong>per</strong>mette inoltre di definire alcune caratteristiche del layout, quali la<br />
modalità video, la lingua utilizzata nei menu e nei messaggi, la visualizzazione di una finestra di<br />
debug <strong>per</strong> il monitoraggio dei dati che client e server si scambiano e l’abilitazione delle funzionalità<br />
di editing.<br />
45
Linea 1.3 ItalWordnet<br />
Una volta configurata questa finestra le informazioni verranno memorizzate <strong>per</strong> gli avvii<br />
successivi.<br />
È possibile anche specificare gli argomenti dalla riga di comando con la seguente sintassi:<br />
iwn-client.exe [-host ] [-port ] [-screen color|blackwhite] [-<br />
debug yes|no] [-tool browser|edit]<br />
Nel caso di figura 1:<br />
iwn-client.exe –host calvino –port 1036 –screen color –debug yes –tool edit<br />
4 Funzioni del server<br />
La gestione multiutente delle risorse di <strong>ItalWordNet</strong> avviene tramite un programma server a cui si<br />
possono collegare più interfacce client. Maggiore sarà il numero di client collegati minori saranno<br />
le prestazioni che si potranno raggiungere; inoltre anche il tipo ricerche effettuate da ogni client<br />
avrà effetto sulla velocità delle risposte.<br />
Il server viene attivato attraverso il programma italwordnet.exe, che può essere lanciato con le<br />
seguenti opzioni:<br />
-host <strong>per</strong> specificare il nome (l'hostname o l'indirizzo IP) della macchina;<br />
-port il numero di porta su cui il servizio è disponibile;<br />
-lang <strong>per</strong> avere i messaggi nella lingua desiderata (“italiano” <strong>per</strong> default oppure “english”).<br />
Un esempio può essere:<br />
italwordnet.exe -host calvino -port 1035 -lang english<br />
Il programma deve essere lanciato dalla HOME di IWN-BEST; in caso contrario l'applicazione non<br />
riesce a trovare i database ed i file di configurazione, producendo un messaggio di errore.<br />
L’aspetto dell’interfaccia server è quello di Figura 2. La finestra presenta le informazioni sullo stato<br />
del server (in basso sulla barra di stato), la lista di tutti gli utenti collegati (compreso la macchina su<br />
cui sono collegati) ed una zona riservata ai messaggi sul loro stato.<br />
Ogni volta che si collega un nuovo utente la zona dei messaggi viene aggiornata (vedi Figura 2).<br />
Allo stesso modo quando un utente chiude l’interfaccia client viene visualizzato il messaggio di<br />
cessata connessione (riga 2 in Figura 2).<br />
Il controllo dei client è possibile anche cliccando con il tasto sinistro del mouse su un qualsiasi<br />
utente tra quelli collegati. Con questa o<strong>per</strong>azione viene creata un finestra che dà la possibilità al<br />
gestore del server di controllare che un utente sia ancora effettivamente collegato (nel caso ad<br />
esempio sia soltanto interrotta la comunicazione) ma anche di spedire messaggi, ad esempio <strong>per</strong><br />
avvertire l’utente che il servizio verrà temporaneamente interrotto.<br />
46
Linea 1.3 ItalWordnet<br />
Figura 2: Interfaccia server<br />
4.1.1.1.1.1 Per interrom<strong>per</strong>e l’esecuzione del server utilizzare dal menu “File” il bottone “Esci”. Tale<br />
o<strong>per</strong>azione sarà preceduta dall’invio di un messaggio a tutti gli utenti collegati della imminente<br />
disattivazione del server stesso.<br />
5 Funzioni di browsing<br />
La finestra di browsing (Figura 3) è composta da quattro zone principali:<br />
1. La barra dei menu (area 1 in figura 3). Essa contiene le funzionalità secondarie che l’utente<br />
potrà invocare attraverso la selezione delle voci contenute nei vari menù a tendina. Ad esempio,<br />
l’attivazione delle aree di dettaglio, la gestione del tipo di carattere, la visualizzazione della<br />
history delle ricerche effettuate, la chiusura dell’interfaccia, l’import/export da e su file, ecc.<br />
2. L’area di ricerca dei synset (area 2 in figura 3). Essa comprende sia la zona dove verranno<br />
impostati i parametri utili alla ricerca, sia quella dove verranno visualizzate le informazioni<br />
trovate. Queste ultime sono sempre dei synset. Attraverso la selezione di un synset visualizzato<br />
tutte le informazioni di quel synset sono visualizzate in sottoframe di dettaglio (vedi aree 3 e 4<br />
della figura 3).<br />
3. L’area delle varianti (area 3 in figura 3). Presenta le informazioni generali del synset<br />
(definizione, concetti della top-ontology e della domain ontology, identificatore), e di ogni sua<br />
variante.<br />
4. L’area delle relazioni (area 4 in figura 3). In questa zona sono mostrate tutte le relazioni a<br />
partire da un singolo synset divise <strong>per</strong> tipo.<br />
47
Linea 1.3 ItalWordnet<br />
4<br />
Figura 3. Interfaccia di browsing<br />
Le zone 2, 3 e 4 sono dimensionabili dall’utente, sia in larghezza che in altezza.<br />
3.1 Barra dei menù<br />
5.1.1.1.1 La barra dei menù consente di effettuare le o<strong>per</strong>azioni principali messe a disposizione dal<br />
tool.<br />
5.1.1.1.2<br />
5.1.1.1.3<br />
48
Linea 1.3 ItalWordnet<br />
Figura 4. Barra dei menù<br />
5.1.2 Menù “File”<br />
5.1.2.1 Bottone “Nuova versione”<br />
5.1.2.2 Consente di creare una nuova versione dei dati specificando il nome che la<br />
identifica.<br />
5.1.2.3 E` possibile indicare inoltre la versione dell’ILI (1.5 o 1.6) a cui il nuovo<br />
database fa riferimento.<br />
5.1.2.4 Bottone “Elimina versione”<br />
5.1.2.5 Permette di eliminare i dati della versione correntemente utilizzata.<br />
Attenzione che possono venir irreversibilmente eliminati tutti i dati<br />
dell’italiano di una delle versione presenti nel menu “Versioni database”.<br />
49
Linea 1.3 ItalWordnet<br />
5.1.2.6 Bottone “Versioni database”<br />
Consente di cambiare il database su cui vengono effettuate le ricerche. Attualmente sono presenti<br />
due database: “generic”, <strong>per</strong> la risorsa generica, “economic” <strong>per</strong> il database del dominio economicofinanziario.<br />
5.1.2.7<br />
5.1.2.8 Bottone “Importa”<br />
5.1.2.8.1 Non attivo nella versione attuale. Permetterà di importare dati da file in formato XML<br />
(vedere sezione 6).<br />
5.1.2.9 Bottone “Esporta”<br />
5.1.2.9.1 Non attivo nella versione attuale. Permetterà di esportare dati su file in formato XML<br />
(vedere sezione 6).<br />
5.1.2.10 Bottone “Esci”<br />
Chiude il client ItalwordNet.<br />
5.1.3 Menù “Modifica”<br />
5.1.3.1 Bottone “Annulla”<br />
5.1.3.1.1 Non attivo nella versione attuale.<br />
5.1.3.2 Bottone “Seleziona tutto”<br />
Consente di selezionare tutti i dati presentati sulla finestra di ricerca synset <strong>per</strong> copiarli su file.<br />
Selezioni di dati parziali sono possibili con il trascinamento del mouse sulla finestra dove<br />
compaiono i dati.<br />
5.1.4 Menù “History”<br />
Permette di accedere alle ultime ricerche già effettuate. Selezionando una ricerca dal menù i dati<br />
vengono ricalcolati.<br />
50
Linea 1.3 ItalWordnet<br />
5.1.5 Menù “Opzioni”<br />
5.1.5.1 Bottone “Caratteri area varianti”<br />
Permette di modificare il tipo e la dimensione del carattere utilizzato nell’area variante e nell’area<br />
delle relazioni (zone 3 e 4 in figura 3).<br />
5.1.5.2 Bottone “Caratteri area synset”<br />
Permette di modificare il tipo e la dimensione del carattere usato nell’area synset (zona 2 in figura<br />
3).<br />
5.1.5.3 Bottone “Lunghezza max dell’history”<br />
Imposta il numero massimo di ricerche che vengono inserite nel menù “history”.<br />
5.1.6 Menù “Visualizza”<br />
Permette di <strong>per</strong>sonalizzare alcuni output delle ricerche.<br />
5.1.6.1 Bottone “Mostra id synset”<br />
Nell’output di ricerche di synset aggiunge l’identificatore numerico alle informazioni del synset.<br />
5.1.6.2<br />
5.1.6.3 Bottone “Mostra il numero di senso”<br />
Negli output di ricerche di synset mostra il numero di senso delle varianti del synset.<br />
5.1.6.4 Bottone “Dettagli area varianti”<br />
Permette di configurare i dati presentati nella area della variante (zona 3 in figura 3).<br />
5.1.6.5 Bottone “Finestra di editing”<br />
Attiva la finestra di editing, anche se non vi sono synset selezionati. La finestra di editing si apre<br />
anche tramite il click del mouse destro su un synset presente nell’area di ricerca synset.<br />
51
Linea 1.3 ItalWordnet<br />
5.1.6.6 Bottone “Statistiche”<br />
5.1.6.6.1 Mostra le informazioni, in termini quantitativi, dei dati contenuti nella versione<br />
correntemente usata. In particolare vengono mostrati il numero di synset, di sensi, di parole, di<br />
relazioni interne e di equivalenza. Un esempio delle statistiche è riportato in Figura 5.<br />
FIGURA 5. FINESTRA DELLE STATISTICHE.<br />
5.1.7 Menù “Ricerche”<br />
5.1.7.1 Bottone “Synset senza padre”<br />
5.1.7.1.1 Mostra, dopo aver scelto la POS da un’apposita finestra di pop-up, tutti i synset di quella<br />
POS senza padre. Per i nomi propri si tratta di synset senza relazione BELONGS_TO, mentre <strong>per</strong><br />
le altre POS di synset senza alcuna relazione HAS_HYPERNYM.<br />
52
Linea 1.3 ItalWordnet<br />
5.1.7.2 Bottone “ Synset senza ili”<br />
5.1.7.2.1 Mostra, dopo aver scelto la POS da un’apposita finestra di pop-up, tutti i synset senza alcuna<br />
relazione con l’ILI.<br />
5.1.8 Menù “Help”<br />
5.1.8.1 Bottone “Guida in linea”<br />
5.1.8.1.1 Non attivo nella versione attuale.<br />
5.1.8.2 Bottone “Informazioni su …”<br />
5.1.8.2.1 Mostra una finestra contenente le informazioni sulla versione e l’autore del software.<br />
3.2 Area di ricerca su synset<br />
In questa area vengono mostrati, in modo sintetico, elenchi di synset recu<strong>per</strong>ati secondo varie<br />
modalità di ricerca. Ciascun synset è un oggetto attivo che, una volta selezionato, viene presentato<br />
in modalità analitica (con tutte le sue proprietà) nell’area delle varianti.<br />
FIGURA 6. AREA DI RICERCA SU SYNSET<br />
53
Linea 1.3 ItalWordnet<br />
5.1.9 Ricerca di synset nel Wordnet<br />
5.1.9.1 Ricerca da lemma<br />
Si inserisce un lemma e il risultato è la lista dei synset, suddivisi <strong>per</strong> Part of Speech (POS), in cui il<br />
lemma compare. Il lemma è la forma canonica di una parola, tipicamente quella riportata nei<br />
dizionari. L’accesso è case-insensitve, cioè possono essere usati indifferentemente caratteri<br />
maiuscoli o minuscoli. Le lettere accentate possono essere scritte sia con un unico carattere<br />
(“libertà”), sia con due caratteri (“libertà” “liberta`”). Nel caso di parole composte il separatore è il<br />
trattino (“Alto-Adige”). Nel caso di espressioni complesse il separatore è la spaziatura (“casa di<br />
riposo”).<br />
5.1.9.2 Ricerca <strong>per</strong> sottostringa<br />
E` possibile utilizzare il carattere jolly “*”, che indica una qualsiasi sequenza di caratteri, <strong>per</strong><br />
cercare tutte le parole che soddisfano una determinata struttura. Ad esempio, “*posto” ritorna tutte<br />
le parole che finiscono con “posto” (“avamposto”, “composto”, ecc.); “casa*” ritorna tutte le parole<br />
che iniziano con “casa” (“casa di riposo”, “casato” , “casa editrice”, ecc.); “*barca*” ritorna tutte le<br />
parole che iniziano o terminano con “barca” (“barcaiolo”, “imbarcare”, “barca”, ecc.); “pa*la”<br />
ritorna tutte le parole che iniziano con “pa” e finiscono con “la” (“palla”, “parola”, ecc.). Le parole<br />
recu<strong>per</strong>ate vengono mostrate in un menù, dal quale possono essere selezionate.<br />
5.1.9.3 Ricerca da concetto della top ontology<br />
Visualizza i synset che possono essere ricondotti con un certo concetto della Top Ontology. Il<br />
concetto viene selezionato da un menù ad albero (vedi Sezione 4.5).<br />
5.1.10 Ricerca di synset nell’indice ILI<br />
5.1.10.1 Ricerca da lemma<br />
Inserendo un lemma inglese si ottengono i synset dell’indice ILI che contengono il lemma. Essendo<br />
l’ILI un elenco non strutturato, su questi synset non sono possibili ulteriori ricerche (es: iponimi,<br />
i<strong>per</strong>onimi, ecc.). Per il wordnet generico sono visualizzati i synset della versione 1.5 di wordnet<br />
inglese, mentre <strong>per</strong> il wordnet economico sono visualizzati quelli della versione 1.6. Anche <strong>per</strong><br />
ottenere i synset dell’ILI è possibile utilizzare la ricerca <strong>per</strong> sottostringa vista in precedenza (vedi<br />
sezione 4.2.1)<br />
5.1.11 Presentazione dei synset<br />
5.1.11.1.1 I synset recu<strong>per</strong>ati sono presentati inizialmente in modalità “overview” (Figura 6), vale a<br />
dire suddivisi <strong>per</strong> POS. A partire da questa presentazione è possibile navigare la rete di<br />
ItalWordnet seguendo le relazioni concettuali previste nel modello. In base alle POS presenti <strong>per</strong><br />
un certo lemma vengono attivati i pulsanti “nome”, “verbo”, “aggettivo”, “avverbio” o “nome<br />
proprio”, ad ognuno dei quali sono associate le ricerche concettuali possibili <strong>per</strong> i synset presenti<br />
nella overview. Dato il numero elevato delle ricerche teoricamente possibili, queste sono state<br />
divise in principali, sempre visibili aprendo il menù di una POS attiva, e secondarie, visibili<br />
54
Linea 1.3 ItalWordnet<br />
tramite la voce “altre ricerche”. Entrambe le ricerche, principali e secondarie, sono accessibili<br />
solo se la relativa voce nel menù è attiva.<br />
5.1.12 Ricerche troppo pesanti<br />
Alcune ricerche, <strong>per</strong> la loro intrinseca complessità, possono richiedere tempi di attesa lunghi. Per<br />
ovviare, parzialmente, al problema sono stati realizzate due possibilità di interruzione della ricerca.<br />
La prima consiste in un messaggio che, non appena inviato il comando, notifica all’utente la<br />
complessità della ricerca (es: “esistono 5000 synset iponimi di “oggetto”), <strong>per</strong>mettendogli di non<br />
dare inizio alla ricerca. La seconda possibilità è un pulsante “interrompi” che termina una ricerca in<br />
corso in qualsiasi momento, senza ritornare alcun risultato.<br />
3.3 Area delle varianti<br />
5.1.12.1.1 Presenta informazioni di dettaglio sul synset e sulle sue varianti (Figura 7).<br />
Personalizzazioni sono possibili tramite il menù “Scegli dettagli synset” (vedi sezione 4.5.1).<br />
Figura 7. Area delle varianti<br />
5.1.13 Dati sul synset<br />
Sono riportati l’identificatore numerico del synset, la definizione, distinguendo tra pubblica e<br />
privata, i concetti della Top Ontology e della Domain Ontology.<br />
5.1.14 Dati sulla variante<br />
5.1.14.1.1 Le varianti sono ispezionabili singolarmente, e riportano il numero di senso, sia in<br />
ItalWordnet che in EuroWordnet, lo stato della variabile, esempi, features sull’uso della variante,<br />
autore e data dell’ultima modifica e un campo <strong>per</strong> commenti.<br />
55
Linea 1.3 ItalWordnet<br />
3.4 Area delle relazioni<br />
5.1.14.1.2 In questa area vengono mostrate le relazioni che il synset selezionato (synset attivo)<br />
nell’area di ricerca synset ha con altri synset presenti all’interno di wordnet italiano, dell’indice<br />
ILI, del Wordnet inglese (o eventualmente di un’altra lingua, purchè collegato all’indice ILI da<br />
relazioni di equivalenza), e della risorsa terminologica (purchè collegata tramite relazioni di<br />
“innesto”). Il collegamento con Wordnet di un’altra lingua è teoricamente possibile dato l’utilizzo<br />
dell’indice di EuroWordNet, ma non verrà realizzato nel corso del progetto; il collegamento con<br />
wordnet specialistici, nel caso quello economico-finanziario, verrà realizzato nelle prossime<br />
versioni.<br />
5.1.15 Relazioni su wordnet italiano<br />
5.1.15.1.1 Visualizza tutte le relazioni che partono dal synset attivo e raggiungono synset interni al<br />
wordnet italiano. Ciascun tipo di relazione viene presentato con una cartella con il nome della<br />
relazione e il numero di istanze della relazione effettivamente presenti. Questa indicazione può<br />
fornire una stima approssimativa dei tempi di attesa <strong>per</strong> la completa visualizzazione delle<br />
relazioni. Ciascuna istanza di relazione viene presentata mostrando il synset target della relazione<br />
stessa.<br />
Figura 8. Area delle relazioni<br />
5.1.16 Relazioni su ILI<br />
Le relazioni di equivalenza con l’indice ILI sono presentate con modalità analoghe a quelle usate<br />
<strong>per</strong> le relazioni interne a wordnet (vedi 4.4.1).<br />
3.5 Navigazione della Top Ontology<br />
5.1.16.1.1 La Top Ontology può essere navigata tramite un menù ad albero (Figura 9). Il concetto<br />
selezionato è pronto <strong>per</strong> una ricerca (vedi 4.2.1) dei synset ad esso collegati.<br />
56
Linea 1.3 ItalWordnet<br />
Figura 9. Navigazione della Top Ontology<br />
6 Funzioni di editing<br />
L'editing è attivabile in fase di avvio dalla finestra di startup attraverso la selezione del tasto "Edit"<br />
della voce "Strumenti" (tale scelta è possibile nelle distribuzioni complete mentre non è presente in<br />
quelle dedicate alla sola consultazione).<br />
6.1.1.1.1 Le funzioni di editing avvengono sempre su una finestra diversa da quella di browsing. Per<br />
aprire questa finestra si può procedere in due modi:<br />
- cliccare con il tasto destro del mouse su un synset visualizzato nell'area synset o su una relazione<br />
presente nell'area relazioni;<br />
- cliccare dal menu "Visualizza" sul bottone "Finestra di editing".<br />
Nel primo caso nella finestra di editing verranno inserite le informazioni del synset o della relazione<br />
cliccata; nel secondo la finestra sarà priva di informazioni.<br />
La finestra di editing è composta da una barra dei menu e da due cartelle rispettivamente riservate<br />
alla modifica dei synset e delle relative varianti, e delle relazioni.<br />
3.6 Editing di synset e varianti<br />
Nella cartella riservata all'editing dei synset (Figura 10a) è possibile modificare le seguenti<br />
informazioni (con "no" vengono indicati i campi presenti ma non modificabili con questa versione<br />
del sistema):<br />
• campi semantici (no): a quali campi semantici il synset appartiene;<br />
• concetti dell'ontologia (no): i concetti a cui il synset è collegato;<br />
• definizione pubblica: la glossa principale del synset;<br />
• definizione privata: la glossa secondaria;<br />
• varianti: tutte le varianti presenti nel synset.<br />
57
Linea 1.3 ItalWordnet<br />
10a. Editing di synset e varianti<br />
Per ogni variante si possono modificare i campi stato, esempi, uso, caratteristiche ed il commento.<br />
Di seguito si riportano le istruzioni <strong>per</strong> le o<strong>per</strong>azioni di modifica, creazione e cancellazione di<br />
synset.<br />
6.1.2 Modifica synset<br />
Dalla finestra di editing di synset, cliccando sui campi presentati si può modificarne il valore nella<br />
parte bassa della finestra. Una volta effettuata la modifica cliccare sul bottone "Aggiorna" oppure<br />
premere il tasto "Esc" (posto di solito in alto a sinistra sulla tastiera); questa o<strong>per</strong>azione determinaa<br />
il cambiamento del valore del campo e mantiene tale modifica fino a quando l'utente non deciderà<br />
di salvarlo definitivamente. Tutti i synset modificati e non ancora salvati vengono presentati nella<br />
finestra di browsing con l’icona .<br />
6.1.3 Nuovo synset<br />
Per la creazione di un nuovo synset utilizzare il bottone "Nuovo synset" dal menu "Synset". Il<br />
sistema chiede all'utente di indicare la POS del synset. Ogni campo del synset può essere<br />
modificato con la modalità descritta in 5.5.1.<br />
Il salvataggio di un nuovo synset si ottiene cliccando il bottone "Conferma synset" posto nel menu<br />
"Synset". Il sistema riepiloga le modifiche apportate e chiede all'utente una conferma definitiva.<br />
Con questo comando viene salvato solo il synset correntemente visualizzato nella finestra di<br />
editing; se si vogliono confermare tutti i synset fino ad ora modificati cliccare sul bottone<br />
"Conferma tutti i synset" del menu "Synset".<br />
Le condizioni necessarie <strong>per</strong> confermare la creazione di un nuovo synset sono;<br />
58
Linea 1.3 ItalWordnet<br />
- il synset deve contenere almeno una variante;<br />
- il synset deve essere specificato il suo padre oppure che si sta creando un synset al top della<br />
gerarchia. Il synset padre si determina, una volta visualizzato nell’area di ricerca synset, cliccando<br />
sul quadratino grigio presente a fianco di ogni synset che si ottiene come risultato di una ricerca.<br />
Se il nuovo synset si vuole inserirlo al top della gerarchia, e quindi senza nessun padre, si deve<br />
cliccare sul bottone “Crea senza padre” presente nella scheda di editing del synset.<br />
Figura 10b. Esempio di inserimento di un nuovo synset<br />
6.1.4 Cancellazione synset<br />
Il synset correntemente visualizzato può essere cancellato cliccando il bottone "Elimina synset"<br />
presente nel menu "Synset".<br />
3.7 Editing di relazioni<br />
Dalla finestra di editing delle relazioni (Figura 11) si possono creare nuove relazioni tra synset o<br />
modificarne di esistenti. Le informazioni che identificano una relazione sono:<br />
- il synset di partenza;<br />
- il synset di destinazione;<br />
- il tipo di relazione (che dipende dai synset di partenza e di destinazione);<br />
- eventuali tratti che ne specificano le caratteristiche.<br />
6.1.5 Modifica relazione<br />
Di una relazione esistente è possibile modificarne soltanto i tratti (o caratteristiche).<br />
È possibile, visualizzata un relazione, selezionare un tipo diverso di relazione ma tale o<strong>per</strong>azione è<br />
uguale a creare una nuova relazione partendo dal passo 3 della procedura di creazione di una nuova<br />
relazione descritta qui di seguito. La stessa cosa vale se si modifica il synset di destinazione.<br />
59
Linea 1.3 ItalWordnet<br />
Figura 11. Editing di relazioni<br />
6.1.5.1.1.1 Tutte le relazioni modificate e non ancora salvate vengono presentate nella finestra di<br />
browsing con l’icona .<br />
6.1.6 Nuova relazione<br />
Per creare una nuova relazione si possono seguire due modalità.<br />
• La prima utilizza il menu "Relazioni" della finestra di editing:<br />
Passo 1: cliccare sul bottone "Nuova relazione".<br />
Passo 2: visualizzare il synset di partenza nell’area synset; cliccare con il tasto destro del mouse<br />
sul quadratino che sta a fianco del synset visualizzato; selezionare synset di partenza dal menù<br />
che si apre.<br />
Passo 3: impostare il tipo di relazione selezionandone una tra quelle presenti aprendo il menu<br />
del campo "Tipo di relazione" (i tipi di relazione presenti saranno quelli che ammettono come<br />
synset di partenza quello selezionato al passo 2).<br />
Passo 4: impostare il synset di destinazione con la stessa modalità descritta al passo 2.<br />
Passo 5: inserire i tratti della relazione, anche se non è obbligatorio, dopo aver cliccato sul<br />
bottone "Caratteristiche".<br />
60
Linea 1.3 ItalWordnet<br />
• La seconda modalità consente di creare una relazione a partire dal synset correntemente<br />
selezionato nella finestra principale. Per questo si utilizzano i bottoni “Relazione interna” e<br />
“Relazione equivalenza” presenti nell’area relazioni della finestra principale (Figura 8).<br />
Passo1: cliccare su uno dei due bottoni e scegliere dai relativi menu a tendina il tipo di relazione<br />
che si vuole inserire (<strong>per</strong> annullare l’o<strong>per</strong>azione cliccare la voce “Annulla” del menu<br />
“Modifica”.<br />
Passo 2: una volta determinata la relazione il cursore del mouse si trasforma in un pallino nero<br />
con cui selezionare il synset di destinazione cliccandolo tra quelli presenti nell’area di ricerca<br />
synset.<br />
Passo 3: A questo punto la relazione viene visualizzata nella finestra di editing delle relazioni<br />
dove è possibile modificare qualsiasi valore prima della conferma definitiva.<br />
Il salvataggio della relazione che è stata modificata o creata deve essere confermato attraverso il<br />
bottone "Conferma relazione" del menu "Relazione".<br />
6.1.7 Cancellazione relazione<br />
Una relazione può essere cancellata tramite il bottone "Elimina relazione" posto nel menu<br />
"Relazione" della finestra di editing.<br />
7 Funzioni di import/export<br />
IWN-BEST consente di importare e esportare dati da file e su file di tipo testo strutturati secondo le<br />
specifiche in formato XML che vengono riportate in questa sezione.<br />
La finestra di export si apre cliccando il bottone “Export” presente nel menu “File” della finestra<br />
principale (Figura 12).<br />
I dati si possono esportare sia parzialmente che nella loro totalità specificando il nome del file in cui<br />
verranno salcvati i dati (tale file verrà creato <strong>per</strong> default nella directory HOME/export/).<br />
In particolare si possono esportare synset (sia dell’ili che di ItalWordnet), la domain ontology e la<br />
top ontology. È inoltre possibile decidere di esportare i synset in base alla POS o soltanto i preferiti<br />
(questa funzionalità non è disponibile nella versione attuale).<br />
Figura 12. Finestra di export dei dati.<br />
61
Linea 1.3 ItalWordnet<br />
3.8 Modello XML <strong>per</strong> ItalWordnet<br />
Al livello più alto dello schema XML ci sono i cinque componenti dell’export (Figura 13):<br />
• system contiene le informazioni sui dati contenuti nell’export <strong>per</strong> un’eventuale import;<br />
• wn è la parte che ospita il wordnet italiano (generico oppure specialistico);<br />
• ili è l’interlingua (WordNet ingles 1.5 o 1.6);<br />
• top_ontology in cui trovano posto i concetti dell’ontologia;<br />
• domain_ontology e`la gerarchia di campi semantici.<br />
<br />
<br />
<br />
<br />
<br />
<br />
Figura 13. Parte di alto livello del DTD <strong>per</strong> la descrizione del formato di import/export di<br />
<strong>ItalWordNet</strong><br />
3.9 Modello XML <strong>per</strong> word_meaning<br />
7.1.1.1.1 Il modello “word_meaning” (Figura 14) è usato <strong>per</strong> descrivere sia synset del wordnet<br />
italiano (generico – esempio in Figura 15 o specialistico), sia synset dell’interlingua.<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Linea 1.3 ItalWordnet<br />
sense CDATA #REQUIRED<br />
ewn_sense CDATA #IMPLIED<br />
status CDATA #IMPLIED><br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
FIGURA 14. DTD DELL’ELEMENTO WORD_MEANING<br />
63
Linea 1.3 ItalWordnet<br />
WORD_MEANING ID="n#8" PART_OF_SPEECH="n"><br />
figura geometrica generata da un rettangolo che ruota intorno a uno<br />
dei suoi lati. <br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Figura 15. Esempio di word_meaning italiano<br />
3.10 Modello XML <strong>per</strong> Top_Ontology e Domain_Ontology<br />
Il modello “concept” (Figura 16) è usato <strong>per</strong> descrivere sia concetti della Top Ontology (un esempio<br />
riportato in Figura 17) sia concetti della Domain Ontology.<br />
<br />
<br />
<br />
<br />
<br />
<br />
64
Linea 1.3 ItalWordnet<br />
Figura 16. Modello XML <strong>per</strong> import/export <strong>per</strong> concetti della top ontology e della domain<br />
ontology<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Figura 17. Esempio di concetto della top ontology<br />
65
Linea 1.3 ItalWordnet<br />
8 Interfaccia da programma (API)<br />
L’interfaccia da programma di IWN-BEST si basa sullo scambio di messaggi tra una applicazione<br />
client e il server ItalWordnet. Un messaggio è composto da un <strong>per</strong>formativo (ad esempio tell,<br />
register-uname, ecc.) e da una serie di coppie attributo valore); la sintassi dei messaggi è la<br />
seguente:<br />
(<strong>per</strong>formativo :attributo-1 valore-1 :attributo-2 valore-2 :attributo-n valore-n)<br />
Gli attributi tipicamente includono un :sender, l’identificatore del client che esegue una richiesta, un<br />
:receiver, l’identificatore del server a cui il messaggio è indirizzato, e un :content, l’effettiva<br />
richiesta che viene inoltrata.<br />
3.11 Messaggio di registrazione<br />
Il messaggio di registrazione <strong>per</strong>mette al server di ItalWordnet di creare un canale di comunicazione<br />
<strong>per</strong> ogni utente che utilizzerà la risorsa. L’identificatore che viene ritornato servirà <strong>per</strong> comporre i<br />
messaggi <strong>per</strong> l'accesso ai dati.<br />
(register-uname :sender :receiver magma)<br />
> C: (register-uname :sender PIPPO :receiver magma)<br />
> S: (ack :sender magma :receiver < PIPPO-MAG4 > :time 3168574274)<br />
3.12 Messaggio di de-registrazione<br />
Questo messaggio cancella la registrazione a partire dall'identificativo dell'utente (ID-NAME)<br />
restituendo una stringa vuota.<br />
> C: (unregister :sender PIPPO-MAG4 :receiver magma)<br />
3.13 Messaggio di accesso ai dati<br />
Le richieste al database di Italwordnet si inviano con il <strong>per</strong>formativo tell e inserendo un comando<br />
API come valore dell’attributo :content. Il :sender sarà l’identificativo dell’utente (ricevuto in<br />
risposta ad un messaggio di registrazione) e il :receiver sarà “italwordnet”.<br />
(tell :sender :receiver italwordnet :content “”)<br />
Es. (tell :sender PIPPO-MAG4<br />
:receiver italwordnet<br />
:content "(api-wordnet \"overview\" \"casa\" \"all\" \"Italian\" \"generic\")"<br />
)<br />
Il messaggio che il server ritorna è a sua volta un messaggio di tipo tell e i dati, come risultato<br />
dell’elaborazione, sono contenuti nel valore dell’argomento :content. Tale valore è sempre una<br />
stringa formata da una parola chiave che identifica il tipo di risultato e dal risultato stesso.<br />
Di seguito riportiamo i comandi API disponibili nella corrente versione di IWN-BEST.<br />
66
Linea 1.3 ItalWordnet<br />
8.1 Comando: api-data-versions<br />
Il messaggio "api-data-versions" <strong>per</strong>mette di sa<strong>per</strong>e quali versioni di database possono essere<br />
consultate. Non ha parametri in input.<br />
Ritorna le versioni disponibili come un lista di stringhe. Ognuna di queste stringhe può essere uno<br />
dei valori del campo DATABASE in tutti gli altri messaggi API.<br />
Es. (api-data-versions)<br />
Sintassi OUTPUT:<br />
AVAILABLE-VERSION {}<br />
dove e` una lista di DATABASE<br />
3.14 Comando: api-wordnet<br />
Il comando "api-wordnet" <strong>per</strong>mette di ottenere informazioni sulla gerarchia di ItalWordnet partendo<br />
da uno o da tutti i sensi che contengono un determinato lemma (WORD).<br />
(api-wordnet )<br />
Es. (api-wordnet \"overview\" \"casa\" \"n\" \"Italian\" \"generic\")")<br />
Parametri di INPUT:<br />
è il tipo di ricerca che è possibile eseguire. Una tra le seguenti:<br />
"overview" "synonyms-frequency" "coordinate-terms" "hy<strong>per</strong>nyms" "hyponyms-brief"<br />
"hyponyms-full" "holonyms-inherited" "holonyms-regular" "meronyms-regular"<br />
"meronyms-inherited" "belongs_to_class" "has_instance" "antonyms" "x_pos"<br />
"causes" "is_caused_by" "has_subevent" "is_subevent_of" "role" "involved"<br />
"manner" "result_in" "for_purpose_of" "is_purpose_of" "has_means" "is_means_for"<br />
"derivation" "co_role" "be_in_state" "fuzzy".<br />
il lemma su cui si effettua la ricerca.<br />
è la categoria sintattica (part of speech). Può essere: "n" (noun), "v" (verb), "r" (adverb), "a"<br />
(adjective), "p" (pro<strong>per</strong>), "all" (ricerca su tutte le pos).<br />
è la lingua in cui viene cercato il lemma. Nella versione corrente di ItalWordnet è<br />
sempre "Italian".<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions).<br />
Sintassi OUTPUT:<br />
"WORDNET { {}}"<br />
Il primo elemento è la keyword WORDNET. Il secondo è una lista dove i primi 4 valori (<br />
) sono il riepilogo della ricerca effettuata mentre<br />
è il risultato dell'elaborazione con la seguente sintassi:<br />
::<br />
67
Linea 1.3 ItalWordnet<br />
| <br />
::<br />
#-- if = "overview"<br />
list-of { } | <br />
#-- in all other cases<br />
list-of { } | <br />
#-- è il numero totale di sensi <strong>per</strong> ogni pos. È un numero.<br />
:: list_of <br />
:: list-of <br />
:: | | <br />
#-- if = "overview", "synonyms_frequency", "antonyms"<br />
::<br />
{ }<br />
#-- in all other cases<br />
::<br />
{ (list-of )}<br />
::<br />
{ (list-of )} | <br />
#-- indica la posizione del synset all'interno del .<br />
È un numero. Questo campo è presente solo nei synset che sono sensi della forma di parola che si<br />
sta cercando.<br />
#-- è l'identificatore di un word meaning. È una stringa.<br />
#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) di un determinato<br />
word meaning (es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />
#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />
precedute dal simbolo '\'.<br />
:: @string | <br />
#-- identifica lo stato di inserimento o sviluppo del synset.<br />
#-- specifica il tipo di relazione del synset.<br />
È usato <strong>per</strong> esempio <strong>per</strong> la diversa visualizzazione dei synset. Assume uno dei valori di TYPE-OF-<br />
SEARCH.<br />
:: NIL<br />
3.15 Comando: api-wordmeaning<br />
Il messaggio "api-wordmeaning" <strong>per</strong>mette di ottenere tutte le informazioni di un singolo word<br />
meaning.<br />
(api- wordmeaning < LANGUAGE> )<br />
68
Linea 1.3 ItalWordnet<br />
Es. (api-wordmeaning \"n#11368\" \"n\" \"Italian\" \"generic\")<br />
Parametri di INPUT<br />
è l'identificatore di un word meaning.<br />
è la categoria sintattica (part of speech). Come in api-wordnet.<br />
è la lingua in cui cercare la forma desiderata.<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
"WORDMEANING { }"<br />
#-- :: { <br />
{}}<br />
#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) del word meaning<br />
(es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />
#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />
precedute dal simbolo '\'.<br />
:: @string | <br />
#-- è il campo semantico a cui il senso appartiene.<br />
#-- è il concetto dell'ontologia collegato.<br />
#-- mantiengono le informazioni di chi, dove e quando è stata effettuate<br />
l'ultima modifica al word meaning.<br />
#-- contiene i commenti<br />
#-- è una lista di due elementi<br />
:: {list-of } | {list-of }<br />
#-- è una lista di coppie di valori dove il primo rappresenta il tipo di relazione con l'ili<br />
ed il secondo le sue occorrenze.<br />
#-- è una lista di coppie di valori dove il primo rappresenta il tipo di relazione<br />
all'interno della gerarchia italiana ed il secondo le sue occorrenze.<br />
3.16 Comando: api-variant<br />
Il messaggio "api-variant" <strong>per</strong>mette di ottenere tutte le informazione associate alle varianti di un<br />
word meaning.<br />
(api-variant )<br />
Es. (api-variant \"n#11368\" \"casa\" \"Italian\" \"generic\")<br />
Parametri di INPUT<br />
è l'identificatore di un word meaning.<br />
69
Linea 1.3 ItalWordnet<br />
è la forma di parola cercata. È una stringa.<br />
è la lingua in cui cercare la forma desiderata.<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
"VARIANT { }"<br />
#-- è una lista di 8 elementi<br />
:: { <br />
}<br />
#-- è il numero di senso che la variante aveva in EuroWordnet<br />
#-- è il numero di senso che la variante ha in ItalWordnet<br />
#-- rappresenta lo stato della variante.<br />
#-- contiene eventuali esempi.<br />
#-- contiene eventuali attribuiti sull'uso della variante. Per esempio l'origine.<br />
#-- contiene eventuali attribuiti sulle carateristiche della variante. Per esempio il genere<br />
o il numero.<br />
#-- contiene eventuali commenti.<br />
#-- altre informazioni <strong>per</strong> ora non presenti.<br />
3.17 Comando: api-wm-lemmas<br />
Il messaggio "api-wm-lemmas" <strong>per</strong>mette di avere le varianti di un word meaning.<br />
(api-wm-lemmas )<br />
Es. (api-wm-lemmas \"n#11368\" \"Italian\" \"generic\")<br />
Parametri di INPUT:<br />
è l'identificatore di un word meaning.<br />
è la lingua in cui viene effettuata la ricerca del lemma.<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
"LEMMAS { }"<br />
#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) del word meaning<br />
(es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />
70
Linea 1.3 ItalWordnet<br />
3.18 Comando: api-relation<br />
Il messaggio "api-relation" <strong>per</strong>mette di avere, a partire da un word meaning, le informazioni sui<br />
word meaning ad esso collegati attraverso una qualsiasi relazione.<br />
(api-relation )<br />
Es. (api-relation \"n#11368\" \"Italian\" \"has_hy<strong>per</strong>onym\" \"generic\")<br />
Parametri di INPUT:<br />
è l'identificatore di un word meaning.<br />
è la lingua in cui viene effettuata la ricerca del lemma.<br />
è una delle relazioni del modello <strong>ItalWordNet</strong> (cfr. [SI-TAL 2000]).<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
"RELATION { {}}"<br />
:: list-of <br />
:: { <br />
}<br />
#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) del word meaning<br />
(es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />
#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />
precedute dal simbolo '\'.<br />
:: @string | <br />
#-- identifica lo stato di inserimento o sviluppo del synset. Per ora è sempre "ok" ma in<br />
fase di editing potrà assume altri valori.<br />
:: NIL<br />
3.19 Comando: api-ili<br />
Il messaggio "api-ili" <strong>per</strong>mette di ottenere informazioni sui word meaning dell'ili (synset inglesi di<br />
Wordnet 1.5). Essendo un lista piatta non è possibile compiere tutte le ricerche presenti <strong>per</strong><br />
ItalWordnet.<br />
(api-ili )<br />
Es. (api-ili \"overview\" \"home\" \"n\" \"generic\")<br />
Parametri di INPUT:<br />
è il tipo di ricerca che è possibile eseguire. Uno dei seguenti:<br />
è la forma di parola cercata. È una stringa.<br />
è la categoria sintattica (part of speech). Può essere "n" | "v" | "r" | "a" | "p" | "all"<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
71
Linea 1.3 ItalWordnet<br />
"ILI { "ili" {}}"<br />
:: | <br />
::<br />
#-- if = "overview"<br />
list-of { {}} | <br />
#-- in all other cases<br />
list-of ( {}) | <br />
#-- è il numero totale di sensi <strong>per</strong> ogni pos. È un numero<br />
:: list_of <br />
:: list-of <br />
:: | | <br />
## if = "overview"<br />
::<br />
{ }<br />
## in all other cases<br />
::<br />
{ (list-of )}<br />
:: { (list-of )}<br />
| <br />
#-- indica la posizione del synset all'interno del .<br />
È un numero. Questo campo è presente solo nei synset che sono sensi della forma di parola che si<br />
sta cercando<br />
#-- è l'identificatore di un word meaning. È una stringa<br />
#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) di un determinato<br />
word meaning (es. {"dwelling#1" "home#1" "domicile#1"}). È una lista di stringhe.<br />
#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />
precedute dal simbolo '\'<br />
:: @string | <br />
#-- identifica lo stato di inserimento o sviluppo del synset. Per ora è sempre "ok" ma in<br />
fase di editing potrà assume altri valori.<br />
#-- specifica il tipo di relazione del synset.<br />
È usato <strong>per</strong> esempio <strong>per</strong> la diversa visualizzazione dei synset. Assume uno dei valori di ILI-TYPE-<br />
OF-SEARCH.<br />
:: NIL<br />
72
Linea 1.3 ItalWordnet<br />
3.20 Comando: api-ili-lemmas<br />
Il messaggio "api-ili-lemmas" <strong>per</strong>mette di avere le varianti di un ili record.<br />
(api-ili-lemmas )<br />
Es. (api-ili-lemmas \"n#02456156\" \"generic\")<br />
Parametri di INPUT:<br />
e` l'identificatore del synset di wordnet inglese (ILI). E` una stringa composta da due<br />
parti: la pos e l’identificatore di synset separati dal carattere “#”.<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
"ILI-LEMMAS { }"<br />
#-- sono i sinonimi (con il relativo numero di senso) dell'ili (es. {"dwelling#1"<br />
"home#1" "domicile#1"}). È una lista di stringhe.<br />
3.21 Comando: api-top-concept<br />
Il messaggio "api-top-concept" <strong>per</strong>mette di avere tutti i word_meaning associati ad un determinato<br />
concetto dell'ontologia.<br />
(api-top-concept )<br />
Es. (api-top-concept \"human\" \"generic\")<br />
Parametri di INPUT:<br />
) è uno dei concetti dell'ontologia del modello.<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
"TOPCONCEPT { \"overview\" \"topconcept\" {}}<br />
#-- è il numero sensi inglesi (Wordnet 1.5) collegati al concetto di cui si sta<br />
visualizzando le informazioni. È un numero<br />
:: | <br />
:: list-of { {}} |<br />
#-- è la categoria sintattica (part of speech). Può essere "n" | "v" | "r" | "a" | "p"<br />
#-- è il numero di word meaning italiani collegati al senso inglese. È un numero<br />
:: list-of | <br />
:: { }<br />
73
Linea 1.3 ItalWordnet<br />
#-- è l'identificatore di un word meaning. È una stringa<br />
#-- sono i sinonimi (con il relativo numero di senso di ItalWordnet) di un determinato<br />
word meaning (es. {"casa#1" "abitazione#1" "dimora#1"}). È una lista di stringhe.<br />
#-- è una descrizione del senso. È una stringa in cui i caratteri speciali (come le "), vengono<br />
precedute dal simbolo '\'.<br />
:: @string | <br />
#-- identifica lo stato di inserimento o sviluppo del synset. Per ora è sempre "ok" ma in<br />
fase di editing potrà assume altri valori.<br />
#-- specifica il tipo di relazione del word meaning italiano con quello inglese.<br />
:: NIL<br />
3.22 Comando: api-wn-from-lemma<br />
Il messaggio "api-wm-from-lemma" <strong>per</strong>mette di avere tutti gli identificatori di word meaning che<br />
contengo una determinata forma di parola suddivisi <strong>per</strong> categoria sintattica.<br />
(api-wm-from-lemma )<br />
Es. (api-wm-from-lemma \"casa\" \"generic\")<br />
Parametri di INPUT:<br />
è la forma di parola cercata. È una stringa<br />
e` una delle versioni disponibili (vedi il messaggio api-data-versions)<br />
Sintassi OUTPUT:<br />
"WM-INDEX { (list-of { })}<br />
#-- è la categoria sintattica (part of speech). Può essere "n" | "v" | "r" | "a" | "p"<br />
#-- è una lista di WM-ID. È una lista di stringhe (es. {"n#11368" "n#11495"<br />
"n#34420"}).<br />
9 Problemi noti<br />
• Alcune ricerche, ad esempio quelle sulla top ontology, possono essere inefficienti, <strong>per</strong>ché non<br />
ancora ottimizzate.<br />
10 Bibliografia<br />
[SI-TAL 2000] Documento di specifiche Tecniche di SI-TAL – Manuale o<strong>per</strong>ativo. Capitolo 2 –<br />
<strong>ItalWordNet</strong>: <strong>Rete</strong> semantico lessicale <strong>per</strong> l’italiano. CPR, ITC-irst, Quinary, 2000.<br />
74
75<br />
Linea 1.3 ItalWordnet
1.3 <strong>ItalWordNet</strong><br />
Appendice I: XML DTD <strong>per</strong> ItalWordnet<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
76
1.3 <strong>ItalWordNet</strong><br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
]><br />
77