Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...

SI-TAL 

Treebank Sintattico-Semantica 

dell’Italiano 

Linea 1.3 

Manule operativo e valutazione della Treebank 

- 

Manuale d'uso del software 

* * 

Consorzio Pisa Ricerche - (CPR) 

Consorzio Venezia Ricerche - (CVR) 

Istituto Trentino di Cultura - Istituto per la Ricerca Scientifica e 

Tecnologica - (ITC-irst) 

Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni 

Informatiche - (CERTIA) 

Synthema

Codice linea e Tema 

Sommario 

1 INTRODUZIONE.......................................................................................................9 

2 LA TREEBANK DI SI-TAL: RISULTATI DELL’ANNOTAZIONE...........................10 

2.1 Il corpus della Treebank di SI-TAL: composizione interna e livelli di annotazione.............................. 10 

2.2 Annotazione sintattica a costituenti ........................................................................................................... 12 

2.2.1 Risultati..................................................................................................................................................... 12 

2.2.2 Metodologia di annotazione...................................................................................................................... 12 

2.3 Annotazione sintattico-funzionale.............................................................................................................. 13 

2.3.1 Risultati..................................................................................................................................................... 13 


2.4 Annotazione semantico-lessicale................................................................................................................. 14 

2.4.1 Risultati..................................................................................................................................................... 14 


2.4.3 Annotazione e risorsa lessicale di riferimento .......................................................................................... 17 

2.4.4 Interazione tra i siti in carico dell'annotazione semantico-lessicale: CPR e IRST.................................... 17 

2.4.5 Interazione tra annotatori IRST-CPR e codificatori IWN......................................................................... 18 

2.4.6 Considerazioni e commenti finali ............................................................................................................. 19 

3 ANNOTAZIONE ORTOGRAFICA E MORFO-SINTATTICA ..................................19 

3.1 Annotazione ortografica.............................................................................................................................. 19 

3.2 Annotazione morfo-sintattica ..................................................................................................................... 20 

3.2.1 Annotazione di parole ortografiche morfologicamente complesse........................................................... 21 

3.2.2 Annotazione di espressioni polilessicali ................................................................................................... 21 

4 SPECIFICHE DI ANNOTAZIONE PER IL LIVELLO SINTATTICO A COSTITUENTI 

22 

4.1 Teoria X-barra e costituenza sintattica...................................................................................................... 22 

4.2 Costituenti sintattici nello schema di annotazione di SI-TAL ................................................................. 22 

4.2.1 F................................................................................................................................................................ 23 

4.2.2 IBAR......................................................................................................................................................... 24 

4.2.3 SN ............................................................................................................................................................. 24 

4.2.4 SP.............................................................................................................................................................. 25 

4.2.5 SPDA ........................................................................................................................................................ 25 

4.2.6 SPD........................................................................................................................................................... 26 

4.2.7 SA ............................................................................................................................................................. 26 

4.2.8 SAVV ....................................................................................................................................................... 26 

4.2.9 SQ ............................................................................................................................................................. 26 

4.2.10 SV2 ...................................................................................................................................................... 27 

4.2.11 SV3 ...................................................................................................................................................... 28 

4.2.12 SV5 ...................................................................................................................................................... 28 

4.2.13 F2 ......................................................................................................................................................... 28 

4.2.14 F3 ......................................................................................................................................................... 29 

4.2.15 FINT..................................................................................................................................................... 29 

4.2.16 FAC...................................................................................................................................................... 29 

4.2.17 COMPT................................................................................................................................................ 29 

4.2.18 COMPIN.............................................................................................................................................. 30 

2


4.2.19 COMPC................................................................................................................................................ 31 

4.2.18 COORD................................................................................................................................................ 31 

4.2.19 FC......................................................................................................................................................... 32 

4.2.20 FP......................................................................................................................................................... 33 

4.2.21 CP......................................................................................................................................................... 33 

4.2.22 FS e CP ................................................................................................................................................ 34 

4.2.23 CP_INT................................................................................................................................................ 36 

4.2.24 DIRSP .................................................................................................................................................. 36 

4.3 Tipologia dei costituenti sintattici della Treebank di SI-TAL ................................................................. 36 

4.3.1 Costituenti Funzionali Strutturali.............................................................................................................. 37 

4.3.2 Costituenti Funzionali Lessicali................................................................................................................ 38 

4.3.3 Costituenti Sostanziali .............................................................................................................................. 38 

4.4 Criteri di annotazione.................................................................................................................................. 38 

4.4.1 Costituenti minori, Modificatori e Marcatori Semantici........................................................................... 39 

4.4.2 Costituenti vuoti........................................................................................................................................ 39 

4.4.3 Clitici ........................................................................................................................................................ 40 

4.4.4 Il “SI” espletivo: inerente, passivante, medio e impersonale....................................................................40 

4.4.5 Preposizioni e SP ...................................................................................................................................... 40 

4.4.6 Modali e costruzioni perifrastiche di varia natura (aspettuali, causativi).................................................. 40 

5 ANNOTAZIONE FUNZIONALE..............................................................................41 

5.1 Specifiche di annotazione............................................................................................................................ 41 

5.1.1 Tipologia delle relazioni funzionali .......................................................................................................... 41 

5.1.1.1 Relazioni di dipendenza .................................................................................................................. 42 

5.1.1.1.1 Inventario delle relazioni di dipendenza .................................................................................... 43 

5.1.1.1.2 Tratti associati agli elementi della relazione di dipendenza....................................................... 48 

5.1.1.1.2.1 Tratti distintivi del DIPENDENTE ......................................................................................... 48 

5.1.1.1.2.2 Tratti distintivi della TESTA ................................................................................................ 50 

5.1.1.1.2.3 Tratti distintivi della TESTA e del DIPENDENTE ................................................................... 52 

5.1.1.2 Relazioni simmetriche di congiunzione e disgiunzione .................................................................. 52 

5.1.1.2.1 Tratti distintivi del partecipante in relazioni simmetriche.......................................................... 53 

5.1.1.3 Relazioni di coreferenza.................................................................................................................. 53 

5.2 Criteri di annotazione per il livello funzionale.......................................................................................... 54 

5.2.1 Distinzione tra argomenti e modificatori .................................................................................................. 55 

5.2.2 Costruzioni di base.................................................................................................................................... 56 

5.2.2.1 Costruzioni con verbo intransitivo .................................................................................................. 56 

5.2.2.2 Costruzioni con verbo intransitivo inaccusativo ............................................................................. 57 

5.2.2.3 Costruzioni con verbo transitivo con oggetto diretto ...................................................................... 57 

5.2.2.4 Costruzioni con verbo transitivo con oggetto indiretto ................................................................... 57 

5.2.2.5 Costruzioni con verbo transitivo con complemento obliquo........................................................... 57 

5.2.2.6 Costruzioni passive ......................................................................................................................... 57 

5.2.2.7 Costruzioni con completive sottocategorizzate ............................................................................... 58 

5.2.2.8 Costruzioni con interrogative indirette............................................................................................ 59 

5.2.2.9 Costruzioni con modificazione frasale (gerundive, participiali, infinitive)..................................... 60 

5.2.2.10 Costruzioni con complementi predicativi del soggetto e dell’oggetto............................................. 60 

5.2.2.11 Complementazione di nomi e aggettivi........................................................................................... 62 

5.2.2.12 Negazione........................................................................................................................................ 63 

5.2.2.13 Costruzioni esistenziali.................................................................................................................... 63 

5.2.3 Costruzioni coordinate.............................................................................................................................. 63 

5.2.4 Costruzioni ellittiche................................................................................................................................. 65 

5.2.4.1 Ellissi del soggetto .......................................................................................................................... 65 

5.2.4.2 Ellissi del verbo............................................................................................................................... 66 

5.2.4.3 Ellissi in costruzioni verbali perifrastiche ....................................................................................... 67 

5.2.5 Annotazione di relazioni di coreferenza ................................................................................................... 67 

5.2.6 Casi particolari di costruzioni predicative................................................................................................. 68 

5.2.7 Costruzioni causative................................................................................................................................ 68 

3


5.2.8 Costruzioni partitive ................................................................................................................................. 69 

5.2.9 Annotazione delle costruzioni con superlativo e con strutture comparative............................................. 69 

5.2.9.1 Superlativi ....................................................................................................................................... 69 

5.2.9.2 Costruzioni comparative.................................................................................................................. 70 

5.2.10 Miscellanea .......................................................................................................................................... 71 

5.2.10.1 Annotazione delle date .................................................................................................................... 71 

5.2.10.2 Annotazione di cardinalità complessa ............................................................................................. 72 

5.2.10.3 Annotazione di nomi propri ............................................................................................................ 72 

5.2.10.3.1 Annotazione di nome e cognome............................................................................................. 72 

5.2.10.3.2 Annotazione di nomi propri composti...................................................................................... 72 

5.2.10.4 Annotazione di costruzioni appositive di vario tipo........................................................................ 72 

5.2.10.5 Annotazione degli incisi in testa agli articoli .................................................................................. 73 

5.2.10.6 Un caso particolare di congiunzione ............................................................................................... 73 

5.2.11 Problemi aperti..................................................................................................................................... 73 

5.3 Aspetti di annotazione con FunTAS........................................................................................................... 75 

5.3.1 Una nuova relazione funzionale: CONCAT ................................................................................................ 76 

5.3.2 Annotazioni transitorie al livello della descrizione in tratti dei partecipanti............................................. 76 

5.3.2.1 L'attributo INTRODUTTORE............................................................................................................... 76 

5.3.2.2 L'attributo DIATESI........................................................................................................................... 79 

5.3.3 Valori particolari per INTRODEP ................................................................................................................ 79 

6 SPECIFICHE DI ANNOTAZIONE PER IL LIVELLO SEMANTICO-LESSICALE...80 

6.1 L’annotazione semantico-lessicale: tipologia degli elementi.................................................................... 80 

6.2 L’annotazione semantico-lessicale: tratti descrittivi ................................................................................ 81 

6.2.1 dbref (database di riferimento).................................................................................................................. 82 

6.2.2 ns (numero di senso) ................................................................................................................................. 82 

6.2.3 lem (lemma).............................................................................................................................................. 82 

6.2.4 pos (parte del discorso) ............................................................................................................................. 83 

6.2.5 alter(azione) .............................................................................................................................................. 83 

6.2.6 fig(urato)................................................................................................................................................... 83 

6.2.7 np (nome proprio) ..................................................................................................................................... 84 

6.2.8 tipousc (tipo di unità semanticamente complessa).................................................................................... 84 

6.2.9 tipolemma ................................................................................................................................................. 84 

6.2.10 tipot (tipo di titolo)............................................................................................................................... 85 

6.2.11 Altri tratti che possono essere usati nella definizione di unità di senso ............................................... 85 

6.2.11.1 nota.................................................................................................................................................. 85 

6.2.11.2 comm(ento) ..................................................................................................................................... 85 

6.2.12 Tabella sinottica dei tratti per l’annotazione semantico-lessicale ........................................................ 88 

6.3 Criteri di annotazione.................................................................................................................................. 88 

6.3.1 Alterati e aggettivi superlativi................................................................................................................... 88 

6.3.2 Nomi Propri .............................................................................................................................................. 89 

6.3.3 Parole Straniere......................................................................................................................................... 90 

6.3.4 Criteri di identificazione e di annotazione delle USC ................................................................................ 91 

6.3.4.1 Perché l’annotazione delle USC ....................................................................................................... 91 

6.3.4.2 Problemi nell’identificazione ed interpretazione delle USC............................................................. 92 

6.3.4.2.1 Identificazione degli elementi costitutivi delle USC ................................................................... 93 

6.3.4.3 Espressioni idiomatiche e composti ................................................................................................ 94 

6.3.4.3.1 Criteri di identificazione delle espressioni idiomatiche e dei composti ..................................... 95 

6.3.4.3.1.1 Sequenze senza verbo......................................................................................................... 95 

6.3.4.3.1.2 Sequenze con il verbo......................................................................................................... 96 

6.3.4.4 Espressioni con verbo supporto....................................................................................................... 97 

6.3.5 Criteri di annotazione delle UST................................................................................................................ 99 

6.3.6 Gli Usi Figurati ....................................................................................................................................... 100 

6.3.6.1 La Metafora................................................................................................................................... 100 

6.3.6.2 La Metonimia ................................................................................................................................ 101 

6.3.7 Terminologia........................................................................................................................................... 102 

4


6.3.8 Casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso attestato.......................... 103 

6.3.8.1 Assenza del lemma........................................................................................................................ 103 

6.3.8.2 Assenza del senso rilevante di un lemma già presente in IWN ..................................................... 104 

6.3.9 Corrispondenza con più sensi dello stesso lemma .................................................................................. 104 

6.4 Aspetti di annotazione con SemTAS ........................................................................................................ 106 

6.4.1 Combinando più risorse lessicali di riferimento ..................................................................................... 106 

6.4.2 Annotazione di nomi propri polilessicali ................................................................................................ 106 

6.4.3 Annotazione di neologismi e voci dialettali............................................................................................ 107 

6.4.4 GesTALt/SemTAS vs XML ................................................................................................................... 107 

7 SVILUPPO DI GESTALT......................................................................................108 

7.1 Processo di sviluppo del software............................................................................................................. 108 

7.2 Architettura di GesTALt .......................................................................................................................... 110 

7.3 Funzionalità di GesTALt v3.0 .................................................................................................................. 114 

7.3.1 ValTAS................................................................................................................................................... 114 

7.3.2 Wrapper-out............................................................................................................................................ 119 

7.3.3 SSParser.................................................................................................................................................. 122 

8 VALUTAZIONE.....................................................................................................123 

8.1 Modifiche al dizionario.............................................................................................................................. 125 

8.1.1 Derivanti dalla sintassi............................................................................................................................ 125 

8.1.1.1 Reggenze....................................................................................................................................... 125 

8.1.1.2 Testa nominale .............................................................................................................................. 125 

8.1.1.3 Testa verbale ................................................................................................................................. 126 

8.1.1.4 Espressioni polilessicali ................................................................................................................ 126 

8.1.1.5 Dipendenza indiretta con testa nominale....................................................................................... 127 

8.1.1.6 Dipendenza indiretta con testa verbale..........................................................................................128 

8.1.1.7 Dipendenza diretta con testa nominale.......................................................................................... 129 

8.1.1.8 Dipendenza diretta con testa verbale............................................................................................. 129 

8.1.1.9 Specifiche consultazioni................................................................................................................ 130 

8.1.2 Derivanti dalla semantica........................................................................................................................ 131 

8.1.2.1 Inserimento dei semantic type disponibili..................................................................................... 131 

8.1.2.2 Nuovo semantic type..................................................................................................................... 132 

8.1.2.3 Derivanti dalla semantica in combinazione con la sintassi............................................................ 132 

8.2 Modifiche alla grammatica ....................................................................................................................... 132 

8.2.1 Raffinamento delle regole per la costruzione dell'albero........................................................................133 

8.2.1.1 Participi interpretati come aggettivi .............................................................................................. 133 

8.2.1.2 Quanto........................................................................................................................................... 134 

8.2.1.3 Lo - predicato preposto.................................................................................................................. 134 

8.2.1.4 Aggettivi come incisi..................................................................................................................... 134 

8.2.1.5 Quest'ultimo .................................................................................................................................. 135 

8.2.1.6 Prima ancora che ........................................................................................................................... 135 

8.2.2 Raffinamento delle regole di cancellazione ............................................................................................ 136 

8.2.2.1 Sostantivi interpretati come verbi.................................................................................................. 136 

8.2.2.2 Più ................................................................................................................................................. 137 

8.2.2.3 Come ............................................................................................................................................. 137 

8.2.3 Modifica delle preferenze e delle restrizioni........................................................................................... 137 

8.2.3.1 Sono............................................................................................................................................... 138 

8.2.3.2 Ieri ................................................................................................................................................. 138 

8.2.3.3 Dopo.............................................................................................................................................. 138 

8.3 Modifiche al transfer................................................................................................................................. 139 

8.3.1 Lo - predicato preposto .......................................................................................................................... 139 

5


8.3.2 Subordinate infinitive ............................................................................................................................. 139 

8.3.3 Milioni/miliardi di…............................................................................................................................... 139 

8.3.4 Mesi ........................................................................................................................................................ 140 

8.4 Modifiche all'interfaccia software............................................................................................................ 140 

8.5 Osservazioni ............................................................................................................................................... 141 

8.5.1 Ricerche infruttuose................................................................................................................................ 141 

8.5.2 Analisi del lavoro svolto ......................................................................................................................... 141 

RIFERIMENTI BIBLIOGRAFICI..................................................................................143 

APPENDICI .................................................................................................................148 

APPENDICE 1 - ANNOTAZIONE A COSTITUENTI: RAPPRESENTAZIONE IN XML 

.........................................................................................................................................149 

1 DTD.......................................................................................................................149 

1.1 L’elemento .................................................................................................................................... 149 

1.2 L’elemento .................................................................................................................................... 151 

1.3 L’elemento ................................................................................................................................... 152 

APPENDICE 2 - ANNOTAZIONE FUNZIONALE: RAPPRESENTAZIONE IN XML ..153 

2 DTD.......................................................................................................................153 

2.1 L’elemento (partecipante) ............................................................................................ 153 

2.1.1 quantificazione........................................................................................................................................ 155 

2.1.2 cardinalita ............................................................................................................................................... 155 

2.1.3 definitezza............................................................................................................................................... 155 

2.1.4 aux .......................................................................................................................................................... 156 

2.1.5 perifra...................................................................................................................................................... 156 

2.1.6 introdep................................................................................................................................................... 157 

2.1.7 caso ......................................................................................................................................................... 157 

2.1.8 status ....................................................................................................................................................... 157 

2.1.9 ruolo........................................................................................................................................................ 158 

2.1.10 modo .................................................................................................................................................. 160 

2.1.11 diat ..................................................................................................................................................... 162 

2.1.12 syn_form ............................................................................................................................................ 162 

2.1.13 reflex .................................................................................................................................................. 163 

2.1.14 pers..................................................................................................................................................... 163 

2.1.15 num .................................................................................................................................................... 164 

2.1.16 gen...................................................................................................................................................... 164 

2.1.17 introsim .............................................................................................................................................. 164 

2.1.18 partec_id............................................................................................................................................. 165 

2.1.19 href ..................................................................................................................................................... 165 

2.2 L’elemento (relazione funzionale) ............................................................................ 167 

2.2.1 relazionefunzionale................................................................................................................................. 167 

2.2.2 partidrefs................................................................................................................................................. 167 

2.2.3 relfunctid................................................................................................................................................. 168 

2.3 L’elemento .............................................................................................................. 168 

6


3 ESEMPI ................................................................................................................169 

3.1 Costruzioni con verbo intransitivo........................................................................................................... 169 

3.2 Costruzioni con verbo intransitivo inaccusativo..................................................................................... 170 

3.3 Costruzioni con verbo transitivo con oggetto diretto ............................................................................. 171 

3.4 Costruzioni con verbo transitivo con oggetto indiretto ..........................................................................172 

3.5 Costruzioni con verbo transitivo con complemento obliquo.................................................................. 173 

3.6 Costruzioni passive.................................................................................................................................... 173 

3.7 Costruzioni con completive sottocategorizzate ....................................................................................... 175 

3.8 Costruzioni con interrogative indirette.................................................................................................... 176 

3.9 Costruzioni con modificazione frasale (gerundive, participiali, infinitive)........................................... 176 

3.10 Costruzioni con complementi predicativi del soggetto e dell’oggetto.................................................... 177 

3.11 Complementazione di nomi e aggettivi .................................................................................................... 178 

3.12 Negazione.................................................................................................................................................... 179 

3.13 Costruzioni esistenziali.............................................................................................................................. 179 

3.14 Costruzioni coordinate .............................................................................................................................. 180 

3.15 Condivisione di complementi in costruzioni coordinate......................................................................... 183 

3.16 Ellissi del soggetto...................................................................................................................................... 183 

3.17 Ellissi del verbo .......................................................................................................................................... 184 

3.18 Relazioni di coreferenza............................................................................................................................ 185 

3.19 Cardinalità complessa ............................................................................................................................... 185 

3.20 Nomi propri................................................................................................................................................ 185 

3.21 Costruzioni predicative particolari .......................................................................................................... 186 

3.22 Costruzioni causative ................................................................................................................................ 187 

3.23 Costruzioni partitive.................................................................................................................................. 187 

3.24 Superlativo assoluto................................................................................................................................... 188 

3.25 Superlativo relativo ................................................................................................................................... 188 

APPENDICE 3 - ANNOTAZIONE SEMANTICO-LESSICALE: RAPPRESENTAZIONE 

IN XML.............................................................................................................................190 

1 INTRODUZIONE...................................................................................................190 

7


2 ELEMENTI DI MARKUP.......................................................................................190 

2.1 ............................................................................................................................................... 190 

2.2 :unità semantica semplice ............................................................................................................ 191 

2.2.1 ussid ........................................................................................................................................................ 193 

2.2.2 href.......................................................................................................................................................... 193 

2.2.3 dbref........................................................................................................................................................ 194 

2.2.4 numero_senso ......................................................................................................................................... 195 

2.2.5 tipolemma ............................................................................................................................................... 195 

2.2.6 alterazione............................................................................................................................................... 195 

2.2.7 figurato.................................................................................................................................................... 196 

2.2.8 nome_proprio.......................................................................................................................................... 196 

2.2.9 commento ............................................................................................................................................... 197 

2.2.10 nota..................................................................................................................................................... 197 

2.3 :unità semantica di tipo complesso.............................................................................................. 197 

2.4 :unità semantica di tipo titolo ...................................................................................................... 198 

3 DTD.......................................................................................................................199 

8


1 Introduzione 

L'obiettivo previsto per la linea di ricerca 1.3 del tema “Treebank sintattico-semantica dell’italiano” 

consisteva nella produzione della risorsa finale, ed in modo particolare: 

• nel completamento della risorsa linguistica annotata ai livelli sintattici, a costituenti e 

funzionale, e semantico-lessicale attraverso l’estensione del primo prototipo sviluppato 

nell’ambito della Linea 1.2, fino alla copertura di circa 80.000 parole (tokens) per 

l’annotazione a costituenti, di circa 300.000 per l’annotazione funzionale, e di circa 80.000 

per l’annotazione semantico-lessicale; 

• nella realizzazione della versione finale di GesTALt, il sistema di applicazioni software di 

supporto alla creazione e validazione della risorsa Treebank; 

• nella realizzazione della versione finale del sistema di traduzione automatica adottato per la 

valutazione della Treebank nei suoi diversi livelli di annotazione. 

Gli obiettivi sopra menzionati sono stati tutti raggiunti. Il presente capitolo documenta la 

versione finale della Treebank di SI-TAL ed include: 

• la descrizione dei risultati finali del processo di annotazione (sezione 2); 

• la versione finale delle specifiche di annotazione per i livelli ortografico e morfo-sintattico 

(sezione 3); 

• la versione completa ed aggiornata dei manuali di specifiche tecniche per l’annotazione 

sintattica, a costituenti e funzionale, e semantico-lessicale (rispettivamente nelle sezioni 4, 5 

e 6); 

• la documentazione del lavoro svolto nel corso della linea 1.3 finalizzato alla realizzazione 

della versione finale del workbench GesTALt per l’annotazione e la validazione della risorsa 

(sezione 7); 

• un rapporto sui risultati della fase di valutazione preliminare del contributo informativo della 

Treebank di SI-TAL ai fini del raffinamento di un componente software di traduzione 

automatica, sia al livello dell’informazione lessicale che ne può essere ricavata sia al livello 

dello studio di costruzioni problematiche ai fini del parsing sintattico (sezione 8). 

L’eventuale impatto di azioni correttive ed interventi specifici sia sul repertorio lessicale che 

sulla grammatica del componente di traduzione automatica sarà oggetto di valutazione 

quantitativa dettagliata nell’ambito della Linea 1.4. 

E' infine acclusa una sezione di Appendici che documentano la sintassi del linguaggio di markup 

(XML) adottato per il formato di interscambio del materiale annotato, e la corrispondenza tra 

questa sintassi e i contenuti linguistici definiti nelle specifiche linguistiche. La rappresentazione 

XML dell’annotazione sintattica a costituenti è illustrata nell’Appendice 1, quella dell’annotazione 

sintattico-funzionale nell’Appendice 2 e quella dell’annotazione semantico-lessicale nell’Appendice 

3. 

Per quanto riguarda le specifiche di annotazione dei livelli sintattici (a costituenti e funzionale) e 

semantico-lessicale, il presente capitolo contiene parte del materiale già documentato all’interno del 

Rapporto “Specifiche Tecniche” (Linea 1.1), gli aggiornamenti ad esso relativi apportati nel corso 

9


della Linea 1.2 e documentati nel Rapporto “Primo Prototipo”, ed infine ulteriori aggiornamenti e 

modifiche che si sono resi necessari nel corso della Linea 1.3. Si è comunque ritenuto opportuno 

fornire all’utente finale della Treebank di SI-TAL una versione completa delle specifiche di 

annotazione per rendere più agevole la consultazione della risorsa. La documentazione dei livelli di 

annotazione della Treebank è articolata come segue: 

• specifiche linguistiche in senso stretto che definiscono l’ambito dei fenomeni linguistici 

coperti e le modalità di annotazione; 

• criteri di annotazione; 

• eventuale documentazione di problemi emersi nel corso della pratica di annotazione del 

corpus della Treebank di SI-TAL attraverso il workbench GesTALt, e delle soluzioni 

messe a punto in corso d’opera (circoscritta ai livelli di annotazione sintattico-funzionale 

e semantico-lessicale); 

• rappresentazione in XML dell’annotazione (nelle Appendici). 

Le diverse parti hanno ovvie interrelazioni, ma è sembrato comunque conveniente articolare la 

descrizione su più livelli indipendenti per consentire a diverse tipologie ideali di lettore di accedere 

con più facilità ed efficacia all’informazione rilevante. 

La fase di annotazione ha costituito un banco di prova importante della robustezza e adeguatezza 

descrittiva degli schemi di annotazione messi a punto nelle linee precedenti. Le pagine che seguono 

compendiano i risultati di questo processo di verifica empirica. Va notato che non tutte le strategie 

di annotazione adottate hanno consentito un trattamento coerente e soddisfacente di tutti i fenomeni 

rilevanti. Il trattamento al livello sintattico delle strutture comparative, ad esempio, costituisce un 

caso particolarmente istruttivo dell’inadeguatezza della riflessione teorica sull’argomento e 

dell’insufficienza espressiva dei sistemi di rappresentazione al momento disponibili nella 

letteratura. Sarebbe pertanto inopportuno cercare in questa versione delle specifiche una parola 

definitiva su tutti i fenomeni linguistici di interesse teorico. Ciononostante, esse forniscono, a nostro 

avviso, una mappa chiara e dettagliata di alcuni territori relativamente “battuti” e “rassicuranti” 

dalla linguistica teorica e computazionale, insieme all’identificazione puntuale di quei territori che 

invece richiedono ancora considerevoli energie prima di poter essere sottratti alle nebbie 

dell’approssimazione e assimilati ai primi. In questo senso, i manuali di specifiche tecniche qui 

presentati rappresentano un’opera ancora aperta a contributi e approfondimenti futuri. Sicuramente, 

essi hanno contribuito a gettare luce su quanto resta ancora da fare. 

2 La Treebank di SI-TAL: risultati dell’annotazione 

In questa sezione, viene illustrata la composizione finale della Treebank di SI_TAL; per ogni 

livello, sono brevemente descritti i risultati finali del processo di annotazione e la metodologia 

adottata per lo sviluppo della risorsa. 

2.1 Il corpus della Treebank di SI-TAL: composizione interna e livelli di 

annotazione 

La composizione interna del corpus della Treebank di SI-TAL è riportata nella tabella che segue: 

10


Partizione 

corpus 

Fonte Origine Tokens 

Finanziario 

Bilanciato 

Il Sole-24 Ore Giornata del 25/5/1994 89.941 

La Repubblica 

Articoli di vario 

argomento usciti tra il 

1985 e il 1988 

Giornata del 15/7/1995 

59.945 

77.808 

Bilanciato Il Corriere della Sera Giornata del 7/8/1995 

57.938 

Bilanciato 

Periodici: 

• Casaviva 

• Centocose 

• Epoca 

• Espansione 

• Grazia 

• Panorama 

• Starbene 

• Storia Illustrata 

• Zerouno 

Selezione di articoli usciti 

nell’anno 1988 

19.915 

TOTALE 305.547 

La porzione specialistica (finanziaria) del corpus della Treebank di SI-TAL è costituita dagli 

articoli estratti da Il Sole-24 Ore, per un totale di 89.941 parole (“tokens”). La rimanente parte, per 

un totale di 215.606 parole, costituisce il corpus “bilanciato”. In totale, la Treebank ha una 

copertura di 305.547 parole. 

La tabella che segue illustra la distribuzione dei vari livelli di annotazione rispetto alle varie 

partizioni del corpus della Treebank di SI-TAL: 

Annotazione 

Partiz. 

corpus 

Fonte 

Sintatticocostituenti 

Sintatticofunzionale 

Semanticolessicale 

Fin 

Il Sole-24 Ore 

Bil 

La Repubblica 

(1985-88) 

Bil 

La Repubblica 

(1995) 

Bil 

Il Corriere della 

Sera 

11


Annotazione 

Partiz. 

corpus 

Fonte 

Sintatticocostituenti 

Sintatticofunzionale 

Semanticolessicale 

Periodici: 

Bil 

• Casaviva 

• Centocose 

• Epoca 

• Espansione 

• Grazia 

• Panorama 

• Starbene 

• Storia 

Illustrata 

• Zerouno 

(1988) 

Si noti che l’annotazione parallela ai tre livelli (a costituenti, sintattico-funzionale e semanticolessicale) 

è circoscritta al corpus finanziario de Il Sole-24 Ore. 

2.2 Annotazione sintattica a costituenti 

2.2.1 Risultati 

L’annotazione a costituenti ha riguardato la partizione finanziaria del corpus della Treebank di 

SI-TAL, per un totale di 89.941 tokens, contro gli 80.000 previsti dall’Annesso Tecnico del 

progetto. Come illustrato nella tabella che segue, il processo di annotazione ha portato 

all’identificazione e conseguente annotazione di 71.093 costituenti complessi. 

Partizione 

corpus 

Fonte Tokens Costituenti 

Fin Il Sole-24 Ore 89.941 71.093 

2.2.2 Metodologia di annotazione 

L'annotazione a costituenti è stata effettuata in due fasi: prima una fase di pre-annotazione 

automatica il cui risultato è stato oggetto di revisione e correzione manuale; poi una fase di 

revisione e correzione delle analisi che sono state convertite in formato XML e caricate nella base 

di dati di GesTALt. Si rinvia il lettore interessato al rapporto “Primo Prototipo”, sezione 4.1.1.1, 

dove sono illustrate le operazioni svolte nel dettaglio. 

12


2.3 Annotazione sintattico-funzionale 


L’annotazione sintattico-funzionale ha riguardato l’intero corpus della Treebank di SI-TAL (sia 

la partizione bilanciata sia quella finanziaria), per un totale di 305.547 parole annotate (tokens), a 

fronte delle 300.000 previste dall’Annesso Tecnico del progetto. 

Il processo di annotazione ha portato all’identificazione e conseguente annotazione di 162.042 

relazioni funzionali, ripartite come segue: 

Partiz. 

corpus 

Fonte 

Relazioni 

funzionali 

identificate 

Relazioni 

con testa 

nominale 

Relazioni 

con testa 

verbale 

Relazioni 

con testa 

aggettivale 

Relazioni 

con altro 

tipo di testa 

Fin 

Bil 

Il Sole-24 Ore 47.446 23.529 20.042 1.380 2.495 

La Repubblica 

(1985-88) 

32.132 12.133 17.099 878 2.022 

Bil 

Bil 

La Repubblica 

(1995) 

Il Corriere 

della Sera 

41.238 16.241 22.085 1.186 1.726 

30.146 11.464 16.250 895 1.537 

Bil Periodici 11.080 4.488 5.366 502 724 

Fin+Bil TOTALE 162.042 67.855 80.842 4.841 8.504 


A questo livello, l'annotazione è stata effettuata manualmente per quanto riguarda Il Sole-24 Ore, 

La Repubblica (1985-88), Il Corriere della Sera e i Periodici (sulle motivazioni a supporto di 

questa scelta metodologica si vedano i rapporti “Specifiche Tecniche”, sezione 5.1, e “Primo 

Prototipo”, sezione 4.1.2.1.1). Un esperimento di annotazione semi-automatica è stato condotto su 

un sottoinsieme del corpus della Treebank di SI-TAL, corrispondente al corpus de La Repubblica 

(1995); a questo fine è stato realizzato un tool per l'annotazione in forma interattiva mediante il 

quale l’annotatore conferma o corregge la validità di una proposta di annotazione offerta 

dall’interfaccia. Questa porzione del corpus non è inclusa nella base di dati di GesTALt; 

l’annotazione è disponibile in formato XML (per la rappresentazione XML dell’annotazione 

funzionale si veda l’Appendice 2). 

Per quanto riguarda l’annotazione manuale, è stata adottata una strategia di annotazione in due 

passi: 

1. annotazione per nuclei argomentali: in questo caso, l'annotazione è parziale nel senso che è 

circoscritta solo ai nuclei argomentali di predicati (si veda il rapporto “Primo Prototipo”, 

sezione 4.1.2.1.3); 

13


2. completamento dell’annotazione per nuclei argomentali, conformemente alle Specifiche 

Tecniche fornite al termine della Linea 1.1. e successive integrazioni e modificazioni 

(l’annotazione completa è illustrata nel rapporto “Primo Prototipo”, sezione 4.1.2.1.2). 

Questa strategia di annotazione in due passi presenta una serie di vantaggi. Innanzitutto, permette 

un controllo più rigoroso della qualità dell'annotazione che viene rivista ogni volta da almeno due 

annotatori: il primo annotatore effettua la prima fase di annotazione parziale; il secondo la completa 

per renderla conforme alle Specifiche di annotazione e nel contempo rivede quanto annotato nella 

fase precedente. Sul versante più strettamente operativo, si è raggiunta in minor tempo una 

maggiore copertura di testo, permettendo così: 

• di accelerare il processo di verifica e convalida delle Specifiche proposte al termine della 

Linea 1.1; 

• di avviare il processo di validazione dei risultati acquisiti in tempi più brevi; infatti, anche se 

l'informazione relativa ai vari tipi di modificatori rimane ovviamente cruciale, buona parte 

della validazione riguarda l'annotazione dei nuclei argomentali (es. tipologia di complementi 

selezionati da un dato predicato). Si veda in proposito la sezione 8. 

2.4 Annotazione semantico-lessicale 


L’Annesso Tecnico stabilisce che l’annotazione semantico-lessicale debba avere 

complessivamente una copertura di 80.000 parole (tokens) così distribuite: 

Corpus bilanciato 

Corpus specializzato (finanziario) 

56.000 tokens 

24.000 tokens 

In realtà il corpus della Treebank di SI-TAL conteneva circa 142.000 occorrenze, distribuite tra 

sostantivi, verbi ed aggettivi. Era dunque necessario stabilire criteri per la selezione delle unità da 

annotare. 

Per quanto riguarda il corpus bilanciato, ciò ha comportato: 

− l'esclusione dal processo di annotazione semantico-lessicale di una porzione omogenea di 

corpus (ovvero il sotto-corpus dei Periodici); 

− l’annotazione di un sotto-insieme delle occorrenze di sigle, abbreviazioni, nomi propri di 

qualsiasi tipo, parole straniere, e di caratteri speciali. 

Anche riguardo al corpus finanziario, l’annotazione di sigle, abbreviazioni, caratteri speciali e 

parole straniere è stata effettuata in modo parziale, in linea con quanto stabilito nell’ambito della 

risorsa terminologica (EcoWN - corpus finanziario composto da articoli de Il Sole 24 Ore). 

Per entrambe le partizioni del corpus della Treebank di SI-TAL è stata esclusa dall'annotazione 

la seguente tipologia di occorrenze verbali: ausiliari, modali, fare, stare e venire con funzione 

ausiliare. L'annotazione semantico-lessicale dei verbi si è limitata ai lemmi validati nella risorsa 

14


lessicale di riferimento IWN che presentavano una frequenza di occorrenza maggiore di 20 

(frequenza da intendersi riferita all’unione di corpus bilanciato e finanziario). 

Infine, l'annotazione degli aggettivi è stata circoscritta ad una breve lista di lemmi (circa una 

sessantina) stilata in seguito ad uno studio di fattibilità da parte degli annotatori sulla base di quanto 

proposto dai codificatori delle risorse lessicali di riferimento. 

Globalmente l’annotazione semantico-lessicale ha riguardato sostantivi, aggettivi e verbi, 

secondo i seguenti termini: 

Sostantivi: L’annotazione ha avuto inizio a partire dalla lista di lemmi revisionati e resi disponibili 

dai lessicografi, marcati nella risorsa lessicale di riferimento con l’etichetta “CT” (Corpus 

Treebank) per distinguerli ed evitare modifiche da parte dei lessicografi non segnalate agli 

annotatori. Ma l'obiettivo di una copertura totale dell'annotazione dei sostantivi in entrambe 

le partizioni del corpus della Treebank (quella bilanciata e quella specialistica), ha portato 

all'annotazione di lemmi non inclusi in tale lista di partenza, inducendo all’uso del campo 

“Commento” da parte degli annotatori per segnalare lemmi mancanti in IWN o 

semplicemente sospetti sensi mancanti (che in questo modo diventavano facilmente 

recuperabili). 

Nel caso del corpus finanziario, la copertura si può dire pressoché totale (ad esclusione di 

sostantivi facenti parte di locuzioni). Nel caso del corpus bilanciato, procedendo in ordine 

alfabetico, si può dire che la copertura dell'annotazione delle occorrenze dei sostantivi è 

totale per tutte le lettere dell’alfabeto ad eccezione di T, U, V, Z. 

Verbi: L’annotazione ha riguardato esclusivamente i lemmi revisionati e resi disponibili dai 

lessicografi, principalmente con frequenza maggiore di 20. Va tuttavia sottolineato che sia 

per il corpus bilanciato che per quello finanziario non c’è stata una copertura totale di tali 

lemmi. La scadenza del progetto e l’obiettivo numerico dell’annotazione semantico-lessicale 

raggiunto (80.000 parole annotate) costituiscono le ragioni principali dell’esclusione di un 

sottoinsieme di verbi (di dimensioni ridotte nel caso del corpus bilanciato e leggermente 

maggiori nel caso del corpus finanziario). 

Aggettivi: Come per i verbi, né per il corpus bilanciato né per quello specialistico si è raggiunta una 

copertura totale delle occorrenze. A seguito di uno studio di fattibilità basato su un criterio 

di frequenza che ha tenuto conto separatamente dei due tipi di corpora (gli aggettivi più 

frequenti del corpus bilanciato e quelli più frequenti del corpus finanziario), una lista di circa 

sessanta elementi è stata sottoposta da parte degli annotatori ai lessicografi, i quali dopo aver 

controllato le entrate lessicali selezionate e averle marcate con l’etichetta “CT”, le hanno 

rese disponibili per l’annotazione. Nel caso del corpus bilanciato l’annotazione ha riguardato 

anche anche lemmi non convalidati da parte dei lessicografi di IWN. Nel caso invece del 

corpus finanziario, considerato che tale lista è stata resa disponibile nella fase finale 

dell’annotazione (verso fine gennaio 2001) e che era già stato raggiunto l’obiettivo numerico 

delle 24.000 parole annotate, si è preferito annotare solo entrate “stabili” (ovvero controllate 

dai lessicografi): l’annotazione ha quindi riguardato solo la sessantina di aggettivi messi a 

disposizione, per un totale di occorrenze pari a circa un migliaio. 

A seguito delle selezioni fatte e dei criteri di annotazione adottati, l’annotazione semanticolessicale 

è stata portata a termine secondo i dati sintetizzati nella seguente tabella: 

15


Annotazioni complete Annotazioni parziali Copertura totale 

(copertura) 

(copertura) annotazioni 

Corpus bilanciato 52.199 3.899 56.098 

Corpus finanziario 24.881 257 25.138 

Si noti che per “annotazioni parziali” s’intendono le unità semantiche (semplici o complesse) per 

le quali non è stato possibile precisare un numero di senso in riferimento alla risorsa lessicale 

(IWN-Gen o EcoWN) poiché o il lemma o il senso specifico risultavano mancanti. In tal caso, 

l’attributo relativo al numero di senso rimane privo di valore e la mancanza viene segnalata 

mediante un commento. Non si confonda tale specificazione mancante con il caso di 

“numero_senso=no”, usato per segnalare lemmi non presenti nelle risorse lessicali di riferimento (si 

veda la sezione 6.2.2). 

La tipologia delle unità semantiche individuate è riportata nella tabella che segue: 

Unità 

Unità Unità Unità 

Partiz. 

Fonte semantiche Copertura semantiche semantiche semantiche 

corpus 

identificate 

semplici complesse titolo 

Fin Il Sole-24 Ore 22.880 25.138 21.527 1.327 26 

Bil 

La Repubblica 13.997 16.632 13.200 735 62 

(1985-88) 

Bil 

La Repubblica 19.417 23.098 17.793 1.505 119 

(1995) 

Bil 

Il Corriere 13.678 16.368 12.621 981 76 

della Sera 

Fin/Bil TOTALE 69.972 81.236 65.141 4.548 283 


Come già previsto nella prima fase, per l’annotazione semantico-lessicale sia del corpus 

bilanciato che di quello finanziario si è proceduto per lemma, con una selezione dei lemmi sulla 

base della frequenza (dai lemmi più frequenti a quelli meno frequenti). 

Va tuttavia precisato che, giunti a frequenze basse (1-5 occorrenze all’interno del corpus, per un 

numero esteso di lemmi) laddove quindi la frequenza diventava irrilevante, si è seguito l’ordine 

alfabetico, conservando comunque l’obiettivo di una copertura totale. 

In particolare, per il corpus bilanciato, ragioni pratiche (rapidità di annotazione, frequenze molto 

basse dei lemmi, ecc.) hanno indotto all’annotazione per insiemi di lemmi o addirittura per lettera 

dell’alfabeto trasversalmente ai vari sotto-corpora (es. sono stati annotati tutti i sostantivi della 

lettera A, prima nel sotto-corpus de La Repubblica-15/7/1995, poi gli stessi nel Corriere della Sera 

e infine quelli del sotto-corpus de La Repubblica-1985/1988). 

Questo metodo di annotazione può avere causato qualche incoerenza, soprattutto in 

corrispondenza di entrate lessicali di IWN di difficile interpretazione (quali entrate fortemente 

16


polisemiche o complesse), ma è risultato l’unico possibile onde evitare insostenibili rallentamenti 

del lavoro. 

L'annotazione del livello semantico-lessicale ha comportato una complessa fase di interazione 

con il tema ItalWordNet (IWN), in carico dello sviluppo della risorsa lessicale di riferimento, 

anch'essa in corso di completamento durante la terza linea del progetto. Ciò ha richiesto la messa a 

punto di procedure di controllo reciproco, al fine di evitare disallineamenti tra la risorsa Treebank e 

ItalWordNet. 

2.4.3 Annotazione e risorsa lessicale di riferimento 

La messa a disposizione a fianco di ItalWordNet per il lessico generico (designato d’ora in avanti 

come IWN-Gen) della risorsa lessicale specifica del dominio finanziario (designata come EcoWN) 

a partire dagli inizi di dicembre 2000 ha indotto alla definizione del seguente criterio d’uso a 

seconda del lemma da annotare e del corpus di provenienza: 

• Corpus bilanciato: 

− lemma con soli sensi in IWN-Gen: riferimento a IWN-Gen; 

− lemma con soli sensi in EcoWN: riferimento a EcoWN; 

− lemma con sensi sia in IWN-Gen sia in EcoWN: riferimento a IWN-Gen; 

• Corpus finanziario: 

− lemma con soli sensi in IWN-Gen: riferimento a IWN-Gen 

− lemma con soli sensi in EcoWN: riferimento a EcoWN 

− lemma con sensi sia in IWN-Gen sia in EcoWN: riferimento a EcoWN 

In sintesi, per il corpus bilanciato la risorsa di riferimento principale è IWN-Gen mentre per 

quello finanziario è EcoWN. 

2.4.4 Interazione tra i siti in carico dell'annotazione semantico-lessicale: CPR e IRST 

Rispetto alla fase di annotazione per lo sviluppo del Primo Prototipo (Linea 1.2), le interazioni 

tra gli annotatori di IRST e di CPR hanno assunto modalità e frequenza differenti, in relazione al 

modo in cui la stessa annotazione è stata portata avanti. 

Fondamentalmente la natura dei lemmi annotati ha condizionato il modo di mettere in pratica 

l’annotazione. Più specificatamente: 

• sostantivi 

Mentre l’annotazione nell’ambito della Linea 1.2 ha riguardato quasi esclusivamente unità 

semantiche semplici indicanti nomi comuni, nella Linea 1.3 è stata estesa a tutte le unità 

semantiche complesse e ai titoli, che per modalità di creazione e annotazione comportano tempi 

di annotazione maggiori. 

17


• verbi 

La forte polisemia che caratterizza i verbi (es. passare prevede 21 sensi) ha implicato in fase di 

annotazione: 

• necessità di maggior tempo per analizzare tutti i sensi possibili per un lemma; 

• possibilità di confusione tra sensi diversi; 

• difficoltà a discernere tra i vari sensi previsti e a cogliere differenze dettate 

apparentemente da sfumature minime. 

Facendo seguito a quanto detto sopra, i tempi di annotazione si sono enormemente dilatati a scapito 

di un maggior numero di scambi di informazioni tra gli stessi annotatori. La definizione di strategie 

comuni di annotazione si è così fatta più sporadica con conseguente penalizzazioni al livello 

dell’omogeneità dell’annotazione per mano dei diversi annotatori, che può così talvolta presentare 

incoerenze. 

2.4.5 Interazione tra annotatori IRST-CPR e codificatori IWN 

Per le stesse ragioni di cui sopra, modalità e tempi di annotazione hanno inciso anche sulle 

interazioni tra annotatori IRST-CPR e codificatori IWN, riducendo queste ultime in maniera 

sostanziale e soprattutto cambiandone la natura originale. Da un certo momento in avanti l’esigenza 

di comunicare dubbi e proposte di modifiche e/o integrazioni ai responsabili delle risorse lessicali è 

stata inevitabilmente posta in secondo piano. Oltretutto, all’avvicinarsi della scadenza della Linea, i 

tempi di codifica delle risorse lessicali e quelli di annotazione del corpus risultavano sfasati e non 

più sincronizzabili. 

Nonostante ciò, gli annotatori hanno continuato a tenere traccia (in primo luogo attraverso 

commenti all’interno dell’annotazione) di tutti i dubbi e delle proposte di modifica/integrazione, 

ritenendo tali informazioni utili per revisioni e sviluppi futuri della risorsa lessicale e del corpus 

annotato. 

Da parte di entrambi i gruppi (annotatori IRST-CPR e codificatori IWN) c’è inoltre sempre stata 

coscienza del problema relativo alle modifiche della risorsa di riferimento nei punti interessanti 

lemmi già consegnati (modifiche che si sono ripercosse sulle annotazioni già realizzate che 

dovevano essere riviste alla luce della modifica stessa). Siccome integrazioni, revisioni e modifiche 

successive di IWN possono aver determinato discordanza tra i sensi assegnati dagli annotatori e 

quelli previsti nel lessico di riferimento, per quanto ci sia stato l’impegno concreto di segnalare tali 

discrepanze e correggerle, non si esclude la possibilità di individuare all’interno della Treebank tali 

discordanze. 

Infine, per quanto riguarda la risorsa lessicale terminologica (EcoWN), l’interazione tra 

annotatori e codificatori della risorsa si è concretizzata nella collaborazione allo sviluppo della 

stessa attraverso la proposta di una lista di possibili entrate raccolte durante la prima fase di 

annotazione, una lista di lemmi tratti dal corpus finanziario ed opportunamente selezionati (nomi di 

banche, aziende, titoli bancari, gergo borsistico, ecc.) e la partecipazione alla definizione dei sensi 

dei lemmi inseriti sulla base della disambiguazione offerta dagli esempi tratti dal corpus finanziario 

stesso. 

18


2.4.6 Considerazioni e commenti finali 

Come emerge dalla casistica marcata attraverso commenti (si veda la sezione 6.2.11.2), il divario 

esistente tra corpus annotato e stato delle cose nel lessico di IWN non è minimo. Tale divario era 

inevitabile se si considera che il lavoro di annotazione è avvenuto in parallelo con quello di 

revisione e integrazione della risorsa lessicale generica di riferimento (IWN-Gen). Ancor più nel 

caso della risorsa lessicale terminologica (EcoWN), sviluppata ad annotazione già in corso (con 

conseguente problema di mapping tra sensi di entrate di IWN-Gen e sensi delle stesse entrate 

previste in EcoWN - es. ‘prestito’). 

Si ritiene quindi che il divario tra corpus e lessico sia parzialmente legittimo e quello non 

linguisticamente giustificabile potrebbe essere rimosso con un aggiornamento fatto in parallelo 

delle due risorse (corpus e lessico). 

3 Annotazione ortografica e morfo-sintattica 

Come illustrato nei rapporti “Specifiche Tecniche” e “Primo Prototipo”, la Treebank di SI-TAL 

ha una struttura a tre livelli che copre i livelli di descrizione linguistica sintattico e semantico. 

L'annotazione sintattica è distribuita su due diversi livelli, indipendenti ma complementari: il livello 

dell'annotazione a costituenti ed il livello dell'annotazione funzionale. Il terzo livello riguarda 

l'annotazione semantico-lessicale realizzata nei termini di etichettatura di senso aumentata con altri 

tipi di informazione semantica. 

I tre livelli di annotazione sono indipendenti gli uni dagli altri, e fanno tutti riferimento allo 

stesso input, ovvero al testo annotato morfo-sintatticamente: a questo livello l'annotazione include 

l'identificazione delle parole morfologiche, con specificazione della relativa parte del discorso e 

tratti morfo-sintattici associati, ed il trattamento di forme morfologicamente complesse (es. forme 

verbali con clitico) e di espressioni polilessicali di base. Il testo con etichettatura morfo-sintattica fa 

a sua volta riferimento ad un altro modulo di annotazione, il modulo di annotazione ortografica, che 

include informazione relativa alle parole ortografiche e all'organizzazione macrotestuale (ovvero 

strutturazione del testo in unità quali titolo, sottotitolo, didascalia, corpo dell'articolo, paragrafo, 

etc.). 

In questa sezione, riportiamo le specifiche di annotazione per i livelli presupposti 

dall’annotazione sintattica e semantico-lessicale: ovvero l’annotazione ortografica e quella morfosintattica. 

3.1 Annotazione ortografica 

Il corpus della Treebank è organizzato in articoli. Per ogni articolo, il modulo di annotazione 

ortografica riporta l'informazione relativa alle parole ortografiche che costituiscono il testo e 

all'organizzazione macrotestuale. 

L'informazione relativa alle parole ortografiche include indicazione della presenza di caratteri 

maiuscoli/minuscoli con distinzione della seguente tipologia di casi: 

• tutto minuscole 

• tutto maiuscole 

• maiuscola iniziale 

• presenza sia di maiuscole sia di minuscole come in "OdG" 

19


Non si dispone dell'informazione relativa al carattere tipografico (neretto, corsivo) in quanto non 

era presente nella fonte. 

Per ogni articolo, l'informazione macrotestuale consiste nella seguente tipologia di informazioni: 

• corpus di appartenenza, bilanciato o finanziario 

• fonte, ovvero titolo del giornale o del periodico in cui è apparso l'articolo 

• data 

• articolo 

• argomento 

• autore/firma 

• titolo principale 

• mezzo titolo 

• sottotitolo 

• sommario 

• corpo del testo 

• paragrafo 

• didascalia 

• tabella (solo quando contenente dati testuali) 

La DTD relativa al modulo di annotazione ortografica è riportata in appendice al Rapporto 

Tecnico “Primo Prototipo” (Linea 1.2). 

3.2 Annotazione morfo-sintattica 

Al livello morfo-sintattico, l'annotazione riguarda l'identificazione delle parole morfologiche del 

testo costituente l'articolo, con specificazione della relativa parte del discorso e tratti morfologici e 

morfo-sintattici associati (la DTD relativa a questo livello di annotazione è riportata in appendice al 

Rapporto Tecnico “Primo Prototipo”, Linea 1.2). In questo caso, l'annotazione fa riferimento al 

modulo di annotazione del livello precedente, ovvero ortografico. 

Ogni parola morfologica viene descritta dai seguenti tratti: 

• parte del discorso ("pos"), la cui specificazione è obbligatoria; segue l’inventario dei 

possibili valori per questo attributo: 

• Nome (S) 

• Verbo (V) 

• Aggettivo (A) 

• Pronome (P) 

• Predeterminatore (T) 

• Determinatore (D) 

• Articolo (R) 

• Avverbio (B) 

• Preposizione (E) 

• Congiunzione (C) 

• Numerale (N) 

20


• Interiezione (I) 

• Punteggiatura (@@) 

• Abbreviazione (SA) 

• tratti morfologici ("mfeats"), espressi tramite un codice sintetico che combina informazione 

di persona, numero, tempo, modo, etc; tale specificazione è opzionale, essendo limitata ai 

soli casi in cui è rilevante; l'inventario dei valori associati a questo attributo è riportato in 

Appendice al Manuale delle "Specifiche Tecniche" (Linea 1.1); 

• tratti morfo-sintattici ("sfeats") del tipo verbo transitivo, nome umano, etc. Si tratta di 

etichette volte a integrare l'informazione morfologica delle "mfeats", che permettono una 

annotazione in costituenti sintattici tale che ciascun costituente ha una propria identità 

semantica chiara, e facilmente relazionabile alle annotazioni funzionali a teste introdotte nel 

livello di analisi superiore. Si noti che, come nel precedente caso, tale specificazione è 

opzionale, essendo limitata ai soli casi in cui è rilevante. L'inventario dei valori delle "sfeats" 

con, associato ad ogni etichetta, un commento esplicativo; è riportato Appendice al Rapporto 

Tecnico "Primo Prototipo" (Linea 1.2); 

• lemma, la cui specificazione è obbligatoria. 

L'annotazione a questo livello include anche il trattamento di forme morfologicamente 

complesse e di espressioni polilessicali di base, illustrato rispettivamente nelle sezioni 3.2.1 e 3.2.2. 

3.2.1 Annotazione di parole ortografiche morfologicamente complesse 

Nell'annotazione di parole ortografiche morfologicamente complesse (ad es. forme verbali con 

clitico), la parola ortografica morfologicamente complessa è segmentata nei suoi elementi 

costitutivi. Nel caso delle parole contenenti elementi clitici (es. mangiarlo) due o più parole 

morfologiche (es. mangiare e lo) punteranno alla stessa forma ortografica. Ad esempio, la forma 

verbale con clitico pubblicandola del livello ortografico, al livello morfologico è segmentata in due 

parole morfologiche i cui lemmi sono rispettivamente pubblicare e la e che fanno riferimento 

entrambe alla stessa unità ortografica. 

3.2.2 Annotazione di espressioni polilessicali 

Nell'annotazione di espressioni polilessicali, la sequenza di parole ortografiche che compongono 

l'espressione polilessicale è annotata come un'unica parola morfologica. 

Le espressioni polilessicali annotate a questo livello sono sempre costituite da sequenze continue 

di parole ed includono: 

• espressioni del tipo ad_hoc, inter_nos, prima_facie, run_time, plug_and_play; 

• espressioni irregolari del tipo al_di_là, per_lo_più, alla_spicciolata, allo_scoperto, 

all'_impazzata; 

• locuzioni preposizionali del tipo in_funzione_di, fino_a, intorno_a. 

Le espressioni polilessicali di questo livello sono valide per tutti i livelli di annotazione della 

Treebank. L'annotazione sintattica e semantico-lessicale fa riferimento alle multi-words del livello 

21


base. Quindi fino_a sarà trattata e vista come preposizione e dunque come singola unità di 

annotazione da tutti i livelli. Vi sono altri tipi di espressioni polilessicali, come ad esempio 

avere_un'idea, fare_soldi, fare_esperienza, avere_familiarità così come 

consiglio_di_amministrazione che sono trattate come tali solo al livello semantico, ovvero la loro 

identità di espressioni polilessicali è introdotta solo al livello dell'annotazione semantico-lessicale 

(si veda la sezione 6.3.4). 

Si consideri come esempio la locuzione preposizionale al di là di: all'intervallo di unità 

ortografiche coperto dall’espressione polilessicale corrisponde, al livello morfologico, un’unica 

parola morfologica il cui lemma è al_di_la'_di a cui è associata l'interpretazione di preposizione 

(pos=E). La parola morfologica identificata fa riferimento all'intervallo di parole della 

rappresentazione ortografica dello stesso articolo. 

4 Specifiche di annotazione per il livello sintattico a costituenti 

In questa sezione forniamo la versione finale delle specifiche di annotazione per il livello 

sintattico a costituenti, che raccoglie modifiche ed integrazioni apportate nel corso del processo di 

annotazione. In particolare, si parte dai fondamenti teorici che hanno ispirato la definizione dello 

schema (sezione 4.1) per giungere ad una dettagliata descrizione e classificazione dei costituenti 

sintattici (sezioni 4.2 e 4.3) ed i relativi criteri di annotazione (sezione 4.4). 

4.1 Teoria X-barra e costituenza sintattica 

Schematicamente, la teoria X-barra (Chomsky 1986) prevede una organizzazione a teste e 

proiezioni di teste ognuna delle quali dotata di una barra, in ordine gerarchico: per cui, il nodo da 

cui pende la testa è denotato da 0 e i successivi nodi dominanti hanno una barra, due barre e 

eventuali ulteriori barre - anche se due barre sono di solito il massimo livello di proiezione. 

L’organizzione gerarchica della teoria prevede le seguenti regole astratte di riscrittura: 

Schema teorico regole X-barra 

CP --> Spec(Costituenti Dislocati), Cbarra 

Cbarra --> C0, IP 

IP --> Spec (SN), Ibarra 

Ibarra --> I0, Complementi 

C0 --> Complementatore 

I0 --> Verbo flesso a tempo finito 

4.2 Costituenti sintattici nello schema di annotazione di SI-TAL 

Nella definizione dello schema di annotazione della Treebank di SI-TAL non abbiamo adottato 

integralmente la teoria X-barra e i nomi che da essa derivano: nel dettaglio, abbiamo utilizzato lo 

schema generale e le etichette IBAR e CP. Per il resto sono state usate sempre etichette di 

costituenti sintattici all’italiana: S(intagma) e non P(hrase) per non provocare confusione, ad 

esclusione di CP che è stato mantenuto nella forma originale all’inglese. 

Le etichette adottate sono commentate nel dettaglio in quanto segue. Presentiamo qui in basso 

l’organizzazione astratta della nostra rappresentazione sintattica per il livello di frase, con le 

modifiche che introdotte per la Treebank di SI-TAL. E’ importante ricordare che la stessa 

22


organizzazione si potrebbe applicare anche agli altri costituenti maggiori con teste semantiche – 

sintagma aggettivale (SA), sintagma nominale (SN), sintagma preposizionale (SP) ecc. -, ma poiché 

questi non posseggono argomenti obbligatori, questi sono posti sullo stesso livello degli aggiunti e 

seguono quindi tutti la testa nell’ordine lineare in cui vengono analizzati in superficie. 

Come detto più sopra, per il livello di frase abbiamo utilizzato CP, per contenere i costituenti 

Dislocati o semplicemente Anteposti e eventuali Aggiunti, frasali e non. Per il resto abbiamo 

utilizzato Ibarra come previsto nella teoria - che abbiamo chiamato IBAR, per riscrivere il verbo 

flesso; e il costituente Complementi che contiene i complementi, che abbiamo chiamato COMP 

seguito da T/C/IN per indicare la specializzazione per un tipo di sottocategorizzazione, dove T sta 

per transitivo, C per copulativo e IN per intransitivo. Invece di IP abbiamo usato F, e questo nodo è 

dominato da nodi di F specializzati. Lo schema adottato nella Treebank di SI-TAL risulta essere 

dunque come segue: 

CP --> (Aggiunti), Spec(Costituenti Dislocati), Cbarra 

Cbarra --> FC/FS/FInt, F 

F --> Spec (SN), IBAR, Complementi, (Aggiunti) 

IBAR --> (Neg, Clitici),VerboFlesso (semplice o complesso) con Avverbiali eventuali 

Complementi --> COMPT/ COMPC/COMPIN 

Per quanto riguarda poi la questione dei tratti di accordo, ci siamo basati su suggerimenti della 

LFG che prevedono nessun accordo verbale nella rappresentazione, ma tutti i tratti nei SN, che nel 

nostro caso sono quelli del livello morfo-sintattico. Riportiamo qui in basso esempi di strutture per i 

vari costituenti maggiori allo scopo di mostrare l’organizzazione dei componenti sulla base dello 

schema X-barra. Come si potrà notare, la testa è sempre l’ultimo elemento che precede i 

complementi e/o gli aggiunti, ed è a sua volta preceduta da eventuali costituenti minori che 

costituiscono il contenuto di SPECificatore, nodo che non riportiamo per non appesantire la 

rappresentazione stessa. 

Ogni paragrafo che segue tratterà ciascun costituente sintattico separatamente mettendo in 

grassetto l’elemento testa di ciascun costituente preso in considerazione. Si noti che l’indicazione 

della testa non è parte integrante dello schema di annotazione proposto ma viene inclusa negli 

esempi di annotazione che seguono per facilitarne la lettura e l’interpretazione. Va inoltre fatto 

presente che le etichette morfo-sintattiche che seguono la categoria grammaticale riportate negli 

esempi sotto corrispondono alle "sfeats", ovvero tratti morfo-sintattici del tipo verbo transitivo, 

nome umano (per maggiori dettagli si veda la sezione 3.2). 

4.2.1 F 

Con questo simbolo si intende una frase semplice con un predicato principale e complementi che 

possono anche includere altre frasi. Sono anche considerate frasi semplici le frasi ellittiche. 

f-[sn-[npro-Gullit], 

ibar-[ausa-ha, vppt-dichiarato], 

compt-[sn-[n-guerra], sp-[part-alla, sn-[n-stampa], sa-[ag-sportiva]]]] 

f-[sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]], 

ibar-[vt-richiede], 

compt-[sn-[n-montagne, spd-[pd-di, sn-[n-soldi]]]]] 

23


f-[sn-[dim-questa, n-casa], 

ibar-[clit-si, vt-vende], 

compt-[savv-[avv-bene]]] 

f-[ibar-[vsup-dobbiamo, viin-vincere], sn-[nt-domenica], 

sp-[p-per, 

sv2-[vit-interrompere, compt-[sn-[dim-questo, ag-brutto, nt-momento]]]]] 

4.2.2 IBAR 

Con questo simbolo viene riscritto il gruppo verbale che può includere al proprio interno gli 

ausiliari essere o avere, la negazione, eventuali clitici e avverbi che si possono interporre tra 

l’ausiliare e il verbo lessicale. Oltre agli ausiliari fanno parte di questo costituente i modali e i verbi 

aspettuali, e anche la forma perifrastica stare per. Analogamente alla Treebank in corso di 

costruzione per lo spagnolo (Sandoval et al. 1999), il problema dei verbi cliticizzati con enclitica è 

stato risolto utilizzando la forma di parola con l’enclitico e ripetendo successivamente il clitico 

come parola separata. In questo caso, quindi, il clitico si troverebbe sia all’interno di IBAR che nel 

complemento (COMPT/IN/C) dove riceverebbe una interpretazione. Segue una tipologia di 

costituenti IBAR: 

ibar-[neg-non, vc-ha] 

ibar-[ause-è, vc-diventata] 

ibar-[ausa-ha, vppt-dichiarato] 

ibar-[vt-richiede] 

ibar-[clit-si, vt-vende] 

ibar-[clitdat-le, ausa-ha, vppt-dato] 

ibar-[vin-arrivò] 

ibar-[ause-è, vppin-arrivata] 

ibar-[neg-non, vsup-devono, viin-guardare] 

ibar-[ause-è, ausep-stato, vppt-assunto] 

ibar-[ause-sono, ausep-stati, avv-spesso, vppt-segnalati] 

ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle] 

4.2.3 SN 

Il Sintagma Nominale si sviluppa con una serie di specificatori, una testa ed eventuali 

complementi o aggiunti. Tra i costituenti specificatori ci sono gli articoli, i quantificatori, i 

numerali; sempre prima del nome si trovano gli aggettivi e i possessivi che non ricevono una 

propria struttura di costituenza ma vengono semplicemente elencati prima della testa. Gli aggettivi 

che seguono la testa del SN sono invece rappresentati nel proprio costituente perché possono avere 

a loro volta una struttura interna con complementi ed aggiunti. Sempre all’interno del SN ci sono i 

costituenti SPD e gli eventuali complementi frasali nel caso si tratti di un nome fattivo o una forma 

polilessicale. Le frasi relative sono tutte incluse nel SN. 

Un commento a parte va fatto per i nominali che fungono da modificatori di altri nominali. 

Alcuni di questi sono nomi propri i fratelli Karamazov, la commissione Sangalli; altri sono semplici 

nomi comuni che hanno una funzione di specificazione, il settore cucine, la politica suicida ecc. In 

tutti questi casi non si individua esplicitamente la testa a livello di costituenza, in quanto i due o più 

nominali si troverebbero allo stesso livello. Il livello dell’annotazione funzionale fornirà invece 

l’indicazione esplicita di quale dei due o più nominali funga da testa del SN, sulla base delle 

relazioni grammaticali che il SN intrattiene con il resto della frase. Se ad esempio è un soggetto, 

l’accordo verbale servirà ad individuare la testa, ecc. 

Vi sono poi casi in cui la testa è una espressione polilessicale o multi-word. Segue una tipologia 

di costituenti di tipo SN: 

24


sn-[art-La, npro-Bimex] 

sn-[art-una, ag-bella, n-ragazza] 

sn-[ind-molti, n-libri] 

sn-[num-dieci, n-programmatori] 

sn-[ag-infondate, n-speculazioni] 

sn-[art-il, poss-loro, n-strumento, spd-[pd-di, sn-[n-ricerca]] 

sn-[art-un, n-modo, sv2-[pt-di, viin-fare, compt-[sn-[n-soldi], savv-[avvrapidamente]]]] 

sn-[art-Il, n-fatturato, sa-[ag-complessivo], 

spd-[partd-delle, sn-[n-società], 

coord-[sv3-[vppt-controllate], coord-[cong-e], 

sv3-[vppt-collegate]]] 

sn-[art-’La’, n-credenza, 

fac-[pk-che, 

f-[sn-[art-la, n-terra], 

ibar-[vcir-sia], 

compc-[sa-[ag-rotonda]]]] 

sn-[art-il, n-ragazzo, 

f2-[rel-che, f-[sn-[nh-Maria], 

ibar-[ausa-ha, vppt-incontrato], savv-[avv-ieri]]]]] 

sn-[art-la, ag-cosiddetta, n-commissione, nh-sangalli] 

sn-[art-il, n-settore, n-cucine] 

sn-[nt-domenica, nt-sera] 

4.2.4 SP 

I costituenti SP sono normalmente composti obbligatoriamente da una testa di tipo P 

(preposizione) o PART (ovvero preposizione articolata) e da un costituente SN che ne costituisce un 

elemento essenziale. Sono trattati come SP anche gli aggiunti infinitivali che quindi dopo la testa 

hanno un costituente SV2. Va ricordato che si escludono da questo caso i sintagmi preposizionali 

introdotti da di e da, che hanno una marca sintattica specializzata, come chiarito nelle sezioni 4.2.5 

e 4.2.6. 

sp-[part-alla, sn-[n-stampa, sa-[ag-sportiva]]] 

sp-[p-senza, sv2-[viin-chiedere]] 

sp-[p-dopo, sv2-[vcl-averlo, clitac-lo, vppin-chiesto]] 

4.2.5 SPDA 

Il costituente SPDA è costituito da una testa preposizionali di tipo specializzato, il da o le 

preposizioni articolate di da, e un SN. Questo costituente può servire da Agente Obliquo nelle frasi 

passive, oppure può individuare complementi o circostanziali di vario tipo, tra cui un locativo con 

l’indicazione di Origine o Provenienza. 

spda-[partda-dalla, sn-[npro-Union_Carbide]] 

spda-[partda-dal, sn-[n-casolare]]]] 

coord-[spda-[pda-da, sn-[npro-Sting]], 

punt-, 

sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]], 

cong-e, 

spda-[partda-dalla, sn-[npro-Nannini]]]]] 

25


4.2.6 SPD 

Il costituente SPD è costituito da una testa preposizionali di tipo specializzato, il di o le 

preposizioni articolate di di, e un SN. Questo costituente può servire da complemento verbale, da 

aggiunto o complemento nominale e da secondo termine di paragone in una struttura comparativa. 

spd-[partd-delle, sn-[n-società]] 

spd-[pd-di, sn-[n-ricerca]] 

sa-[in-più, ag-intelligente, spd-[pd-di, sn-[np-Europa]]]]]] 

4.2.7 SA 

Questo costituente viene creato solo per la posizione predicativa degli aggettivi e può avere una 

struttura interna. 

sa-[ag-infelice] 

sa-[in-più, ag-intelligente, spd-[pd-di, sn-[np-Europa]]] 

sa-[agn-inferta, sp-[part-alla, sn-[poss-nostra, n-penisola]]]] 

4.2.8 SAVV 

Questo costituente ha come testa un avverbiale anche in forma locutiva e può avere una struttura 

interna. 

savv-[avv-bene] 

savv-[avvl-alla_spicciolata] 

4.2.9 SQ 

Il sintagma quantificato può assumere diversi ruoli sintattici: 

• può essere uno specificatore del Sintagma Nominale (SN), Sintagmi Avverbiale (SAVV), 

oppure del Sintagma Aggettivale (SA) come mostrato negli esempi in basso: 

sn-[n-livelli, coord-[sa-[sq-[q-dello, num-0/6%], ag-superiori, sp-[p-a, 

sn-[deit-quelli, spd-[partd-del, sn-[nt-bimestre, ag-precedente]]]]], 

cong-e, sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccongrispetto_all, 

sn-[ag-analogo, nt-periodo, spd-[partd-del, sn-[num-1993] 

sn-[sq-[q-una, qd-delle, in-più], ag-importanti, n-zone, sa-[ag-costiere], 

fc-[ccom-del, sn-[n-Paese]] 

sq-[q-uno, qd-dei, num-primi], n-temi] 

sn-[sq-[ind-qualunque, q-altro], n-impiegato, sa-[ag-statale] 

sn-[sq-[in-oltre, num-10, num-mila], n-spot, savv-[p-in, avv-più]] 

savv-[savv-[avv-forse], sq-[art-un, in-pô], avv-prematuramente] 

• Il Sintagma Quantificato può essere un complemento di verbi che reggono SN quantificati 

come mostrato nei seguenti esempi: 

26


ibar-[ause-è, vppin-sceso], compin-[sp-[part-nel, sn-[nt-mese, sa-[agcorrente]]], 

sq-[q-dell, num-1/1%]] 

ibar-[vc-risulta], compc-[sq-[q-del, num-3/7%]]]], fc-[cong-ed, f-[ibar- 

[ause-è, vppc-stato], compc-[sq-[q-del, num-4%]], sp-[p-in, sn-[nt-aprile] 

ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-2/1%]], 

ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-13/5%]] 

ibar-[vc-sono, avv-oggi], compc-[sq-[in-più, q-di, num-700] 

ibar-[clit-si, vin-espande], compin-[sq-[q-del, sn-[num-15/8%] 

ibar-[vc-risulta], compc-[sa-[ppas-aumentato, sq-[q-dell, num-1/9%]], fc- 

[ccong-rispetto_ai, sn-[num-primi, num-tre, nt-mesi, num-1993] 

ibar-[aueir-siano, ausep-stati, vppt-compressi], compt-[sq-[in-più, congdegli, 

q-altri]] 

ibar-[vc-è], compc-[sq-[in-solo, art-un, num-terzo], fc-[ccong-rispetto_a, 

• Il SQ può essere un modificatore o aggiunto nelle strutture comparative come mostrato nei 

seguenti esempi, in cui è strettamente in relazione al sintagma chiamato DegP in ambito 

chomskiano, essendo quindi espressione di un sintagma di grado: 

sn-[art-un, n-incremento, fp-[punt-,, sp-[p-in, sn-[n-termini, sa-[agreali]]], 

punt-,], sq-[q-del, num-5/6%]] 

sq-[in-circa, num-15, num-mila, savv-[p-in, avv-più]] 

sa-[ag-maggiore, spd-[pd-di, sq-[in-più, cong-di, num-un, num-quinto, fc- 

[ccom-del, sn-[n-voto 

ibar-[ause-è, vppin-aumentata], compin-[sq-[in-ben, cong-di, avv-più], fc- 

[ccom-di, sn-[dim-quella, sa-[ag-teorica] 

4.2.10 SV2 

Questo costituente ha come testa un verbo all’infinito, che può essere preceduto oppure no da 

una particella verbale, limitatamente alle seguenti preposizioni a, di, da. Tutte le altre preposizioni 

introducono un SP e contribuiscono all’interpretazione semantica della frase infinitiva che assume 

quindi valore di aggiunto. Nel caso invece rappresentato dalle particelle verbali, queste ultime 

vengono semplicemente assorbire dalla struttura infinitiva e non contribuiscono all’interpretazione 

semantica. In genere, la presenza della particella indica la funzione di complemento dell’infinitiva. 

Il costituente SV2 viene anche utilizzato per l’infinito passato che ha quindi un ausiliare seguito 

dal verbo lessicale al participio passato. Inoltre, si costruisce come SV2 anche l’infinito cliticizzato. 

Il costituente SV2 contiene i propri complementi e aggiunti, intendendo con aggiunti quelli che 

modificano il significato del verbo che costituisce la testa lessicale del SV2. 

sv2-[pt-di, vt-fare, compt-[sn-[n-soldi], savv-[avv-rapidamente]]] 

sv2-[vcl-averlo, clitac-lo, vppin-chiesto] 

27


sv2-[pt-di, vit-spiegare, 

fac-[pk-che, 

f-[sn-[ag-simili, n-azioni], 

ibar-[neg-non, vin-giovano]]]] 

sv2-[viin-uscire, compin-[spda-[partda-dal, sn-[n-casolare]]]]] 

sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]] 

4.2.11 SV3 

Questo costituente ha come testa il participio passato in funzione di aggiunto modificatore 

nominale o frasale. Al suo interno ci sono i complementi e gli aggiunti della testa lessicale. Non 

vengono inclusi eventuali avverbiali modificatori del participio passato che possono precederlo e la 

testa risulta quindi essere sempre il primo elemento del costituente - vedi quasi fatto = [savv-[inquasi], 

sv3-[vppt-fatto]] 

sv3-[vppt-controllate] 

sv3-[vppt-rivolte, sp-[part-all, sn-[n-Italia]], 

spda-[partda-dalla, sn-[n-commissione, sa-[ag-europea]]]] 

coord-[sv3-[vppt-controllate], 

cong-e, 

sv3-[vppt-collegate]] 

4.2.12 SV5 

Questo costituente ha come testa il gerundio in funzione di aggiunto modificatore frasale. Al suo 

interno ci sono i complementi e gli aggiunti della testa lessicale. Non vengono inclusi eventuali 

avverbiali modificatori del gerundio che possono precederlo e la testa risulta quindi essere sempre il 

primo elemento del costituente. Il costituente SV5 viene anche utilizzato per il gerundio passato che 

ha quindi un ausiliare seguito dal verbo lessicale al participio passato. Inoltre, si costruisce come 

SV5 anche il gerundio cliticizzato. 

sv5-[vgin-parlando] 

sv5-[vgin-sparando, savv-[avvl-all_impazzata]] 

sv5-[aueg-essendo, vppin-arrivato, savv-[avv-presto]] 

4.2.13 F2 

Questo costituente ha la stessa funzione di CP, serve cioè a contenere costituenti che sono 

anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante. 

Possono contenere un SN che come testa abbia un elemento funzionale, il complementatore che, 

oppure un pronome relativo preceduto oppure no da un articolo – vedi esempi riportati in basso. 

Potrà contenere anche un SP per i pronomi relativi obliqui, preceduto da una preposizione semplice 

o articolata, oppure individuati da cui. Il costituente F2 domina sempre invariabilmente un nodo F. 

sn-[art-il, n-ragazzo, 

f2-[sp-[part-al, rel-quale], 

f-[sn-[npro-Gullit], 

ibar-[ausa-ha, vppin-parlato]]]] 

sn-[art-le, n-imprese, sa-[ag-italiane], 

f2-[sn-[rel-che], 

f-[ 

coord-[ 

28


ibar-[vt-producono], 

cong-e, 

ibar-[vt-importano]], 

compt-[sn-[n-energia]]]]]] 

4.2.14 F3 

Questo costituente è usato per annotare frasi frammento, ovvero frasi che non hanno un IBAR al 

loro interno, che sono semplicemente dei costituenti di tipo nominale, avverbiale, preposizionale 

ecc. privi completamente di verbo. Casi tipi di strutture F3 sono i titoli. Includiamo alcuni esempi: 

f3-[sn-[npro-intersind, sa-[ag-pronta, sp-[part-al, sn-[poss-suo, n-ingresso, 

sp-[p-in, sn-[npro-confindustria]]]]]], punto-.] 

f3-[congf-poi, sn-[art-l, n-approvazione, spd-[partd-del, sn-[n-programma, 

sp-[p-d, sn-[n-attività]], sv3-[ppas-presentato, compt-[sp-[part-alla, sn-[ngiunta]], 

sn-[art-il, num-4, nt-giugno]]]]]], punto-.] 

4.2.15 FINT 

Questo costituente ha la stessa funzione di CP, serve cioè a contenere costituenti che sono 

anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante. In 

particolare, come nel caso di F2 contiene un SN o un SP che hanno come testa un pronome 

interrogativo, preceduto o no da una preposizione. 

fint-[sn-[int-chi], 

f-[ 

ibar-[auair-abbia, vppt-incontrato], 

compt-[sn-[nh-Maria]]]] 

4.2.16 FAC 

Questo costituente ha la stessa funzione di CP, serve però a contenere soltanto la testa di CP, C°, 

cioè il complementatore che, che in certi contesti può anche essere vuoto. In questi casi però il nodo 

FAC verrà eliminato. Il nodo FAC può apparire nel contesto di un complemento verbale come 

COMPT oppure in posizione estraposta, all’inizio frase, sotto CP: 

compt-[fac-[pk-che, 

f-[ 

ibar-[clit-c, vc-era], 

compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]]]] 

cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]], 

ibar-[vt-significa], 

compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]] 

4.2.17 COMPT 

Questo costituente ha la funzione di individuare tutti i complementi di verbi transitivi. Contiene 

tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai 

complementi obbligatori, quindi contiene i complementi opzionali. Questo costituente contiene 

inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad individuare delle 

modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti 

29


spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei 

complementi. 

Questo costituente contiene anche il SN soggetto posposto di frasi passive o invertite per motivi 

di carattere informazionale, pragmatico o semantico. 

ibar-[auair-abbia, vppt-incontrato], 

compt-[sn-[nh-Maria]] 

ibar- [vt-promise], 

compt-[sp-[p-a, sn-[nh-Maria]], sv2-[pt-di, viin-partire]] 

ibar-[ausa-ha, vppt-promesso], 

compt-[sv2-[pt-di, vit-accettare, sn-[art-il, n-lavoro]]] 

ibar-[vt-informò], 

compt-[sn-[nh-Maria], spd-[partd-del, sn-[poss-suo, n-arrivo]]] 

ibar-[vt-importa], 

compt-[spda-[partda-dalla, sn-[npro-Union_Carbide]]] 

ibar-[vt-decise], 

compt-[sv2-[pt-di, viin-partire]] 

ibar-[ausa-ha, vppt-visto], 

compt-[sn-[n-Paolo], sv2-[viin-uscire, spda-[partda-dal, sn-[n-casolare]]]] 

ibar-[vt-considerava], 

compt-[sn-[art-i, n-siciliani], 

sn-[art-il, n-popolo, sa-[in-più, ag-intelligente, 

spd-[pd-di, sn-[np-Europa]]]]] 

ibar-[ausa-ha, vppt-detto], 

compt-[fac-[pk-che, f-[ibar-[ausa-avrebbe, vppt-accettato], 

compt-[sn-[art-il, n-lavoro]]]]]] 

4.2.18 COMPIN 

Questo costituente ha la funzione di individuare tutti i complementi di verbi intransitivi. Con 

verbi intransitivi si intendono perlomeno i seguenti tipi sintattici: verbi inaccusativi, verbi 

inergativi, verbi atmosferici, verbi impersonali. 

Contiene tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre 

ai complementi obbligatori, quindi contiene i complementi opzionali. Questo costituente contiene 




complementi. 

Questo costituente contiene anche il SN soggetto posposto di frasi invertite per motivi di 

carattere informazionale, pragmatico o semantico. Casi particolari sono costituiti da frasi ergative, 

frasi con il si impersonale, frasi con verbi riflessivi inerenti. 

ibar-[vin-esce], 

compin-[sp-[part-allo, sn-[n-scoperto]]] 

ibar-[vin-arrivai], 

compin-[sp-[p-in, sn-[n-ritardo]]] 

30


4.2.19 COMPC 

Questo costituente ha la funzione di individuare il complemento di verbi copulativi. Contiene 

tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai 

complementi obbligatori, quindi contiene i complementi opzionali. Questo costituente contiene 




complementi, come ad esempio nel caso di una predicazione di Locativi ripresi oppure no dal ci. 

ibar-[clit-c, vc-era], 

compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]] 

ibar-[clit-’C’, vc-è], 

compc-[sn-[art-una, n-vespa], sp-[part-nella, sn-[poss-mia, n-camera]]] 

4.2.18 COORD 

COORD/Nome di costituente serve per coordinare costituenti tra di loro e nel caso di SN ad 

assegnare numero plurale all’insieme creato dai due o più SN coordinati. Questo costituente 

comprende due tipi di teste: la congiunzione coordinate individuata da “cong-e” oppure un segno di 

punteggiatura, “punt-,”. Le strutture coordinate possono contenere liste e frasi ellittiche che nel 

Penn Treebank vengono indicate da costituenti appositi LST e FRAG. Abbiamo scelto di non 

introdurre marche specializzate per questo tipo di strutture in quanto la nostra rappresentazione non 

include le categorie vuote. Abbiamo invece trattato a parte le frasi coordinate, che potrebbero 

oppure no prevedere strutture ellittiche, con un costituente separato FC (vedi sotto). 

coord-[sn-[art-I, n-superstiti], 

cong-e, 

sn-[art-i, n-parenti, spd-[partd-delle, sn-[n-vittime]]]] 

coord-[sv3-[vppt-controllate], 

cong-e, 

sv3-[vppt-collegate]] 

coord-[ 

ibar-[vt-producono], 

cong-e, 

ibar-[vt-importano]], 

compt-[sn-[n-energia]]] 

compin-[coord-[ 

sp-[part-all, sn-[n-aumento, spd-[pd-di, sn-[n-capitale]]]], 

punt-, 

sp-[part-all, n-utile, spd-[pd-di, sn-[n-esercizio]]], 

cong-ed, 

sp-[part-ai, sn-[n-contributi, 

sp-[p-per, sn-[art-l, n-editoria]]]]] 

coord-[sp-[part-sui, sn-[n-pedatori, sp-[p-a, sn-[n-disposizione]]]], 

cong-e, 

sp-[part-sui, sn-[n-tecnici]]]] 

coord-[ibar-[ausa-ha, vppt-confermato], 

compt-[sn-[npro-Eugenio, npro-Scalfari]], 

cong-ed, 

ibar-[ausa-ha, vppt-deliberato], 

compt-[sv2-[pt-di, vit-aumentare], 

sn-[art-il, n-numero, spd-[partd-dei, sn-[n-consiglieri]]]]] 

coord-[spda-[pda-da, sn-[npro-Sting]], 

31


punt-, 

sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]], 

cong-e, 

spda-[partda-dalla, sn-[npro-Nannini]]]]] 

fc-[ 

f-[sn-[ind-Molti], 

ibar-[vt-diranno], 

fac-[pk-che, f-[ibar-[vc-è], 

compc-[sn-[art-il, n-trionfo, 

spd-[partd-della, sn-[n-marcatura, 

sp-[p-a, sn-[n-uomo]]]]]]]]], 

punt-, 

f-[sn-[pron-io], 

compt-[fac-[intj-no]]]] 

4.2.19 FC 

Un sottocaso di coordinazione è costituito dalla coordinazione di frasi, una delle quali ellittica, 

che viene demarcata da un costituente esplicito, FC. 

fc-[f-[sn-[art-Gli, n-esempi], 

ibar-[ause-sono, vppt-scritti], 

compt-[sp-[p-in, sn-[n-corsivo]]]], 

punt-, 

f-[sn-[art-le, n-glosse], 

compt-[sp-[p-in, sn-[n-stampatello]]]]] 

Inoltre il costituente FC è usato anche per l’annotazione della seguente tipologia di casi: 

• frasi coordinate dalla punteggiatura come il punto e virgola; 

• frasi o costituenti ellittici coordinati da congiunzione comparativa che esemplifichiamo qui in 

basso. 

Seguono alcuni esempi: 

sa-[ag-invariato], fc-[ccong-rispetto_a, sn-[nt-febbraio] 

sa-[ag-superiore]], fc-[ccong-rispetto_a, sn-[art-un, nt-anno, savv-[avvlfa]] 

sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccong-rispetto_all, sn-[aganalogo, 

nt-periodo, spd-[partd-del, sn-[num-1993] 

fc-[ccong-come, f-[ibar-[vt-chiedono], compt-[sn-[art-gli, n-ospedalieri] 

fc-[ccong-più, coord-[spda-[pda-da, sn-[n-nervosismo]], cong-e, spda-[partdadai, 

sn-[ag-normali, n-movimenti]]], cong-che, spda-[pda-da, sn-[art-un, n- 

cambiamento, spd-[pd-di, sn-[n-vedute, sp-[part-sulle, sn-[n-prospettive, 

spd-[partd-del, sn-[n-rischio_italia] 

fc-[ccong-come, f-[ibar-[ausa-ha, vppt-spiegato], compt-[savv-[avv-ieri], sn- 

[nh-mandela] 

fc-[ccong-come, f-[ibar-[clit-si, vt-vede], compt-[spda-[partda-dalla, sn-[ntabella] 

fc-[ccong-come, sv3-[ppas-detto] 

32


fc-[ccong-rispetto_a, sn-[f2-[relq-quanto, f3-[sv3-[ppas-prodotto, compt-[sp- 

[part-nella, ag-scorsa, sn-[nt-stagione] 

fc-[ccong-come, f-[sn-[n-logica], ibar-[virt-porterebbe], compt-[sv2-[sp-[pta, 

vit-dedurre] 

ibar-[ausa-ha, vppt-sottolineato], compt-[fc-[ccong-come, f-[sn-[art-il, n- 

Registro, spd-[partd-delle, sn-[n-imprese]]], ibar-[virt-marchi], compt-[sn- 

[art-il, 

4.2.20 FP 

Con FP si indica la presenza di punteggiatura nel testo che può servire successivamente ad 

individuare una eventuale frase parentetica o appositiva, o semplicemente a marcare la spezzatura 

del testo in parti informativamente differenti. Con FP sono designati ad esempio, gli aggiunti aperti 

del tipo participiale posti dopo la testa che li governa. Le strutture appositive possono essere anche 

aggiunti di tipo chiuso, modificatori o attributi. Le parentetiche possono essere frasi di commento, 

in forma anche ellittica racchiuse tra due simboli di punteggiatura. 

cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]], 

fp-[punt-,], 

f-[sn-[npro-Giovanni], ibar-[vt-vide], 

compt-[ [sn-[qc-tutta, art-la, n-partita]]]] 

cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]], 

fp-[punt-,], 

f-[sn-[nh-Maria], ibar-[vin-partì]]] 

f-[ibar-[vin-slitta], 

sn-[art-la, n-riunione, 

fp-[punt-,], f-[sv3-[vppt-prevista], sp-[p-per, sn-[n-oggi]], 

fp-[punt-,], 

spd-[partd-della, sn-[ag-cosiddetta, n-commissione, nh-sangalli]]]] 

4.2.21 CP 

Come già chiarito in precedenza, il costituente CP viene usato per contenere genericamente tutti i 

costituenti dislocati che sono stati anteposti o preposti a seguito di processi sintattici. In particolare, 

processi come la dislocazione a sinistra o la estraposizione esemplificata più in basso sono casi in 

questione. CP è anche la marca che viene utilizzata per le frasi interrogative con elemento wh- del 

tipo di chi, che cosa, quando, perché, ecc. 

Il costituente CP viene utilizzato genericamente per tutte quelle frasi che non iniziano con il SN 

SOGGetto o con il gruppo verbale IBAR, ma con un aggiunto come un SP o un SAVV, oppure con 

frasi a tempo indefinito come le gerundive o le participiali, esemplificate più in basso. Inoltre, CP 

funge da nodo padre per strutture di frasi complesse, cioè di frasi composte da una frase subordinata 

e una frase principale semplice. Altri esempi di questi casi sono stati inseriti nella sezione 

successiva dedicata a FS in quanto parte integrante di rappresentazione di periodi. 

Che Maria sia partita significa che si è arresa. 

cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]], 

f-[ibar-[vt-significa], 

compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]] 

Essendo arrivato presto, Giovanni vide tutta la partita. 

cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]], 

33


fp-[punt-,], 

f-[sn-[npro-Giovanni], 

ibar-[vt-vide], 

compt-[sn-[qc-tutta, art-la, n-partita]]]] 

Finito il lavoro, Maria partì. 

cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]], 

fp-[punt-,], 

f-[sn-[nh-Maria], ibar-[vin-partì]]] 

Che i governi europei debbano silenziosamente ingoiarle non è giusto. 

cp-[fac-[pk-Che, f-[sn-[art-i, n-governi, ag-europei], 

ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle, 

compt-[clitac-le]]]], 

f-[ibar-[neg-non, vc-è], svc-[sa-[ag-giusto]]]] 

In cambio delle attrezzature e della disponibilità del sito, le università 

americane e giapponesi coinvolte nell’esperimento pagheranno le molte e 

carissime tonnellate di argon liquido che serviranno a verificare se e quando il 

protone decade. 

cp-[sp-[p-in, sn-[n-cambio], 

coord-[spd-[partd-delle, sn-[n-attrezzature]], 

cong-e, 

spd-[partd-della, sn-[n-disponibilità, 

spd-[partd-del, sn-[n-sito]]]]]], 

fp-[punt-,], 

f-[sn-[art-le, n-università, 

coord-[sa-[ag-americane], 

cong-e, 

sa-[ag-giapponesi]], 

sv3-[vppt-coinvolte, sp-[part-nell, sn-[n-esperimento]]]], 

ibar-[vt-pagheranno], 

compt-[sn-[art-le, 

coord-[sa-[ind-molte], 

cong-e, 

sa-[ag-carissime]], 

n-tonnellate, spd-[pd-di, sn-[n-argon], sa-[ag-liquido]], 

f2-[rel-che, ibar-[vt-serviranno], 

compt-[sv2-[pt-a, vit-verificare, 

compt-[ 

cp-[cosu-se, cong-e, cosu-quando, 

f-[sn-[art-il, n-protone], 

ibar-[vin-decade], 

f-[punto-.]]]]]]]]]]] 

4.2.22 FS e CP 

Il costituente FS viene utilizzato in presenza di un elemento linguistico che funga da 

subordinatore, quindi per tutte le frasi subordinate. Normalmente le frasi subordinate sono 

accompagnate da frasi principali, ma non è sempre così come mostrato da un esempio sottostante. 

Oppure, se si vuol parlare di applicazioni, sarà bene ricordare che sono fisici 

anche tutti coloro che si occupano di laser, per materiali per l’elettronica, di 

superfreddo e superconduttività. 

Perché i fisici delle particelle sono alla ribalta molto più spesso dei loro 

colleghi che si occupano di laser o di stato solido? “Prima di tutto”, risponde 

Roberto Fieschi, docente di fisica dello stato solido dell’Università di Parma, 

“perché i fisici nucleari e subnucleari hanno il loro istituto, l’Infn, agile 

ed efficiente malgrado le pastoie del parastato. Mentre gli altri gruppi di 

ricercatori fisici sono dispersi negli istituti e nei centri del Cnr, e soffrono 

tutte le ben note difficoltà di questo ente.” 

cp-[fc-[cong-Oppure], 

fp-[punt-,], 

fs-[cosu-se, 

f-[ibar-[clit-si, vsup-vuol, vit-parlare], 

compin-[spd-[pd-di, sn-[n-applicazioni]]]]], 

34


fp-[punt-,], 

f-[ibar-[clit-si, vit-ricorderà], 

compt-[fac-[pk-che, 

f-[ibar-[vc-sono, svc-[sa-[ag-fisici]]], 

sn-[in-anche, qc-tutti, deit-coloro, 

f2-[rel-che, ibar-[clit-si, vt-occupano], 

compin-[ 

coord-[spd-[pd-di, sn-[n-laser]], 

fp-[punt-,], 

sp-[p-per, sn-[n-materiali], 

sp-[p-per, sn-[art-l, n-elettronica]]], 

fp-[punt-,], 

spd-[pd-di, sn-[n-superfreddo]], 

cong-e, 

sn-[n-superconduttività]]], 

f-[punto-.]]]]]]]] 

cp-[cosu-Perché, 

f-[sn-[art-i, n-fisici, spd-[partd-delle, sn-[n-particelle]]], 

ibar-[vc-sono], 

svc-[sp-[part-alla, sn-[n-ribalta]], savv-[in-molto, in-più, avv-spesso], 

spd-[partd-dei, sn-[poss-loro, n-colleghi, 

f2-[rel-che, ibar-[clit-si, vt-occupano], 

coord-[spd-[pd-di, sn-[n-laser]], 

cong-o, 

spd-[pd-di, n-stato, sa-[ag-solido]]], 

f-[puntint- ?]]]]]]] 

cp-[fp-[par-”], 

sp-[php-prima_di, sa-[avv-tutto]], 

fp-[par-”], 

fp-[punt-,], 

f-[ibar-[vin-risponde], 

sn-[nh-roberto_fieschi], 

fp-[punt-,], 

sn-[n-docente, spd-[pd-di, sn-[n-fisica_dello_stato_solido]], 

spd-[partd-dell, sn-[n-Università, spd-[pd-di, sn-[np-Parma]]]]]], 

fp-[punt-,], 

fp-[par-”], 

fs-[cosu-perché, 

f-[sn-[art-i, n-fisici, 

coord-[sa-[ag-nucleari], 

cong-e, 

sa-[ag-subnucleari]]], 

ibar-[vc-hanno], 

compc-[sn-[art-il, poss-loro, n-istituto], 

fp-[punt-,], 

sn-[art-l, npro-Infn], 

fp-[punt-,], 

coord-[sa-[ag-agile, 

cong-ed, 

sa-[ag-efficiente]]]], 

fs-[cong-malgrado, 

f-[sn-[art-le, n-pastoie, spd-[partd-del, sn-[n-parastato]]]]], 

f-[punto-.]]]] 

fs-[cosu-Mentre, 

f-[sn-[art-gli, ag-altri, n-gruppi, 

spd-[pd-di, sn-[n-ricercatori], sn-[ag-fisici]]], 

ibar-[ause-sono, vppt-dispersi], 

compin-[coord-[ 

sp-[part-negli, sn-[n-istituti]], 

cong-e, 

sp-[part-nei, sn-[n-centri, spd-[partd-del, sn-[npro-Cnr]]]]]]], 

fp-[punt-,], 

fc-[cong-e, 

f-[ibar-[vt-soffrono], 

compt-[sn-[qc-tutte, art-le, in-ben, ag-note, n-difficoltà, 

spd-[pd-di, sn-[dim-questo, n-ente]]]], 

35


f-[punto-.]]]] 

fp-[par-”], 

4.2.23 CP_INT 

Questo costituente serve per marcare frasi interrogative che iniziano con aggiunti oppure 

congiunzioni frasali subordinanti o coordinanti, o ancora frasi interrogative frammento. 

cp_int-[sn-[n-Effetto, sn-[npro-Multiplex]], par-(-), fint-[sn-[int-Quali], 

f-[ibar-[vc-sono], compc-[sn-[art-gli, n-effetti, spd-[pd-di, sn-[dim-questa, 

n-concentrazione, sp-[p-tra, sn-[coord-[n-distribuzione, cong-ed, n- 

esercizio]]]]]]]]], puntint-?] 

cp_int-[fc-[congf-Ma, savv-[avv-oggi], punt-,, sp-[p-con, coord-[sn-[art-i, 

n-cd_rom], cong-e, sn-[art-la, n-multimedialità]]], punt-,, f-[ibar-[vc-è], 

compc-[sn-[in-davvero, art-lo, ag-stesso, n-mestiere, spd-[pd-di, sn-[num- 

500, nt-anni, savv-[avvl-fa]]]]]], puntint-?]], 

cp_int-[f3-[coord-[sn-[nt-fine, spd-[partd-delle, sn-[n-ambizioni]]], cong-o, 

sn-[ag-ennesimo, n-voltafaccia]], sp-[p-su, sn-[art-una, n-vicenda, f2-[sp- 

[part-sulla, rel-quale], f-[sn-[np-mosca], sp-[part-negli, sn-[ag-ultimi, ntmesi]], 

ibar-[neg-non, ausa-ha, vppt-cessato], compt-[coord-[sv2-[pt-di, vitcambiare, 

compt-[sn-[n-posizioni]]], punt-,, sv2-[pt-di, vit-dire, compt- 

[coord-[sn-[qc-tutto], cong-e, sn-[art-il, n-contrario, spd-[pd-di, sn-[qctutto]]]]]]]]]]]]], 

puntint-?] 

4.2.24 DIRSP 

Questo costituente serve per l'annotazione del discorso diretto: contiene due frasi separate dal 

segno di punteggiatura ":". Questo segno è però ambiguo tra discorso diretto, discorso riportato, 

commento ecc., riportiamo qui un solo esempio: 

dirsp-[f-[sn-[art-il, n-traino, sa-[in-più, ag-consistente]], ibar-[vinviene], 

compin-[savv-[avv-sempre], spda-[partda-dalle, sn-[n-vendite, sp- 

[part-all, sn-[n-estero]]]]]], dirs-:, f-[sn-[art-il, num-plus9/5%, n- 

tendenziale, spd-[pd-di, sn-[nt-maggio]]], punt-,, sp-[p-contro, coord-[sn- 

[art-il, num-6%, spd-[pd-di, sn-[nt-marzo]]], cong-e, sn-[art-il, num-7/4%, 

spd-[pd-di, sn-[nt-aprile]]]]], punto-.]] 

4.3 Tipologia dei costituenti sintattici della Treebank di SI-TAL 

Riassumendo, nella tabella che segue è riportata la tipologia dei costituenti sintattici che 

appaiono nella rappresentazione sintattica a costituenti della Treebank di SI-TAL: 

Simbolo 

F 

SN 

SA 

SP 

SPD 

SPDA 

SAVV 

Tipo di costituente 

frase 

sintagma nominale 

sintagma aggettivale 

sintagma preposizionale 

sintagma preposizionale DI 

sintagma preposizionale DA 

sintagma avverbiale 

36


Simbolo 

SQ 

IBAR 

SV2 

SV3 

SV5 

FAC 

FC 

FS 

FINT 

FP 

F2 

F3 

CP 

CP_INT 

COORD/co 

stituente 

COMPT 

COMPIN 

COMPC 

DIRSP 


sintagma quantificato 

nucleo verbale a tempo finito 

frase infinitiva 

frase participiale 

frase gerundiva 

frase complemento 

Coordinatore frase coordinata 

Subordinatore frase subordinata 

Elementi +wh frase interrogativa 

Introduttore punteggiatura frase parentetica o 

apposizione, o separatore testo 

Frase relativa 

Frase frammento 

Elementi dislocati o anteposti, aggiunti frasali e non 

Frase interrogativa con aggiunti in inizio frase 

Elemento coordinante e costituente coordinato 

Complementi retti da VerbiTransitivi 

Complementi retti da Verbi Intransitivi 

Complementi retti da Verbi Copulativi 

Discorso diretto 

Prima di passare ai criteri di annotazione per questo livello, forniremo una classificazione dei 

costituenti, sulla base di come questi riorganizzano i materiali lessicali al proprio interno. In 

particolare, possiamo parlare dei seguenti tipi di costituenti: 

• costituenti funzionali: includono tutti quei costituenti che al proprio interno non prevedono la 

presenza di una testa lessicale semantica, oppure come nel caso dei gruppi preposizionali, che 

non sono completi semanticamente senza la presenza di un ulteriore costituente. I costituenti 

funzionali si suddividono a loro volta in: 

• costituenti Funzionali Strutturali, che sono privi di una qualsiasi testa lessicale che li 

individui; 

• costituenti Funzionali Lessicali, che hanno obbligatoriamente una testa lessicale che ha 

oppure no contenuto semantico; 

• costituenti Sostanziali, che contengono teste lessicali semantiche. 

4.3.1 Costituenti Funzionali Strutturali 

Simbolo 

F 

CP 

COMPT 

COMPIN 

COMPC 


frase 

Elementi dislocati o anteposti, aggiunti frasali e non 

Complementi retti da Verbi Transitivi 

Complementi retti da Verbi Intrasitivi 

Complementi retti da Verbi Copulativi 

37


4.3.2 Costituenti Funzionali Lessicali 

Simbolo 

FAC 

FC 

FS 

FINT 

FP 

F2 

COORD/costituente 

SP 

SPD 

SPDA 


frase complemento con o senza complementatore 

Coordinatore frase coordinata 

Subordinatore frase subordinata 

Elementi +wh frase interrogativa, anche se il 

pronome interrogativo è preceduto da preposizione 

Introduttore punteggiatura frase parentetica o 

apposizione 

Frase relativa, anche se il pronome relativo è 

preceduto da preposizione o da articolo 

Elemento coordinante e costituente coordinato 

sintagma preposizionale 

sintagma preposizionale DI 

sintagma preposizionale DA 

Possiamo notare che nel caso in cui il costituente CP non ha motivo per la sua presenza nella 

struttura, cioè nella frase non ci sono costituenti anteposti o aggiunti di inizio frase, esso non 

apparirà. Per quanto riguarda il nodo F invece, esso apparirà anche se il soggetto non fosse espresso 

lessicalmente: risulterà quindi indicativo delle frasi in cui appare il nodo IBAR, cioè il verbo flesso 

di tempo definito. Il nodo F apparirà nelle frasi ellittiche ma non nelle frasi di modo indefinito che 

sono invece individuate da nodi SV con numeri che li differenziano. 

4.3.3 Costituenti Sostanziali 

Simbolo 

SN 

SA 

SAVV 

IBAR 

SV2 

SV3 

SV5 


sintagma nominale 

sintagma aggettivale 

sintagma avverbiale 

nucleo verbale a tempo finito 

frase infinitiva 

frase participiale 

frase gerundiva 

Anche in questo caso è necessario notare che il costituente IBAR non potrà mai apparire da solo, 

ma sempre in compagnia del suo nodo dominante F. 

4.4 Criteri di annotazione 

In questa sezione sono forniti criteri di annotazione per quanto concerne il livello sintattico a 

costituenti. In particolare, verranno prese in considerazione particolari costruzioni sintattiche e se ne 

specificherà il trattamento nell’ambito dello schema di annotazione adottato. 

38


4.4.1 Costituenti minori, Modificatori e Marcatori Semantici 

Nel SN, i determinatori e i modificatori sia che precedano la testa o che la seguano vengono 

inclusi allo stesso livello della testa nominale. Mentre i determinatori sono privi di costituenza, tutti 

gli altri modificatori portano la loro struttura sintattica. Si suppone che i determinatori (intendendo 

con questo termine articoli, quantificatori di vario genere, numeri) dovranno poi essere rappresentati 

nella funzione SPEC(ificatore). 

I complementatori vengono trattati come i determinatori, sono cioè privi di costituenza sintattica 

ma appaiono ad un livello separato: questo crea i presupposti per il loro trattamento al livello della 

rappresentazione funzionale, per il quale si rinvia alla sezione 5.1.1.1.2.1. 

Il processo di innalzamento si applica tipicamente alle informazioni associate al nucleo verbale, 

oppure a teste semantiche che introducono frasi subordinate e coordinate. Il nucleo verbale di modo 

finito, intendendo con la parola nucleo non solo il verbo principale ma anche i suoi ausiliari, si trova 

sempre associato a un costituente separato, IBAR. Per quanto riguarda invece i nuclei verbali di 

modo non finito - infinito, participio e gerundio semplici o composti - questi vengono tutti 

individuati da SVn, dove “n” sta per un numero che serve a specializzare il SV. 

La negazione viene trattata come avverbio ed è quindi disponibile successivamente per essere 

interpretata al livello di rappresentazione adeguato, che però rimane al di fuori dei livelli previsti 

per la Treebank di SI-TAL: in ogni caso, tutte le eventuali operazioni semantiche di individuazione 

della portata o ambito della negazione potranno essere realizzate sia a partire dalla struttura 

sintattica, sia da quella funzionale. 

4.4.2 Costituenti vuoti 

La teoria LFG e tutte le sue derivazioni non prevedono nella rappresentazione sintattica la 

presenza di elementi vuoti. In pratica, la rappresentazione sintattica contiene tutto e solo il materiale 

lessicale di struttura superficiale. Questa è la strategia che si è deciso di seguire anche nel caso dello 

schema di annotazione a costituenti di SI-TAL. 

In particolare tutte le operazioni di raccordo tra elementi dislocati o spostati e il loro sito 

canonico - vedi il soggetto postverbale, l’oggetto preposto - non richiedono nella rappresentazione 

sintattica l’introduzione di tracce e altri tipi di elementi vuoti come marcaposto. E’ invece il livello 

funzionale a rendere conto delle relative relazioni di dipendenza. Lo stesso discorso vale per le frasi 

passive, anche nel caso in cui il soggetto si trovi nella posizione preverbale canonica. 

Stessa sorte tocca a relazioni di dipendenza definite in LFG “a lunga distanza”, cioè tutte quelle 

relazioni che si creano per la presenza di un pronome interrogativo o relativo, o del 

complementatore che: in nessun caso, appare nella struttura sintattica un costituente vuoto a fare da 

marcaposto. Queste relazioni vengono trattate nel livello funzionale, secondo le modalità illustrate 

nella sezione 5.2.5. 

Il soggetto vuoto non appare a livello di rappresentazione a costituenti, e viene introdotto al 

livello funzionale; per la sua rappresentazione si rinvia alle sezioni 5.1.1.1.1 e 5.2.4.1. 

Lo stesso ragionamento vale per il soggetto inespresso di frasi implicite di modo non finito, sia 

che si tratti di complementi o di aggiunti. Benché la teoria preveda operazioni ben distinte in un 

caso o nell’altro, si sceglie di trattare entrambi i casi allo stesso modo. Nella struttura sintattica non 

appare alcun costituente per marcare il soggetto inespresso. A livello funzionale invece viene 

39


inclusa la specificazione di un soggetto controllato, secondo quanto illustrato nella sezione 5.1.1.1.1 

(nel paragrafo relativo alla relazione soggetto). 

Strutture ellittiche di vario tipo sono integrate con l’informazione omessa a livello della 

realizzazione superficiale nell’annotazione funzionale secondo quanto illustrato nella sezione 5.2.4. 

4.4.3 Clitici 

I clitici meritano un discorso a parte in quanto costituiscono un importante componente della 

struttura sintattica, sia a costituenti sia funzionale. 

I clitici sono trattati come sostituti lessicali di complementi o aggiunti. Vengono cioè trasformati 

in funzioni grammaticali corrispondenti, sulla base del caso lessicale e delle informazioni derivabili 

dal predicato reggente; per il loro trattamento al livello funzionale si rinvia alla sezione 5.2.5. La 

struttura a costituenti registra la loro presenza nella posizione superficiale in cui si trovano e ne 

copia il contenuto all’interno di un sintagma corrispondente. 

4.4.4 Il “SI” espletivo: inerente, passivante, medio e impersonale 

Altri clitici espletivi sono quelli costituiti dalle varie interpretazioni del si: in particolare quelle 

che appaiono nelle frasi con verbi riflessivi inerenti come in Gianni si è arrabbiato, non richiedono 

un mapping nella struttura sintattica a costituenti. Il si passivante non contribuisce alcuna 

informazione aggiuntiva oltre all’informazione sulla diatesi passiva, come in il pane si mangia col 

prosciutto. Lo stesso vale per il si medio che contribuisce informazione sia sulla diatesi, sia sul 

soggetto impersonale: da qui si vedono le montagne. 

Più in generale, il si impersonale svolge la funzione di individuare il soggetto impersonale, cioè 

un soggetto inespresso che assume il contenuto del quantificatore esistenziale, con tratti funzionali e 

semantici adeguati. Questa informazione viene travasata nel corrispondente costituente sintattico 

SN e utilizzata poi nel mapping in funzioni grammaticali. 

Altri si espletivi sono da considerarsi quelli in strutture ergative o incoative, come in il vaso 

improvvisamente si ruppe; e il si benefattivo o dativo etico di frasi del tipo: Gino si è bevuto una 

coca. 

4.4.5 Preposizioni e SP 

Tutte le preposizioni appariranno nella struttura a costituenti come testa del costituente SP 

corrispondente. Comunque, vi sono due tipi di costituenti SP: quelli normali e quelli retti dalla 

preposizione DI e sue forme derivate o dalla preposizione DA e sue forme derivate. Questa 

classificazione dei SP crea i presupposti per stabilire regole di corrispondenza tra la struttura a 

costituenti e la struttura funzionale. 

4.4.6 Modali e costruzioni perifrastiche di varia natura (aspettuali, causativi) 

Si tratta di costruzioni con verbi modali, aspettuali, utilizzati per perifrasi, causativi, in generale 

con i cosiddetti verbi a ristrutturazione. In questi casi, la testa lessicale non è costituita dal verbo 

che supporta la perifrasi ma dal verbo lessicale. Il loro trattamento al livello della struttura a 

40


costituenti consiste in una “ristrutturazione” di IBAR, che vede il “sollevamento” del verbo 

lessicale e l’“abbassamento” del verbo modale/aspettuale/causativo al suo interno. 

Al fine di garantire l’omogeneità di trattamento dei dati linguistici tra i due livelli di annotazione 

sintattica nella Treebank di SI-TAL, si è deciso di limitare la tipologia dei verbi che provocano un 

sollevamento del verbo lessicale all’interno di IBAR a quelli nella lista che segue, a cui si devono 

aggiungere, ovviamente, i due ausiliari, essere e avere: 

• andare Vanno rifiutati tutti gli inviti 

• venire Vengano rifiutati tutti gli inviti 

• potere Può comprendere le loro richieste 

• volere Vuole comprendere le loro richieste 

• dovere Deve comprendere le loro richieste 

• stare Gino sta a guardare 

• stare per Gino sta per partire 

Al livello dell’annotazione, i seguenti casi: 

• verbi modali – dovere, volere, potere - e 

• verbi aspettuali – andare, venire, stare, stare per – di cui i primi due sono anche utilizzati 

per il passivo 

vanno inclusi nel costituente IBAR alla stessa stregua dei verbi ausiliari avere e essere e sono 

seguiti dal verbo lessicale nella sua forma al participio, all’infinito o al gerundio. 

5 Annotazione funzionale 

Per il livello di annotazione funzionale, la Treebank di SI-TAL ha optato per uno schema di 

annotazione funzionale tra parole piene (sostantivi, aggettivi e verbi): le motivazioni sottostanti a 

questa scelta sono dettagliate nel Rapporto della Linea 1.1 “Specifiche Tecniche”, sezione 4.1.4. In 

questa sede, riportiamo la versione finale delle specifiche di annotazione come risultanti al termine 

del processo di annotazione. 

Lo schema di annotazione funzionale adottato per la Treebank di SI-TAL ha preso le mosse dallo 

schema di annotazione elaborato nel progetto europeo SPARKLE (LE-2111), che a sua volta è stato 

rielaborato e rivisto ai fini della sua adozione nell’ambito di campagne di valutazione di analizzatori 

sintattici nell’ambito del progetto ELSE (LE4-8340). F.A.M.E (Functional Annotation Metascheme 

for Evaluation), lo schema elaborato in ELSE (Lenci et al. 1999a, 1999 b, 2000), è stato 

rivisto e specializzato rispetto alle peculiarità della lingua da annotare – l’italiano – ed alla sua 

adozione come schema di annotazione di una Treebank. Le specifiche ed i criteri di annotazione che 

seguono sono il risultato di questo processo di revisione e specializzazione. 

5.1 Specifiche di annotazione 

5.1.1 Tipologia delle relazioni funzionali 

Gli elementi di base dello schema di annotazione che proponiamo sono relazioni funzionali, 

dove con “relazione funzionale” si intende una relazione binaria sussistente tra due PARTECIPANTI: 

41


all’interno dello schema proposto, i partecipanti ad una relazione funzionale sono costituiti soltanto 

da parole piene o lessicali. Sono quindi automaticamente escluse relazioni funzionali che 

riguardano parole grammaticali quali i determinativi, gli ausiliari, i complementatori, le 

preposizioni, etc. L’informazione riguardante questi elementi è codificata mediante tratti associati ai 

partecipanti della relazione, come descritto di seguito. 

Ciascuna relazione funzionale è rappresentata come segue: 

tipo_di_relazione (partecipante_1., 

partecipante_2.) 

“Tipo_di_relazione” specifica la relazione sussistente tra i due partecipanti. Ogni partecipante 

può anche ricevere una caratterizzazione rispetto ad un insieme di tratti che sono considerati 

rilevanti rispetto alla relazione che li lega. 

Le relazioni di dipendenza costituiscono un tipo particolare di relazione funzionale. Nel caso 

specifico, una relazione di dipendenza è costituita da una relazione binaria asimmetrica sussistente 

tra una TESTA ed un DIPENDENTE. 

relazione_di_dipendenza (testa., 

dipendente.) 

La tipologia di relazioni di dipendenza di questo schema di annotazione è illustrata nella sezione 

5.1.1.1. 

Lo schema di annotazione della Treebank di SI_TAL include anche relazioni funzionali di altro 

tipo, ovvero relazioni simmetriche di congiunzione e disgiunzione per il trattamento della 

coordinazione (sezione 5.1.1.2) e relazioni di coreferenza per il trattamento di frasi relative ed 

interrogative (sezione 5.1.1.3). 

5.1.1.1 Relazioni di dipendenza 

La tipologia delle relazioni di dipendenza previste dallo schema di annotazione della Treebank di 

SI-TAL è organizzata gerarchicamente, in modo tale da permettere rappresentazioni sottospecificate 

che potrebbero essere utili per il trattamento di costruzioni realmente ambigue oppure controverse. 

In questo contesto, la relazione f j è una rappresentazione sottospecificata della relazione di 

dipendenza f h se f j occupa un nodo progenitore del nodo associato a f h nella nostra gerarchia. Ad 

esempio la relazione “comp” sottospecifica “arg”, ma non “sogg”. Banalmente, il nodo “dip”, in 

quanto vertice della gerarchia, può essere usato per sottospecificare qualsiasi relazione. 

Nell’ambito di un’annotazione manuale il ricorso alla sottospecificazione è utile per ridurre il 

margine di arbitrarietà nelle scelte degli annotatori. Relazioni di dipendenza sottospecificate sono 

anche particolarmente cruciali: nel caso di un’annotazione automatica, quando l’analizzatore 

sintattico non abbia a disposizione l’informazione necessaria per un’analisi completamente 

specificata; oppure, nell’ambito di campagne di valutazione, per evitare penalizzazioni arbitrarie di 

analisi divergenti ma in qualche misura compatibili. 

La gerarchia delle relazioni è strutturata come segue: 

42


dip 

sogg 

comp 

mod 

arg 

pred 

non-pred 

ogg_d ogg_i obl 

Questa gerarchia separa il soggetto (sogg) rispetto alle altre relazioni grammaticali assegnandogli 

una posizione più alta all’interno dell’organizzazione delle funzioni sintattiche, come è usuale in 

molte teorie grammaticali (per esempio HPSG, GB). Inoltre, raggruppando i modificatori (mod) e 

gli argomenti (arg) sotto lo stesso nodo dei complementi (comp), la gerarchia di relazioni proposta 

ammette la possibilità di lasciare sottospecificata la distinzione tra modificatore (o aggiunto) e 

argomento che non è sempre facile da applicare, specialmente rispetto all’uso reale della lingua. Il 

nodo “arg” è a sua volta suddiviso in “pred”, che raccoglie solo ed esclusivamente i complementi 

predicativi classici (predicativi del soggetto e dell’oggetto), e “non-pred”, che sussume i 

complementi non-predicativi, ovvero “ogg_d” (per gli oggetti diretti), “ogg_i” (per gli oggetti 

indiretti) e “obl” (per gli argomenti obliqui). 

Si noti che al livello di annotazione funzionale si rappresentano solo quei fenomeni che sono 

rilevanti per l’identificazione e/o specificazione di relazioni grammaticali (ad es. caso, diatesi, tratti 

di accordo etc.). Ne consegue che fenomeni come il tempo e l’aspetto verbale, l’ambito della 

negazione e l’ellissi interfrasale non sono trattati a questo livello in quanto considerati di pertinenza 

di un livello di rappresentazione logico-semantica che non trova una sua collocazione 

nell’architettura globale della Treebank di SI-TAL così come strutturata ad oggi. Analoga 

considerazione vale nel caso delle funzioni pragmatiche di topic e focus che sono al di fuori delle 

finalità del progetto in quanto sarebbero da trattare piuttosto ad un livello di rappresentazione 

pragmatica. Va comunque considerato che una Treebank come questa, dove l’annotazione è 

distribuita su più livelli, è aperta ad integrazioni future. I fenomeni e le costruzioni che non trovano 

nella Treebank attuale una collocazione adeguata potranno dare luogo in futuro ad espansioni ed 

integrazioni della risorsa. 

Nei paragrafi che seguono, definiamo prima in maniera schematica ciascuna relazione di 

dipendenza, per poi passare alla definizione dei tratti che possono essere associati alla testa e al 

dipendente. 

5.1.1.1.1 Inventario delle relazioni di dipendenza 

dip (testa, dipendente) 

dip(endenza) è la relazione più generica tra una testa e un dipendente, che rimane 

sottospecificata per quanto riguarda lo status di quest’ultimo. Come già osservato, questo 

livello di sottospecificazione può essere utile nei casi in cui l’informazione disponibile non è 

sufficiente per la disambiguazione. In particolare, dip può essere utile per trattare casi di 

ambiguità reale tra soggetto e oggetto: ad esempio, sia chi che Maria possono essere 

43


soggetto o oggetto nella completiva incassata della frase non so chi abbia incontrato Maria. 

In casi come questo, quando il contesto non sia di aiuto a capire chi incontra chi, si consiglia 

di ricorrere all’annotazione che segue: 

dip (incontrare, chi) 

dip (incontrare, Maria) 

sogg (testa, dipendente) 

Indica la relazione tra un predicato e il suo sogg(etto): 

sogg (arrivare, Giovanni) Giovanni arrivò a Parigi 

sogg (assumere, Microsoft) La Microsoft ha assunto dieci programmatori 

sogg (assumere, Paolo) Paolo è stato assunto dalla Microsoft 

sogg si riferisce al soggetto superficiale della frase: come illustrano gli esempi sopra, viene 

assegnato indipendentemente dalla diatesi attiva o passiva della testa verbale (a sua volta 

codificata come tratto associato alla testa, cfr sezione 5.1.1.1.2.2). Il soggetto logico non è 

marcato esplicitamente a livello di relazione, bensì al livello di tratti associati al dipendente 

(cfr sezione 5.1.1.1.2.1). 

La stessa relazione sogg è anche usata per marcare il verbo in frasi completive con funzione 

di soggetto, come illustrato dagli esempi che seguono. 

sogg (significare, partire) che Maria sia partita significa che si è arresa 

sogg (richiedere, vincere) vincere la gara richiede un grosso impegno 

sogg (essere, partire) è necessario partire presto 

Con lingue pro-drop come l’italiano, casi di soggetto “nullo” o ellittico, che si verificano 

quando il soggetto non è superficialmente realizzato, vengono trattati mediante 

un’annotazione parziale, esemplificata di seguito: 

sogg (arrivare, .) arrivai in ritardo 

dove i) l’elemento dipendente non è specificato a livello lessicale e ii) le caratteristiche 

morfo-sintattiche del soggetto, corrispondenti alla persona, al numero e al genere (qualora 

rilevante), sono codificate in termini di tratti associati al dipendente (si veda la sezione 

5.1.1.1.2.1 per maggiori dettagli). Questa soluzione è stata messa a punto per evitare 

rappresentazioni troppo dipendenti da una teoria specifica ed al contempo fornire una 

rappresentazione il più informativa possibile; si è preferita, ad esempio, ad una codifica del 

tipo “sogg (arrivare, pro)” che tratta il pro-drop nei termini di una relazione tra una testa 

verbale ed un elemento vuoto (pro) che a sua volta necessiterebbe di una caratterizzazione 

da un punto di vista morfo-sintattico. In questo modo, viene anche garantita la comparabilità 

e la compatibilità con approcci diversi. 

La relazione sogg è usata inoltre per contrassegnare il soggetto “implicito” di completive 

infinitivali con funzione di complemento in costruzioni a controllo e a sollevamento 

(distinzione, questa, che non appare rilevante dal punto di vista dell’annotazione funzionale) 

così come di infinitive, participiali e gerundive con funzione di modificatore, come illustrato 

dagli esempi che seguono: 

sogg (partire, Giovanni) Giovanni promise a Maria di partire 

sogg (partire, Maria) Giovanni ordinò a Maria di partire 

sogg (partire, Maria) Maria fu costretta a partire 

sogg (arrivare, Giovanni) Giovanni sembra arrivare domani 

sogg (arrivare, Giovanni) Essendo arrivato presto, Giovanni vide tutta la partita 

44


sogg (finire, Giovanni) Finito il lavoro, Giovanni partì 

sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro 

La relazione sogg è usata infine per contrassegnare il soggetto di complementi predicativi 

(del soggetto o dell’oggetto), come illustrato di seguito: 

sogg (intelligente, Giovanni) Giovanni è intelligente 

sogg (intelligente, Maria) Giovanni considera Maria intelligente 

sogg (genio, Maria) Maria è considerata un genio 

Con questi due ultimi insiemi di casi - il soggetto implicito di frasi completive di modo non 

finito ed il soggetto di complementi predicativi - lo schema proposto va al di là del dominio 

proprio della sintassi di superficie e include informazione relativa alla struttura predicatoargomento: 

in particolare, fornisce indicazione esplicita i) riguardo al soggetto del verbo 

nella frase incassata quando controllato da un argomento della testa verbale della frase 

matrice e ii) riguardo al soggetto di complementi predicativi. Abbiamo deciso comunque di 

includerla per garantire la compatibilità della Treebank con schemi di annotazione sintattica 

che marcano soggetti “impliciti” di frasi incassate (in vista, ad esempio, di un uso della 

Treebank a fini di valutazione) oppure che trattano il complemento predicativo in termini di 

frase ridotta selezionata dal verbo reggente. 

comp (testa, dipendente) 

comp marca in modo generico la relazione tra una testa ed un complemento, sia esso 

modificatore o argomento. Questa relazione funzionale sottospecificata è particolarmente 

utile in quei casi in cui è difficile stabilire la natura argomentale o di modificatore del 

complemento. Per esempio, consideriamo la frase Giovanni spinse la macchina verso la 

stazione dove, a seconda dei criteri di selezione adottati, verso la stazione può essere 

considerato come un modificatore o come un argomento. La caratterizzazione come comp 

riportata sotto rimane compatibile con entrambe le analisi, non costringendo l’annotatore a 

decisioni arbitrarie e/o premature: 

comp (spingere, stazione) 

Questa relazione risulta particolarmente utile nei seguenti casi: 

• codifica della relazione tra un nome ed un suo complemento preposizionale. Si 

confrontino i seguenti casi: 

comp (professore, fisica) il professore di fisica 

comp (padre, Maria) il padre di Maria 

l’annotazione nei termini di comp mantiene sottospecificata la natura del 

complemento, che non è sempre facile da stabilire in modo univoco. 

• codifica della relazione tra una testa ed un argomento semantico che sia 

sintatticamente realizzato come un modificatore. Questo è il caso, ad esempio, 

dell’agente espresso nella costruzione passiva come un complemento preposizionale 

introdotto dalla preposizione “da”: la sua natura di “aggiunto tematicamente legato” 

è messa in evidenza dalla sua codifica in termini di comp, come esemplificato nel 

frammento di annotazione che segue: 

comp (uccidere, Bruto) fu ucciso da Bruto 

Nell’annotazione della Treebank di SI-TAL il ricorso alla relazione comp è stato limitato ai 

casi in cui non è stato possibile decidere se la relazione di dipendenza in questione sia di 

45


modificazione oppure di argomento. A questo proposito, l’annotatore ha avuto a 

disposizione una batteria di criteri per discriminare i due casi (illustrati nella sezione 5.2.1): i 

casi che rimarranno incerti verranno annotati in modo sottospecificato, ovvero in termini di 

comp. 

mod (testa, dipendente) 

La relazione mod sussiste tra una testa e il suo modificatore, come illustrato dai seguenti 

casi: 

• modificazione aggettivale 

mod (bandiera, rosso) una bandiera rossa 

• modificazione avverbiale 

mod (camminare, lentamente) camminare lentamente 

• modificazione con sintagma preposizionale 

mod (camminare, calma) camminare con calma 

• apposizione 

mod (Picasso, pittore) Picasso il pittore 

• modificazione frasale 

mod (camminare, parlare) camminava parlando 

mod (mangiare, chiedere) ha mangiato i dolci dopo averlo chiesto 

mod (mangiare, chiedere) ha mangiato i dolci senza chiedere 

Confrontando gli esempi sopra, si può notare che la relazione mod copre modificatori frasali 

e non. 

arg (testa, dipendente) 

arg indica la relazione più generica intercorrente tra una testa ed un suo argomento. Oltre a 

casi in cui la sottospecificazione relativa alla funzione dell’argomento appaia opportuna, 

questa relazione viene normalmente usata per etichettare la relazione intercorrente tra una 

testa verbale e una completiva non soggetto (sia essa infinitiva o meno), come illustrato dai 

seguenti casi: 

arg (promettere, accettare) Giovanni ha promesso di accettare il lavoro 

arg (ordinare, partire) Giovanni ha ordinato a Maria di partire 

arg (dire, accettare) Giovanni ha detto che avrebbe accettato il lavoro 

arg (informare, andare) Giovanni ha informato Maria che sarebbe andato 

arg (promettere, andare) Giovanni ha promesso a Maria che sarebbe andato 

Questo tipo di codifica della funzione delle completive complemento parte dalla 

constatazione dell’ampia variabilità della funzione loro assegnata nell’ambito di diverse 

teorie grammaticali e di diversi analizzatori sintattici (caso che invece non si verifica nel 

caso di soggetti di tipo frasale che sono di più facile identificazione). Ad esempio, la 

completiva infinitivale della frase Maria ha deciso di partire è classificata come oggetto 

diretto nello schema di annotazione della Constraint Grammar (Karlsson et al. 1995) mentre 

è caratterizzata come complemento predicativo non saturato (xcomp) nella LFG così come 

nello schema di annotazione avanzato nel progetto europeo SPARKLE. L’analisi qui 

46


proposta, integrata con informazione codificata in termini di tratti distintivi (si veda il tratto 

status discusso nella sezione 5.1.1.1.2.1), rimane così comparabile e compatibile con un 

ampio spettro di analisi senza perdita di informazione. 

pred (testa, dipendente) 

pred contrassegna la relazione che sussiste tra una testa verbale ed un complemento 

predicativo, sia esso un complemento predicativo del soggetto o un complemento 

predicativo dell’oggetto. 

pred (essere, intelligente) Giovanni è intelligente 

pred (considerare, genio) Giovanni considera Maria un genio 

La distinzione tra predicativo del soggetto e predicativo dell’oggetto è ricavabile dalla 

rappresentazione complessiva della frase (si veda la sezione 5.2.2.10). Al livello della 

singola relazione ci limitiamo a marcare la natura predicativa del complemento rispetto alla 

testa verbale. 

non-pred (testa, dipendente) 

Nella gerarchia delle relazioni funzionali riportata sopra, non-pred è il nodo che raggruppa 

complementi non predicativi. Non si prevedono, ad oggi, casi in cui questa relazione sia 

usata per trattare casi ambigui che richiedano una sottospecificazione a questo livello. 

ogg_d (testa, dipendente) 

ogg_d è la relazione che sussiste tra un predicato e il suo oggetto diretto (sempre nonfrasale), 

cioè: 

ogg_d (leggere, libro) Giovanni ha letto molti libri 

ogg_i (testa, dipendente) 

ogg_i è la relazione tra un predicato e un oggetto indiretto, cioè il complemento che esprime 

l’entità che accoglie l’azione espressa dal verbo, come esemplificato dai casi che seguono: 

ogg_i (parlare, Maria) Giovanni parla a Maria 

ogg_i (dare, Maria) Giovanni diede a Maria il contratto 

ogg_i (dare, Maria) Giovanni diede il contratto a Maria 

ogg_i (parlare, le) Giovanni le parla 

Un test cruciale per l’identificazione di questa relazione è costituito dalla 

pronominalizzazione dell’ogg_i con un dativo (si veda sotto). 

obl (testa, dipendente) 

obl è la relazione tra un predicato e un complemento non frasale, non diretto e non indiretto, 

realizzato tipicamente in forma di sintagma preposizionale: 

obl (vivere, Roma) Giovanni vive a Roma 

obl (arrivare, aeroporto) Giovanni arrivò all’aeroporto 

obl (informare, arrivo) Giovanni informò Maria del suo arrivo 

obl (comportarsi, freddezza) Giovanni si comportò con freddezza 

47


Come accennato sopra, la distinzione tra oggetto indiretto e complemento obliquo è 

supportata dal diverso tipo di pronominalizzazione dei due complementi. Si confrontino le 

seguenti coppie di frasi: 

1. Giovanni ha dato un libro a Maria 

Giovanni le ha dato un libro 

2. Giovanni aspirava a Maria 

*Giovanni le aspirava 

dove a Maria è un oggetto indiretto in 1. e in quanto tale è pronominalizzato con il dativo le, 

mentre è un complemento obliquo in 2., dove la pronominalizzazione con il pronome dativo 

risulta in una frase sintatticamente mal formata. 

La relazione obl è anche usata per marcare la dipendenza tra un verbo e complementi 

avverbiali la cui selezione è governata a livello lessicale; ad esempio: 

obl (comportarsi, bene) Giovanni si comportò bene 

5.1.1.1.2 Tratti associati agli elementi della relazione di dipendenza 

Nello schema di annotazione adottato, un ruolo centrale è ricoperto dai tratti associati ad 

entrambi gli elementi della relazione di dipendenza. 

In ciò che segue i due insiemi di tratti sono discussi separatamente, prima i tratti del DIPENDENTE, 

poi quelli della TESTA, infine quelli comuni a entrambi. Si noti che i tratti sono aggiunti alla 

specificazione del DIPENDENTE e della TESTA, tra parentesi uncinate e preceduti da un punto. Al fine 

di rendere l’annotazione più leggibile, negli esempi forniti di seguito i tratti specificati sono solo 

quelli in corso di definizione. Ovviamente un’annotazione completa include, per ogni elemento 

della relazione, l’insieme completo dei tratti rilevanti nel contesto specifico. 

5.1.1.1.2.1 Tratti distintivi del DIPENDENTE 

• introdep 

Il tratto introdep è usato in una varietà di costruzioni diverse per specificare l’elemento 

grammaticale, generalmente una preposizione o una congiunzione, che “introduce” il 

dipendente. La natura di questo “introduttore” varia a seconda della relazione funzionale e del 

tipo di dipendente: ad esempio può trattarsi di preposizione nel caso di complementi nominali, 

oppure congiunzione nel caso di completive di modo finito. Alcuni esempi seguono: 

• caso 

ogg_i (dare, Maria.) dare a Maria 

comp (uccidere, Bruto.) fu ucciso da Bruto 

arg (dire, accettare.) Giovanni ha detto che accetterà il lavoro 

arg (decidere, lasciare.) Giovanni ha deciso di lasciare il lavoro 

mod (camminare, parlare.) camminava mentre parlava 

Il tratto caso, la cui realizzazione morfosintattica si limita in italiano ad alcuni pronomi 

personali soltanto, risulta utile a supporto dell’identificazione della relazione di dipendenza. 

Suoi possibili valori sono “dativo/accusativo”: 

• status 

ogg_i (dare,gli.) dargli 

48


Il tratto status è associato a dipendenti verbali ed è usato per discriminare tra 

soggetti/complementi frasali con la valenza soggetto saturata e soggetti/complementi frasali con 

soggetto controllato da dipendenze esterne. I possibili valori associati a questo tratto sono 

“aperto/chiuso”: 

• aperto – marca un soggetto o complemento (sia esso argomento o modificatore) di tipo 

frasale il cui soggetto è controllato da una testa con la quale non esiste una esplicita e diretta 

relazione di dipendenza (questo implica, ad esempio, che la relazione non è marcata 

dall’accordo grammaticale): 

arg (decidere, partire.) Giovanni decise di partire 

mod (aspettare, arrivare.) essendo arrivati presto, abbiamo 

aspettato l’incontro 

sogg (richiedere, vincere.) vincere l’America’s Cup richiede 

montagne di soldi 

• chiuso – marca un soggetto o complemento (sia esso argomento o modificatore) frasale il 

cui soggetto non è controllato da dipendenze esterne: 

• modo 

arg (dire, partire.) Giovanni disse che Maria 

sarebbe partita domani 

mod (mangiare, affamato.) ha mangiato il 

dolce perché era affamato 

sogg (essere, ingoiare.) che i governi europei 

debbano silenziosamente ingoiarle non è giusto 

Il tratto modo del dipendente è usato, nel caso di soggetti/complementi frasali, per specificare il 

modo della testa verbale. Suoi possibili valori sono “gerundio / part_pass / inf / partic.pres / 

cong / ind / cond”: 

mod (camminare, parlare.) Camminava parlando 

mod (partire, finire.) Finito il lavoro, Maria partì 

arg (decidere, partire.< modo=inf>) Giovanni decise di partire 

mod (aspettare, arrivare.< modo=gerundio >) essendo arrivati presto, abbiamo 

aspettato l’incontro 

sogg (richiedere, vincere.< modo=inf>) vincere l’America’s Cup richiede montagne 

di soldi 

Per quanto questo tipo di informazione è già incluso nell’input che è annotato morfosintatticamente, 

viene riportato in questa sede in quanto rilevante per la caratterizzazione della 

relazione di dipendenza. 

• ruolo 

Il tratto ruolo è usato per fornire una caratterizzazione semantica alla relazione di dipendenza, 

ovvero per rendere esplicito, quando necessario, il ruolo semantico del dipendente rispetto alla 

testa. Si ricorre a questo tratto quando l’informazione sintattico-funzionale non sia sufficiente a 

caratterizzare in modo univoco la relazione. Si prenda ad esempio il caso del complemento di 

agente in costruzioni passive: a livello di relazione la sua codifica è in termini di comp, ma da 

questa codifica (combinata con la diatesi della testa verbale) non è possibile risalire in modo 

certo all’interpretazione dell'agente, informazione che per certe applicazioni (ad esempio la 

traduzione automatica) è cruciale. Analoghe considerazioni valgono nel caso di complementi 

temporali, locativi e comparativi. Si vedano gli esempi che seguono: 

49


comp (uccidere, Bruto.) fu ucciso da Bruto 

arg (partire, Roma.) è partito da Roma 

mod (partire, ora.) è partito da un’ora 

comp (migliore, insegnante.) è migliore dell’insegnante 

Si ricorre al tratto ruolo anche per marcare costruzioni con superlativo relativo che prevedono 

una restrizione dell’ambito di applicazione dell’aggettivo. Ad esempio, in il ragazzo più 

prestigioso d’America la relazione tra l’aggettivo ed il dipendente che ne restringe l’ambito è 

codificata in termini di comp; il dipendente è inoltre descritto come “ambito” di applicazione 

della testa aggettivale (ruolo=ambito) come esemplificato di seguito: 

mod (ragazzo, prestigioso) 

mod (prestigioso, più) 

comp (prestigioso, America< introdep=“di”; ruolo=“ambito”>) 

Il tratto ruolo è infine usato per marcare nell'annotazione il grado superlativo assoluto di un 

aggettivo: in questo caso il valore assegnato a ruolo è “superlativo” come esemplificato di 

seguito: 

Il più vistoso è quello situato in basso 

mod (vistoso, più) 

pred (è, vistoso) 

Il tratto ruolo ha dunque come possibili valori: “agente / temporale / locativo / compar / 

superlativo / ambito”. 

5.1.1.1.2.2 Tratti distintivi della TESTA 

• diat(esi) 

Il tratto diat specifica la diatesi di una testa verbale. Suoi possibili valori sono 

“attivo/passivo/medio”. 

sogg (assumere., Microsoft) La Microsoft ha assunto Paolo 

sogg (assumere., Paolo) Paolo fu assunto dalla Microsoft 

sogg (vendere., casa) Questa casa si vende bene 

• syn_form 

Il tratto syn_form specifica la forma personale/impersonale di una testa verbale. Questo tratto 

ha come possibili valori “pers / impers/ si_impers”. 

sogg (assumere.< syn_form=pers >, Microsoft) La Microsoft ha assunto Paolo 

arg (bisogna., discutere) Bisogna discutere di queste cose 

arg(dire., tornare) Si dice che non tornerà 

Con il valore “si_impers” vengono marcati quei casi in cui il “si” marca l'uso impersonale di un 

verbo che solitamente ammette un soggetto (es. si va, si pensa di arrivare domani). Secondo 

alcune teorie, il “si” impersonale può essere considerato il soggetto vero e proprio della 

proposizione in cui compare. La nostra strategia di annotazione delle costruzioni impersonali 

consiste a) nello specificare l'uso impersonale del verbo (marcato dal “si”) al livello della testa 

verbale come esemplificato sopra e b) nell'omettere la specificazione della relazione di soggetto 

(che rimane indefinito). 

• reflex 

50


Il tratto reflex viene usato per la caratterizzazione di teste verbali con pronomi riflessivi. Viene 

distinta la seguente tipologia di casi: 

• pers(ona) 

• verbi riflessivi: al tratto reflex viene assegnato il valore “rifl”, come esemplificato di 

seguito: 

ogg_d (guardare., mi) Mi guardo allo specchio 

Si noti che in questo caso la codifica dell'informazione avviene anche al livello della 

relazione di dipendenza: infatti il pronome riflessivo rappresenta un argomento del verbo 

con ruolo proprio e viene dunque posto in relazione di ogg_d con il verbo. 

• verbi intransitivi pronominali: il pronome riflessivo non rappresenta un argomento del 

verbo ma appare obbligatoriamente insieme a certi verbi nei seguenti casi: 

o variante intransitiva di una parte dei verbi ergativi (es. capovolgersi, rompersi): in 

questo caso il pronome riflessivo è un semplice segnale dell'intransitività del 

verbo rispetto alla variante transitiva: 

sogg (capovolgersi., barca) La barca si è capovolta 

o verbi inerentemente riflessivi, in cui il pronome riflessivo non convoglia nessun 

significato particolare (es. pentirsi, avvalersi) 

sogg (pentirsi., Giovanni) Giovanni si è pentito 

In questi casi il valore assegnato a reflex è “ipron”. 

• riflessivi apparenti: in questo caso il valore assegnato a reflex è “rifl_app”: 

ogg_d (lavare., mano) Giovanni si lava le mani 

• “si” passivante: si tratta di un uso non lessicalizzato in cui il “si” può essere visto come 

una marca della passività del verbo nella costruzione specifica: 

sogg (mangiare.< reflex=“passivo”>, mela) Le mele si mangiano con le mani 

In questo caso il valore assegnato a reflex è “passivo”. 

pers specifica la persona di una testa verbale. Suoi possibili valori sono “1/2/3”: 

• num(ero) 

sogg (mangiare., Mario) Mario mangia una pizza 

num specifica il numero di una testa verbale. Suoi possibili valori sono “sing/plur”: 

• gen(ere) 

sogg (mangiare., Mario) Mario mangia una pizza 

gen specifica, ove rilevante (ovvero con verbi con diatesi passiva o media, oppure con tempi 

composti), il genere di una testa verbale. Suoi possibili valori sono “mas/fem”: 

sogg (arrivare., Maria) Maria è arrivata 

51


Per quanto l’informazione relativa alla persona, genere e numero sia già codificata nel file di 

input annotato morfo-sintatticamente, questi tratti sono discussi in questa sede in quanto rilevanti 

per una completa caratterizzazione della relazione di dipendenza. 

5.1.1.1.2.3 Tratti distintivi della TESTA e del DIPENDENTE 

Per quanto riguarda i nomi, sia nel ruolo di testa sia in quello di dipendente, si è decisa la 

codifica dei seguenti tratti: 

• quant(ificazione): il cui valore è costituito da un quantificatore. 

ogg_d (vedere, gatto.) ho visto molti gatti 

• card(inalità): il cui valore è costituito da un numero cardinale. 

ogg_d (vedere, gatto.) ho visto due gatti 

• def(initezza): i cui possibili valori sono “+/ - /0”. 

ogg_d (vedere, gatto.) ho visto il gatto 

ogg_d (vedere, gatto.) ho visto un gatto 

ogg_d (vedere, gatto.) ho visto gatti 

• aux e perifra 

Per quanto riguarda i verbi, sia nel ruolo di testa sia in quello di dipendente, si è decisa la 

codifica dei tratti aux e perifra per la descrizione di alcune costruzioni verbali perifrastiche. 

Sono codificate in modo sintetico (ovvero in termini di tratti associati ad un’unica testa 

lessicale) le costruzioni perifrastiche con i verbi essere e avere, così come con andare, 

venire, potere, volere, dovere e stare (per la tipologia di costruzioni coperte si rinvia alla 

sezione 4.4.6). Aux viene usato per la descrizione di tempi composti con i verbi ausiliari 

essere e avere; a perifra si ricorre negli altri casi, ovvero essere nella costruzione passiva, e 

tutti gli altri verbi modali e aspettuali. Ad esempio: 

ogg_d (vedere., gatto) ho visto i gatti 

sogg (vedere., gatto) sono stati visti molti gatti 

mod (arrivare., domani) devono arrivare domani 

Nei casi di ellissi dell'ausiliare o del verbo servile, il valore assegnato all'attributo aux o 

perifra è seguito da un * (si veda la sezione 5.2.4.3 per una esemplificazione esaustiva di 

questo caso). 

5.1.1.2 Relazioni simmetriche di congiunzione e disgiunzione 

Oltre alle relazioni di dipendenza descritte sopra, lo schema proposto include anche relazioni 

simmetriche per il trattamento della coordinazione. 

52


La coordinazione è trattata mediante relazioni simmetriche di congiunzione (cong) e di 

disgiunzione (disg). Si consideri, ad esempio, la frase Giovanni e Maria sono arrivati, contenente 

un soggetto congiunto. Alla sua rappresentazione in termini di dipendenze riportata sotto: 

sogg (arrivare, Giovanni) 

sogg (arrivare, Maria) 

si aggiunge la specificazione della relazione di congiunzione che segue: 

cong (Giovanni, Maria) 

La rappresentazione della frase Giovanni o Maria sono arrivati non differirà a livello di relazioni 

di dipendenza; l’unica differenza riguarda la relazione tra Giovanni e Maria che in questo caso è di 

disgiunzione: 

disg (Giovanni, Maria) 

5.1.1.2.1 Tratti distintivi del partecipante in relazioni simmetriche 

L’unico tratto distintivo specifico dei partecipanti a relazioni simmetriche di congiunzione o 

disgiunzione è costituito da introsim: viene impiegato per codificare gli introduttori, tipicamente 

congiunzioni, dei partecipanti nella relazione specifica. Ad esempio: 

Sia Giovanni che Maria sono arrivati 

sogg (arrivare, Giovanni) 

sogg (arrivare, Maria) 

cong (Giovanni., Maria.) 

Manca non solo pane ma anche latte 

sogg (mancare, pane) 

sogg (mancare, latte) 

cong (pane, latte.) 

5.1.1.3 Relazioni di coreferenza 

In questa sezione, trattiamo l’annotazione di relazioni di coreferenza, che sarà circoscritta a 

relazioni di coreferenza di chiara natura sintattica ed interne alla singola frase. Questa restrizione 

consegue naturalmente dalla natura del testo da annotare (lingua scritta) e dal livello di annotazione 

in questione (sintattico-funzionale): nella Treebank di SI-TAL, l’annotazione di relazioni di 

coreferenza è circoscritta a legami interni alla singola frase; viene invece fatta astrazione da 

relazioni anaforiche in quanto di diretta pertinenza della semantica. Anche se relazioni di 

coreferenza vanno al di là della sintassi di superficie, riteniamo che la loro annotazione nell’ambito 

della Treebank di SI-TAL sia importante in quanto la presenza di questo tipo di informazione rende 

la risorsa usabile in modo più efficace in applicazioni quali, ad esempio, recupero ed acquisizione di 

informazioni. 

In particolare, l’annotazione riguarda il legame tra: 

• il pronome relativo ed il suo antecedente; 

• tra il clitico e l’elemento dislocato in costruzioni a dislocazione con ripresa pronominale. 

Consideriamo ad esempio una frase come il ragazzo che Maria ha incontrato ieri è Giovanni. La 

frase relativa che Maria ha incontrato ieri è annotata come segue: 

53


sogg (incontrare, Maria) 

ogg_d (incontrare, che) 

mod (incontrare, ieri) 

Le rimanenti relazioni di dipendenza relative alla principale sono riportate di seguito: 

sogg (essere, ragazzo) 

pred (essere, Giovanni) 

sogg (ragazzo, Giovanni) 

Un altro importante elemento di informazione linguistica è la relazione tra il pronome relativo 

che ed il suo antecedente ragazzo che non viene catturata dall’annotazione riportata sopra. È questa 

relazione che permette una interpretazione di ragazzo come l’inteso oggetto diretto di ha incontrato. 

Per annotare, in maniera esplicita, la relazione che sussiste tra che e ragazzo introduciamo qui di 

seguito una relazione binaria ad hoc chiamata “legame”, il cui primo argomento è costituito 

dall’elemento legato (il pronome relativo nel nostro caso) ed il secondo dal nome che lega o 

antecedente: 

legame (che, ragazzo) 

Si noti che l’intesa relazione funzionale tra incontrare e ragazzo può di fatto essere inferita dalla 

relazione di legame che c’è tra che e ragazzo. 

Passando al caso della ripresa pronominale in costruzioni a dislocazione, si considerino i 

seguenti esempi il dolce Maria lo porta domani e Maria lo porta domani, il dolce la cui 

rappresentazione in termini funzionali è riportata di seguito: 

sogg (portare, Maria) 

ogg_d (portare, lo) 

mod (portare, domani) 

Per annotare la relazione che sussiste tra lo e dolce si ricorre alla stessa relazione di legame, il 

cui primo argomento è costituito dall’elemento legato (il pronome clitico nel nostro caso) ed il 

secondo dall’elemento dislocato: 

legame (lo, dolce) 

Anche in questo caso l’intesa relazione funzionale tra portare e dolce può di fatto essere inferita 

dalla relazione di legame che c’è tra lo e dolce. 

5.2 Criteri di annotazione per il livello funzionale 

Dopo aver illustrato a grandi linee lo schema di annotazione per il livello funzionale, segue una 

specifica dei criteri di applicazione di questo schema al testo, ed in particolare a costruzioni 

sintattiche che possono porre particolari problemi di annotazione. Questa sezione si propone dunque 

come guida all’applicazione dello schema proposto, fornendo criteri di identificazione delle 

relazioni illustrate sopra e illustrando la rappresentazione di fenomeni sintattici lessicalmente 

governati (ad esempio schemi di sottocategorizzazione associati a classi di nomi, verbi e aggettivi) 

così come di costruzioni complesse che rispondono a principi generali della grammatica 

dell’italiano (ad esempio, costruzioni con frasi relative ed interrogative, fenomeni di ellissi, 

relazioni di coreferenza, etc.). Le frasi di esempio riportate sotto sono state estratte, ove possibile, 

dal corpus della Treebank di SI-TAL. 

Procederemo con una lista di annotazioni di riferimento, articolata come segue: 

54


• criteri per la distinzione tra argomenti e modificatori (sezione 5.2.1); 

• costruzioni di base (sezione 5.2.2); 

• costruzioni coordinate (sezione 5.2.3); 

• costruzioni ellittiche (sezione 5.2.4); 

• annotazione di relazioni di coreferenza (sezione 5.2.5); 

• annotazione di costruzioni predicative (sezione 5.2.6); 

• annotazione di costruzioni causative (sezione 5.2.7); 

• annotazione di costruzioni partitive (sezione 5.2.8); 

• annotazione di costruzioni comparative (sezione 5.2.9); 

• miscellanea di costruzioni tipiche dei testi reali (date, numeri, nomi propri, etc.) (sezione 

5.2.10). 

5.2.1 Distinzione tra argomenti e modificatori 

La distinzione tra argomenti e modificatori è gestibile senza particolari difficoltà nell’ambito di 

analizzatori sintattici sulla base di un lessico di riferimento contenente informazione sulla 

sottocategorizzazione dei predicati. Ma l’annotazione di una Treebank non prevede necessariamente 

il ricorso ad un lessico di riferimento. Dietro a questa scelta stanno motivi di varia natura: 

1) le risorse lessicali esistenti sono insufficienti per applicazioni su scala reale per copertura del 

lessico sia a livello di lemmi che di costruzioni sintattiche associate ad essi; 

2) una Treebank è tipicamente usata anche per acquisire informazione di questo tipo, per cui una 

proiezione preventiva delle interpretazioni possibili può interferire con i risultati attesi. 

La distinzione va dunque demandata all’annotatore del testo, sulla base della sua intuizione. La 

difficoltà di questo compito è ripetutamente segnalata nella letteratura sulle Treebank: Marcus et al. 

(1994) sottolineano la difficoltà di questa distinzione quando applicata ad un’ampia varietà di verbi 

e riferita all’uso reale della lingua. 

Per guidare l’annotatore nell’interpretazione dei casi incerti, forniamo qui di seguito una batteria 

di criteri ed euristiche basate su test di natura sintattica tratti dalla letteratura corrente in proposito 

(Somers 1984, Meyers et al. 1994): 

• omissibilità/obbligatorietà - se un costituente nel contesto locale di un verbo non può 

essere omesso, allora si tratta di un argomento: ad esempio, in mettere il libro sulla tavola 

sia libro che tavola non possono essere omessi (*mettere il libro, *mettere sulla tavola). Si 

tratta di un criterio affidabile, ma non può essere usato per identificare i modificatori dato 

che argomenti di molti verbi possono essere tranquillamente omessi (si veda ad esempio il 

caso di mangiare); 

55


• “retroformazioni” - un costituente nel contesto locale di un verbo è un modificatore se può 

essere riformulato come una frase subordinata: è morto a Dresda, è morto quando era a 

Dresda; vive a Parigi, *vive quando è a Parigi. Si tratta di un criterio di difficile 

applicazione dato che molti modificatori non possono essere facilmente riformulati in 

termini di una frase subordinata (i bambini giocano oggi, *i bambini giocano quando è 

oggi); 

• partecipazione ad alternanze di diatesi - nel caso di verbi con alternanza di diatesi, i 

costituenti che alternano tra diverse realizzazioni superficiali nelle diverse sono da 

considerarsi argomenti. Ad esempio, considerate le frasi ha spalmato il burro sul pane e ha 

spalmato il pane con il burro sia burro che pane appaiono essere argomenti di spalmare. Si 

tratta di un criterio utile e sufficientemente affidabile a condizione che l’alternanza sia stata 

identificata in modo appropriato; 

• “fare lo stesso” test - quando fare lo stesso è usato nella coordinazione di frasi come una 

proforma del gruppo verbale ripetuto, solo i modificatori possono essere esclusi dalla 

sostituzione. Ad esempio, si confrontino: Maria ha incontrato Giovanni a Parigi, e Pietro 

ha fatto lo stesso a Milano e *Maria ha messo il libro sulla tavola e Giovanni ha fatto lo 

stesso sulla sedia. Il test è affidabile ma solo per una classe di predicati dalla quale 

rimangono fuori gli stativi e in ogni caso tutti i predicati con i quali la sostituzione con la 

proforma farlo è inaccettabile (*Maria è intelligente e Carlo fa lo stesso, ??Maria conosce 

la risposta e Carlo fa lo stesso); 

• anteposizione - i costituenti con funzione di modificatori possono essere anteposti 

liberamente, mentre gli argomenti possono essere anteposti solo dando luogo a costruzioni 

fortemente marcate. Ad esempio, la scorsa settimana ho comprato un libro vs sul pavimento 

ho messo il libro. Si tratta di criterio affidabile, senza particolari controindicazioni. 

Non è detto che i vari criteri convergano sulla stessa interpretazione. Quando la stessa 

interpretazione è supportata da un numero significativo di test tra quelli elencati sopra, si 

raccomanda all’annotatore di adottare l’interpretazione per la quale ha raccolto maggiore evidenza. 

Per i casi che rimangono incerti si raccomanda si ricorrere alla sottospecificazione dell’analisi, 

che nel caso specifico corrisponde alla relazione comp: si può sempre ritornare a rivedere analisi 

sottospecificate mentre un’analisi completamente specificata ma erroneamente attribuita diventa più 

difficilmente recuperabile e dunque correggibile. 

5.2.2 Costruzioni di base 

5.2.2.1 Costruzioni con verbo intransitivo 

Gli uomini parlano e sognano sempre di un miglioramento 

sogg (parlare, uomo) 

sogg (sognare, uomo) 

obl (parlare, miglioramento.) 

obl (sognare, miglioramento.) 

mod (parlare, sempre) 

mod (sognare, sempre) 

cong (parlare, sognare) 

56


5.2.2.2 Costruzioni con verbo intransitivo inaccusativo 

Gli studenti erano giunti nella zona alla spicciolata 

sogg (giungere, studente) 

arg (giungere, zona.) 

mod (giungere, alla_spicciolata) 

Slitta la riunione, prevista per oggi, della cosiddetta commissione Sangalli 

sogg (slittare, riunione) 

mod (riunione, previsto) 

comp (previsto, oggi.) 

comp (riunione, commissione.) 

mod (commissione, cosiddetto) 

mod (commissione, Sangalli) 

5.2.2.3 Costruzioni con verbo transitivo con oggetto diretto 

Carnevale ha sbagliato un gol quasi fatto 

sogg (sbagliare, Carnevale) 

ogg_d (sbagliare, gol) 

mod (gol, fatto) 

mod (fatto, quasi) 

5.2.2.4 Costruzioni con verbo transitivo con oggetto indiretto 

Gullit ha dichiarato guerra alla stampa sportiva 

sogg (dichiarare, Gullit) 

ogg_d (dichiarare, guerra) 

ogg_i (dichiarare, stampa.) 

mod (stampa, sportivo) 

5.2.2.5 Costruzioni con verbo transitivo con complemento obliquo 

La Bimex importa prodotti dalla Union Carbide 

sogg (importare, Bimex) 

ogg_d (importare, prodotto) 

obl (importare, Union _Carbide.) 

5.2.2.6 Costruzioni passive 

I due malavitosi sono stati spesso segnalati in diverse occasioni 

sogg (segnalare., malavitoso.) 

mod (segnalare, spesso) 

57


mod (segnalare, occasione.) 

mod (occasione, diverso) 

L’accordo è stato firmato ieri al Pentagono dal ministro americano 

sogg (firmare., accordo) 

mod (firmare, ieri) 

mod (firmare, Pentagono.) 

comp (firmare, ministro.< introdep =“da”, ruolo=agente>) 

mod (ministro, americano) 

Anche se l’annotazione a livello di relazioni riguarda la sintassi di superficie, la rappresentazione 

riportata sopra contiene anche indicazione esplicita dell’agente (che viene fornita quando 

esplicitamente indicato nella realizzazione superficiale della frase): questa informazione è 

convogliata dal tratto ruolo associato all’elemento dipendente della relazione comp, il cui valore 

specifica che si tratta dell’agente del firmare. 

5.2.2.7 Costruzioni con completive sottocategorizzate 

Un doppio cordone di poliziotti continuava a circondare tutta la piazza 

sogg (continuare, cordone) 

mod (cordone, doppio) 

comp (cordone, poliziotti.< introdep =“di”>) 

arg (continuare, circondare.< introdep =“a”, status=aperto>) 

sogg (circondare, cordone) 

ogg_d (circondare, piazza) 

mod (piazza, tutto) 

Un uomo anziano cercava di spiegare che simili azioni non giovano 

sogg (cercare, uomo) 

mod (uomo, anziano) 

arg (cercare, spiegare.< introdep =“di”, status=aperto>) 

sogg (spiegare, uomo) 

arg (spiegare, giovare.< introdep =“che”, status=chiuso>) 

sogg (giovare, azione) 

mod (azione, simile) 

mod (giovare, non) 

Luigi ha visto Paolo uscire dal casolare 

sogg (vedere, Luigi) 

ogg_d (vedere, Paolo) 

arg (vedere, uscire.) 

sogg (uscire, Paolo) 

arg (uscire, casolare.) 

Giovanni ha visto Maria correre 

58


sogg (vedere, Giovanni) 

ogg_d (vedere, Maria) 

arg (vedere, correre.) 

sogg (correre, Maria) 

Che i governi europei debbano silenziosamente ingoiarle non è giusto 

sogg (essere, ingoiare.< introdep =“che”, status=chiuso, perifra=“dovere”>) 

pred (essere, giusto) 

mod (essere, non) 

sogg (ingoiare, governo) 

mod (governo, europeo) 

ogg_d (ingoiare, le) 

mod (ingoiare, silenziosamente) 

sogg (ingoiare, giusto) 

5.2.2.8 Costruzioni con interrogative indirette 

Le interrogative indirette sono un tipo di frase argomentale che presentano un introduttore di 

subordinazione che non può mai essere omesso ed occupa la posizione iniziale: l'elemento 

introduttore è un sintagma interrogativo, comprendente un pronome, aggettivo o avverbio della 

serie interrogativa (chi, che cosa, come, quando, dove, perché, quale, quanto, etc.). La struttura a 

dipendenze associata a queste frasi nello schema di annotazione funzionale di SI-TAL segue le 

indicazioni della Word Grammar di Hudson (1984:84-85) ed è esemplificata negli esempi che 

seguono: 

Io non so chi ha parlato 

sogg (sapere, io) 

arg (sapere, chi) 

mod (sapere, non) 

sogg (parlare, chi) 

So quando è partito 

sogg (sapere, ) 

arg (sapere, quando) 

sogg (partire, ) 

mod (partire, quando) 

Come si può notare, l'elemento interrogativo è un dipendente condiviso da due teste, ovvero dal 

predicato reggente (il verbo nei casi sopra) così come dalla testa verbale della frase interrogativa. 

Mentre la seconda relazione di dipendenza appare scontata, la relazione tra il predicato reggente e 

l'elemento interrogativo non lo è. A favore di questo tipo di analisi c'è il fatto che l'elemento 

interrogativo può occorrere nella frase senza il resto della frase interrogativa: es. non so chi, non so 

quando. In questi casi la parola interrogativa non può che dipendere da sapere. Un altro argomento 

a favore di questo tipo di analisi sta nel fatto che il predicato reggente sottocategorizza per una frase 

interrogativa all'interno della quale la marca di interrogatività è associata all'elemento interrogativo 

che la introduce. 

59


Nel caso in cui l'elemento interrogativo sia costituito da un aggettivo, l'annotazione sarà come 

segue: 

Non so quale treno abbia preso 

sogg (sapere, ) 

mod (sapere, non) 

arg (sapere, treno) 

mod (treno, quale) 

sogg (prendere, ) 

ogg_d (prendere, treno) 

5.2.2.9 Costruzioni con modificazione frasale (gerundive, participiali, infinitive) 

Dobbiamo vincere domenica per interrompere questo brutto momento 

sogg (vincere, . ) 

mod (vincere, domenica) 

mod (vincere, interrompere.) 

ogg_d (interrompere, momento) 

mod (momento, questo) 

mod (momento, brutto) 

Il Ministero della Difesa esce allo scoperto per smentire infondate speculazioni 

sogg (uscire, Ministero) 

mod (ministero, Difesa.) 

mod (uscire, allo_scoperto) 

mod (uscire, smentire.) 

sogg (smentire, Ministero) 

ogg_d (smentire, speculazione) 

mod (speculazione, infondato) 

Gli evasori hanno aggredito gli agenti di custodia sparando all’impazzata 

sogg (aggredire, evasore) 

ogg_d (aggredire, agente) 

mod (agente, custodia.) 

mod (aggredire, sparare.) 

mod (sparare, all’_impazzata) 

5.2.2.10 Costruzioni con complementi predicativi del soggetto e dell’oggetto 

Maria è diventata una bella ragazza 

sogg (diventare, Maria) 

pred (diventare, ragazza) 

mod (ragazza, bello) 

sogg (ragazza, Maria) 

60


Maria sembra infelice 

sogg (sembrare, Maria) 

pred (sembrare, infelice) 

sogg (infelice, Maria) 

Giovanni considera Maria una bella ragazza 

sogg (considerare, Giovanni) 

ogg_d (considerare, Maria) 

pred (considerare, ragazza) 

mod (ragazza, bello) 

sogg (ragazza, Maria) 

Lui considera il loro strumento di ricerca un modo di fare soldi rapidamente 

sogg (considerare, lui) 

ogg_d (considerare, strumento) 

mod (strumento, loro) 

mod (strumento, ricerca.) 

pred (considerare, modo) 

arg (modo, fare.) 

ogg_d (fare, soldo) 

mod (fare, rapidamente) 

sogg (modo, strumento) 

Brancati considerava i siciliani il popolo più intelligente d’Europa 

sogg (considerare, Brancati) 

ogg_d (considerare, siciliano) 

pred (considerare, popolo) 

mod (popolo, intelligente) 

mod (intelligente, più) 

comp (intelligente, Europa.) 

sogg (popolo, siciliano) 

Come si può notare dall’analisi e dal confronto delle frasi annotate riportate sopra, a livello della 

relazione assegnata – pred - non si fa distinzione tra complemento predicativo del soggetto e 

dell’oggetto. Questa informazione è comunque implicita nell’annotazione globale della frase. 

Quando dalla testa verbale del complemento predicativo dipenda anche un oggetto diretto (ogg_d), 

la relazione pred è da interpretarsi come predicativa dell’oggetto; in caso contrario, il complemento 

predicativo si riferisce al soggetto; questa informazione è codificato mediante la relazione sogg che 

è usata per contrassegnare il soggetto del complemento predicativo (del soggetto o dell’oggetto). 

Da un’analisi attenta dell’annotazione adottata dovrebbe risultare evidente la sua compatibilità 

sia con schemi che marcano la dipendenza tra il complemento predicativo e la testa verbale, sia con 

interpretazioni che guardano al complemento predicativo in termini di frase ridotta governata dalla 

testa verbale. 

61


5.2.2.11 Complementazione di nomi e aggettivi 

Eriksson non ha idea della piega inferta alla nostra penisola 

sogg (avere, Eriksson) 

ogg_d (avere, idea) 

mod (avere, non) 

comp (idea, piega.) 

mod (piega, inferto) 

arg (inferto, penisola.) 

mod (penisola, nostro) 

Viola deve fare esperienza sui pedatori a disposizione e sui tecnici 

sogg (fare., Viola) 

ogg_d (fare, esperienza) 

arg (esperienza, pedatore.) 

mod (pedatore, a_disposizione ) 

arg (esperienza, tecnico.) 

cong (pedatore, tecnico) 

Il Parlamento incomincerà un dibattito sulla partecipazione al programma 

sogg (incominciare, Parlamento) 

ogg_d (incominciare, dibattito) 

comp (dibattito, partecipazione.) 

arg (partecipazione, programma.) 

Fonti dell’amministrazione hanno auspicato un’intesa con il governo 

sogg (auspicare, fonte) 

mod (fonte, amministrazione.) 

ogg_d (auspicare, intesa) 

arg (intesa, governo.) 

La società sarà integrata con il settore cucine della Candy 

sogg (integrare., società) 

obl (integrare, settore.) 

mod (settore, cucina) 

comp (settore, Candy.) 

La credenza che la Terra sia rotonda è radicata 

sogg (essere 2 , credenza) 

pred (essere 2 , radicato) 

sogg (radicato, credenza) 

arg (credenza, essere 1 .) 

sogg (essere 1 , Terra) 

pred (essere 1 , rotondo) 

sogg (rotondo, Terra) 

62


5.2.2.12 Negazione 

Io non mangio panini con la mortadella 

sogg (mangiare, io) 

mod (mangiare, non) 

ogg_d (mangiare, panino) 

mod (panino, mortadella.) 

I bambini non devono guardare film violenti 

sogg (guardare., bambino) 

mod (guardare, non) 

ogg_d (guardare, film) 

mod (film, violento) 

5.2.2.13 Costruzioni esistenziali 

C’è una vespa nella mia camera 

mod (essere, ci) 

sogg (essere, vespa) 

pred (essere, camera.) 

mod (camera, mia) 

Paolo ha visto che c’era Maria con Luigi 

sogg (vedere, Paolo) 

arg (vedere, essere.) 

mod (essere, ci) 

sogg (essere, Maria) 

mod (essere, Luigi.) 

5.2.3 Costruzioni coordinate 

• Coordinazione di soggetti 

I superstiti e i parenti delle vittime hanno espresso malumore per la scarcerazione 

sogg (esprimere, superstite) 

sogg (esprimere, parente) 

cong (superstite, parente) 

comp (parente, vittima.) 

ogg_d (esprimere, malumore) 

mod (malumore, scarcerazione.) 

• Frasi composte con proposizioni coordinate 

La donna sbrigava le faccende di casa e doveva avere familiarità con i cani 

63


sogg (sbrigare, donna) 

ogg_d (sbrigare, faccenda) 

mod (faccenda, casa.) 

sogg (avere., donna) 

ogg_d (avere., familiarità) 

comp (familiarità, cane.) 

cong (sbrigare, avere.) 

• Coordinazione aggettivale 

Il fatturato complessivo delle società controllate e collegate è elevato 

sogg (essere, fatturato) 

mod (fatturato, complessivo) 

mod (fatturato, società.) 

mod (società, controllato) 

mod (società, collegato) 

cong (controllato, collegato) 

pred (essere, elevato) 

sogg (elevato, fatturato) 

• Coordinazione di complementi 

Tale incremento è dovuto all’aumento di capitale, all’utile d’esercizio ed ai contributi per 

l’editoria 

sogg (essere, incremento) 

mod (incremento, tale) 

pred (essere, dovuto) 

sogg (dovuto, incremento) 

arg (dovuto, aumento.) 

comp (aumento, capitale.) 

arg (dovuto, utile.) 

mod (utile, esercizio.) 

arg (dovuto, contributo.) 

comp (contributo, editoria.) 

cong (aumento, utile) 

cong (utile, contributo) 

Il mundial di calcio termina con la finalissima di domenica sera e con i risultati conosciuti 

sogg (terminare, mundial) 

mod (mundial, calcio.) 

comp (terminare, finalissima.) 

mod (finalissima, domenica.) 

mod (domenica, sera) 

comp (terminare, risultato.) 

mod (risultato, conosciuto) 

cong (finalissima, risultato) 

• Condivisione di complementi in costruzioni coordinate 

64


L’assemblea di ieri ha confermato Eugenio Scalfari ed ha deliberato di aumentare il 

numero dei consiglieri 

sogg (confermare, assemblea) 

mod (assemblea, ieri.) 

ogg_d (confermare, Eugenio_Scalfari) 

sogg (deliberare, assemblea) 

arg (deliberare, aumentare.) 

sogg (aumentare, assemblea) 

ogg_d (aumentare, numero) 

arg (numero, consigliere.) 

cong (confermare, deliberare) 

Questo esempio illustra la strategia che è stata adottata nell’ambito della Treebank di SI-TAL per 

l’annotazione di argomenti o modificatori condivisi da più di una testa in strutture coordinate. Si 

può notare che l’annotazione di complementi condivisi non costituisce particolare problema 

nell’ambito di uno schema di rappresentazione funzionale, al contrario dei problemi invece 

tipicamente posti da complementi condivisi a livello di rappresentazione a costituenti. 

• Altre costruzioni coordinate 

Costruzioni coordinate con ma vengono annotate con la relazione di congiunzione (“cong”): in 

questo caso il secondo partecipante deve avere “ma”come valore di “introsim”. 

… il bilancio ha ottenuto risultati di rilievo, in campo economico e sindacale, ma anche sul 

fronte dell’autonomia… 

cong (campo, fronte.) 

5.2.4 Costruzioni ellittiche 

Questa sezione illustra la strategia di annotazione di costruzioni ellittiche messa a punto per la 

Treebank di SI-TAL. Negli esempi riportati finora, le relazioni funzionali riguardano istanze di 

parole in un testo. Le costruzioni ellittiche, d’altra parte, sembra che richiedano che le relazioni 

funzionali debbano essere stabilite tra un’istanza di una parola ed un tipo astratto, definito mediante 

tratti o mediante un tipo lessicale. 

5.2.4.1 Ellissi del soggetto 

Ho visto Maria uscire di casa 

sogg (vedere, . ) 

ogg_d (vedere, Maria) 

arg (vedere, uscire.) 

sogg (uscire, Maria) 

arg (uscire, casa.< introdep =“di”>) 

Abbiamo visto l’opera nella piazza del paese 

sogg (vedere, . ) 

ogg_d (vedere, opera) 

65


mod (vedere, piazza.< introdep =“in”>) 

mod (piazza, paese.< introdep =“di”> 

5.2.4.2 Ellissi del verbo 

Si consideri l’esempio che segue: 

Gli esempi sono scritti in corsivo, le glosse in stampatello 

sogg (scrivere., esempio) 

mod (scrivere, corsivo.< introdep =“in”>) 

sogg (SCRIVERE., glossa) 

mod (SCRIVERE, stampatello.< introdep =“in”>) 

dove glossa e stampatello sono rispettivamente soggetto e modificatore di un tipo astratto che 

non ha alcuna istanziazione nel testo, corrispondente al lemma scritto in maiuscolo, ovvero 

SCRIVERE. 

Seguono altri esempi di costruzioni ellittiche e relativa annotazione secondo lo schema proposto. 

La ballata di Mackie Messer è cantata da Sting, Jenny dei pirati dalla Nannini 

sogg (cantare., ballata) 

mod (ballata, Mackie_Messer.< introdep =“di”>) 

comp (cantare, Sting.) 

sogg (CANTARE., Jenny) 

mod (Jenny, pirata.) 

comp (CANTARE, Nannini.) 

Molti diranno che è il trionfo della marcatura a uomo, io no 

sogg (dire, molto) 

arg (dire, essere.) 

pred (essere, trionfo) 

comp (trionfo, marcatura.) 

mod (marcatura, a_uomo) 

sogg (DIRE, io) 

comp (DIRE, no) 

Gli esempi riportati fino a questo punto presentano casi di ellissi in strutture coordinate, dove nel 

secondo congiunto si osserva l’omissione del verbo. Nell’annotazione proposta le relazioni di 

dipendenza del secondo congiunto fanno riferimento ad una testa verbale astratta, ricostruita a 

partire dall’analisi del primo congiunto. Ma non è sempre il caso che il materiale ellittico sia 

ricostruibile dall’analisi della frase. Si consideri ad esempio il caso seguente, che presenta l’ellissi 

della copula: 

Queste le principali raccomandazioni rivolte all’Italia dalla commissione europea 

sogg ( , questo) 

pred ( , raccomandazione) 

mod (raccomandazione, principale) 

66


mod (raccomandazione, rivolgere.) 

ogg_i (rivolgere, Italia.< introdep =“a”>) 

comp (rivolgere, commissione.< introdep =“da”,ruolo=agente>) 

mod (commissione, europeo) 

L’annotazione riportata sopra contiene due relazioni di dipendenza la cui testa non è specificata. 

5.2.4.3 Ellissi in costruzioni verbali perifrastiche 

L'ellissi dell'ausiliare in tempi composti oppure del verbo modale, aspettuale o causativo in 

costruzioni perifrastiche di varia natura (si veda la sezione 5.1.1.1.2.2) viene gestita al livello della 

descrizione in tratti dei partecipanti alla relazione funzionale. 

Si prenda ad esempio un caso di ellissi del verbo modale: 

Si possono scegliere i fondi e realizzare bordure 

L’annotazione prevede la codifica del verbo modale sia in relazione a scegliere sia a realizzare. I 

due casi sono differenziati come segue: 

ogg_d (scegliere., fondo) 

ogg_d (realizzare., bordura) 

ovvero nel caso di ellissi del modale, il valore associato al tratto perifra è marcato da un 

asterisco. 

Analoga strategia di annotazione viene adottata nei casi di ellissi dell’ausiliare e negli altri tipi di 

costruzioni perifrastiche. 

5.2.5 Annotazione di relazioni di coreferenza 

L’annotazione delle relazioni di coreferenza è esemplificata mediante il caso delle frasi relative: 

Prost lascia la McLaren per una Ferrari che non cammina 

sogg (lasciare, Prost) 

ogg_d (lasciare, McLaren) 

obl (lasciare, Ferrari.< introdep =“per”>) 

sogg (camminare, che) 

mod (camminare, non) 

legame (che, Ferrari) 

Il presidente ha indicato le imprese italiane che producono e importano energia 

sogg (indicare, presidente) 

ogg_d (indicare, impresa) 

mod (impresa, italiano) 

sogg (produrre, che) 

sogg (importare, che) 

ogg_d (produrre, energia) 

ogg_d (importare, energia) 

67


cong (produrre, importare) 

legame (che, impresa) 

Il paese dove io sono nato è lontano 

sogg (essere, paese) 

pred (essere, lontano) 

sogg (lontano, paese) 

sogg (nascere, io) 

comp (nascere, dove) 

legame (dove, paese) 

5.2.6 Casi particolari di costruzioni predicative 

• Costruzioni predicative con fare 

Seguendo Renzi (1991, pagg. 195-6) e Schwarze (1995, pag. 122), costruzioni del tipo fare da 

autista a qualcuno e fare come uno sconosciuto con qualcuno sono annotate come segue: viene 

stabilita una relazione di predicazione (pred) tra il verbo fare e il sostantivo che svolge il ruolo di 

predicato (fare e autista, fare e sconosciuto). Nella descrizione del predicato, viene specificato 

l'introduttore (dando luogo rispettivamente a introdep=“da” e introdep=“come”). Lo stesso 

trattamento viene riservato a costruzioni analoghe con i verbi fungere e servire. 

• Costruzioni predicative con avere 

Un complemento predicativo dell'oggetto può accompagnare molti verbi transitivi nel loro 

significato basico. Questo tipo di complemento predicativo è particolarmente frequente con avere 

(Renzi, vol. 2, p. 201). Si consideri l'esempio che segue: 

Essi avevano come protagonista il cittadino 

ogg_d (avere, cittadino) 

pred (avere, protagonista.) 

• Costruzioni predicative con essere 

Costruzioni del tipo “essere in/a + sostantivo” (Luigi è a/in casa) “essere da + infinito” (le mele 

sono da mangiare) sono annotate come segue: 

Luigi è in casa 

pred (essere, casa.) 

5.2.7 Costruzioni causative 

Nello schema di annotazione funzionale di SI-TAL le costruzioni causative sono annotate come 

segue: 

Io ho fatto applicare la legge 

sogg (fare, io) 

arg(fare, applicare) 

68


ogg_d(applicare, legge) 

Ho fatto fare qualche ricerca alla mia segretaria 

sogg (fare1, ) 

arg(fare1, fare2) 

ogg_i(fare1, segretaria.) 

sogg(fare2, segretaria) 

ogg_d(fare2, ricerca) 

mod(segretaria, mio) 

Ho fatto partire la macchina 

sogg (fare, ) 

ogg(fare, macchina) 

arg(fare, partire) 

sogg(partire, macchina) 

5.2.8 Costruzioni partitive 

In costruzioni partitive del tipo dello stile impero sopravvive una certa indulgenza, l’espressione 

partitiva viene annotata come un modificatore del soggetto. Nella frase di esempio, impero viene 

annotato come modificatore di indulgenza come illustrato di seguito: 

Dello stile impero sopravvive una certa indulgenza 

mod (indulgenza, stile.) 

5.2.9 Annotazione delle costruzioni con superlativo e con strutture comparative 

5.2.9.1 Superlativi 

• Superlativo assoluto 

Il grado superlativo assoluto di un aggettivo può essere espresso in forma sintetica (e cioè con 

l’aiuto del suffisso -issimo, o di prefissi del tipo stra-, -arci ecc.) o in forma analitica, con l’aiuto di 

un modificatore avverbiale (molto, assai) solitamente preposto all’aggettivo. Quando espresso in 

forma sintetica, il grado è annotato con l’attribuzione del valore “superlativo” al tratto ruolo 

relativo all’aggettivo. Quando espresso in forma analitica, l’annotazione riguarda sia il livello di 

relazioni di dipendenza sia il livello dei tratti che descrivono l'aggettivo, ovvero: 

• nella descrizione in tratti dell’aggettivo 

• l'attribuzione del valore di “superlativo” al tratto ruolo; 

• al livello relazionale, mediante la definizione di una relazione di modificazione tra la testa 

aggettivale e il modificatore avverbiale. 

Si veda l'esempio che segue: 

69


Paolo è molto bello 

sogg (essere, Paolo) 

pred (essere, bello.) 

mod (bello, molto) 

sogg (bello, Paolo) 

• Superlativo relativo 

Le costruzioni con un aggettivo di grado superlativo relativo prevedono: i) l’obbligo del tratto di 

definitezza o sull’aggettivo o sul sostantivo che l’aggettivo modifica; ii) l’espressione del grado o 

sinteticamente (per alcune forme aggettivali lessicalmente “marcate” come migliore, maggiore ecc.) 

o analiticamente attraverso l’avverbio più in posizione obbligatoriamente pre-aggettivale; iii) una 

restrizione opzionale dell’ambito relativamente al quale viene espresso il grado superlativo 

dell’aggettivo in questione. Nel caso più comune in cui il superlativo relativo venga espresso in 

forma analitica, l’annotazione riguarda sia il livello di relazioni di dipendenza sia il livello dei tratti 

che descrivono l’aggettivo, ovvero: 

• nella descrizione in tratti dell'aggettivo, mediante: 

• l'attribuzione del valore di “superlativo” al tratto ruolo; 

• l'attribuzione del valore di “+” al tratto definitezza; 

• al livello relazionale, mediante la definizione di una relazione di modificazione tra la testa 

aggettivale e il più. 

La relazione tra l’aggettivo e il suo ambito viene annotata in termini di comp; inoltre, al livello 

della descrizione del dipendente viene assegnato il valore”ambito” al tratto ruolo. 

Si veda l'esempio che segue: 

Il ragazzo più prestigioso d’America 

mod (ragazzo, prestigioso) 

mod (prestigioso, più) 

comp (prestigioso, America.) 

5.2.9.2 Costruzioni comparative 

Le costruzioni comparative pongono notevoli difficoltà di annotazione derivanti dai fenomeni di 

discontinuità e di ellissi che le caratterizzano. Inoltre, l'estrema varietà di questo tipo di costruzioni 

nell'uso reale della lingua e la diffusa presenza di costruzioni “marginali” o di dubbia accettabilità 

ne rendono l'annotazione ancora più difficoltosa. 

In linea di principio, ogni struttura comparativa contiene un elemento “comparato” (quello 

tipicamente designato come primo termine di paragone) ed un elemento “comparativo” (detto anche 

secondo termine di paragone). Nella Treebank di SI-TAL, tra i due elementi della struttura 

comparativa viene stabilita una relazione di tipo comp, dove la testa è rappresentata dall'elemento 

comparato e il dipendente dall'elemento comparativo; la funzione di elemento comparativo è 

esplicitamente marcata al livello del tratto ruolo del dipendente, al quale viene assegnato il valore 

“compar(ativo)”. 

70


E' più intelligente dell’insegnante 

sogg (essere, .) 

pred (essere, intelligente) 


comp (intelligente, insegnante.) 

Ho visto più uomini che donne 

sogg (vedere, .) 

ogg (vedere, uomo) 

mod (uomo, più) 

comp (uomo, donna.) 

Questo schema di annotazione, per quanto non interamente soddisfacente, risponde al criterio 

generale di non considerare come teste di una dipendenza parole con funzioni marcatamente 

grammaticali, appartenenti a classi chiuse. Inoltre risolve il problema dell’individuazione della testa 

anche in quei casi dove il grado comparativo risulta lessicalizzato (o realizzato sinteticamente), 

come in aggettivi del tipo migliore, maggiore ecc. Torneremo sulla comparazione nella parte finale 

di questa sezione per discutere più nel dettaglio alcuni aspetti di questo fenomeno e dei problemi 

legati alla loro annotazione. 

5.2.10 Miscellanea 

In questa sezione, vengono riportate le specifiche di annotazione per costruzioni particolarmente 

ricorrenti in un corpus giornalistico quale quello della Treebank di SI-TAL: ad esempio, date, 

numeri, nomi propri, costruzioni appositive di vario tipo. Grammatiche di riferimento della lingua 

italiana relegano questa tipologia di costruzioni sintattiche ad una posizione del tutto marginale, ma 

nell'annotazione di un corpus di lingua reale non possono essere ignorate. I paragrafi che seguono 

dettagliano le specifiche di annotazione per questa miscellanea di costruzioni. 

5.2.10.1 Annotazione delle date 

All'interno di un testo, le date compaiono in più forme. Ad esempio: 

1. il 25 dicembre 1999 sono partito 

2. nel 2000, sono partito 

3. nel/in maggio, sono partito 

Per l'annotazione funzionale delle date, si è stabilito che la testa funzionale è costituita 

dall’elemento che seleziona la preposizione o l’articolo che precede l’intera espressione temporale. 

Nei casi precedenti, le teste funzionali sono rispettivamente 25 (1), 2000 (2) e maggio (3) dando 

così luogo alle seguenti annotazioni: 

1. mod (partire, 25.) 

mod (25, dicembre) 

mod (dicembre, 1999) 

2. mod (partire, 2000.) 

3. mod (partire, maggio.) 

71


5.2.10.2 Annotazione di cardinalità complessa 

La maggior parte delle espressioni numeriche nell'uso reale del corpus non riportano la cifra 

come una espressione unica ma sono spesso riportate nei termini di espressioni del tipo “20 mila 

dollari”. Il problema di annotazione che si pone in questo caso riguarda il fatto se si debba fornire 

un'analisi interna di “20 mila” in termini di testa e dipendente. Considerata la tipologia di usi di cui 

vuole essere suscettibile la Treebank di SI-TAL, si è deciso di ricorrere alla soluzione di annotare 

“dollari” con una cardinalità complessa di “20 mila”, come esemplificato dall'esempio che segue: 

Sfiora i 4 mila miliardi 

ogg_d (sfiorare, miliardo.) 

5.2.10.3 Annotazione di nomi propri 

5.2.10.3.1 Annotazione di nome e cognome 

Nel caso di nomi propri espressi in termini di nome e cognome qual è il caso di “Lamberto 

Dini”, è stato stabilito che, per questioni inerenti il recupero di informazioni dalla base dati, la testa 

debba essere il cognome della persona, mentre il nome costituisca un modificatore del cognome 

stesso. Questo vale indipendentemente dall'ordine di apparizione di nome e cognome nel testo. 

5.2.10.3.2 Annotazione di nomi propri composti 

Per quanto riguarda casi quale “Carlo Azeglio Ciampi” in cui il nome di una persona è composto 

da due nomi e da un cognome, è stato deciso che si devono annotare i due nomi come due diversi 

modificatori del cognome. Es.: 

Carlo Azeglio Ciampi 

mod (Ciampi, Carlo) 

mod (Ciampi, Azeglio) 

5.2.10.4 Annotazione di costruzioni appositive di vario tipo 

• Il neo ministro, Mario Rossi, ha deciso di dimettersi 

sogg (decidere, ministro) 

mod (ministro, neo) 

mod (ministro, Rossi) 

mod (Rossi, Mario) 

arg (decidere, dimettersi) 

• Elenco di istanze in costruzioni del tipo i seguenti indici: incremento … aumento … La 

strategia di annotazione che è stata decisa per il trattamento di questi casi consiste nel 

marcare le singole istanze che seguono i due punti come modificatori della testa nominale 

indici. 

72


5.2.10.5 Annotazione degli incisi in testa agli articoli 

Per quanto riguarda gli incisi che si trovano all’inizio di molti articoli e che sono solitamente 

rappresentati da nomi di località o di città, è stato deciso che non vengono annotati, data la difficoltà 

di stabilire la natura della loro relazione con la frase che segue: può trattarsi della locazione 

dell'evento descritto nell'articolo, oppure del luogo della scrittura ma questo non può sempre essere 

inferito dal testo. 

Pisa. Nuovi sviluppi nell’indagine 

mod (sviluppo, nuovo) 

mod (sviluppi, indagine) 

5.2.10.6 Un caso particolare di congiunzione 

Un caso particolare di congiunzione è quello che si osserva in espressioni del tipo 11 e 30, un 

chilo e mezzo. In questo caso la congiunzione e non viene trattata come congiunzione coordinante 

all'interno di una struttura coordinata; viene piuttosto annotata come l'introduttore di un 

modificatore, che è costituito da 30 e da mezzo nei casi riportati sopra. 

5.2.11 Problemi aperti 

Le specifiche ed i criteri di annotazione dettagliati finora hanno trovato nella Treebank di SI- 

TAL un fertile terreno di verifica. Rimangono comunque una serie di problemi aperti, di cui è 

emersa consapevolezza nel corso del processo di annotazione e per i quali – al momento - non è 

prospettata alcuna soluzione di annotazione. Tra questi, si annovera l'annotazione di: 

• espressioni complesse in lingua straniera, quali quali Massachussets Institute of Technology 

o Bank of China, che pongono il problema - oltre dello stabilire quale sia la testa e quale il 

dipendente - anche dell'annotazione della preposizione of. Analogo problema si pone per 

l'annotazione dell'espressione Cagnotti and Partners, in particolare per quanto riguarda 

l'annotazione della congiunzione straniera; 

• costruzioni ellittiche complesse: in una frase del tipo la RAI partiva da un volume di 30 mila 

spot, la Fininvest di 127 mila l’ellissi non riguarda un singolo costituente bensì un segmento 

di frase; 

• espressioni comparative con il secondo termine della comparazione diverso da un sintagma 

nominale. 

In relazione a quest’ultimo punto, va notato che l’evidenza del corpus ha messo in luce alcune 

inadeguatezze e insufficienze delle annotazioni proposte. Una revisione delle specifiche in corso 

d’opera, oltre a porre ovvi problemi di “allineamento” delle nuove annotazioni con le vecchie, 

avrebbe potuto rivelarsi in ultima analisi controproducente. C’era il rischio infatti che una revisione 

precipitosa delle specifiche relative all’annotazione di una sotto-classe di fenomeni risultasse infine 

incompatibile con altri fenomeni venuti alla luce più tardi nel corso dell’annotazione, con un 

preoccupante effetto di “revisioni a cascata”. Abbiamo pertanto preferito, in questa fase, premiare la 

coerenza complessiva della base dati risultante a spese dell’adeguatezza descrittiva dell’annotazione 

e della sua aderenza all’uso linguistico reale. Riportiamo qui di seguito alcuni dei problemi emersi e 

73


delle possibili strategie con le quali affrontarli. Questa casistica resta frammentaria, e la discussione 

che segue è ancora lontana dal definire un quadro coerente e esaustivo. 

Un primo problema è rappresentato dalla scelta di non annotare più come la testa di una 

relazione di dipendenza. Si consideri a questo proposito il seguente esempio: 

E' più intelligente dell’insegnante 

sogg (essere, .) 

pred (essere, intelligente) 


comp (intelligente, insegnante.) 

Considerare insegnante come sintatticamente dipendente da intelligente (piuttosto che da più) 

sembra non interamente adeguato sul piano sintattico, soprattutto in considerazione del fatto che più 

ha, in questo contesto, un chiaro uso avverbiale. Inoltre, mentre la relazione di dipendenza tra 

intelligente e insegnante sembra catturare una restrizione semantica tra le due parole, in un esempio 

come ho letto più libri di Mario, diventa difficile postulare, per simmetria con l’esempio 

precedente, una restrizione di uguale natura tra libro e Mario. D’altra parte, il fatto che, in generale, 

la comparazione coinvolga tipicamente costruzioni grammaticali complesse costituisce un problema 

non banale per un livello di annotazione funzionale (come quello adottato in SI-TAL) che ha come 

obiettivo primario la definizione di relazioni di dipendenza tra parole “piene”. 

Un secondo problema è dato dall’uso del che per introdurre un secondo termine di paragone non 

costituito da un sintagma nominale, come nel seguente esempio: 

Gianni ha parlato più con te che con lui 

E’ chiaro che il tipo di relazione sintattica introdotta dal che (a differenza di quella introdotta dal 

di + secondo termine di paragone in dell’insegnante) è ortogonale rispetto alla dipendenza sintattica 

tra il sintagma preposizionale con te e il verbo parlare. Quale sia la natura della dipendenza 

introdotta dal che e come rappresentarla adeguatamente a livello di annotazione restano ancora oggi 

due problemi praticamente irrisolti. Il parallelo tra l’espressione più con te che con lui e sia con te 

che con lui sembrerebbe suggerire un trattamento della prima costruzione come una dipendenza 

simmetrica di tipo correlativo, da annotare come segue: 

obl(parlare,te.) 

obl(parlare,lui.) 

corr(te.< introsim =“più”, introdep=“con”>, lui.) 

dove “corr” indica appunto una relazione sintattica simmetrica di tipo correlativo. Questa soluzione 

ha una certa plausibilità dal punto di vista sintattico, che risulta corroborata dalla analogia tra le 

seguenti costruzioni comparative: 

Gianni ha mangiato più mele che arance 

Gianni ha mangiato tanto mele che/quanto arance 

Tuttavia, in un esempio come il seguente la natura simmetrica della correlazione risulta del tutto 

oscurata, e ancora una volta la soluzione proposta non sembra avere un grado sufficiente di 

generalità: 

Gianni ha mangiato tante mele quante Maria 

74


Quest’ultimo esempio evidenzia, a nostro avviso, la necessità di annotare in maniera differenziata 

gli introduttori del secondo termine di paragone. Accanto all’uso del di che definisce, nell’uso 

comparativo, una dipendenza sintattica fondamentalmente omogenea rispetto ad altre preposizioni, 

esistono altri introduttori del secondo termine di paragone, quali appunto che e quanto, che 

presentano una maggiore autonomia sul piano sintattico e semantico (quanto in particolare ha in 

molti casi un uso strettamente pronominale), e andrebbero quindi annotati, secondo noi, in maniera 

distinta dal di. Detto questo, resta da capire quale tipo di relazione che e quanto stabiliscono con il 

secondo termine di paragone in senso stretto. Ma questo problema, a sua volta, non può che 

investire il trattamento delle ellissi in generale. 

Infine, la presenza di casi, alcune volte marginali, ma comunque di largo uso nel parlato quotidiano, 

di costruzioni comparative fortemente ellittiche, sembra evidenziare ancora una volta la 

inadeguatezza delle nostre risorse espressive a livello di annotazione: 

?Gianni è più stanco che se avesse scalato una montagna. 

E’ probabilmente utile chiudere questa breve rassegna evidenziando la problematicità delle 

costruzioni comparative anche per schemi di annotazione che si basino sulla nozione di costituenza. 

Si noti, a questo proposito, che in una frase come quella che segue, l’ambito sintattico della 

comparazione copre una sequenza quale mangiato mele che non ha alcuno status sintattico 

plausibile dal punto di vista di un’analisi a costituenti: 

Gianni ha ascoltato più opere in vita sua che mangiato mele. 

5.3 Aspetti di annotazione con FunTAS 

L'annotazione funzionale della Treebank di SI-TAL è stata effettuata manualmente con l'ausilio 

di FunTAS, il sotto-sistema di GesTALt di supporto all’annotazione sintattico-funzionale. La 

progettazione di FunTAS è avvenuta sulla base delle Specifiche Tecniche elaborate al termine della 

Linea 1.1, quando il processo di annotazione vero e proprio non era stato ancora avviato. 

La fase di annotazione vera e propria ha dunque costituito anche il primo momento di 

validazione di FunTAS. Come è naturale, in questa fase sono emersi aspetti delle specifiche non 

coperti al livello dell'interfaccia del tool di annotazione e/o della struttura dati: ciò rendeva 

impossibile l'annotazione appropriata di certe costruzioni sintattiche. La correzione dei problemi 

emersi, al livello di FunTAS, è stata però effettuata solo in parte. Infatti, un'alterazione della 

struttura dei dati in una fase in cui il processo di annotazione era ormai avanzato avrebbe potuto 

compromettere la coerenza interna dei dati annotati della Treebank: questi casi sono stati quindi 

gestiti mediante l'adozione di codifiche transitorie al livello della base di dati di GesTALt, che sono 

state riconvertite secondo quanto previsto dalle specifiche al livello dell'output in XML (per la 

rappresentazione XML dell’annotazione funzionale si rinvia all’Appendice 2). 

Nel corso del processo di annotazione, le specifiche iniziali sono state inoltre riviste ed integrate 

alla luce dell'evidenza linguistica emergente dal corpus. Anche in questo caso, non tutte le revisioni 

ed integrazioni apportate alle specifiche di annotazione hanno potuto essere assorbite al livello del 

tool di annotazione e della sottostante struttura dati: infatti, l'aggiornamento ha riguardato solo quei 

casi che non compromettevano la coerenza interna dei dati annotati. Di nuovo, gli altri casi sono 

stati gestiti mediante soluzioni transitorie che permettevano la codifica dell'informazione 

appropriata al livello del tool di annotazione e della relativa base di dati sfruttando tratti già presenti 

nella struttura dati. 

75


Questa sezione documenta soluzioni di annotazione adottate transitoriamente, sia al livello delle 

relazioni funzionali (sezione 5.3.1), sia al livello della descrizione in tratti dei partecipanti alle 

relazioni (sezione 5.3.2) o dei valori loro assegnati (sezione 5.3.3). 

5.3.1 Una nuova relazione funzionale: CONCAT 

La relazione di concatenazione (concat) costituisce una relazione di basso livello che è stata 

introdotta per trattare casi in cui per l'annotazione funzionale sarebbe stato auspicabile il 

riconoscimento di una espressione polilessicale: ad esempio, espressioni in lingua straniera, oppure 

nomi propri italiani. Questa relazione mette in relazione di “concatenazione” i partecipanti cui viene 

applicata senza attribuirgli alcuna struttura interna. Casi tipici trattati con questo tipo di relazione 

sono rappresentati da Bank of China, Dolce & Gabbana, De Benedetti, La Repubblica così come 

tutte le denominazioni composte di persone, enti o ditte. 

La relazione di concatenazione viene stabilita a partire dal primo elemento che si incontra 

durante l’annotazione fino all’ultimo dell’espressione complessa, per esempio: 

Bank of China 

concat (bank, of) 

concat (of, China) 

Si noti che le relazioni di dipendenza che coinvolgono espressioni complesse codificate mediante 

la relazione di concatenazione fanno riferimento al primo elemento dell'espressione. Quindi, in una 

frase del tipo La Bank of China ha deciso ... la relazione di soggetto viene stabilita tra decidere e 

bank. 

5.3.2 Annotazioni transitorie al livello della descrizione in tratti dei partecipanti 

Questa sezione illustra le annotazioni transitorie adottate per gestire le revisioni ed integrazioni 

delle specifiche che richiedevano l'inserimento di un nuovo tratto nella descrizione dei partecipanti 

alle relazioni funzionali. Considerate le difficoltà derivanti dall'inserimento di un nuovo tratto nella 

struttura dati in una fase in cui il processo di annotazione era ormai avanzato, abbiamo optato per 

l'adozione – al livello di FunTAS/GesTALt - di codifiche transitorie che sfruttano tratti già presenti 

nella struttura dati. In particolare, queste hanno riguardato gli attributi introduttore (sezione 

5.3.2.1) e diatesi (sezione 5.3.2.2). Si noti che quanto descritto in questa sezione vale soltanto per la 

base di dati sottostante a GesTALt, accessibile da FunTAS e ValTAS (si veda sezione 7); infatti, 

queste codifiche transitorie sono state riviste e ristrutturate secondo quanto previsto dalle specifiche 

al livello dell'output in XML. 

5.3.2.1 L'attributo INTRODUTTORE 

Tra le relazioni funzionali, lo schema di annotazione distingue relazioni di dipendenza e 

relazioni “simmetriche” (tipicamente relazioni di congiunzione e disgiunzione). Per le relazioni di 

dipendenza e per quelle simmetriche sono previsti due diversi tipi di attributo introduttore: 

a. l’attributo introdep è utilizzato nel caso di relazioni di dipendenza (esso fa parte della 

descrizione del dipendente, cfr sezione 5.1.1.1.2.1); 

76


b. l'attributo introsim è usato per indicare l’introduttore dei partecipanti a una relazione 

simmetrica (esso può essere associato ad entrambi i partecipanti alla relazione, cfr sezione 

5.1.1.2.1). 

Questa distinzione non si riflette ad oggi nella struttura dei dati al livello della base di dati di 

GesTALt che prevede un unico tratto “introduttore”, associato al secondo elemento della relazione, 

sia essa di dipendenza o di tipo simmetrico. 

Quindi, quando la relazione funzionale è di tipo {dip | sogg | comp | mod | arg | pred | non-pred | 

ogg_d | ogg_i | obl} l'attributo introduttore è da interpretarsi come introdep. Si veda l'esempio che 

segue: 

dove la relazione obl deve essere interpretata come segue: 

obl (andare, cordata ) 

Invece, quando la relazione funzionale è di tipo simmetrico, ovvero {cong | disg}, l'attributo 

introduttore è da interpretarsi come introsim, come illustrato nell'esempio che segue: 

dove la relazione cong deve essere interpretata come segue: 

cong (chiudere, attestare ) 

All'attributo introduttore possono essere assegnati anche valori complessi (separati da “_”) che 

debbono essere ridistribuiti tra i vari partecipanti alla relazione. Si considerino i seguenti casi: 

77


1. Strutture coordinate del tipo sia … sia, né … né, tanto …quanto. La figura che segue illustra 

il trattamento di strutture coordinate complesse: 

Come nei casi precedentemente illustrati, l'informazione relativa alle congiunzioni 

coordinanti è riportata a questo livello come valore dell'attributo introduttore 

(appositamente marcato da @) associato al secondo elemento della struttura coordinata: nel 

caso entrambi gli elementi della struttura coordinata siano introdotti da una congiunzione, 

entrambe le congiunzioni sono riportate nella descrizione del secondo elemento separate da 

“_” come illustrato sopra. La relazione cong nell'esempio sopra deve essere interpretata 

come segue: 

cong (consumo., prenotazione.) 

2. Strutture coordinate miste del tipo tanto a casa … quanto a scuola. In questi casi al livello di 

FunTAS viene assegnato al tratto introduttore il valore complesso “@tanto_in_quanto_in” 

da interpretarsi come segue: 

cong (casa., scuola.) 

Il tratto introduttore viene anche usato in altri casi. Definitezza costituisce un tratto dello 

schema di annotazione il cui dominio di applicazione è risultato troppo ristretto, in quanto è stato 

associato nell'interfaccia di FunTAS soltanto alla descrizione dei dipendenti nominali con parte del 

discorso uguale a “S” o “SP”. Nel corso dell'annotazione la specificazione di tale attributo è invece 

risultata necessaria anche in relazione a dipendenti di tipo pronominale (per pronomi di tipo il 

quale, il cui etc.), numerale, aggettivale, e verbale (per trattare casi di nominalizzazioni, il 1994_n il 

bello_agg oppure nel vedere_v); questo vale anche nel caso il dipendente sia costituito da una 

abbreviazione. In questi casi, l'informazione relativa alla definitezza è stata transitoriamente 

codificata al livello del tratto introduttore, marcando il valore come non appropriato (ovvero 

facendolo precedere da @), come illustrato nella figura che segue: 

78


dove la definitezza del dipendente numerale è specificata attraverso il valore @il associato al 

tratto introduttore. 

5.3.2.2 L'attributo DIATESI 

Durante il processo di annotazione con FunTAS l’attributo diatesi è stato utilizzato non solo per 

indicare la diatesi del verbo interessato (attiva, passiva o media), come da specifiche, ma anche per 

marcare altre informazioni relative alla testa verbale. Per la codifica di queste informazioni lo 

schema di annotazione è stato integrato da nuovi tratti, rispettivamente syn_form e reflex (se 

vedano le sezioni 5.1.1.1.2.2). Considerate le difficoltà derivanti dall'inserimento di un nuovo tratto 

nella struttura dati in una fase in cui il processo di annotazione era ormai avanzato, abbiamo optato 

per una codifica transitoria che sfruttava tratti già presenti nella struttura dati. Quindi, alla lista 

iniziale dei valori di diatesi sono stati aggiunti, lungo il corso dell’annotazione, anche i seguenti 

valori che sono stati marcati con # che ne indica la non diretta pertinenza rispetto all'attributo di cui 

costituiscono valore (si veda la sezione 4.1.2.3.1.1 del rapporto “Primo Prototipo” relativo alla 

Linea 1.2): 

1. #rifl: questo valore marca i verbi riflessivi propri; 

2. #rifl_app: questo valore marca i riflessivi apparenti; 

3. #ipron: questo valore marca la variante intransitiva di una parte dei verbi ergativi ed i verbi 

inerentemente riflessivi: 

4. #impers: questo valore marca la costruzione impersonale; 

5. #impers_si: questo valore marca la costruzione con “si” impersonale; 

6. #passivo_si: questo valore marca la costruzione con “si” passivante; 

7. #rifl_ci_si: questo valore marca la costruzione riflessiva con “si” impersonale (es. ci si 

lava); 

8. #rifl_app_ci_si: questo valore marca la costruzione riflessiva apparente con “si” impersonale 

(es. ci si lava le mani). 

Al livello dell'output in XML, i valori dell'attributo diatesi preceduti da # sono stati riassegnati 

agli attributi di diretta pertinenza (syn_form e/o reflex). 

5.3.3 Valori particolari per INTRODEP 

Questo punto riguarda l'annotazione di espressioni polilessicali di base non correttamente 

identificate al livello dell'annotazione morfo-sintattica. Quando queste espressioni polilessicali 

appaiono nella funzione di introduttore è stata adottata la seguente strategia di annotazione: 

Noi siamo andati sino a Roma 

obl (andare, Roma.) 

Questo tipo di annotazione permetterà, in una fase successiva di revisione della Treebank, il 

recupero di questi casi (sporadici) e la relativa correzione. Purtroppo, tutte le correzioni che 

79


richiedevano una rinumerazione delle parole al livello dell'input non potevano essere apportate dato 

che l'annotazione si è svolta in parallelo per i diversi livelli e questo avrebbe potuto inficiare 

l'integrità dei dati nella base di dati sottostante a GesTALt. 

6 Specifiche di annotazione per il livello semantico-lessicale 

Nella Treebank di SI-TAL l’annotazione semantico-lessicale è consistita nell’assegnazione alle 

occorrenze di verbi, nomi e aggettivi di: 

i. un identificatore (numero) di senso nella risorsa lessicale di riferimento (IWN-Gen e/o 

EcoWN); 

ii. 

tratti, espressi in termini di coppie attributo/valore, di due tipi: 

• semantico, che convogliano informazioni semantico-lessicali (es. per contraddistinguere 

gli idiomi, le metafore, ecc.); 

• ad uso dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per 

segnalare casi dubbi, ecc.). 

Le specifiche che seguono costituiscono l’ossatura portante dello schema di annotazione per 

questo livello. Esse raccolgono le revisioni ed integrazioni emerse nella fase di applicazione dello 

schema di annotazione al corpus della Treebank di SI-TAL. 

6.1 L’annotazione semantico-lessicale: tipologia degli elementi 

L’annotazione semantico-lessicale identifica delle unità di senso che possono corrispondere a: 

• singole parole ortografiche (un singolo Sostantivo, Verbo o Aggettivo); 

• due o più parole ortografiche nel caso di espressioni polilessicali (genericamente denotate 

in inglese come multi-word expressions) che compongono una unica unità di senso (es. 

composti, idiomi ecc.). 

Gli elementi annotati a livello semantico-lessicale sono di tre tipi: 

• USS (unità semantica semplice) 

• USC (unità semantica di tipo complesso) 

• UST (unità semantica di tipo titolo). 

L’elemento USS punta ad una singola parola, mentre l’elemento USC punta a più parole del testo 

di input, ovvero ad un’espressione polilessicale. Infine l’elemento UST può puntare sia ad una 

singola parola che a più parole adiacenti e serve per annotare titoli di libri, giornali, spettacoli ecc. 

Al contrario dell’elemento USS che può riferirsi solo a parole piene del testo (in particolare, 

sostantivi, verbi o aggettivi), sia USC che UST possono includere anche parole grammaticali (es. 

preposizioni, articoli, ecc.) facenti parte dell’espressione. Es.: 

• USC: mettere a ferro e fuoco 

80


• UST: Il nome della rosa 

Le espressioni polilessicali si distinguono in “continue” e “discontinue”. Si parla di espressioni 

continue quando sono composte da più unità ortografiche adiacenti senza nessuna interruzione, 

mentre nel caso opposto si parla di espressioni discontinue. Per questa ragione una unità di senso 

complessa (USC) può riferirsi a più parole ortografiche che risultano separate tra loro da una serie 

variabile di altre parole e, talvolta, addirittura invertite nell’ordine come mostrano gli esempi 

seguenti: 

• discontinuità: (es. mettere (tutto) per iscritto); 

• inversione: (es. ‘Traguardi ambiziosi, insomma, che la Consulta delle professioni non 

regolamentate, insediatasi ieri a Villa Lubin, è comunque convinta di riuscire a tagliare’). 

Le espressioni continue sono in prevalenza nomi composti e in generale sequenze senza verbo, 

mentre quelle discontinue possono essere idiomi e costruzioni con verbi supporto e più in generale 

espressioni che includono un verbo. 

Si noti che l’annotazione delle espressioni polilessicali non presuppone l’annotazione semanticolessicale 

dei suoi singoli componenti. Da un punto di vista linguistico ciò è giustificato dal fatto che 

tali espressioni non sono in molti casi composizionali semanticamente (o lo sono solo parzialmente) 

e talvolta appare difficile o addirittura impossibile assegnare un senso, tra quelli attestati nella 

risorsa lessicale di riferimento, ai suoi componenti (es. si pensi all’aggettivo rosa nella sequenza 

cronaca rosa). 

6.2 L’annotazione semantico-lessicale: tratti descrittivi 

I seguenti tratti sono usati nella descrizione dei vari tipi di elementi semantici (USS, USC e UST): 

• dbref (database di riferimento) 

• ns (numero di senso) 

• lem (lemma) 

• pos (parte del discorso) 

• alter(azione) 

• fig(urato) 

• np (nome proprio) 

• tipousc (tipo di unità semanticamente complessa) 

• tipolemma 

• tipot (tipo di titolo) 

• nota 

• comm 

Essi sono illustrati nelle sezioni che seguono. 

81


6.2.1 dbref (database di riferimento) 

Il tratto dbref (database di riferimento) consente di specificare la risorsa lessicale di riferimento 

selezionata per l’annotazione, ovvero: 

• IWN-Gen, per il lessico generico; 

• EcoWN, per il lessico specialistico (finanziario). 

6.2.2 ns (numero di senso) 

Il tratto ns (numero di senso) consente, per ogni occorrenza annotata, di specificare il numero di 

senso nella risorsa lessicale di riferimento (IWN-Gen/EcoWN) o l’eventuale assenza del senso. I 

suoi possibili valori sono: 

• un numero di senso; 

• due o più numeri di senso congiunti attraverso l’utilizzo dell’operatore logico di 

congiunzione (S1&S2) nei casi in cui più di un senso di IWN-Gen/EcoWN si applichi al 

contesto specifico; 

• due sensi disgiunti attraverso l’utilizzo dell’operatore logico di disgiunzione (S1|S2) nei 

casi in cui il contesto non fornisca informazione sufficiente per poter decidere tra diversi 

sensi riportati in IWN-Gen/EcoWN; 

• il valore no_senso quando la risorsa lessicale di riferimento non registra il senso 

attestato nel contesto in corso di annotazione; nel caso di SI-TAL, si tratta generalmente 

di un valore provvisorio, che verrà sostituito dall’assegnazione definitiva una volta che 

la risorsa lessicale di riferimento sarà stata integrata con il senso mancante; 

• il valore no_lemma quando la risorsa lessicale di riferimento non registra il lemma 

dell’occorrenza in corso di annotazione; nel caso di SI-TAL, si tratta di un valore 

provvisorio, che verrà sostituito dall’assegnazione definitiva una volta che la risorsa 

lessicale di riferimento sarà stata integrata con l’informazione mancante; 

• il valore no viene assegnato per i lemmi di cui non è previsto l’inserimento in IWN- 

Gen/EcoWN. Ciò si verifica essenzialmente in tre casi, ovvero, con alcuni nomi propri 

(ad esempio, di persona), titoli in generale (di giornale o rivista, ecc.), parole straniere 

non entrate nell’uso corrente dell’italiano. 

6.2.3 lem (lemma) 

Il tratto lem (lemma) consente di specificare il lemma dell’occorrenza che si sta annotando a 

livello semantico-lessicale. Va precisato che tale informazione è già presente al livello dell’input 

all’annotazione semantico-lessicale ma deve, invece, essere sempre specificato per le espressioni 

polilessicali riconosciute ed annotate come tali a questo livello (USC) e per i titoli (UST). 

82


6.2.4 pos (parte del discorso) 

L’attributo pos (parte del discorso) specifica la categoria morfo-sintattica dell’occorrenza che si 

sta annotando a livello semantico-lessicale. Tale informazione, che è già presente al livello 

dell’input all’annotazione semantico-lessicale, deve essere sempre specificata per le espressioni 

polilessicali riconosciute ed annotate come tali a questo livello (USC). 

6.2.5 alter(azione) 

L’attributo alter (alterazione) viene usato nella descrizione di USS nel caso in cui la parola in 

corso di annotazione sia un alterato o un aggettivo superlativo o comparativo: esso consente di 

segnalare la presenza di un suffisso alterativo (e di specificarne il tipo) o del suffisso per la 

formazione del superlativo o la presenza di un comparativo. I suoi possibili valori sono: 

• dim per i diminutivi; 

• accr per gli accrescitivi; 

• dispr per i dispregiativi; 

• vezz per i vezzeggiativi; 

• sup per gli aggettivi superlativi; 

• compar per gli aggettivi comparativi; 

• alter valore sottospecificato per i casi diversi dai precedenti. 

Nel caso degli alterati, l’attributo alter può ricevere un valore unico (es. alter=dim) oppure una 

coppia di valori (nel caso in cui sia utilizzato più di un suffisso alterativo) che vanno specificati 

rispettando l’ordine in cui sono combinati nell’occorrenza che si sta annotando (es. alter=dispr,accr 

per la parola omaccione). Il valore “alter” va utilizzato per i casi in cui tutti gli altri valori non sono 

applicabili. 

6.2.6 fig(urato) 

Si ricorre all’attributo fig (figurato) nel caso in cui si sia in presenza di un uso figurato. Si 

applica sia a unità di tipo USS che di tipo USC; in quest’ultimo caso, la specifica di uso figurato è 

limitata ai composti (es. mettere a fuoco il problema). I valori che possono essere assegnati a fig 

sono: 

• metaf per gli usi metaforici; 

• meton per gli usi metonimici; 

• fig valore sottospecificato per marcare casi di usi figurati diversi dai precedenti. 

83


6.2.7 np (nome proprio) 

Quando si è in presenza di un nome proprio di persona, gruppo, luogo o prodotto, la descrizione 

di unità di tipo USS e USC include anche l’attributo np (nome proprio), che consente di ricondurre il 

nome proprio ad una specifica classe semantica di IWN (es. quella di “persona”). 

I valori di questo attributo previsti ad oggi sono: 

• pers per i nomi propri di persona; 

• grup per i nomi propri che si riferiscono a gruppo di persone; 

• luogo per i nomi propri di luogo; 

• man (manufatto) per i nomi propri di prodotti e manufatti in generale; 

• grup&luog per i nomi propri geografici (es. Francia) nei casi in cui non sono semplicemente 

intesi come luogo ma anche come gruppo-organizzazione (es. adoro la Francia, il sovrano 

d’Inghilterra); 

• np valore sottospecificato per indicare i casi diversi dai precedenti. 

E’ infine prevista la possibilità di avere una congiunzione/disgiunzione di valori per i casi in cui 

non sia chiaro il referente del nome proprio. 

6.2.8 tipousc (tipo di unità semanticamente complessa) 

L’attributo tipousc (tipo di unità semanticamente complessa) consente di specificare quale tipo 

di espressione polilessicale sia in corso di annotazione (es. idioma, composto o costruzione con 

verbo supporto). 

I suoi possibili valori sono: 

• idioma per annotare le espressioni idiomatiche; 

• comp per annotare i composti; 

• vsup per annotare le espressioni a verbo supporto; 

• np per l’annotazione di nomi propri costituiti da espressioni polilessicali (es. Nuova Zelanda, 

Stati Uniti d’America, Giulio Andreotti, Real Madrid, ecc.); 

• tipousc per l’annotazione di eventuali formule di routine (es. per così dire, si fa per dire), ed 

altri casi non coperti dai valori precedenti. 

6.2.9 tipolemma 

L’attributo tipolemma convoglia informazione relativa al registro linguistico dell’unità in corso 

di annotazione: ad esempio, consente di specificare se l’unità semantica in corso di annotazione è 

costituita da una voce dialettale (marcata da “dial”) oppure da un neologismo (marcato con 

“neolog”). Questo tratto può rendere conto dell’assenza del termine descritto nella risorsa lessicale 

84


di riferimento: si consideri come esempio il neologismo pidiessino, designante gli esponenti del 

partito PDS, abbastanza frequente nel corpus della Treebank di SI-TAL. 

6.2.10 tipot (tipo di titolo) 

L’attributo tipot (tipo di titolo) è specifico delle unità di tipo UST: esso specifica il tipo di entità 

alla quale il titolo si riferisce. I suoi possibili valori ad oggi sono: 

• semiotico per i titoli di un testo scritto (giornale, libro ecc.); 

• spettacolo per i nomi di spettacoli; 

• tipot per casi diversi dai precedenti; 

• indef (indefinito) quando l’informazione non può essere desunta dal contesto e l’annotatore 

non lo sa. 

6.2.11 Altri tratti che possono essere usati nella definizione di unità di senso 

Come segnalato in precedenza, l’annotazione a questo livello può anche includere tratti ad uso 

dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per segnalare casi dubbi, 

ecc.). Lo schema di annotazione ne prevede due: nota e comm(ento), illustrati nelle sezioni che 

seguono. 

6.2.11.1 nota 

L’attributo nota è usato per segnalare assegnazioni di senso dubbie. I suoi possibili valori sono: 

• sn_indist (senso indistinto) nel caso di dubbio di interpretazione dei sensi riportati nella 

risorsa lessicale di riferimento; 

• sn_inc (senso incerto) per segnalare la necessità di rivedere/ricontrollare l’annotazione. 

6.2.11.2 comm(ento) 

L’attributo comm (commento) è usato per inserire un commento ad uso dell’annotatore. Nel 

corso dell’annotazione si è largamente fatto uso di questo attributo per depositare informazioni utili 

non solo ai fini dell’annotazione in sé ma anche in relazione alle risorse lessicali utilizzate, 

soprattutto in termini di segnalazioni di lemmi mancanti, sensi mancanti, sensi dubbi oppure 

proposte di aggiornamento e integrazione della risorsa lessicale di riferimento, ad esempio, 

mediante l’inserimento di espressioni polilessicali. 

La tabella che segue riporta le sigle usate nella compilazione di tale attributo nel corso 

dell’annotazione delle due partizioni della Treebank, quella bilanciata e quella finanziaria: 

Corpus 

Bilanciato 

Abbreviazione 

Corpus 

Finanziario 

Significato 

ML m.l manca lemma in IWN- per indicare lemmi mancanti 

Uso 

85


Corpus 

Bilanciato 

Abbreviazione 

Corpus 

Finanziario 

Significato 

Gen/EcoWN 

MS m.s manca senso specifico in 

IWN-Gen/EcoWN 

MOR - manca la variante 

ortografica in IWN- 

Gen/EcoWN 

Uso 

per indicare sensi mancanti, ovvero il lemma in 

questione è previsto nella risorsa lessicale di 

riferimento ma non secondo il senso attestato nel 

corpus 

per indicare varianti ortografiche mancanti, attestate 

nel corpus ma non comprese nel synset di IWN- 

Gen/EcoWN 

PSTR p. str parola straniera per segnalare una parola straniera che può essere 

presente o meno nella risorsa lessicale di riferimento. 

Per quanto sia prevista a livello morfo-sintattico 

l’etichetta "SW" ad indicare tali parole, poiché non 

tutte risultano marcate come tali nel file di input, si è 

deciso di segnalarle anche attraverso il campo 

‘Commento’. 

- acron acronimo per segnalare acronimi, sigle, abbreviazioni 

IN FASE DI 

PROPOSTA 

odv 

proposta di inserimento 

in corso di valutazione 

da parte dei lessicografi 

per segnalare una proposta di inserimento nel lessico 

di riferimento, soprattutto nel caso di espressioni 

polilessicali corrispondenti a unità semantiche 

complesse (o USC) 

- +IWN-Gen-Gen proposta di inserimento 

in IWN-Gen-Gen 

per segnalare una proposta di inserimento nel 

dizionario generico. 

- +EcoWN proposta di inserimento 

in EcoWN 

per segnalare una proposta di inserimento nel 

dizionario terminologico. 

- ? caso dubbio per segnalare casi dubbi per i quali l’annotazione è 

stata completata ma senza un grado di certezza 

elevato. In particolare, nel dubbio che la parola possa 

rappresentare un costituente di un’espressione 

polilessicale (es. capo/capo di stato), tale dubbio, 

laddove non sia stato sciolto interpellando 

direttamente i codificatori della risorsa lessicale, 

viene espresso specificando l’espressione 

polilessicale (es. per il lemma capo comm= ?c. di 

stato) 

SENSO 

INCERTO 

- senso incerto occorrenza a cui non si può assegnare un senso 

preciso della risorsa lessicale di riferimento per uno 

dei seguenti motivi: 1) è stata usata in modo del tutto 

personale dall’autore (ciò accade talvolta in contesti 

di critica letteraria o di argomento sportivo dove può 

essere fatto un uso libero del linguaggio); 2) non è 

comprensibile il senso dal contesto; 3) potrebbe 

essere (ma non si è sicuri) di un caso di senso 

mancante in IWN-Gen 

LOC - locuzione frasale etichetta molto generica che include un’ampia 

gamma di casi in cui un lemma sembra occorrere in 

una locuzione frasale (es. locuzioni avverbiali o 

preposizionali, o in sequenze che si presentano come 

possibili unità semantiche complesse) 

ROUTINE - routine formula segnala che il lemma occorre all’interno di una 

FORMULAE 

POS pos e. probabile errore di 

assegnazione della 

categoria morfosintattica 

"routine formula" 

per segnalare errori di etichettatura morfo-sintattica 

presenti al livello dell'input dell'annotazione (es. es. 

pubblico=S invece di A) 

RIF - probabile errore di casi in cui è probabilmente necessaria una modifica 

86


Corpus 

Bilanciato 

Abbreviazione 

Corpus 

Finanziario 

Significato 

assegnazione del lemma 

di verbi pronominali 

LEMMA - probabile errore di 

assegnazione del lemma 

Uso 

del lemma di input per la presenza di una forma 

pronominale ecc. (es. inginocchiare invece di 

inginocchiarsi). 

probabile errore (già presente nel file di input) di 

assegnazione del lemma (es. stradina invece di 

strada). 

Si noti che la casistica segnalata attraverso questo attributo non è esattamente la stessa nei due 

corpora, anche in considerazione delle diverse problematiche che gli annotatori delle due partizioni 

si sono trovati ad affrontare. Vi è comunque una sovrapposizione significativa della casistica 

segnalata nei due corpora (bilanciato e finanziario). 

Parte dei problemi segnalati attraverso questo attributo sono legati alle modalità di annotazione 

seguite nel progetto; ad esempio, al fatto che il tool di annotazione SemTas (cfr sezione 7) non 

rende visibili alcune features dell’input dall’interfaccia di annotazione, oppure al fatto che 

l'annotazione funzionale - venendo sviluppata in parallelo - non è accessibile all'annotatore 

semantico. Pertanto, piuttosto che commettere un errore di assegnazione del senso, nell’ambito 

dell’annotazione del corpus generico si è preferito fare ampio uso dell’etichetta RIF. Invece, 

l’assegnazione delle etichette LOC e ROUTINE FORMULAE è stata preferita all’assegnazione di 

un senso scelto in modo arbitrario tra quelli registrati nella risorsa lessicale di riferimento (per 

quanto l’uso di tali etichette non è stato applicato per tutte le USC create, indipendentemente che 

fossero presenti o assenti dal lessico di riferimento). 

Si noti infine che le abbreviazioni riportate nella tabella sopra possono talora essere combinate 

(es. ‘odv; +EcoWN’ ad indicare una proposta di espressione polilessicale che si è ritenuta propria 

del dominio finanziario) assumendo così un significato più specifico. 

Si tenga inoltre presente che nell’ambito del corpus finanziario, per quanto non siano state 

previste le etichette LOC, RIF e LEMMA si è comunque preso nota delle informazioni ad esse 

relative nell’ottica di comunicarle ai lessicografi. 

Per entrambi i corpora, l’attributo comm è stato compilato al fine di predisporre il recupero di 

casi dubbi attraverso il tool di browsing dei dati - ovvero ValTAS: es. recupera tutte le USC proposte 

ai lessicografi di IWN, ovvero con campo comm=”odv”. Il vantaggio è inteso sia dal punto di vista 

dell’annotazione (per eventuali estensioni e revisioni della Treebank) sia dal punto di vista della 

revisione e aggiornamento delle risorse lessicali (per eventuali estensioni e revisioni dei dizionari di 

riferimento). 

Si tenga però conto che tutte le segnalazioni fatte nel campo “Commento“ sono relative alla 

versione delle risorse lessicali messe a disposizione degli annotatori da parte del tema IWN. Non è 

quindi escluso che parte di tali segnalazioni siano divenute irrilevanti con una versione successiva 

della risorsa IWN poiché nel frattempo i lessicografi hanno modificato/integrato la risorsa lessicale 

nei termini suggeriti dagli annotatori. Va inoltre detto che le USC e i sensi nuovi proposti non 

devono necessariamente essere inseriti nel lessico. L’esigenza di marcare certe sequenze nel corpus 

(es. metafore, usi figurati, nomi propri, ecc.), per renderle poi facilmente reperibili, può avere una 

valenza strettamente limitata all’annotazione semantico-lessicale, molto utile per futuri trattamenti 

delle espressioni polilessicali. 

87


6.2.12 Tabella sinottica dei tratti per l’annotazione semantico-lessicale 

La tabella che segue riporta tutti gli attributi dell’annotazione semantico-lessicale, 

specificandone la tipologia di valori e la loro rilevanza nella descrizione dei diversi tipi di unità di 

senso (ovvero, USS, USC e UST). 

Tratti USS USC UST 

alter= { dim, accr, dispr, vezz, sup, compar, alter } 

comm= stringa di commento (si veda la tabella nella 

sezione 6.2.11.2) 

X 

X X X 

dbref= { IWN-Gen, Eco-WN } X X 

fig= { metaf, meton, fig } X X 

lem= { lemma } X X X 

nota= { sn_indist, sn_inc } X X 

np= { pers, grup, luogo, man, grup&luog, np } X X 

ns= { Sn, S1&S2, S1|S2, no_senso, no_lemma, no } X X 

pos= { parte del discorso } X X 

tipolemma= { dial, neol } X X 

tipot= { semiotico, spettacolo, tipot } 

X 

tipousc= { idioma, comp, vsup, np, tipousc } 

X 

6.3 Criteri di annotazione 

Nelle sezioni che seguono vengono forniti criteri guida per l’annotazione semantico-lessicale. 

Questi criteri sono stati testati ed integrati nella fase di verifica delle specifiche di annotazione e nel 

corso del processo di annotazione stesso. 

6.3.1 Alterati e aggettivi superlativi 

Con alterati ci riferiamo ai lemmi modificati semanticamente con l’aggiunta di suffissi cosiddetti 

‘valutativi’ o ‘alterativi’ (Scalise, 1995). Sulla base del loro significato, i suffissi si possono 

distinguere in: 

• diminutivo (-ino); 

• accrescitivo (-one); 

88


• dispregiativo (-accio); 

• vezzeggiativo (-uccio, -etto). 

I suffissi alterativi possono essere utilizzati in modo cumulativo (es. passettino). 

Data la rilevanza semantica dell’alterazione e il fatto che spesso non c’è un esatto equivalente in 

altre lingue (es. tavolone = big table) appare opportuno marcarla in modo particolare a questo 

livello di annotazione, distinguendo tra alterati lessicalizzati e alterati non lessicalizzati. I primi, che 

dovrebbero essere presenti nella risorsa lessicale di riferimento, ricevono il numero di senso 

corrispondente mentre i secondi sono ricondotti al lemma non alterato. In entrambi i casi gli alterati 

sono contrassegnati dall’attributo alter che indica la presenza del suffisso alterativo. Il tipo di 

alterazione può essere specificato attraverso i seguenti possibili valori: “dim”, “accr”, “disp”, 

“vezz”. 

Il caso della doppia alterazione, si marca con l’assegnazione di due valori successivi per ordine 

di occorrenza (es. passettino -> alter=vezz,dim). 

La distinzione tra alterato lessicalizzato e non lessicalizzato può essere fatta sulla base della sua 

presenza o meno in IWN-Gen/EcoWN o in altri dizionari dell’italiano assunti come punto di 

riferimento. 

Diamo qui di seguito alcuni esempi tratti dal corpus della Treebank di SI-TAL: 

Tipi di alterazione non-lessicalizzato lessicalizzato 

(Dizionario di riferimento: 

Garzanti 1994) 

dim 

accr 

disp 

vezz 

appartamentino 

bacino 

paesino 

Concertone 

filmetto 

gruppetto 

lavoretto 

pupazzetto 

vizietto 

dittatorello 

cappellino 

finestrino 

palloncino 

colpaccio 

pozzetto 

Per quanto riguarda gli aggettivi, a livello semantico-lessicale appare opportuno segnalare la 

presenza del suffisso per la formazione del superlativo (es. important-issimo), sia per le modifiche 

che apporta al senso del lemma sia perché talvolta non esiste un equivalente in altre lingue (es. 

importantissimo = very important). Pertanto gli aggettivi sono ricondotti al lemma di base in IWN 

(es. importante) e ricevono la specificazione del tratto alter al quale viene assegnato il valore “sup”. 

Il valore “compar” è invece assegnato come valore di alter nel caso degli aggettivi comparativi. 

6.3.2 Nomi Propri 

L’annotazione dei nomi propri consiste nella specificazione dei seguenti tratti: dbref, lem, ns e 

np. Il numero di senso (ns) viene specificato solo nel caso in cui il nome proprio figuri nel lessico 

89


generico o specialistico della risorsa lessicale di riferimento; negli altri casi il nome proprio non 

riceve alcuna specificazione relativa al numero di senso (ovvero a ns viene assegnato il valore 

“no”). 

Ai nomi propri viene sempre assegnato un tratto specifico (np) che ne descrive il tipo semantico 

corrispondente. Le seguenti classi semantiche sono previste come possibili valori dell’attributo np : 

- pers: per nomi propri di persone (es. Giulio_Andreotti); 

- grup: per nomi propri di gruppo di persone (es. Telecom, Montedison); 

- luogo: per nomi propri di località (es. Milano); 

- man: per nomi propri di prodotti e manufatti in genere (es. Macintosh, Windows); 

- grup&luog: per i nomi propri geografici (es. Francia) nei casi in cui non sono semplicemente 

intesi come luogo ma anche come gruppo-organizzazione (es. adoro la Francia, il sovrano 

d’Inghilterra); 

- np: per tutti gli altri casi. 

Da notare che all’attributo np possono essere assegnati più valori (disgiunti/congiunti) per i casi 

in cui non sia possibile operare una scelta. Tale tratto consente un facile recupero dal corpus 

annotato dei nomi propri per classi di referenti e ne rende uniforme il trattamento a livello di 

annotazione semantico-lessicale indipendentemente dalla loro presenza o meno nella risorsa 

lessicale di riferimento. 

Casi particolari: 

- i nomi propri che si riferiscono a regioni, nazioni, paesi, città in generale sono descritti come 

luoghi (np=luog); 

- i nomi propri indicanti montagne, fiumi, laghi ricevono una decrizione più generica (np=np) 

giacché non indicano necessariamente un luogo (es. il Lago di Garda è il lago più grande 

d’Ítalia); 

- nei casi del tipo «re/ sovrano di ‘nome proprio geografico’» (es.: regina d’Inghilterra) a 

quest’ultimo è assegnato il valore “grup&luog” perché ragionevolmente indica il paese/nazione 

sia in senso di luogo che di organizzazione; 

- nei casi invece del tipo «via / piazza / palazzo + nome proprio» (es. via XXV aprile) si adotta 

il seguente metodo: ‘via’ e ‘piazza’ sono annotati separatamente e il nome proprio che segue è 

descritto in modo generico (come np=np). Per quanto riguarda palazzo, si distinguono i casi in 

cui fa parte del nome proprio (es.: Palazzo di Giustizia, Palazzo Pitti, Palazzo Madama) da 

quelli in cui può essere annotato separatamente (es. il palazzo del Quirinale) 

6.3.3 Parole Straniere 

Le parole straniere sono distinte in tre classi: 

1. quelle che sono entrate nell’uso corrente della lingua italiana (es. leader, import, export); 

90


2. quelle che non sono entrate nell’uso corrente ma hanno una applicazione e diffusione in 

ambito tecnico-specialistico (es. rating, tax, trend); 

3. quelle che non sono usate correntemente nella lingua italiana. Esempi dal corpus della 

Treebank di SI-TAL: 

• imboccare nell’ 85 la via della «politique d’abord» ma quella di un’ integrazione.. 

• degli ortolani) occorre fare dell’ «économie d’abord», abolire i controlli doganali.., 

• una maggioranza capace di decidere cosa vada modificato d’abord nella «storia 

materiale»… 

Le parole appartenenti alla prima classe hanno maggiore probabilità di essere attestate nella 

risorsa lessicale di riferimento e dunque è possibile fare riferimento al numero di senso loro 

assegnato; in caso contrario, viene segnalata l’assenza del lemma. 

La seconda classe fa riferimento a partizioni specialistiche del lessico (ovvero relative a un dato 

dominio semantico); come nel caso precedente, se attestate nel lessico l’annotazione fa riferimento 

al numero di senso della partizione specialistica di IWN (ovvero EcoWN); in caso contrario, viene 

segnalata la loro assenza ai lessicografi della partizione specialistica per valutarne l’eventuale 

integrazione nel lessico. Per maggiori dettagli sull’annotazione della terminologia specialistica si 

rinvia alla sezione sulla terminologia (sezione 6.3.7). 

Il terzo tipo di parola straniera non è attestata nella risorsa lessicale di riferimento e rimane 

genericamente etichettata come parola straniera, e non riceve dunque l’assegnazione di alcun 

numero di senso. 

Anche se l’informazione relativa a ‘parola straniera’ è già inclusa nell’annotazione morfosintattica 

usata come input all’annotazione semantico-lessicale, a questo livello di annotazione tutte 

le parole straniere ricevono una marca specifica per facilitarne il recupero ai fini dell’annotazione 

(nel campo comm vengono specificati i valori PSTR/ p. str, si veda la tabella nella sezione 

6.2.11.2). 

6.3.4 Criteri di identificazione e di annotazione delle USC 

La categoria delle unità semanticamente complesse include espressioni polilessicali, ovvero 

espressioni idiomatiche più o meno composizionali, i composti (di cui parte sono di ambito tecnico 

specialistico) e le espressioni con verbo supporto. 

Dato che nella Treebank di SI-TAL l’annotazione semantico-lessicale è circoscritta alle classi 

dei sostantivi, dei verbi e degli aggettivi, di seguito vengono forniti criteri di identificazione e 

annotazione di USC la cui testa appartiene alle stesse categorie morfo-sintattiche. Quindi sono 

escluse dal processo di annotazione locuzioni preposizionali del tipo per conto di oppure locuzioni 

avverbiali del tipo in fretta e furia, che non vengono annotate né al livello dei singoli componenti né 

dell’intera sequenza. 

In quanto segue, dopo aver elencato le motivazioni che giustificano l’annotazione delle USC, 

forniremo criteri per la loro identificazione nel testo e conseguenti modalità di annotazione. 

6.3.4.1 Perché l’annotazione delle USC 

Elenchiamo qui di seguito alcune delle ragioni che giustificano l’annotazione delle USC. 

91


La loro parziale o totale non composizionalità semantica fa sì che: 

1. il significato dell’intera sequenza può non essere ricavabile a partire dal significato dei singoli 

componenti lessicali: es. entrare (move) in possesso (stative possession) ≠ entrare in possesso 

(change possession); 

2. le restrizioni di selezione dell’intera sequenza possono essere molto specifiche: es. tagliare i 

ponti / il cordone ombelicale richiede un obliquo introdotto da con di tipo ‘umano / istituzione / 

gruppo umano’; 

3. i sinonimi (che compariranno nel corrispondente “synset” di IWN) possono essere molto 

specifici, diversi da quelli dei singoli componenti: tagliare la corda / scappare / fuggire; 

Dal punto di vista dell’utilizzo futuro del corpus annotato, si osserva che: 

1. nella prospettiva di uso del corpus nell’ambito di operazioni di recupero di informazione (IR), 

l’annotazione delle unità semanticamente complesse può rendere più corrette e significative le 

informazioni estratte: es. una ricerca che ha come oggetto il recupero di documenti riguardanti 

l’arredamento, deve poter escludere contesti del tipo organizzare una tavola rotonda in quanto 

non rilevanti rispetto all’interrogazione; 

2. nella prospettiva di uso del corpus nell’ambito della traduzione automatica (MT) può essere 

utile l’identificazione di unità semanticamente complesse che hanno in molti casi equivalenti in 

altre lingue ma, talvolta, con variazioni sia strutturali sia lessicali (es. toccare ferro = toucher 

du bois); 

3. nella prospettiva di creazione o estensione di lessici computazionali può essere utile consentire 

l’identificazione di queste espressioni e lo studio del grado di variabilità e morfologica e 

sintattica che le caratterizzano (es. possibilità di inserire modificatori, ecc.). 

Infine dal punto di vista pratico, si nota che: 

1. talvolta appare più difficile annotare le singole unità lessicali che l’intera sequenza (es ferro da 

stiro/ calce viva/ a chiare lettere/ romanzo giallo). L’annotazione delle singole componenti di 

una espressione polilessicale richiederebbe una interpretazione del senso dei singoli componenti 

e del legame che intercorre tra loro che spesso appare totalmente arbitraria. Si pensi inoltre 

all’annotazione delle espressioni con verbo supporto, dove il contributo semantico del verbo 

supporto è, in realtà, limitato (“leggero”): es. fare paura. 

6.3.4.2 Problemi nell’identificazione ed interpretazione delle USC 

L’identificazione e interpretazione delle USC può risultare difficile a causa dell’assenza di criteri 

di identificazione certi e univoci. I criteri forniti dalla letteratura che mirano a verificare il grado di 

fissità sintattica e semantica di queste espressioni non sempre sono applicabili. Anche le espressioni 

idiomatiche che non sembrano decisamente soggette a variazioni talvolta sono attestate nel corpus 

in diverse varianti (“it has more recently been pointed out that idioms in use are prone to massive 

variation”, Sinclair, 1996): es. tagliare le ultime ali a un paese. 

Il riconoscimento e l’interpretazione delle USC rimane un punto problematico almeno in alcuni 

casi e per molti aspetti soggettivo. Per questa ragione, appare opportuno ridurre il margine di 

soggettività nelle scelte dell’annotatore e giungere a decisioni sicure e non controverse. 

92


6.3.4.2.1 Identificazione degli elementi costitutivi delle USC 

Da un punto di vista pratico, cioè della loro annotazione a livello semantico-lessicale, le USC 

pongono soprattutto due problemi: 

1. quali elementi devono essere considerati parte dell’espressione semanticamente complessa? 

In altri termini, dove incomincia e finisce l’espressione? Per esempio, essere la chiave di 

volta o chiave di volta o chiave volta o essere chiave volta ecc. 

2. come gestire i casi di discontinuità delle USC? 

Esaminiamo in dettaglio i due punti. 

1. le USC sono caratterizzate da una certa “fissità” lessicale, nel senso che i lemmi che le 

compongono sono fissi o quantomeno commutabili con pochi altri (si pensi ad esempio alle 

espressioni con verbo supporto). Per questa ragione appare opportuno considerare parte 

dell’espressione tutti gli elementi invariabili o limitatamente variabili, incluse le parole 

grammaticali che tuttavia sono fondamentali per la comprensione dell’espressione. Inoltre 

l’esclusione del verbo rende talvolta non significativa l’intera sequenza (es. la chiave di 

volta); 

2. per espressione discontinua si intende il caso in cui i suoi singoli componenti non sono 

adiacenti. Le espressioni che sono soggette a discontinuità o inversione sono essenzialmente 

quelle che includono il verbo. Si possono avere i seguenti casi di discontinuità illustrati con 

esempi tratti dal corpus di SI-TAL: 

1. inserimento di un modificatore dell’intera frase: 

tenere il più possibile sulla corda qualcuno 

2. inserimento di un pronome e comunque di un elemento sottocategorizzato 

dall’espressione stessa: 

mettere tutto per iscritto 

metterne a punto 

3. inserimento di un modificatore di un componente dell’espressione semanticamente 

complessa: 

fare qualche minuto di esercizi 

fare ben pochi passi avanti 

avere maggiore peso 

mettere i loro puntini sulla i 

tenere in maggiore considerazione 

4. inversione e discontinuità: 

Traguardi ambiziosi, insomma, che la Consulta delle professioni non regolamentate, 

insediatasi ieri a Villa Lubin, è comunque convinta di riuscire a tagliare 

Nei casi 1. e 2. l’elemento inserito (modificatore della frase o pronome) è esterno all’espressione 

semanticamente complessa. Es.: 

93


mettere tutto per iscritto 

dove le parole evidenziate in grassetto sono da considerarsi gli elementi costituenti la USC in 

corso di definizione: in questo caso, USC = mettere per iscritto. Il lemma ad esso associato sarà la 

forma standard di riferimento selezionata, ad esempio mettere_per_iscritto. 

Nel caso 3., eventuali modificatori dei componenti dell’espressione (che dovrebbero essere tanto 

più rari quanto più l’espressione è semanticamente non composizionale) sono considerati parte 

dell’espressione stessa come esemplificato di seguito: 

Eppure i vari gruppi si sono affrettati a mettere i loro “puntini sulle i” del documento… 

dove le parole mettere i loro puntini sulle i sono da considerarsi come facenti parte della USC. In 

ogni caso, il lemma attribuito a questa occorrenza non includerà gli eventuali modificatori, ma farà 

riferimento alla forma che è stata selezionata come standard (per esempio, nel caso precedente 

mettere_i_puntini_sulle_i); in questo modo si creano i presupposti per il recupero di tutte le varianti 

di una stessa USC attestate nel corpus annotato (ad esempio con e senza modificatori). 

Nel quarto caso, quello dell’inversione, i costituenti della USC sono marcati nel testo come segue: 

Traguardi ambiziosi, insomma, che la Consulta delle professioni non regolamentate, insediatasi 

ieri a Villa Lubin, è comunque convinta di riuscire a tagliare 

Al livello del lemma, invece, l’ordine standard della sequenza è ricostruito; quindi nel caso 

precedente il lemma sarà presumibilmente tagliare_traguardo. 

Si noti che il lemma dell’espressione può contenere eventuali preposizioni, articoli ecc. che 

fanno parte dell’espressione stessa (es. essere la chiave di volta). 

6.3.4.3 Espressioni idiomatiche e composti 

Con ‘espressione idiomatica’ intendiamo tutte le espressioni polilessicali (Casadei, 1996:13) che 

da un punto di vista sintattico e soprattutto lessicale sono caratterizzate da una certa fissità, 

contrariamente alla frase libera in cui ogni posizione è commutabile con qualunque elemento che 

abbia le caratteristiche categoriali e semantiche (restrizioni di selezione) richieste. 

Il loro significato non è composizionale (es. tagliare la testa al toro) o lo è solo parzialmente (es. 

mettere a ferro e fuoco, mettere piede) e comunque si è fissato, cristallizzato nel tempo. 

La fissità lessicale (o limitata variabilità) e la parziale o totale non composizionalità semantica 

sono una caratteristica anche dei composti. 

Diamo qui di seguito alcuni esempi tratti dal corpus di SI-TAL che illustrano la tipologia di 

espressioni che ci troveremo ad annotare e sono esemplificative dei livelli diversi di 

composizionalità semantica: 

Espressioni Idiomatiche 

essere la chiave di volta 

mettere troppa carne al fuoco 

mettere a ferro e fuoco 

soffiare sul fuoco 

gettare benzina sul fuoco 

Composti 

agente segreto 

agente di frontiera 

braccio di ferro 

conflitto a fuoco 

arma da fuoco 

94


Espressioni Idiomatiche 

mettere via 

andare in gol 

lasciare andare 

avere le carte in regola 

fare da pendant 

fare da cuscinetto 

fare da contrappeso 

avere un bel da fare 

darsi da fare 

fare a meno di (qualcosa) 

fare il gioco di (qualcuno) 

tagliare il respiro (mozzare il fiato) 

tenere buono (qualcuno) 

tenere d’occhio (qualcuno) 

mettere piede 

mettere in pericolo 

andare in onda 

andare d’accordo 

essere nel giusto 

essere al di sopra di ogni sospetto 

essere sopra le parti 

Composti 

lingua di fuoco 

vigile del fuoco 

6.3.4.3.1 Criteri di identificazione delle espressioni idiomatiche e dei composti 

In questa sezione forniamo una batteria di test per l’identificazione delle espressioni idiomatiche 

e dei composti. Va tuttavia premesso che non sempre tali test sono affidabili e applicabili poiché la 

struttura interna e il grado di non composizionalità semantica delle espressioni semanticamente 

complesse è molto variabile. 

Va inoltre ricordato che talvolta i criteri che possono guidare il riconoscimento di una USC 

possono essere di natura più generale e non semplicemente dei test di tipo sintattico/semantico 

(specialmente per quanto riguarda il corpus specialistico). Per esempio, la frequenza accertata di 

una certa sequenza (es. stato membro) o l’esistenza e l’utilizzo contemporaneo di un acronimo e di 

una forma sciolta per lo stesso referente (es. consiglio di amministrazione / CDA) possono indurre 

all’identificazione di USC. 

I test elencati qui di seguito, che sono stati ricavati dalla letteratura corrente (Danlos, 1981, 1988, 

Ten Hacken 1991, Gross, 1985, 1986, 1988) e adattati all’italiano, sono distinti in due gruppi: 1) 

quelli per sequenze senza verbo (trattati nella sezione 6.3.4.3.1.1) e 2) quelli per sequenze con verbo 

(trattati nella sezione 6.3.4.3.1.2). 

6.3.4.3.1.1 Sequenze senza verbo 

La struttura sintattica interna dei composti può essere molto varia: sostantivo-preposizionesostantivo 

(S E S), sostantivo-sostantivo (S S), aggettivo-sostantivo (A S), ecc. I test variano a 

seconda della struttura interna, come esemplificato in quanto segue. 

• Costruzione Predicativa: la costruzione predicativa è possibile solo con sequenze ordinarie di 

sostantivo-aggettivo (S A) ma non con composti che hanno questa struttura. Es.: 

95


tavola rotonda (=conferenza, incontro) > *la tavola è rotonda 

• Nominalizzazione: la nominalizzazione non è possibile con i composti aventi la struttura S A. 

Es.: 

*la rotondità della tavola 

• Modificazione: la modificazione tramite l’inserimento di avverbi e le costruzioni superlative e 

comparative non sono possibili con i composti. Es.: 

ferro da stiro > *un ferro nuovo da stiro 

tavola rotonda (=conferenza, incontro) > *la tavola più rotonda, 

*una tavola perfettamente rotonda 

• Coordinazione: l’aggettivo che fa parte di una parola composta non può essere coordinato con 

altri aggettivi anche se ciò è possibile con sequenze ordinarie. Es.: 

* la tavola rotonda e larga 

• Omissione: l’aggettivo di un nome composto è obbligatorio (pertanto non può essere né 

sostituito né omesso) e talvolta può essere usato da solo. Es.: 

*tavola circolare 

cronaca rosa/ nera/ *gialla 

*ho organizzato una tavola (rotonda) 

ho letto un (romanzo) giallo 

A questo primo insieme di test si affiancano dei criteri più deboli, riportati di seguito: 

• Flessione: va ricordato che l’esistenza di un composto ci può essere segnalata da irregolarità 

morfo-sintattiche (per esempio, a livello della flessione). Infatti, mentre alcuni composti 

presentano regolarmente sia la forma singolare sia quella plurale (es. tavole rotonde) altri hanno 

solo una forma al plurale (effetti speciali) o al singolare (la mano nera). 

• Restrizioni di co-occorrenza lessicale: alcuni composti sono caratterizzati da una certa 

variabilità lessicale che tuttavia rimane sempre limitata. Infatti solo un aggettivo o un ristretto 

numero e tipo di aggettivi si combina con un nome per formare un composto (es. alta/bassa 

marea). 

6.3.4.3.1.2 Sequenze con il verbo 

• Inserzione: non è ammesso l’inserimento di modificatori dei singoli componenti lessicali di una 

espressione idiomatica, mentre è normalmente consentito l’inserimento di modificatori 

dell’intera sequenza. Es.: 

*tagliare la lunga corda 

tagliare velocemente la corda 

• Estrazione: l’estrazione di un componente lessicale di una espressione idiomatica per mezzo di 

particolari strutture sintattiche non è solitamente possibile. Es.: 

- costruzione passiva: *la corda è stata tagliata da Leo 

96


- “clefting”: *è la corda che è stata tagliata da Leo 

- topicalizzazione: *LA CORDA è stata tagliata da Leo 

- costruzione relativa: *la corda che è stata tagliata da Leo 

• Pronominalizzazione: la sostituzione di uno o più elementi di una espressione idiomatica con 

un pronome non è solitamente consentita. Es.: 

ha tagliato la corda dal carcere > *l’ha tagliata dal carcere 

• Modificazione: i componenti lessicali di una espressione idiomatica non possono essere 

solitamente flessi o sostituiti. Es.: 

*tagliare le corde/la fune 

Le espressioni idiomatiche e i composti sono annotate come USC la cui descrizione include 

obbligatoriamente i tratti lem e tipousc: quest’ultimo permette di distinguere tra espressioni 

idiomatiche (contrassegnate dal valore “idioma”) e composti (marcati dal valore “comp”). Nel caso 

in cui l’espressione idiomatica o il composto siano inclusi nella risorsa lessicale di riferimento, 

l’annotazione include anche la specificazione dei tratti dbref e ns. 

6.3.4.4 Espressioni con verbo supporto 

Nella Treebank di SI-TAL le espressioni con verbo supporto (da qui in poi VSUP) sono annotate 

in termini di USC. Una USC di tipo VSUP è caratterizzata dalle seguenti proprietà: 

• l’apporto semantico del verbo cosiddetto supporto al significato dell’espressione è ridotto, 

controbilanciato dal ruolo fondamentale giocato dal nome o sequenza che lo segue: es. dare 

aiuto (aiutare), fare paragoni (paragonare) fare affermazioni (affermare) ecc.; (Da notare che 

una sequenza come mettere piede è da considerarsi una espressione idiomatica vera e propria 

perchè piede non conferisce un significato particolare a mettere); 

• il verbo serve soprattutto per convogliare i tratti grammaticali del tipo: tempo, aspetto, modo, 

persona ecc.; 

• uno stesso nome si può combinare con più VSUP (un numero comunque ristretto e fisso) che 

fungono da varianti aspettuali (es. essere/mettersi in viaggio); 

• i verbi che in alcune costruzioni possono avere la funzione di ‘supporto’ a livello semantico 

sono un numero ristretto, essere, avere, fare e pochi altri che spesso sono varianti aspettuali dei 

primi (es. dare, prendere, venire, mettere, entrare, ecc.). 

Le strutture con VSUP sono notoriamente molto varie. Alcuni (vedi Renzi, 1995) annoverano tra 

le espressioni con VSUP anche frasi del tipo Leo è un venditore che indica una condizione 

permanente rispetto al verbo (Leo vende). Tuttavia in questa sede appare opportuno restringere la 

nozione di espressione con VSUP a quelle sequenze che presentano una certa fissità sintattica e una 

limitata variabilità lessicale. Nella Treebank di SI-TAL verranno annotate come strutture con VSUP 

i seguenti casi: 

97


1. strutture con VSUP che sono una variante della forma verbale 1 : 

essere in viaggio > viaggiare 

essere alla ricerca > ricercare 

essere in contraddizione > contraddire 

fare paura > impaurire 

mettere paura > impaurire 

dare una lavata > lavare 

avere in odio > odiare 

2. strutture con VSUP che sono una variante della forma aggettivale: 

essere nell’incertezza > incerto 

essere di notevole coraggio > coraggioso 

essere in agitazione > agitato 

essere in dubbio > dubbioso 

Questi due tipi di espressioni con VSUP presentano le seguenti caratteristiche: 

• le varianti della forma verbale si presentano come: 

VSUP + S 

VSUP + E (in, di, da, ecc.) + S 

dove il nome (S) è tipicamente astratto (es. odio) e/o deverbale (es. viaggio) 

• le varianti della forma aggettivale si presentano come: 

VSUP + E (in, di, ecc.) + S 

dove il nome (S) è di tipo astratto e collegato ad un aggettivo (es. coraggio). 

• entrambe le espressioni con VSUP possono avere una loro specifica sottocategorizzazione e 

specifiche restrizioni di selezione. Ciò costituisce sia una ulteriore motivazione in favore della 

loro annotazione a livello semantico-lessicale che un criterio per annotare almeno i casi più 

interessanti da un punto di vista linguistico. Es.: 

essere in viaggio per la Mecca/ *viaggiare per la Mecca 

essere in contraddizione con i fatti/ *contraddire con i fatti 

fare affidamento su qualcuno/ *affidarsi su qualcuno 

Dal punto di vista delle applicazioni del corpus annotato, appare utile differenziare queste 

espressioni dalle altre per consentirne l’eventuale recupero. Va ricordato che al pari degli altri tipi di 

espressioni idiomatiche, quelle a con VSUP non hanno sempre un esatto equivalente in altre lingue 

come appare dai seguenti esempi presi da Ruimy e Corazzari (1991): 

1 In IWN, queste espressioni con VSUP saranno incluse nel synset del verbo di cui esse costituiscono una variante. 

98


essere di poche parole= etre peu causant 

essere nei guai=avoir des ennuis 

essere di garanzia=servir de garantie 

essere in aumento=augmenter 

Diamo qui di seguito alcuni esempi estratti dal corpus della Treebank di SI-TAL: 

VSUP S E + S 

fare 

fuoco; affermazioni; 

paragoni; complimenti; 

esempi; il confronto; la 

guardia; progressi; 

affidamento; concessioni; 

prognostici; previsioni; 

programmi; verifica; 

pulizia; esempi; pipì; 

esercizi; cura; guerra 

mettere paura in scena; in discussione; in 

posa 

dare 

fuoco 

essere 

a conoscenza; in possesso 

Le espressioni con VSUP sono trattate al pari delle espressioni idiomatiche come un’unica unità 

di senso. Per consentire l’eventuale recupero automatico di queste espressioni appare sufficiente 

assegnare all’elemento USC il tratto tipousc al quale viene assegnato il valore “vsup” (tipo di 

USC=con verbo supporto). 

L’annotazione delle espressioni con VSUP avviene mediante l’identificazione di un elemento di 

tipo USC descritto dai seguenti tratti: lem e tipousc (al quale viene assegnato il valore “vsup”). Nel 

caso in cui l’espressione sia inclusa nella risorsa lessicale di riferimento, l’annotazione include 

anche la specificazione dei tratti dbref e ns. 

6.3.5 Criteri di annotazione delle UST 

L’annotazione dei titoli in generale (di spettacoli, giornali, libri ecc.) è necessaria a livello 

semantico-lessicale perché essi sono espressioni che hanno un comportamento particolare rispetto al 

contesto in cui figurano. I titoli si comportano come (micro)testi indipendenti all’interno di un altro 

testo. La loro annotazione è auspicabile almeno per le seguenti ragioni: 

- in vista del recupero di informazioni da testi, l’annotazione dei titoli rende più attendibili le 

informazioni estratte; ad esempio, in una indagine su fiori e piante, non verrebbe estratto il 

contesto pubblicare ‘I fiori del male’; 

- in vista di un eventuale uso del corpus annotato in traduzione automatica, appare evidente che i 

titoli devono essere differenziati sia perchè talvolta essi non sono tradotti con un esatto 

99


equivalente sia perchè talvolta essi sono lasciati invariati, cioè come appaiono nella lingua 

sorgente. 

Va, infine, sottolineato che in un corpus giornalistico, i titoli occorrono molto frequentemente. 

L’elemento UST (unità semantica di tipo titolo) serve per marcare i titoli. Esso può riferirsi ad 

una singola parola o a più parole adiacenti. I titoli, quando sono composti da più parole, 

condividono alcune caratteristiche delle USC perché si comportano sintatticamente e 

semanticamente come una unica unità. 

Tuttavia al contrario delle USC, trattate in precedenza, le UST sono sempre composizionali (anche 

se possono includere a loro volta delle USC), cioè i singoli componenti mantengono il loro 

significato proprio, e sono sempre continue. Ciò implica che ricevono una doppia annotazione: una 

a livello dei singoli componenti e un’altra a livello dell’intera unità UST. 

L’attributo tipot consente di distinguere i nomi di spettacoli/film (il valore è “spettacolo”) da 

quelli di testi scritti, giornali, libri ecc. (il valore è “semiotico”). Tale distinzione è giustificata dalle 

seguenti ragioni: 

- titoli diversi co-occorrono con lemmi semanticamente diversi (es. leggere/pubblicare/scrivere 

un tipot=semiotico // guardare, registrare un tipot=spettacolo); 

- da un punto di vista dei tipi/concetti semantici, ci può essere una differenziazione dei due tipi di 

referenti del titolo (es. “artefatto semiotico / informazione” // “opera d’arte”); 

- in precedenti esperienze di annotazione del corpus i titoli di testi scritti o spettacoli sono risultati 

i più frequenti (si veda Corazzari et al., 1999). 

Il valore “indef”, invece, consente all’annotatore che non deve/può avere necessariamente una 

conoscenza enciclopedica di lasciare sottospecificato questo attributo. 

L’elemento UST è descritto dagli attributi: lem; ns (il valore assegnato al numero di senso della 

UST è ovviamente ‘no’ poiché essi non sono fanno parte della risorsa lessicale di riferimento); tipot. 

6.3.6 Gli Usi Figurati 

Per usi figurati si intendono gli usi metaforici, metonimici ecc., a livello sia di USS sia di USC. In 

quanto segue diamo criteri per l’individuazione e l’annotazione di usi figurati. 

6.3.6.1 La Metafora 

La metafora come fatto linguistico è interpretata nella letteratura principalmente in tre modi 

diversi. La metafora è: 

- una anomalia: cioè una violazione delle restrizioni di selezione (vedi Casadei 1996, Fass, 1991) 

- una comparazione: “la metafora è il trasferimento a un termine (detto “topic”, ad esempio 

Mario) di un nome appartenente a un altro (detto “vehicle”, ad esempio leone) in base a un 

elemento di somiglianza tra i due (detto “ground”, cioè il coraggio)” (Casadei 1996; si veda 

anche Fass, 1991) 

100


- una interazione: si pensa che “la metafora proietti sul “topic” non una singola proprietà ma un 

insieme di implicazioni convenzionalmente associate al “vehicle” (conoscenze, credenze, luoghi 

comuni sul “vehicle”), i cui contenuti sono selezionati anche dallo specifico “topic” “ (Casadei 

1996; si veda anche Fass, 1991). 

Da un punto di vista operativo, appare fondamentale la distinzione tra metafora lessicalizzata e 

non lessicalizzata. Tale distinzione può essere operata sia rispetto alla risorsa lessicale di 

riferimento sia ad altri dizionari della lingua italiana. 

Le metafore lessicalizzate ricevono il numero del senso corrispondente in IWN e il tratto 

fig=metaf che le identifica come metafore (es. la chiave del problema, tavolo delle trattative, 

volano battute). 

Le metafore non lessicalizzate ricevono un numero di senso che rinvia al loro significato letterale 

ed il tratto fig=metaf per marcare l’uso metaforico (es. Zepe sotto il fuoco di Mladic). 

Da un punto di vista applicativo, le prime non danno luogo a violazione delle restrizioni di 

selezione perché sono integrate nel lessico e in termini di tipi/concetti semantici sono descritte in 

modo appropriato (es. non capisco la molla (tipo/concetto semantico=causa e non artefatto) di 

una tale violenza) mentre le seconde sì. Tuttavia la presenza del tratto fig=metaf consente di 

sottolineare l’uso particolare del lemma. 

Va da sé che può rivelarsi necessario integrare il lessico di riferimento con usi metaforici che 

ricorrono frequentemente, ad esempio, nei testi giornalistici anche se non sono forse ancora attestati 

nei dizionari correnti (es. verdi per indicare gli ecologisti). 

6.3.6.2 La Metonimia 

La metonimia implica l’uso di una entità per riferirsi ad un’altra ad essa collegata (Fass,1991). 

Numerosi tentativi sono stati fatti di individuare e classificare tipi diversi di metonimie. I tipi più 

frequenti sembrano essere quelli che indicano: 

- la parte per il tutto (l’insieme); 

- il contenitore per il contenuto; 

- il produttore per il prodotto; 

- l’oggetto usato per chi lo usa; 

- la causa per il risultato; 

- ecc. 

La metonimia, al pari della metafora, è caratterizzata da una violazione delle restrizioni di 

selezione ma si differenzia da essa per le seguenti ragioni (Fass, 1991) 2 : 

2 La distinzione tra metafora e metonimia è un punto controverso. Per molti l’una equivale all’altra e viceversa 

(Fass, 1991). 

101


1. la metonimia è una relazione di contiguità (l’essere connesso a qualcosa) mentre la metafora è 

una relazione di similitudine (l’essere come…); 

2. “la metafora è principalmente una maniera di concepire una cosa in termini di un’altra e la sua 

funzione principale è la comprensione, mentre la metonimia ha principalmente una funzione 

referenziale, cioè, permette di usare una entità al posto di un’altra, pertanto essa ha un ruolo di 

comprensione perché si focalizza su certi aspetti di ciò a cui ci si riferisce” (traduzione da Fass, 

1991). 

Analogamente al caso della metafora, le metonimie lessicalizzate vengono annotate mediante 

l’assegnazione del numero di senso nella risorsa lessicale di riferimento e l’assegnazione del valore 

“meton” al tratto fig. Le metonimie non lessicalizzate (es. scende la pace sulle rotaie) ricevono 

un’assegnazione di senso che rinvia al loro significato letterale, mentre – di nuovo - al tratto fig 

viene assegnato il valore “meton”. 

6.3.7 Terminologia 

Per “terminologia” s’intende “il complesso dei termini, delle locuzioni, del frasario proprio di 

una scienza, di un’arte o di un particolare settore tecnico o ambito sociale” (Palazzi-Folena, 

Dizionario della lingua italiana, 1995). Nel caso specifico del dominio finanziario, proprio della 

parte specializzata del corpus di SI-TAL, la terminologia si riconduce in buona parte a: 

• termini stranieri 

Nell’ambito di corpora a carattere finanziario si riscontra un uso piuttosto esteso di termini 

stranieri, principalmente inglesi. Si assume infatti che per molte azioni ed eventi del mondo 

economico valga un gergo internazionale poiché l’economia è intesa in senso mondiale e la 

lingua inglese rappresenta la lingua comune d’interscambio. Nell’insieme di termini stranieri 

presenti nel corpus si distinguono quelli ormai divenuti d’uso comune (es. leader, import, 

export, ...), che come tali sono riportati sui dizionari della lingua italiana, e quelli, usati 

magari con una certa frequenza, ma più specifici del dominio (es. rating, tax, trend,...) che 

non sono stati ancora inseriti nei dizionari. 

• espressioni polilessicali 

Si tratta di espressioni tipicamente composte da 2-3 parole per indicare oggetti, fatti, eventi del 

mondo finanziario (es. consiglio di revisione, quota azionaria, prestito obbligazionario, ...). 

• sigle o acronimi 

Sigle e acronimi ricorrono con una certa frequenza all’interno del corpus. L’uso di questi avviene 

principalmente in sostituzione delle espressioni complesse citate sopra (es. cda in luogo di 

consiglio di amministrazione). Le ragioni di tale uso sono da ricercarsi in primo luogo nella 

comodità di una forma abbreviata che evita la pesantezza dell’intera espressione complessa. 

In secondo luogo, tale uso è dettato dall’adozione di un gergo che si suppone essere noto (es. 

opa, pil, bot), almeno a chi opera in quel campo. 

Per l’annotazione di sigle e acronimi si deve far riferimento al numero di senso associato 

all’espressione polilessicale ad essi corrispondente nella risorsa lessicale di riferimento. La 

presenza di svariate forme ad indicare la stessa espressione complessa, suggerisce di associare 

ad ogni acronimo l’informazione relativa al nome per esteso. In questo modo, 

102


indipendentemente dal fatto che esso sia formato a partire dalle sole prime lettere iniziali (es. 

pil per prodotto interno lordo) o includa o meno le preposizioni o gli articoli (es. cdr per 

consiglio di revisione) oppure ancora sia formato di lettere maiuscole e minuscole (es. BoT 

per Buoni ordinari del Tesoro) o di sole lettere minuscole (es. cda per Consiglio di 

Amministrazione) o di sole lettere maiuscole (es. AME per Accordo Monetario Europeo) 

oppure ancora includa o meno il segno di punto (es. spa ma anche s.p.a o S.p.A.), si può 

facilmente risalire alla forma base sciolta a cui l’acronimo si riferisce. Ad esempio, leggendo 

cdd o c.d.d o c.d.d. (o tutte le svariate forme con punti o lettere maiuscole/minuscole) si può 

risalire a consiglio dei delegati. 

Il riferimento esplicito all’espressione sciolta aiuta anche nei casi di ambiguità risolvibili solo 

attraverso il contesto (es. c.d è usato per indicare sia consigliere delegato sia comitato 

direttivo). 

Si noti comunque che il numero di senso viene specificato solo nel caso in cui la sigla o 

l’acronimo figurano nella risorsa lessicale di riferimento (la sigla o l’acronimo in corso di 

annotazione faranno parte dello stesso synset dell’espressione polilessicale corrispondente); in 

caso contrario viene assegnato il valore ‘no’ al tratto ns. 

Nel caso invece di USC di tipo terminologico non esistono criteri di individuazione specifici e 

pertanto si rimanda alla sezione 6.3.4.3.1 relativa ai “Criteri di identificazione delle espressioni 

idiomatiche e composti”. 

6.3.8 Casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso 

attestato 

In fase di assegnazione del un numero di senso ad una data occorrenza del corpus si possono 

verificare i seguenti casi problematici: 

• assenza del lemma nella risorsa lessicale di riferimento; 

• assenza del senso rilevante di un lemma già presente nella risorsa lessicale di riferimento; 

• corrispondenza con più sensi dello stesso lemma. 

Le modalità di annotazione di questi casi nell’ambito del progetto sono dettagliate di seguito. 

6.3.8.1 Assenza del lemma 

Si possono verificare i seguenti casi: 

- parole correnti non ancora inserite nel database lessicale di riferimento (perché in costruzione); 

- nomi propri (anche acronimi e sigle di ogni tipo, es. Andreotti, UNICEF); 

- parole composte (es. calce viva); 

- espressioni idiomatiche (es. tagliare la testa al toro); 

- parole straniere (es. capital_gain); 

103


- neologismi (es. gli andreottiani; i piduisti) 

- terminologia (es. bilancia dei pagamenti) 

- ecc. 

Il caso di assenza del lemma nella risorsa lessicale di riferimento è codificato al livello del tratto 

ns, il cui valore è no_lemma (ns=no_lemma). 

Nell’ambito di SI-TAL questa assegnazione è generalmente da considerarsi come provvisoria in 

quanto una volta che la risorsa lessicale di riferimento sarà stata integrata con l’informazione 

mancante sarà sostituita con l’assegnazione definitiva. 

6.3.8.2 Assenza del senso rilevante di un lemma già presente in IWN 

Il caso di assenza del senso rilevante di un lemma già presente nella risorsa lessicale di 

riferimento viene segnalato ai lessicografi in modo che possano effettuare l’integrazione della 

risorsa: il gruppo dei lessicografi vaglierà l’opportunità di tale integrazione. 

Le seguenti considerazioni generali forniranno all’annotatore una guida nella selezione dei casi 

da segnalare come “assenza di senso rilevante”: 

1) non sembra auspicabile la creazione di eccessiva granularità in un lessico semantico con varie 

finalità applicative in Natural Language Processing (si veda Fellbaum et al. 1998; Calzolari et 

al. (in corso di stampa); Voorhees 1998); 

2) l’identificazione di un nuovo senso e l’inserimento dello stesso nel database lessicale di 

riferimento sono fortemente condizionati anche dalle possibilità offerte dal database stesso di 

identificarlo e descriverlo in modo univoco rispetto agli altri sensi; 

3) talvolta i contesti dell’occorrenza determinano più o meno importanti variazioni di significato 

che tuttavia non possono essere considerati sempre e in ogni caso veri e propri nuovi sensi 

(ciascun contesto infatti enfatizza determinati tratti semantici di un senso e ne oscura altri senza 

tuttavia determinare necessariamente l’esistenza di un nuovo significato). 

A parte queste considerazioni generali, non sembra esistano criteri univoci che possono essere 

sempre applicati a tutti i lemmi indipendentemente dalla loro categoria morfo-sintattica e dalle loro 

caratteristiche sintattico-semantiche. 

Il caso di assenza del senso rilevante di un lemma già presente nella risorsa lessicale di 

riferimento è codificato al livello del tratto ns, il cui valore è no_senso. Nell’ambito di SI-TAL, 

questa assegnazione è da considerarsi come provvisoria in quanto una volta che la risorsa lessicale 

di riferimento sarà stata integrata con l’informazione mancante sarà sostituita con l’assegnazione 

definitiva. 

6.3.9 Corrispondenza con più sensi dello stesso lemma 

Nel caso l’occorrenza in corso di annotazione trovi corrispondenza con più sensi dello stesso 

lemma, si procede come segue: 

104


1. quando c’è una corrispondenza simultanea con più sensi dello stesso lemma, ad esempio S1 e 

S2, le due alternative sono fornite come segue: S1 & S2; 

Per esempio, mantenere che significa 1. tenere, far durare in modo che non venga meno (i 

contatti) e 2. tenere saldo, difendere (un primato), figura nel corpus nei seguenti contesti:. 

- le Nazioni Unite dispongono di forze armate proprie per mantenere la pace 

- Potranno essi ad esempio mantenere la loro condizione di neutralità? 

- Mentre taluni donatori sono disposti a mantenere l’attuale livello dei loro stanziamenti di 

aiuto 

Un altro esempio è conoscere che può significare sia 1. sapere, avere esperienza che 2. avere 

notizia, cognizione di qualcosa. Negli esempi del corpus coesistenza dei due significati 

permane: 

- La Commissione conosce i gravi problemi che la siccità pone all’agricoltura portoghese 

- La Commissione conosce perfettamente l’insoddisfacente situazione fiscale in cui si trovano 

le persone soggette all’imposta sul reddito 

In entrambi i casi riportati sopra, l’annotatore segnalerà la pertinenza di entrambi i sensi ai 

contesti annotati fornendo le due alternative congiunte. 

2. in casi di ambiguità del contesto, ovvero quando non vi siano elementi per poter discriminare ad 

esempio tra S1 ed S2 si annota come segue: S1 | S2. Va detto che questo caso è previsto 

essenzialmente per completezza delle specifiche di annotazione dal momento che 

nell’annotazione di un testo continuo ci si aspetta che i contesti realmente ambigui siano pochi. 

Diamo qui di seguito un esempio. Mantenere che può significare 1.tenere, far durare in modo 

che non venga meno (i contatti) e 2. finanziare, figura nella frase: 

- Intende il Consiglio dei ministri della CEE mantenere ed eventualmente sviluppare 

un’attività di produzione europea in questo settore? 

In assenza di un contesto più ampio, non è possibile selezionare tra i due sensi indicati sopra 

quello appropriato. In questo caso l’annotazione corretta dovrebbe segnalare l’ambiguità del 

contesto assegnando all’attributo ns una disgiunzione di sensi possibili (1 e 2). 

I casi di corrispondenza con più sensi dello stesso lemma menzionati sopra sono codificati al 

livello del tratto ns il cui valore sono più sensi in relazione di congiunzione o disgiunzione: 

ns=S1&S2; S1|S2. 

Tuttavia, per evitare l’uso frequente di operatori logici, in alcuni casi si ritiene opportuno non 

combinare i sensi bensì fare riferimento, nei casi in cui esista, al senso più generico. È questo il 

caso, ad esempio, del lemma russo, al quale sono associati in IWN tre sensi distinti: 

- nativo della Russia 

- abitante della Russia 

- lingua 

dove la distinzione tra il primo ed il secondo senso è piuttosto sottile e non facilmente 

applicabile in casi del tipo un operaio russo…, di fronte ai quali è preferibile fare riferimento al 

senso più generico (russo ‘nativo della Russia’). 

105


Più in generale, in casi di difficile interpretazione – ovvero dove il contesto non fornisca 

l’informazione sufficiente - è preferibile selezionare un’interpretazione sottospecificata piuttosto 

che fare una selezione di senso soggettiva e arbitraria, anche se plausibile. 

6.4 Aspetti di annotazione con SemTAS 

L'annotazione semantico-lessicale della Treebank di SI-TAL è stata effettuata manualmente con 

l'ausilio di SemTAS, il sotto-sistema di GesTALt di supporto all’annotazione per questo livello. La 

progettazione di SemTAS è avvenuta sulla base delle Specifiche Tecniche elaborate al termine della 

Linea 1.1, quando il processo di annotazione vero e proprio non era stato ancora avviato. 

La fase di annotazione vera e propria ha dunque costituito il primo momento di validazione di 

SemTAS. Inoltre, nel corso del processo di annotazione, le specifiche iniziali sono state riviste ed 

integrate alla luce dell'evidenza linguistica emergente dal corpus, come documentato nei rapporti di 

fine Linea. 

In questa fase sono emersi aspetti delle specifiche non coperti al livello dell'interfaccia del tool di 

annotazione e/o della struttura dati. Le revisioni apportate hanno riguardato soltanto l'insieme dei 

possibili valori associati ai vari attributi, che è stato arricchito sulla base dell’evidenza via via 

emergente dal corpus. Non è stato invece effettuato l’inserimento di nuovi attributi, che avrebbe 

alterato la struttura dei dati in una fase in cui il processo di annotazione era ormai avanzato, 

compromettendo la coerenza interna dei dati annotati. Analogamente al caso dell’annotazione 

funzionale (sezione 5.3), casi di questo tipo sono stati gestiti mediante l'adozione di codifiche 

transitorie al livello della base di dati di GesTALt, che sono state riconvertite secondo quanto 

previsto dalle specifiche al livello dell'output in XML (si veda l’Appendice relativa alla 

rappresentazione XML dell’annotazione semantico-lessicale). Questa sezione documenta le 

soluzioni di annotazione adottate transitoriamente per il livello semantico-lessicale. 

6.4.1 Combinando più risorse lessicali di riferimento 

La Treebank di SI-TAL è stata annotata rispetto a due risorse lessicali di riferimento: IWN-Gen, 

per il lessico generico, ed EcoWN per il lessico specialistico del settore finanziario. 

Stando alla versione finale delle specifiche, l’informazione relativa alla risorsa lessicale di 

riferimento è convogliata dall’attributo dbref, inserito nella struttura dati solo in un secondo tempo. 

Onde consentire la distinzione delle due risorse lessicali di riferimento (IWN-Gen ed EcoWN) con 

gli attributi previsti nella fase iniziale delle Specifiche, si è operata la scelta di fare precedere i 

numeri di senso relativi a EcoWN con il simbolo “$”. I valori dell’attributo ns (numero_senso) 

possono quindi essere: un numero (es. ns=3) o la combinazione di più numeri in OR o AND per i 

casi di interpretazione dubbia (es. ns= 1|2, ns= 1&2), se la risorsa di riferimento è IWN-Gen; 

oppure una sequenza $numero (es. ns=$1) o la combinazione in OR o AND di più sequenze (es. 

ns=$1&$2), se la risorsa lessicale di riferimento è EcoWN. 

6.4.2 Annotazione di nomi propri polilessicali 

Per l’annotazione di nomi propri polilessicali (es. Nuova Zelanda, Stati Uniti d’America, Giulio 

Andreotti, Real Madrid, ecc.), ed in modo particolare per la specificazione della corrispondente 

classe semantica, l’insieme dei possibili valori dell’attributo tipousc è stato temporaneamente 

arricchito come segue: 

106


• np_pers: per nomi propri polilessicali che si riferiscono a persona (es. Giulio Andreotti); 

• np_grup: per nomi propri polilessicali che si riferiscono a istituzioni, organizzazioni o gruppo 

di persone (es. Real Madrid, Cassa di Risparmio di Torino); 

• np_man: per nomi propri polilessicali che si riferiscono a prodotto/manufatto (es. Fiat 

Cinquecento, Windows 98); 

• np_luog: per nomi propri polilessicali che si riferiscono a luogo (es. Nuova Zelanda; Stati 

Uniti d’America); 

• np_grup&luog: per nomi propri polilessicali ai quali non è possibile attribuire univocamente 

luogo o gruppo (es. la posizione della Repubblica di S. Marino è preferibile); 

• np: per nomi propri polilessicali che si riferiscono ad altri tipi di entità (es. Lotteria d’Italia, 

Festa dei Lavoratori). 

Ad eccezione di “np” che è previsto tra i possibili valori per questo attributo, tali valori non sono 

del tutto appropriati rispetto alla semantica dell’attributo tipousc; tuttavia consentono l’annotazione 

al livello di SemTAS di nomi propri composti mantenendo inalterata la struttura dei dati. 

6.4.3 Annotazione di neologismi e voci dialettali 

Come riportato nella sezione 6.2.9, l’informazione di neologismo e voce dialettale è riportata al 

livello dell’attributo tipolemma, non previsto dalle specifiche iniziali. Questo tipo di informazione è 

stata temporaneamente registrata in relazione a due attributi presenti nella struttura dati, nota o alter: 

“neolog” marca i neologismi, “dial” le voci dialettali. 

6.4.4 GesTALt/SemTAS vs XML 

La tabella che segue riporta, nella prima colonna, le codifiche transitorie adottate al livello di 

SemTAS, mentre nella seconda colonna ne specifica la corrispondente codifica al livello dell’output 

XML. 

GesTALt/SemTAS 

numero_senso=$numero senso o numeri senso 

combinati con operatori logici AND/OR 

numero_senso= numero senso o numeri senso 

combinati con operatori logici and/or 

nota=neol 

alterazione=neol 

nota=dial 

tipousc=np_pers 

tipousc=np_grup 

output XML 

dbref=eco 

numero_senso=numero senso o numeri senso 

combinati con operatori logici and/or (senza $) 

dbref=gen 

numero_senso: il valore di questo attributo 

rimane inalterato 

tipolemma=neol 

attributo nota eliminato 

tipolemma=neol 

attributo alterazione eliminato 

tipolemma=dial 

attributo nota eliminato 

nome_proprio=pers 

tipousc=np 

nome_proprio=grup 

tipousc=np 

107


GesTALt/SemTAS 

tipousc=np_luog 

tipousc=np_man 

tipousc=np_grup&luog 

output XML 

nome_proprio=luog 

tipousc=np 

nome_proprio=man 

tipousc=np 

nome_proprio=grup&luog 

tipousc=np 

7 Sviluppo di GesTALt 

GesTALt è un sistema di applicazioni software di supporto alla creazione e validazione della 

risorsa Treebank progettato per supportare nelle loro attività quattro classi distinte di utenti: gli 

annotatori della struttura sintattica a costituenti, gli annotatori della struttura sintattico-funzionale, 

gli annotatori semantico-lessicali ed i validatori. 

Compito degli annotatori è di creare la risorsa Treebank partendo da una base di documenti 

(BDA) contenente l’insieme di testi di un corpus annotati morfosintatticamente, mentre quello dei 

validatori è di controllare che la risorsa sia stata ben annotata. 

In maggior dettaglio, gli annotatori sintattici a costituenti, sintattico-funzionali, e semanticolessicali 

svolgono le loro attività al fine di produrre, rispettivamente, annotazioni sintattiche a 

costituenti, annotazioni sintattico-funzionali ed annotazioni semantico-lessicali dei testi di un 

corpus. 

GesTALt mette a disposizione di ognuno degli annotatori (sintattici a costituenti, sintatticofunzionali, 

e semantico-lessicali) una specifica applicazione di supporto (SinTAS, FunTAS e 

SemTAS, rispettivamente) unitamente ad una vista parziale della BDA, in maniera tale che essi 

possano svolgere le loro attività di annotazione ognuno, separatamente, al proprio livello. Ciò al 

fine di rendere più agile l’annotazione e di evitare l’interferenza tra i vari livelli. 

A supporto dei validatori, invece, GesTALt mette a disposizione l’applicazione ValTAS insieme 

ad una vista globale della BDA che permetta loro di verificare sia le scelte fatte dagli annotatori sia 

la congruenza tra i livelli di annotazione. 

Nel paragrafi seguenti si fornisce una descrizione del processo di sviluppo adottato durante le 

linee di ricerca 1.2 ed 1.3 del progetto, dell’architettura software di GesTALt ed, infine, delle 

principali funzionalità offerte dalle applicazioni di supporto agli annotatori ed ai validatori. 

7.1 Processo di sviluppo del software 

Durante le linee di ricerca 1.2 ed 1.3 del progetto SI-TAL si è adottato, per la produzione del 

sistema software per l’annotazione, la validazione e la navigazione della Treebank Sintattico- 

Semantica dell’Italiano GesTALt, un processo di sviluppo iterativo, facente uso di tecniche di 

prototipazione evolutiva e comprendente le seguenti attività principali: 

A1. Definizione Requisiti Utente 

Definizione di un primo insieme di requisiti utente relativo alle funzionalità di base da dover 

includere in GesTALt. Tale attività comprende le seguenti sotto-attività: 

A1.1 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione sintattica a 

costituenti. 

108


A1.2 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione sintatticofunzionale. 

A1.3 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione semanticolessicale. 

A1.4 Definizione dei requisiti utente per le funzionalità di supporto alla validazione della 

Treebank di SiTAL 

A2. Codifica 

Codifica di un primo prototipo (di tipo evolutivo) di GesTALt sulla base dei requisiti utente 

raccolti. In maggior dettaglio, tale attività può essere specializzata nelle seguenti sotto-attività: 

A2.1 Codifica di SinTAS, ovverosia del sottosistema di supporto all’annotazione sintattica a 

costituenti. 

A2.2 Codifica di FunTAS, ovverosia del sottosistema di supporto all’annotazione sintatticofunzionale. 

A2.3 Codifica di SemTAS, ovverosia del sottosistema di supporto all’annotazione semanticolessicale. 

A2.4 Codifica di ValTAS, ovverosia del sottosistema di supporto alla validazione delle 

annotazioni. 

A3. Validazione di GesTALt 

Validazione delle funzionalità incluse nel prototipo realizzato. Le sotto-attività in cui si può 

suddividere l’attività in oggetto sono: 

A3.1. Validazione di SinTAS. 

A3.2. Validazione di FunTAS. 

A3.3. Validazione di SemTAS. 

A3.4. Validazione di ValTAS. 

A4. Raffinamento dei Requisiti Utente 

Raffinamento dei requisiti utente prodotti sulla base dei commenti forniti dagli utenti durante 

l’attività di validazione del prototipo. L’attività in questione si compone delle seguenti sottoattività: 

A4.1 Raffinamento dei requisiti utente per le funzionalità di supporto all’annotazione 

sintattica a costituenti. 


sintattico-funzionale. 


semantico-lessicale. 

A4.4 Raffinamento dei requisiti utente per le funzionalità di supporto alla validazione della 

Treebank di SiTAL. 

A5. Raffinamento di GesTALt 

Raffinamento del prototipo prodotto finalizzato a produrre una nuova versione di GesTALt che 

sia conforme ai requisiti utente. In particolare, le sotto-attività in cui il raffinamento di GesTALt 

può essere suddiviso sono: 

A5.1 Raffinamento di SinTAS. 

A5.2 Raffinamento di FunTAS. 

A5.3 Raffinamento di SemTAS. 

109


A5.4 Raffinamento di ValTAS. 

Contrariamente a quanto originariamente riportato nei piani di attuazione relativi alle linee di 

ricerca 1.2 ed 1.3 del progetto, le varie attività ora introdotte non sono state eseguite nell’ordine 

sopra indicato, ma secondo quanto indicato nella seguente tabella: 

Ordine Attività Linea di 

attuazione 

1 A1.1, A1.2, A1.3, A1.4 1.2 

2 A2.1, A2.2, A2.3 1.2 

3 A3.1, A3.2, A3.3, A4.1, A4.2, A4.3, A5.1, A5.2, A5.3 1.2 

4 A2.4 1.3 

5 A3.4 1.3 

Tabella 1 – Ordine di esecuzione delle attività di sviluppo 

Come si può notare da quanto riportato in Tabella 1: 

− durante la linea di ricerca 1.2, sono state eseguite tutte le attività che vanno dalla prima 

definizione dei requisiti utente, al raffinamento dei sottosistemi SinTAS, FunTAS e 

SemTAS; 

− una prima versione dei requisiti utente relativi a ValTAS è stata prodotta durante la linea di 

ricerca 1.2; 

− le attività di codifica e validazione di ValTAS sono state effettuate durante la linea di ricerca 

1.3; 

− al termine della attività di validazione del sottosistema ValTAS, non si è reso necessario 

procedere all’attuazione delle attività di raffinamento dei requisiti ad esso relativi, nonché 

del sottosistema stesso (attività A4.4 ed A5.4). 

Che non sia stato necessario attuare le attività A4.4 ed A4.5, dipende fondamentalmente dal fatto 

che, prima di intraprendere la codifica di ValTAS, è stato prodotto un emendamento dettagliato ai 

requisiti iniziali definiti durante l’attività A1.4. Tale emendamento ha permesso di sviluppare da 

subito un sottosistema che incontra le richieste dei validatori della Treebank di SI-TAL, piuttosto 

che un primo prototipo da dover essere successivamente rilavorato secondo le direttive dell’utenza. 

Accanto alle attività sopra elencate, e durante entrambe le linee di ricerca 1.2 ed 1.3, è stata 

svolta, inoltre, una costatante attività di codifica atta a produrre una serie di applicazioni di utilità 

dedicate a supportare gli annotatori e validatori durante il loro lavoro. 

7.2 Architettura di GesTALt 

Il sistema GesTALt può essere pensato come la composizione di quattro sottosistemi distinti, 

denominati SinTAS, FunTAS, SemTAS e ValTAS dedicati, rispettivamente, al supporto delle 

attività di annotazione sintattica a costituenti, di annotazione sintattico–funzionale, di annotazione 

semantico–lesscicale e di validazione della Treebank di SI-TAL. 

110


Ognuno di detti sottosistemi raggruppa un ben definito insieme di componenti software i quali 

interagiscono l’uno con gli altri in modo tale da fornire le funzionalità richieste dagli utenti. 

I componenti software possono essere classificati come componenti comuni, nel caso in cui essi 

siano condivisi da due o più sottosistemi, o come componenti specializzati, se essi sono utilizzati da 

un unico sottosistema. 

L’architettura generale di GesTALt comprende dunque l’insieme dei componenti comuni nonché 

di quelli specializzati relativi a tutti i sottosistemi definiti. Tale architettura è descritta in Figura 1, 

dove i componenti software sono rappresentati come rettangoli, mentre le interazioni tra essi sono 

indicate mediante l’uso di frecce. 

SinTAS GUI 

FunTAS 

GUI 

SinTAS 

GUI 

SemTAS 

GUI 

FunTAS 

Manager 

SinTAS 

Manager 

SemTAS 

Manager 

ValTAS 

Manager 

Corpus Analizzato 

Morfo-Sintatticamente 

(XML Files) 

XML Loader 

(Wrapper-In) 

GesTALt 

OODB 

Tree Loader 

Annotazioni 

Sintattiche a Costituenti 

(XML Files) 

Correzioni al Corpus 

Analizzato 

Morfo-Sintatticamente 

(XML Files) 

Update Loader 

Wrapper-Out 

CorpusAnnotato 

(XML Files) 

CorpusAnnotato 

(HTML Files) 

SSParser 

StyleSheet 

Figura 1 – Architettura Software di GesTALt 

In maggior dettaglio, i componenti comuni ai vari sottosistemi sono: 

− GestTALt – OODB. È la base dati orientata agli oggetti (la DBA, cfr.7) utilizzata per 

immagazzinare all’interno di GesTALt l’intera Treebank di SI-TAL. Trattandosi di una base 

dati orientata agli oggetti, ogni entità linguistica è trattata come un oggetto software che 

incorpora quindi sia la struttura dati necessaria ad immagazzinare detta entità, sia l’insieme delle 

interrogazioni necessarie per reperire informazioni ad essa relative. 

− XML Loader (Wrapper-in). È il componente che provvede al caricamento dell’insieme di testi 

analizzati morfo-sintatticamente di un dato corpus nel GesTALt – OODB. Detto componente 

prende in ingresso un file in formato XML per ogni testo da introdurre. 

111


− Wrapper-out. È il componente che provvede a produrre una rappresentazione XML delle 

annotazioni contenute nel GesTALt – OODB. L’uso del formalismo XML permette di rendere la 

Treebank di SI-TAL pubblicamente accessibile. Di fatti, le informazioni contenute in essa 

possono essere “navigate” indipendentemente dalla disponibilità del sistema GesTALt, 

mediante un qualsiasi XML compliant internet browser. 

− SSParser. È il componente che permette di riorganizzare, mediante l’uso di stylesheet, la 

rappresentazione XML della Treebank di SI-TAL prodotta mediante Wrapper-out secondo una 

specifica data. Tale componente consente inoltre di convertire i documenti XML relativi alla 

Treebank in documenti HTML, testo, pdf o ps. 

− Update Loader. È il componente che permette di apportare eventuali correzioni all’annotazione 

morfo-sintattica di un corpus caricato nel GesTALt – OODB. Come nel caso dell’XML Loader, 

anche l’Update Loader prende in ingresso file in formato XML. 

− Merger. È il componente che permette di unificare le annotazioni contenute nelle varie viste 

parziale della BDA in un’unica base dati (cfr. 7) contenente l’intera Treebank di SI-TAL. 

I componenti specializzati relativi ai vari sottosistemi sono: 

− Le interfacce grafiche utilizzate per le attività di annotazione sintattica a costituenti, sintattico– 

funzionale e semantico–lessicale, nonché per quella di validazione (in Figura 1 denominati 

rispettivamente FunTAS GUI, SinTAS GUI, SemTAS GUI e ValTAS GUI). Si noti che la 

SemTAS GUI incorpora in se la FunTAS GUI, la SinTAS GUI e la SemTAS GUI estendendone 

inoltre le funzionalità. 

− I componenti software responsabili dell’accesso al GesTALt – OODB e dell’invocazione delle 

adeguate funzionalità delle interfacce grafiche di FunTAS, SinTAS, SemTAS e ValTAS. Tali 

componenti sono denominati in Figura 1 FunTAS Manager, SinTAS Manager, SemTAS 

Manager and ValTAS Manager, rispetivamente. 

− Il Tree Loader, ovverosia il componente che consente di caricare nel GesTALt – OODB 

annotazioni sintattiche a costituenti prodotte mediante software dedicato e rappresentate 

mediante formalismo XML. 

− ValTAS Pre-processor. È il componente necessario per la conversione del GestTALt – OODB 

dal formato proprietario dei tool di annotazione (FunTAS, SinTAS e SemTAS), a quello 

utilizzato da ValTAS. 

Identificati i vari componenti software, è possibile definire per grandi linee l’architettura di 

ognuno dei sottosistemi di GesTALt come combinazione di uno o più componenti comuni e dei 

suoi componenti specializzati, come specificato nella tabella di seguito riportata. 

Sottosistema Componenti Comuni Componenti Specializzati 

SinTAS 

FunTAS 

GesTALt OODB 

XML Loader 

Update Loader 

Merger 

GesTALt OODB 

XML Loader 

SinTAS GUI 

SinTAS Manager 

Tree Loader 

FunTAS GUI 

112


Sottosistema Componenti Comuni Componenti Specializzati 

SemTAS 

ValTAS 

Update Loader 

Merger 

GesTALt OODB 

XML Loader 

Update Loader 

Merger 

GesTALt OODB 

Wrappr Out 

FunTAS Manager 

SemTAS GUI 

SemTAS Manager 

ValTAS GUI 

ValTAS Manager 

ValTAS Pre-processor 

La versione di GesTALt rilasciata al termine della linea di ricerca 1.3 (versione 3.0) comprende 

l’implementazione di tutti i componenti software previsti per il sistema sopra elencati. Tra questi, 

Merger, ValTAS GUI, ValTAS Manager, ValTAS Pre-processor e Wrapper Out sono stati sviluppati 

durante la linea di ricerca 1.3. 

In conclusione mettiamo in evidenza che GesTALt si presenta all’utenza come un pacchetto di 

applicazioni software (cfr. §7) formata dai tre tool di annotazione (SinTAS, FunTAS e SemTAS), 

dal tool di supporto alla validazione (ValTAS) e dall’insieme dei applicazioni di utilità formate da: 

− XML Loader 

− Update Loader 

− Tree Loader 

− Merger 

− ValTAS Pre-processor 

− Wrapper-out 

− SSParser. 

Per utilizzare FunTAS, SinTAS, SemTAS, XML Loader, Update Loader, Tree Loader e ValTAS 

Pre-processr le seguenti risorse hardware e software sono richieste: 

− Personal Computer equipaggiato con: 

− Processore tipo Intel PII (minimo) o Intel PIII (consigliato) 

− RAM 64 MB (minimo) 

− Sistema operativo Microsoft ® Windows NT4.0 SP4 (fortemente consigliato) o Microsoft ® 

Windows 9x. 

− ODI ® PsePRO (object-oriented dbms) 

− JDK 1.1.5 o superiore 

Per utilizzare ValTAS, Wrapper-out ed SSParser, sono invece richieste le seguenti risorse: 

− Personal Computer con: 

− Processore tipo Intel PIII 

− RAM 128 MB (minimo) 

− Sistema operativo Microsoft ® Windows NT4.0 SP4 o Microsoft ® Windows 2000 

− ODI ® PsePRO (object-oriented dbms) 

− SAXON Parser (versione 5.5.1) 

− JDK 1.2 o superiore 

113


7.3 Funzionalità di GesTALt v3.0 

Nei paragrafi seguenti si fornisce una sintetica descrizione delle principali funzionalità di 

ValTAS, SSParser e Wrapper-out così come si presentano nella versione 3.0 di GesTALt. Si noti 

che le funzionalità delle applicazioni di supporto agli annotatori sono invariate rispetto a quelle 

fornite alla fine della linea di ricerca 1.2 (GesTALt v2.0). 

7.3.1 ValTAS 

ValTAS è l’applicazione fornita dal pacchetto GesTALt a supporto della validazione della 

Treebank di SiTAL, e cioè di quell’attività mirata a controllare la correttezza e la consistenza delle 

annotazioni sintattico-funzionali, sintattiche a costituenti, nonché di quelle semantico-lessicali 

prodotte dagli annotatori. 

A tale scopo, ValTAS offre la possibilità di interrogare l’intera Treebank di SiTAL in base ad una 

qualunque caratteristica o combinazione di caratteristiche relative ad uno specifico livello di 

annotazione. Il risultato di una interrogazione è l’insieme delle frasi in cui occorre l’annotazione 

cercata (Figura 2). 

Figura 2 – Interfaccia grafica di ValTAS 

Una volta recuperato l’insieme delle frasi risultante da una interrogazione utente, ValTAS 

permette, per ognuna delle frasi reperite, di visualizzare contemporaneamente la rappresentazione 

114


grafica dei tre livelli di annotazione previsti, permettendo così un agevole controllo della 

consistenza tra essi (Figura 3). 

Figura 3 – Interfaccia grafica di ValTAS 

In maggior dettaglio, ValTAS consente di interrogare la Treebank per: 

− relazione funzionale, ed in particolare per: 

− relazione funzionale generica, specificando uno o più parametri tra quelli indicati in 

Figura 4a; 

a) b) 

115


Figura 4 –Parametri di interrogazione: relazioni generiche (a) e con testa nominale (b) 

− relazione funzionale con testa nominale, specificando uno o più parametri tra quelli 

indicati in Figura 4b; 

− relazione funzionale con testa verbale, specificando uno o più parametri tra quelli 

indicati in Figura 5a; 

− relazione funzionale con dipendente nominale, specificando uno o più parametri tra 

quelli indicati in Figura 5b; 

a) b) 

Figura 5 – Parametri di interrogazione: relazioni con testa verbale (a) e con dipendente nominale (b) 

− relazione funzionale con dipendente verbale, specificando uno o più parametri tra quelli 

indicati in Figura 6; 

Figura 6 – Parametri di interrogazione: relazioni con dipendente verbale 

− relazione funzionale con testa nominale e dipendente nominale, specificando uno o più 

parametri tra quelli indicati in Figura 7; 

116


Figura 7 – Parametri di interrogazione: relazioni con testa e dipendente nominale 

− relazione funzionale con testa verbale e dipendente nominale, specificando uno o più 


Figura 8 – Parametri di interrogazione: relazioni con testa verbale e dipendente nominale 

− relazione funzionale con testa nominale e dipendente verbale, specificando uno o più 


Figura 9 – Parametri di interrogazione: relazioni con testa nominale e dipendente verbale 

− relazione funzionale con testa verbale e dipendente verbale, specificando uno o più 


117


Figura 10 – Parametri di interrogazione: relazioni con testa e dipendente verbale 

− 

− costituente, ed in particolare per: 

− costituente semplice, specificando uno o più parametri tra quelli indicati in Figura 11a; 

− costituente complesso, specificando uno o più parametri tra quelli indicati in Figura 11b; 

a) b) 

Figura 11 – Interfaccia grafica di ValTAS – Parametri di interrogazione II 

− unità semantica, ed in particolare per: 

− unità semantica generica, specificando uno o più parametri tra quelli indicati in Figura 

12a; 

− unità semantica semplice, specificando uno o più parametri tra quelli indicati in Figura 

12b; 

a) b) 


118


− unità semantica complessa, specificando uno o più parametri tra quelli indicati in Figura 

13a; 

− unità semantica titolo, specificando uno o più parametri tra quelli indicati in Figura 13b. 

a) b) 


7.3.2 Wrapper-out 

Wrapper-out è l’applicazione del pacchetto GesTALt che consente di produrre la 

rappresentazione XML della Treebank di SI-TAL a partire dai dati contenuti nel GesTALt OODB. 

I documenti XML prodotti in uscita dal Wrapper-out sono organizzati in maniera fortemente 

strutturata: una parte di essi rappresenta le informazioni atomiche relative alle annotazioni 

morfologiche, sintattico-funzionali, sintattiche a costituenti, semantiche, nonché alle caratteristiche 

ortografiche delle singole frasi contenute nella BDA, mentre i rimanenti sono utilizzati per 

realizzare le relazioni tra le informazioni atomiche. 

Come risultato, i documenti XML di uscita del Wrapper-out non presentano alcuna duplicazione 

di informazione, e possono quindi essere facilmente manipolati (mediante XSLt e Xpath, ad 

esempio) senza correre il rischio di creare inconsistenza. 

Di seguito è riportata la specifica (mediante DTD) dei principali documenti XML prodotti dal 

Wrapper-out: 

File indice: 

 

 

 

 

 

 

119


File delle frasi: 

 

 

 

 

 

Annotazione funzionale (per frase): 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

120


Annotazione Sintattica a Costituenti (per frase): 

 

 

 

 

 

 

 

 

 

 

 

 


tipo CDATA #REQUIRED 

commento CDATA #IMPLIED 

nota CDATA #IMPLIED 

ustid ID #REQUIRED> 

7.3.3 SSParser 

SSParser è l’applicazione del pacchetto GesTALt che permette di trasformare un insieme di 

documenti XML contenuti in una directory sorgente in un nuovo insieme di documenti XML, i 

quali si differenziano dai sorgenti per la diversa strutturazione dei dati in essi contenuti. In tal modo, 

è ad esempio possibile produrre viste (in formato XML) sulla Treebank di SI-TAL a partire dalla 

sua rappresentazione XML. 

L’SSParser permette inoltre di convertire i documenti XML relativi alla Treebank di SI-TAL in 

documenti HTML, PDF, PS o TXT. A titolo di esempio dell’uso di SSParser, alla fine della linea di 

ricerca 1.3 sono stati prodotti i file HTML relativi all’intera Treebank di SI-TAL (Figura 14). 


122


8 Valutazione 

L'attività di valutazione è stata svolta utilizzando sia ValTAS, l'interfaccia grafica di 

consultazione della Treebank, sia le equivalenti informazioni rese disponibili in modo testuale. In 

particolare, le interrogazioni realizzate sulla trascrizione delle annotazioni hanno reso possibile 

l'estrazione di particolari marcature al fine di verificare la presenza o meno di situazioni ricorrenti 

per cui fosse possibile intervenire nella definizione della nostra grammatica. 

Riteniamo che la modalità con cui abbiamo acceduto alle informazioni della Treebank possa 

essere molto simile, a livello logico, alle modalità con cui sarà possibile accedere alla versione 

finale della Treebank stessa, quando questa sarà disponibile in formato XML e quindi interrogabile 

con opportuni linguaggi. 

Vediamo nel dettaglio cosa è stato fatto. 

Occorre, innanzi tutto, specificare che la grammatica che definisce i legami sintattici dei 

componenti di una frase si articola in due parti logiche distinte: una per definire le proprietà che 

caratterizzano i termini e le loro capacità di aggregarsi con altri componenti della frase, ed una per 

realizzare la composizione degli elementi al fine di ricostruire l'albero sintattico della struttura della 

frase da analizzare. 

A questa suddivisione logica corrisponde una diversa localizzazione delle informazioni: 

• le proprietà di aggregazione sintattica dei termini vengono inserite all'interno del dizionario, 

nella parte di analisi relativa alla sintassi; 

• le modalità con cui le proprietà sintattiche dei termini vengono combinate per riempire gli 

slot sono definite in un file opportuno, in Prolog. 

Il lavoro per reperire le informazioni presenti nella Treebank si è articolato secondo il seguente 

schema: 

1. analisi di una errata costruzione dell'albero sintattico di copertura di una frase, a partire da 

una traduzione scorretta 

2. individuazione della corrispondente annotazione all'interno della Treebank 

3. reperimento di tutte le strutture analoghe 

4. analisi delle informazioni recuperate e inserimento, dove opportuno, di nuove informazioni 

all'interno della grammatica. 

Tali attività sono state svolte sia singolarmente sui tre livelli di annotazione (funzionale, a 

costituenti, semantico), sia utilizzando la combinazione dei due livelli sintattici o dell'annotazione 

semantica con quella funzionale. 

Occorre precisare che per la realizzazione del punto 3 appena descritto, per la maggior parte 

delle interrogazioni, sono stati elaborati dei programmi. Sono stati utilizzati come linguaggi di 

programmazione il Perl ed il Visual Basic For Application. Il Perl è stato scelto per la sua versatilità 

nell'elaborazione di stringhe ed è stato impiegato nella fase iniziale del lavoro, fase in cui sono stati 

ristrutturati i dati resi disponibili da Certia; il VBA è stato utilizzato durante la fase di estrazione 

123


delle informazioni, per uniformità con la procedura di valutazione realizzata durante la linea 

precedente. 

L'attività sull'annotazione sintattica funzionale è stata più rilevante, grazie alla maggiore quantità 

(nel senso di espressività) di informazioni presenti nella trascrizione testuale della Treebank. Ciò ha 

permesso di realizzare estrazioni che in seguito si potrebbe prevedere di realizzare con un 

linguaggio di interrogazione per l'XML. Non è stato possibile fare altrettanto sulla trascrizione 

dell'annotazione a costituenti, per la quale si è potuto utilizzare solo l'annotazione grafica di ValTas. 

Alcune delle interrogazioni effettuate sono analoghe a quelle che si possono realizzare in ValTas 

con il notevole vantaggio di poter ottenere risultati espliciti (come elenchi di termini, porzioni di 

frasi, ecc.); altre sono più articolate poiché prevedono l'unione logica (OR) delle relazioni o la 

verifica della sola presenza di un valore di un tratto indipendentemente dal valore che questo 

assume. In seguito, le interrogazioni realizzate verranno descritte utilizzando, per quanto riguarda 

l'annotazione sintattica funzionale, lo stesso tipo di notazione presente nella trascrizione realizzata 

da Certia, specificando solo i campi influenti ai fini dell'interrogazione e tralasciando quelli i cui 

valori non sono stati ritenuti interessanti nello specifico contesto. 

Nel seguito verranno dettagliate le operazioni compiute. Per quanto riguarda le attività di 

modifica svolte all'interno della grammatica di PeTra, verrà illustrato il tipo di informazione inserito 

e se ne indicherà la finalità, tralasciando il formalismo utilizzato al fine di consentire una più facile 

lettura. Si sottolinea che, in questa attività, anche la modifica più piccola comporta una serie di 

operazioni che non verranno descritte ad ogni passo, ma che sono indispensabili per evitare di 

introdurre rumore sul lavoro già realizzato. Il formalismo della grammatica, infatti, si basa 

sull'applicazione di proprietà comuni a categorie di termini, richieste dalla modalità di 

funzionamento del nostro sistema linguistico e identificate per rispondere a specifiche esigenze 

della traduzione; non sempre tali categorie si ritrovano nella grammatica descrittiva tradizionale. 

Questo significa che la minima modifica alle informazioni introdotte potrebbe causare effetti 

collaterali a catena, per scongiurare i quali occorre realizzare numerose verifiche sia su frasi 

contenenti la situazione su cui si sta lavorando, sia su frasi simili per le quali valgono regole 

diverse. Infine, la verifica conclusiva viene realizzata su porzioni di testo generico. Solo a questo 

punto è possibile passare alla modifica successiva. Si può quindi dedurre la mole di lavoro che 

anche la modifica più banale comporta. 

Come già accennato, siamo partiti analizzando le frasi mal tradotte da PeTra Word. Tra queste 

abbiamo analizzato quelle per cui la cattiva traduzione era dovuta ad una errata costruzione 

dell'albero sintattico nella parte di analisi dell'italiano. Abbiamo, quindi, cercato di capire il 

problema e di vedere come veniva risolta l'annotazione nella Treebank. I paragrafi che seguono 

descrivono le problematiche individuate, i criteri con cui sono state prelevate le informazioni nella 

Treebank e gli interventi di correzione realizzati. 

Gli interventi sono stati essenzialmente di 3 tipi: sulla parte di analisi del dizionario, sulla 

grammatica e sul transfer. 

124


8.1 Modifiche al dizionario 

8.1.1 Derivanti dalla sintassi 

8.1.1.1 Reggenze 

Una delle maggiori difficoltà in un sistema di traduzione automatica è l'individuazione delle 

corrette dipendenze di gruppi nominali introdotti da preposizione, dipendenti sia da verbi che da 

sostantivi. L'esplicitazione delle reggenze tipiche porta ad una migliore costruzione dell'albero di 

copertura della frase. Abbiamo quindi individuato nella Treebank le reggenze presenti ed inserito 

nel nostro sistema quelle mancanti. 

8.1.1.2 Testa nominale 

Durante la costruzione dell'albero di copertura di una frase, PeTra cerca di individuare le corrette 

dipendenze aggregando i componenti presenti. Nel caso di un sintagma introdotto da preposizione, 

la tendenza più ricorrente è quella di far dipendere tale gruppo da una forma verbale, a meno che 

non sia presente un sostantivo per il quale la preposizione in esame costituisca una reggenza tipica o 

si sia in presenza di un complemento di specificazione (introdotto dalla preposizione di). 

L'esplicitazione nel dizionario delle reggenze tipiche dei sostantivi aiuta dunque nella costruzione 

dell'albero. Questo tipo di informazione è, però, difficilmente reperibile in dizionari cartacei e/o 

tradizionali. 

Abbiamo quindi constatato che al nostro sistema mancava spesso la corretta individuazione di un 

gruppo assimilabile a quello che nell'annotazione a costituenti è identificato come un SN, al cui 

interno è presente un SP (SPD o SPDA). 

Individuato il problema, abbiamo deciso di ampliare la casistica appena descritta compilando un 

programma di interrogazione della trascrizione testuale dell'annotazione funzionale per estrarre tutte 

le teste e gli introduttori dei dipendenti che soddisfacevano quanto segue: 

Tipo relazione: mod | arg 

Testa nominale: 

POS: S 

* : 

POS dipendente: S | A | N | V | P* 

Introduttore dipendente: not "" 3 

Il programma di interrogazione ha quindi restituito un elenco di sostantivi con le relative 

reggenze presenti nel corpus. Tali coppie di valori sono state esaminate manualmente al fine di 

eliminare quelle con uso sporadico: le rimanenti sono andate ad arricchire le entrate del dizionario 

3 Con introduttore: not "" si intende che il valore dell'introduttore deve essere una stringa diversa dalla stringa vuota, 

della quale non viene però specificato il valore. Ricordiamo che, in informatica, per stringa si intende una qualunque 

sequenza di caratteri alfanumerici 

125


corrispondenti alle "teste" individuate, con l'esplicitazione di uno slot specifico per il gruppo 

preposizionale. In questa maniera sono state individuate reggenze tipiche come 

• incontro con 

• integrazione tra 

• simposio su 

mentre sono state scartate presenze del tipo: 

• credito a 

• facilitazione per. 

8.1.1.3 Testa verbale 

Come spiegato al punto precedente, i complementi indiretti vengono di preferenza legati alla 

forma verbale presente. Anche in questa situazione, però, risulta utile l'esplicitazione delle 

reggenze: in presenza di più forme verbali aiuta a discriminare la corretta dipendenza. 

Anche in questo caso sono state rilevate, nei costituenti, delle annotazioni non sempre 

individuate dagli alberi generati in PeTra, come quella della giusta attribuzione di un COMP* al 

corrispondente IBAR. 

E' stato quindi realizzato un programma, analogo al precedente, per realizzare un'interrogazione 

sulle relazioni annotate nel funzionale secondo i seguenti criteri: 

Tipo relazione: * 

Testa verbale: 

POS: V 

Dipendente nominale: 

POS dipendente: S | N | P* | A | D* 

Introduttore dipendente: not"" 

che hanno portato all'individuazione di situazioni come 

• riunire in 

• stabilizzare su. 

Anche questo secondo elenco è stato attentamente esaminato al fine di eliminare le occorrenze 

sporadiche: le rimanenti sono state inserite nella parte di informazioni sintattiche presenti nel 

dizionario. 

8.1.1.4 Espressioni polilessicali 

Come era facile supporre, il contesto specialistico in cui si inseriscono i testi selezionati può 

comportare un uso particolare dell'italiano, o comunque diverso da quello presente nei testi di tipo 

informatico da noi più di frequente esaminati. Questo portava il nostro sistema di traduzione a mal 

interpretare la costruzione della frase o a tradurre letteralmente sequenze di parole aventi traduzioni 

specifiche. In relazione a tali usi e alle relative traduzioni in Inglese, abbiamo esaminato i risultati 

126


delle interrogazioni che seguono, realizzate con un programma in grado di estrarre le terminologie 

presenti, a partire dalla trascrizione dell'annotazione funzionale. 

Ricordiamo, come già descritto nelle precedenti relazioni, che nel nostro sistema si intendono 

come espressioni polilessicali tutte quelle sequenze di termini che necessitano di una particolare 

traduzione o che occorre bloccare per evitare di mal interpretare la costruzione dell'albero. Tali 

espressioni, inoltre, hanno diverse caratterizzazioni e non vengono trattate sempre nella stessa 

maniera, come: 

a. espressioni polilessicali invariabili (es. made in Italy) 

b. espressioni polilessicali con sequenza costante ma con i singoli componenti che ammettono 

la flessione (es. bilanci/io provvisori/io) 

c. espressioni polilessicali che possono presentarsi con dei modificatori, vincolate solo dalla 

relazione sintattica (es. assestare [velocemente] i conti 4 ) 

Le tre situazioni vengono risolte in maniera diversa: 

a. inserendo una entrata specifica nel dizionario 

b. aggiungendo al termine reggente una nuova analisi, che scatti nei casi in cui il termine sia 

accompagnato dal resto della sequenza 

c. come disambiguazione basata sul valore dei suoi complementi 

Nel seguito verranno descritte le situazioni individuate e gli interventi realizzati, ma eviteremo di 

andare nel dettaglio delle scelte implementative per evitare di appesantire il discorso. 

8.1.1.5 Dipendenza indiretta con testa nominale 

Per estrarre l'elenco dei complementi indiretti retti da testa nominale, abbiamo scritto un 

programma che individua le annotazioni sintattiche funzionali caratterizzate da: 

Tipo relazione: mod | arg 


POS: S 


POS dipendente: S 


e che restituisce la sequenza: 

lemma_testa introduttore lemma_dipendente 

4 assestarsi si traduce genericamente con to settle in, mentre assestare i conti diventa to balance the account 

127


In questo modo abbiamo ottenuto un elenco piuttosto consistente, che è stato esaminato 

manualmente al fine di estrarre le potenziali espressioni "da bloccare". Nella scelta ci siamo fatti 

guidare soprattutto dalla corrispondente traduzione in inglese. Così procedendo abbiamo 

individuato situazioni come 

• azionista di riferimento 

• calo delle vendite 

• posto di lavoro 

• controllo del traffico 

L'uso di un programma in grado di estrarre l'elenco delle potenziali espressioni polilessicali ha 

permesso di lavorare più agevolmente, grazie alla restituzione ad un elenco da esaminare. Per 

ciascun elemento dell'elenco, è stato poi deciso l'intervento più opportuno da realizzare (secondo 

quanto descritto ai punti a., b., c.), esaminando tutti i possibili usi per evitare che vengano bloccate 

situazioni non univocamente interpretabili. Si rimanda all'esempio fornito al documento precedente 

circa l'esame di per cui (congiunzione polilessicale, ma anche preposizione seguita da pronome). 

In questo modo, per: 

• calo delle vendite è stata aggiunta, all'entrata calo, un'analisi per bloccare la sequenza calo/i 

delle vendite 

• apertura del mercato è stata inserita, in corrispondenza di apertura, una specifica traduzione 

nel caso in cui il lemma sia modificato da un complemento di specificazione riempito da 

mercato (o da una sua flessione) 

8.1.1.6 Dipendenza indiretta con testa verbale 

Per ritrovare le espressioni rette da testa verbale, si è proceduto in maniera analoga al punto 

precedente, utilizzando un programma che agisse in maniera simile, con criteri di ricerca 

leggermente diversi: 

Tipo relazione: obl | mod | ogg_i 


POS: V 




ottenendo un elenco del tipo: 

lemma_testa introduttore lemma_dipendente. 

Anche questo elenco è stato analizzato secondo i criteri visti sopra, per eliminare le sequenze 

superflue e, per ciascuna sequenza rimasta, è stata scelta la strategia più opportuna per l'inserimento 

nel dizionario. Alcuni esempi delle sequenze trovate sono: 

• riunirsi in seduta 

128


• giungere a un'intesa 

8.1.1.7 Dipendenza diretta con testa nominale 

Un'altra ricerca realizzata ha portato all'individuazione di modificatori con apposizione. 

L'interrogazione è stata realizzata con i seguenti criteri: 

Tipo relazione: not(cong) 


POS: S 



Introduttore dipendente: "" 

Abbiamo così ottenuto un elenco composto da coppie di sostantivi. Anche in questo caso si è 

proceduto ad una scrematura guidata dal senso e dalla traduzione in lingua inglese. Le coppie 

rimaste sono state inserite nel dizionario utilizzando sempre gli stessi criteri sin qui descritti. Tra 

esse abbiamo, per esempio: 

• forza lavoro 

• fine anno 

8.1.1.8 Dipendenza diretta con testa verbale 

In quest'ultimo caso relativo alle espressioni polilessicali, abbiamo cercato di individuare i verbi 

che in presenza di particolari complementi oggetti vengono tradotti in modo idiomatico. Abbiamo 

quindi realizzato un programma in grado di estrarre una sequenza di verbi transitivi con i relativi 

complementi oggetti a partire da un'interrogazione del tipo: 

Tipo relazione: ogg_d 


POS: V 

SFEAT: V*T 5 



Introduttore dipendente: "" 

Sono, così, state individuate tutte le occorrenze dei complementi diretti presenti nella parte di 

corpus selezionato. Anche questa volta, l'elenco ottenuto è stato analizzato al fine di individuare i 

dipendenti che fanno assumere al verbo reggente, o alla composizione con esso, una particolare 

5 con V*T si intendono tutte le stringhe che iniziano con V, terminano con T, e al cui interno possono essere presenti 

zero o più caratteri. Abbiamo utilizzato questo simbolismo per evitare di elencare tutte le situazioni come: VGT, VIRT, 

VT,…, relative a verbi transitivi. 

129


traduzione. Le forme ottenute sono state inserite come espressioni polilessicali, sempre utilizzando i 

criteri già esposti. 

Esempi di espressioni ottenute sono: 

• accogliere gli accantonamenti 

• accusare una difficoltà 

• fare presa. 

In particolare in questo caso, la maggior parte degli inserimenti sono stati realizzati secondo le 

modalità della disambiguazione, come illustrato al punto c. all'inizio di questo paragrafo. Ciò è 

dovuto al fatto che la relazione che lega un verbo al suo complemento oggetto verte su leggi che 

possono essere individuate con criteri sintattici; questo permette la presenza di altri termini 

intermedi, come gli avverbi. 

Ad esempio, per riprendere i casi riportati sopra, la traduzione di accusare nel contesto descritto, 

non deve essere diversa se la frase viene costruita come: 

egli ha accusato sempre molte difficoltà. 

8.1.1.9 Specifiche consultazioni 

L'utilizzo della Treebank ha portato a ricerche sistematiche, come quelle appena descritte, ma 

anche a ricerche mirate alle singole costruzioni, alcune delle quali vengono descritte in questo 

paragrafo. Tra le più significative, abbiamo due ricerche non previste a priori, indispensabili, però, 

per il corretto funzionamento dell'analisi dell'italiano: la corretta impostazione dell'ausiliare in verbi 

intransitivi, e la molteplicità delle accezione per una stessa variante grafica. 

Per costruire correttamente l'albero di analisi della frase italiana, in PeTra sono esplicitati, per i 

verbi intransitivi, gli ausiliari necessari per la costruzione dei tempi composti. Analizzando alcune 

traduzioni ci siamo accorti che in alcuni verbi tale informazione non era corretta. Abbiamo quindi 

scritto un nuovo programma di interrogazione del documento contenente la trascrizione 

dell'annotazione funzionale al fine di individuare i lemmi dei verbi aventi i seguenti tratti: 


[ Testa Verbale: 

POS: V 

SFEAT: VGPROG | VIIN | VIN | VGIN | VIRIN | VPPIN | VPRIN 

Ausiliare: avere 

] 

or 

[ Dipendente Verbale: 

POS: V 

SFEAT: VGPROG | VIIN | VIN | VGIN | VIRIN | VPPIN | VPRIN 

Ausiliare: avere 

] 

Con l'elenco dei lemmi così ottenuto, abbiamo eseguito una verifica manuale delle informazioni 

riportate nel nostro dizionario e realizzato gli opportuni aggiustamenti. 

130


Questo è stato un esame imprevisto della Treebank, che ci ha permesso di reperire informazioni 

importanti: l'uso della Treebank si dimostra quindi versatile e aperto ad analisi inattese. 

Sempre analizzando le frasi tradotte, ci siamo resi conto della presenza di qualche problema 

nell'analisi di alcuni lemmi: nel nostro dizionario, essi non erano presenti con tutte le accezioni 

previste dall'italiano. Ad esempio, in PeTra romanzo era presente solo come sostantivo e non come 

aggettivo (filologia romanza). 

Una situazione analoga si è presentata con proprio: utilizziamo questo esempio per comprendere 

il tipo di lavoro realizzato. 

Abbiamo, come prima cosa, estratto tutte le annotazioni coinvolgenti il lemma in esame, 

indipendentemente dalla forma e dal tipo di relazione. Ci siamo quindi resi conto dell'assenza 

dell'analisi di proprio come aggettivo possessivo, a causa della quale non venivano costruite 

relazioni che nella Treebank abbiamo individuato come: 

Tipo relazione: mod 


POS: S 

Dipendente: 

Lemma : proprio 

POS : AP 

L'estrazione di tutte le classificazioni di proprio sono state invece estratte con l'interrogazione: 


[ Testa *: 

Lemma: proprio 

] 

or 

[ Dipendente *: 

Lemma : proprio 

] 

8.1.2 Derivanti dalla semantica 

8.1.2.1 Inserimento dei semantic type disponibili 

Le modifiche al dizionario derivanti dall'analisi semantica hanno comportato l'inserimento di 

numerosi semantic type. In PeTra, i semantic type vengono utilizzati per determinare la corretta 

traduzione di un termine quando questo è messo in relazione con un altro appartenente ad una 

particolare categoria. Ad esempio: 

• versare si può tradurre to pour 

ma se è seguito da un complemento oggetto di tipo money si traduce to deposit 

Il nostro lavoro si è articolato nei seguenti passi: 

131


• individuazione dei termini annotati semanticamente nella Treebank 

• individuazione del senso corrispondente all'interno di ItalWordNet 

• individuazione del semantic type corrispondente in PeTra 

• inserimento del semantic type nel dizionario, nella parte di analisi relativa al lemma 

• verifica del rispetto della corretta traduzione in relazione ai termini in cui è utilizzato. 

Abbiamo inserito il semantic type ad un numero consistente di lemmi presenti e, come ci si 

poteva aspettare sulla base del corpus selezionato, quello più utilizzato è stato money. 

8.1.2.2 Nuovo semantic type 

Il lavoro effettuato ha portato, oltre all'inserimento dei semantic type già previsti in PeTra, 

all'individuazione di un nuovo senso, il cui utilizzo, a partire dalle informazioni contenute in 

ItalWordNet, è stato mediato dalle necessità della traduzione. 

Il nuovo semantic type è in relazione al senso qualità di ItalWordNet, al quale siamo arrivati 

utilizzando la catena degli iperonimi delle forme che andiamo a descrivere. Ci sono infatti termini 

(come coraggio, importanza, esperienza, …) che in italiano si legano al verbo avere (avere 

coraggio, avere importanza, …) ma che in inglese vengono retti dal verbo essere (to be brave, to be 

important). Abbiamo quindi inserito un nuovo semantic type nella gerarchia di PeTra, denotando 

con esso i termini sopra elencati, e aggiungendo una nuova disambiguazione in corrispondenza 

dell'entrata di avere quando è seguito da un termine appartenente a quella categoria. 

Naturalmente c'è da osservare che non tutti i termini che sono qualità verranno classificati con il 

nuovo semantic type: anche in questo caso le informazioni estratte vengono filtrate da criteri di 

necessità vincolati alla logica della traduzione. Ne segue che le qualità che non richiedono il to be 

non rientreranno in questa nostra categoria. 

8.1.2.3 Derivanti dalla semantica in combinazione con la sintassi 

Partendo dall'annotazione semantica, sono state individuate tutte le parole aventi più di un senso 

nel corpus e tra queste, quelle aventi una diversa traduzione dipendente dal significato. Di queste 

sono state considerate tutte le frasi in cui sono presenti e di esse sono state analizzate le annotazione 

sintattiche con ValTas: ciò ha portato all'individuazione di costruzioni che caratterizzano la parola 

in relazione al significato. Ad esempio 

• articolo: se è modificato da un numerale cardinale individua una parte di una legge 

Tale informazione è stata inserita nel dizionario come disambiguazione in corrispondenza 

dell'entrata articolo, che ammetterà così una specifica costruzione ed una opportuna traduzione. 

8.2 Modifiche alla grammatica 

In questo paragrafo vengono descritti gli interventi più significativi realizzati sulla grammatica, 

suddivisi in base alla tipologia delle regole coinvolte. Le regole della grammatica, infatti, non sono 

tutte dello stesso tipo: alcune si occupano di costruire l'albero di copertura, altre di cancellare 

132


l'alternativa di un albero riconosciuto come mal costruito, ed altre di attribuire una probabilità ad 

una costruzione individuata. 

8.2.1 Raffinamento delle regole per la costruzione dell'albero 

In questo paragrafo vengono descritti alcuni degli interventi effettuati sulle regole per migliorare 

la capacità del sistema di traduzione di costruire l'albero di copertura per l'analisi della frase 

italiana. La mancata, o errata, costruzione dell'albero infatti determina una errata interpretazione 

delle relazioni esistenti tra gli elementi della frase e, conseguentemente, porta ad una traduzione 

scorretta o, in certi casi, totalmente errata. 

8.2.1.1 Participi interpretati come aggettivi 

Questo è un problema di omografi: nella lingua italiana, molti aggettivi sono anche participi 

passati di verbi e spesso la distinzione della corretta POS è strettamente dipendente dalla semantica 

della frase. Tuttavia dobbiamo osservare che nell'ottica di un sistema di traduzione automatica 

questa distinzione diventa rilevante solo quando le traduzioni dell'aggettivo e del participio 

corrispondente sono diverse (es. pulito agg. clean, p.p. cleaned). La scelta che è stata fatta 

all'interno del dizionario di PeTra è stata quella di inserire il lemma aggettivale solo per gli 

omografi aventi diversa traduzione, così da non duplicare inutilmente gli alberi di analisi. Per questi 

ultimi casi si pone il problema di individuare le regole sintattiche per riuscire, dove possibile, a 

distinguere le due accezioni. La grammatica di PeTra cerca di discriminare la corretta analisi 

facendo uso di opportune regole di cancellazione. Ad esempio, in combinazione con gli ausiliari 

viene scelto il lemma verbale. Tale scelta si compie "cancellando" l'alternativa contenente il lemma 

aggettivale. Se invece la forma era in combinazione con un sostantivo, veniva scelto il lemma 

aggettivale: questo provocava il mancato aggancio di alcuni tipi di modificatori da essa dipendenti, 

a causa della non completezza delle regole di PeTra. 

Una frase in cui si presentava questo tipo di problema era: 

[…] lungo un orizzonte indicato convenzionalmente in due anni. 

Con le interrogazioni realizzate sull'annotazione sintattica della Treebank siamo riusciti ad 

ampliare questa casistica. 

Abbiamo realizzato la seguente ricerca: 


Testa verbale 

POS: V 

SFEAT: PPAS 

Dipendente *: 

Introduttore: not"" 

Esprimendo in maniera meno sintetica, rispetto al formalismo descritto, i risultati ottenuti, si può 

dire che siamo giunti alla conclusione che in presenza di complementi indiretti retti da una forma 

che può essere sia aggettivo che verbo, occorre privilegiare il verbo scrivendo opportune regole di 

cancellazione per l'aggettivo. 

133


8.2.1.2 Quanto 

Abbiamo notato l'incapacità della nostra grammatica di legare quanto, come pronome relativo, 

ad un participio passato. Per risolvere il problema abbiamo analizzato le due annotazioni sintattiche 

e rilevato quanto segue. 

In una frase come: 

Contrariamente a quanto avvenuto nelle altre vendite […] 

• nell'annotazione a costituenti, la parte sottolineata risulta essere un SV3 

• nell'annotazione funzionale, esiste una relazione di tipo Mod nella quale quanto è la testa con 

il dipendente verbale avvenire. 

Nella grammatica di PeTra non erano previste regole per legare il pronome quanto ad un 

participio passato. Inserita questa modifica, il sottoalbero di copertura di quella porzione di frase è 

stato costruito correttamente. 

8.2.1.3 Lo - predicato preposto 

Di solito in italiano, a meno di casi particolari, i predicati dei verbi copulativi seguono la forma 

verbale, tranne alcune eccezioni (es.: "non lo è"). Eseguendo interrogazioni del tipo: 

Tipo relazione: pred 


Dipendente *: 

e verificando le costruzioni con la grafica di ValTas, abbiamo individuato la presenza di lo come 

predicato preposto. E' quindi stata inserita la possibilità di ammettere anche questa costruzione 

all'interno della grammatica di PeTra. 

Per completare questa modifica è stato necessario l'inserimento di opportune regole di transfer, 

come verrà descritto nel paragrafo relativo. 

8.2.1.4 Aggettivi come incisi 

Alla grammatica di PeTra mancava la possibilità di associare ad un sostantivo un aggettivo nel 

caso in cui questo fosse espresso come inciso (scritto tra virgole) e seguito da altri complementi 

indiretti, come in frasi del tipo: 

[…] dopo il restyling del gruppo, necessario per […,…] 

La possibilità di ammettere costruzioni di questo tipo è stata dedotta analizzando entrambe le 

annotazioni sintattiche: 

• nel funzionale, esiste una relazione di tipo mod tra il sostantivo e l'aggettivo che regge 

l'inciso (parte sottolineata, nell'esempio) 

134


• nei costituenti, l'inciso è denotato come SA, al cui livello più alto è presente un A (il 

dipendente modificatore della relazione del funzionale), che con il sostantivo S a cui si 

riferisce forma un SN. 

Ammettendo la possibilità di avere costruzioni aggettivali di questo tipo, i sottoalberi di 

copertura vengono costruiti correttamente. 

8.2.1.5 Quest'ultimo 

E' stata ampliata la regola che lega un determiner (articolo, aggettivo dimostrativo,…) ad un 

aggettivo sostantivato. In PeTra non venivano riconosciute, infatti, le sequenze del tipo: 

aggettivo dimostrativo + aggettivo (sostantivato) 

come quest'ultimo. Occorre aggiungere che in PeTra, per convenzione, non viene inserita la 

classificazione di sostantivo per quei lemmi che sono essenzialmente aggettivi: il loro uso come 

sostantivi viene riconosciuto e quindi generato in fase di analisi. 

Nell'annotazione sintattica funzionale, tale relazione mancante è stata individuata con 

l'interrogazione seguente: 



Lemma: ultimo 

POS: S 

Dipendente: 

Lemma : questo 

POS : DD 

MFEAT: MFEAT(testa) 6 

ed inserita come nuova regola che coinvolge le due categorie di termini. 

8.2.1.6 Prima ancora che 

La sequenza prima ancora che non veniva individuata in PeTra. In frasi del tipo: 

[…] era gia' stato concordato prima ancora che si svolgessero le elezioni. 

non veniva riconosciuto che tale costruzione costituisce l'introduttore di una subordinata. 

Anche in questo caso sono state analizzate entrambe le annotazioni sintattiche: 

• nei costituenti: la parte sottolineata è annotata come FS, cioè subordinata con introduttore; 

6 Questa scrittura vuol significare che il valore di MFEAT del dipendente deve essere uguale a quello di MFEAT 

della testa 

135


• nel funzionale: sono presenti le seguenti relazioni: 

mod(ancora, prima) 

mod(concordare, ancora) 

arg(concordare, svolgere). 

Dall'insieme di queste relazioni si riesce a comprendere che l'introduttore della subordinata 

svolge un ruolo di comparazione temporale andando a modificare il verbo della reggente. 

8.2.2 Raffinamento delle regole di cancellazione 

Nella grammatica di PeTra esistono le regole positive, appena esaminate, che si occupano di 

ricostruire l'albero di copertura della frase, e delle regole di cancellazione. Queste ultime sono 

utilizzate per l'eliminazione di particolari accezioni di un lemma sulla base delle informazioni 

morfosintattiche relative all'elemento in esame e a quelli adiacenti. Questo permette di limitare i 

tentativi effettuati dall'analisi vera e propria. 

In tali regole di cancellazione sono definite le condizioni per cui devono scattare, ma anche le 

limitazioni per le quali ciò deve avvenire. 

In questo paragrafo sono descritte sia alcune nuove regole di cancellazione, che alcune nuove 

limitazioni per il loro utilizzo. 

8.2.2.1 Sostantivi interpretati come verbi 

In italiano, molte forme verbali della prima persona dell'indicativo presente risultano essere 

omografi di sostantivi. 

In relazione alle forme verbali omografe di sostantivi, sono state ridefinite le circostanze che 

devono verificarsi affinché scatti la regola di cancellazione del sottoalbero contenente la forma 

interpretata come sostantivo. Tale ridefinizione è stata realizzata con delle euristiche dall'analisi 

delle singole frasi, avendo riscontrato un'alta presenza di questo tipo di errore. La conferma della 

necessità della ridefinizione è venuta dai risultati dell'interrogazione dell'annotazione funzionale 

basata su un solo tratto: 


[ Testa verbale: 

POS: V 

MFEAT: S1IP 

] 

or 

[ Dipendente verbale : 

POS : V 

MFEAT: S1IP 

] 

Infatti, le forme aventi nel tratto Mfeat il valore specificato si sono rivelate statisticamente rare: 

questo ci ha portato a rivedere i criteri con cui, in PeTra, tali analisi erano invece preferite al 

sostantivo. 

136


8.2.2.2 Più 

Un problema che la Treebank ci ha aiutato a risolvere è stata la corretta analisi di più. Nel nostro 

sistema, infatti, non erano presenti sufficienti regole in grado di individuare il corretto ruolo di più. 

Abbiamo quindi estratto dall'annotazione funzionale tutte le presenze di più e il contesto in cui 

queste si trovano. In seguito all'analisi di queste informazioni sono state individuate una nuova 

regola di cancellazione e una limitazione ad una regola di cancellazione esistente. 

Abbiamo, infatti, rilevato che tutti i più che modificano un aggettivo sono avverbi: in PeTra 

abbiamo quindi inserito la regola di cancellazione di più come preposizione se seguito da aggettivo 

(la costruzione errata ricadeva nella più generale regola positiva per la quale una preposizione può 

precedere un aggettivo). 

E' stata ampliata la limitazione riguardante la regola di cancellazione di più come preposizione: 

più come preposizione non veniva cancellato solo nel caso in cui fosse seguito da un numerale. 

Adesso non viene cancellato anche nel caso sia seguito da un determiner. 

8.2.2.3 Come 

Le frasi costruite come: 

Non si tratta di prendere > , come paventa il ministro Maroni . 

creavano problemi di riconoscimento in PeTra, in quanto il come era identificato come 

avverbio interrogativo e il soggetto posposto veniva scambiato per complemento oggetto. 

L'analisi delle costruzioni che coinvolgono il come ha portato all'individuazione di situazioni del 

tipo: 

• nei costituenti: una F introdotta da come con POS = Conj; 

• nel funzionale: verbo transitivo di modo finito, 

tale verbo svolge ruolo di testa in una relazione di soggetto, con soggetto 

posposto, 

è assente la relazione di complemento oggetto. 

Il problema era dovuto all'esistenza, nella grammatica di PeTra, di una regola di cancellazione 

per eliminare i sottoalberi relativi a frasi non interrogative, prive (apparentemente!) di soggetto. 

L'unica possibilità di interpretare frasi come quella citata era di considerarla interrogativa e con 

soggetto sottinteso. La regola che portava alla cancellazione descritta è stata inibita nel caso in cui 

la F dipenda da come in qualità di congiunzione. 

8.2.3 Modifica delle preferenze e delle restrizioni 

Il terzo tipo di regole si occupa di assegnare delle penalità: in caso di ambiguità si procede 

costruendo tutti gli alberi possibili, ma non tutti con lo stesso valore di probabilità. Questa 

informazione viene utilizzata nei casi in cui non si riesca ad eliminare l'ambiguità procedendo con 

la costruzione dell'albero: quelli con maggiore penalizzazione vengono eliminati. Nel seguito sono 

esposte alcune delle restrizioni realizzate a partire dalle due annotazioni funzionali. 

137


8.2.3.1 Sono 

Anche in questo caso la presenza di due omografi impediva la classificazione corretta. Rilevando 

nel corpus una scarsa presenza di sono come prima persona dell'indicativo presente, abbiamo deciso 

di inserire una penalità in corrispondenza di quella forma: al momento della costruzione dell'albero, 

in caso di completa ambiguità, viene data la preferenza alla terza persona plurale. 

8.2.3.2 Ieri 

Gli avverbi di tempo compaiono spesso come teste in relazioni di tipo Mod nell'annotazione 

sintattica. Il modificatore può essere una congiunzione (anche ieri) o un avverbio (proprio ieri) con 

i quali genera un SAVV nell'annotazione sintattica a costituenti, o un sostantivo (ieri pomeriggio) 

con il quale genera un SN. In questo secondo caso la costruzione non può essere ammessa con tutti i 

sostantivi, in particolare deve essere evitata la costruzione con gli SP. Ad esempio, una frase in cui 

PeTra costruiva un albero errato, conteneva la sequenza: 

[...] ha spiegato ieri Mandela […] 

dove ieri e Mandela andavano a generare un sostantivo composto. L'interrogazione della 

Treebank non ha fatto individuare nessuna situazione di questo tipo, ma solo quelle dei tre tipi sopra 

descritti. Per risolvere tale situazione è stata implementata la restrizione sul tipo di nomi che 

possono andare a modificare un avverbio di tempo. 

8.2.3.3 Dopo 

Il problema di dopo è dovuto alla corretta discriminazione del suo uso come preposizione o come 

avverbio. Nell'annotazione a costituenti, la sua presenza come preposizione fa etichettare tutto il 

gruppo che regge come SP, ma per comprendere le relazioni di cui tenere conto nella 

disambiguazione risulta fondamentale analizzare l'annotazione funzionale. Abbiamo infatti 

osservato che dopo non può essere avverbio quando è immediatamente seguito da un sostantivo che 

ha ruolo di modificatore di un verbo per il quale la relazione di soggetto sia già stata saturata. 

Facendo un esempio, nella porzione di frase: 

[…] dopo la libertà politica venga davvero anche l'eguaglianza […] 

abbiamo le seguenti annotazioni funzionali: 

mod(venire, libertà) 

sogg(venire, eguaglianza) 

E' quindi stata modificata la regola che prende dopo come avverbio se valgono le condizioni: 

- dopo è seguito da un sintagma nominale, con il quale crea un gruppo preposizionale 

- il verbo da cui dipende il gruppo preposizionale ha lo slot soggetto già saturato 

La modifica comporta una penalizzazione sulla scelta di dopo come avverbio se la verifica delle 

condizione elencate dà esito positivo. 

138


8.3 Modifiche al transfer 

Le modifiche apportate al dizionario e alla grammatica, grazie alle informazioni reperite nella 

Treebank, hanno permesso di riconoscere nuove strutture. In alcuni casi è stato necessario scrivere 

anche regole di transfer strutturale per assicurare una corretta traduzione dell'intera frase. 

Nel seguito sono descritti alcuni degli interventi realizzati. Anche in questo caso eviteremo di 

utilizzare la sintassi interna di PeTra al fine di consentire una più facile lettura. 

8.3.1 Lo - predicato preposto 

Come già accennato, ammettere la costruzione con lo come predicato preposto ha portato alla 

costruzione di un nuovo tipo di albero di copertura per la frase italiana. Ad esso dovrà ora 

corrispondere un opportuno albero per la costruzione della frase inglese. Tale "ristrutturazione" 

avviene per mezzo delle regole di transfer. 

In questo caso è stata inserita una regola per la cancellazione del nodo lo, riconosciuto come 

predicato, e ne viene aggiunto uno con il pronome che svolge il ruolo di soggetto espresso. 

Ad esempio, la frase: 

non lo è 

deve diventare 

it is not 

attraverso l'eliminazione del predicato e l'aggiunta del soggetto espresso calcolato sulla flessione 

del verbo. 

8.3.2 Subordinate infinitive 

L'inglese prevede una categoria di verbi che non possono reggere delle infinitive, cosa che non 

trova corrispondenza in italiano. Per tali verbi l'infinitiva "italiana" viene trasformata in un'oggettiva 

"inglese", attraverso una opportuna ristrutturazione dell'albero di copertura nel passaggio dalla 

lingua sorgente alla lingua destinazione. 

Ciò permette ora di passare da 

a: 

Dico di andare 

I say that I go. 

8.3.3 Milioni/miliardi di… 

Nel corpus analizzato sono molto frequenti frasi con espressioni in cui un numerale è seguito da 

"milioni/miliardi" seguito ancora da un complemento di specificazione contenente un'unità di 

misura. Questa situazione, in inglese, non può essere tradotta letteralmente. In inglese, infatti, 

l'espressione italiana 

139


due miliardi di sterline 

deve essere tradotta 

two billion pounds. 

Per far questo è stata introdotta una regola di transfer per la cancellazione della preposizione di 

in corrispondenza della situazione appena descritta. Occorre sottolineare che il buon funzionamento 

di questa regola di transfer non può prescindere dal corretto uso del semantic type relativo alle unità 

di misura. Come già descritto, attraverso l'uso della Treebank sono state inserite numerose 

informazioni semantiche che non possono che avere effetti positivi anche in questo contesto. 

8.3.4 Mesi 

Un'altra espressione piuttosto frequente nel corpus è l'informazione temporale espressa come 

nel mese di Marzo 

Anche a questa forma non corrisponde una traduzione letterale, bensì: 

in March 

Per realizzare tale passaggio è stata inserita una regola di transfer che, riconosciuta la situazione, 

elimina i nodi mese e di, e trasforma la preposizione articolata, che introduce il gruppo, in 

preposizione semplice. 

8.4 Modifiche all'interfaccia software 

Nel corpus esaminato è molto frequente la presenza di forme legate da un trattino come 

part-time, ma anche come diritto-dovere. Risulta evidente che le due situazioni non possono essere 

trattate nella stessa maniera: nel primo caso i due termini risultano privi di significato in italiano se 

usati singolarmente, nel secondo sono forme indipendenti che vengono combinate per sottolineare 

una particolare circostanza. 

Per trattare il primo caso sono state inserite delle opportune entrate nel dizionario, per le altre 

viene ammessa la costruzione di una forma come composizione di due. Inoltre, poiché le situazioni 

che possono presentarsi possono essere varie e strettamente legate al tipo di corpus, ci siamo resi 

conto che non sempre si può prevedere a priori il giusto comportamento. Si è quindi deciso di 

modificare l'interfaccia software, per permettere all'utente del sistema di traduzione di scegliere il 

trattamento più appropriato al testo in esame. Questa scelta è conseguenza dell'analisi dei testi: non 

in tutti viene utilizzata la stessa logica d'uso del trattino, che risulta strettamente legata alla 

sensibilità dell'autore. 

Il software è stato inoltre modificato per permettere una valutazione oggettiva del lavoro svolto: 

all'utente vengono ora fornite delle informazioni relative agli alberi di analisi costruiti, come il 

numero di alberi non chiusi o le ambiguità non risolte. 

140


8.5 Osservazioni 

8.5.1 Ricerche infruttuose 

In italiano un determinato introduttore può richiedere uno specifico modo verbale nella 

subordinata che introduce. 

Conoscendo l'importanza di disporre, per la costruzione della frase, dell'elenco completo di tali 

introduttori, abbiamo acceduto all'annotazione sintattica funzionale alla loro ricerca, secondo 

interrogazioni in grado di individuare due proposizioni, in cui la dipendente ha il verbo al 

congiuntivo e l'introduttore specificato: 

Tipo relazione: arg 


POS: V 

Dipendente verbale : 

POS: V 

Introduttore: not"" 

MFEAT: ..C. 7 

ma nella parte di corpus selezionata abbiamo riscontrato pochissime situazioni di quel tipo e tutte 

già previste. E' stata sottolineata questa situazione per evidenziare come i risultati raggiunti siano 

strettamente legati al corpus esaminato e, quindi, alle situazioni in esso presenti. Nelle specifiche di 

annotazione della Treebank erano previste contesti di annotazione a noi utili: solo al momento 

dell'elaborazione delle informazioni è risultata l'assenza di tali informazioni nella porzione di 

corpus da noi selezionato su criteri di tipo Relational Data Analysis (RDA). 

8.5.2 Analisi del lavoro svolto 

La parte di verifica dei miglioramenti ottenuti in dipendenza delle modifiche apportate verrà 

realizzata durante la successiva linea, ma alcune osservazioni possono già essere effettuate adesso 

sulla base delle analisi svolte durante l'attuale lavoro di raffinamento. 

Probabilmente il miglioramento che attraverso misurazioni potremo ottenere nella fase finale non 

sarà proporzionale al lavoro svolto, o meglio, lo sarà in una porzione di corpus, ma non su tutto: nei 

testi selezionati, infatti, ci sono delle frasi molto lunghe che si articolano in numerose subordinate 

ricche di incisi. Siamo convinti che, in tali frasi, possano presentarsi dei miglioramenti, specie a 

livello dei singoli sottoalberi, ma immaginiamo che difficilmente possano essere costruiti degli 

alberi di completa copertura. Su frasi più lineari e ben costruite dovrebbero, invece, esserci dei 

miglioramenti certo consistenti. 

7 con ..C. si indicano tutte quelle sequenze di 4 caratteri aventi in terza posizione una C e un qualunque carattere 

nelle altre posizioni. In questo caso significa che il verbo deve essere di modo congiuntivo 

141


Sin qui, la validità della Treebank come sorgente di informazione sembra indubbia, avendo 

consentito di estrarre un gran numero di informazioni, sia di tipo previsto che imprevisto, scaturito 

dall'esame concreto della risorsa. Indubbiamente, dopo la comparazione dei risultati raggiunti con il 

sistema di traduzione modificato, si potrà articolare meglio un discorso di valutazione. Quello che si 

può già dire ora è che, dopo averla analizzata concretamente, possono nascere nuovi spunti e 

suggerimenti relativi al tipo delle annotazioni inserite. 

142


Riferimenti bibliografici 

Alonge, A., Bertagna, F., Calzolari, N., Roventini A. 1999. The Italian Wordnet. In: EWN CD-Rom 

(anche: http://www.hum.uva.nl/~ewn). 

Atkins B.T., J. Kegl, B. Levin, 1988, “Anatomy of a Verb Entry: from Linguistic Theory to 

Lexicographic Practice”, International Journal of Lexicography 1, pp. 84-126. 

Bémová A., J. Hajic, B. Hladká, J. Panenová, 1999, “Syntactic tagging of the The Prague 

dependency Treebank”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les 

corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, 

disponibili all’indirizzo http://www.biomath.jussieu.fr/ATALA/. 

Bresnan J., (ed.), 1982, The Mental Representation of Grammatical Relations, The MIT Press, 

Cambridge-Massachusetts. 

Calzolari N., O. Corazzari, (in corso di pubblicazione), “Senseval/Romanseval: the framework for 

Italian”, Computers and the Humanities, Kluwer Academic Publishers, Dordrecht. 

Calzolari N., O. Corazzari, M. Monachini, A. Roventini, 1996, “Speech Act and Perception Verbs: 

Generalizations and Contrastive Aspects”, in EURALEX-96 Proceedings, Goteborg University, 

pp. 73-83. 

Calzolari N., M. Baker, J.G. Kruyt (eds.), 1995, Towards a network of European Reference 

Corpora, Report of the NERC Consortium Feasibility Study, Pisa, Giardini. 

Carroll J., E. Briscoe, 1996, “Apportioning development effort in a probabilistic LR parsing system 

through evaluation”, in Proceedings of the ACL/SIGDAT Conference on Empirical Methods in 

Natural Language Processing, University of Pennsylvania, Philadelphia, PA, pp. 92-100. 

Carroll J., E. Briscoe, A. Sanfilippo, 1998, “Parser Evaluation: a Survey and a New Proposal”, in 

Proceedings of the First International Conference on Language Resources and Evaluation, 

Granada, Spain, 28-30 May, pp. 447-454. 

Casadei F., 1996, Metafore ed espressioni idiomatiche, Universita’ di Roma, La Sapienza, 

Dipartimento di Scienze del Linguaggio, Roma, Bulzoni Editore. 

Chomsky N., 1986, Barriers, MIT Press, Cambridge MA. 

Corazzari O., 1992, Phraseological Units, Pisa, NERC Working Paper, NERC-92-WP8-68. 

Corazzari O., N. Calzolari, A. Zampolli, 1999, ELSNET: Internal Report, ILC, Pisa. 

Corazzari O., M. Monachini, 1995, ELSNET: Italian Corpus Sample, ILC-CNR, Pisa. 

Cruse D.A., 1986, Lexical Semantics, Cambridge, Cambridge University Press. 

Danlos L., 1981, “La morphosyntaxe des espressions figées”, Langages 63, Parigi, Larousse. 

Danlos L., 1988, “Les phrases à verbe support etre Prép”, Langages 90, Parigi, Larousse. 

143


Delmonte R. (1999), From Shallow Parsing to Functional Structure, in Atti del Workshop AI*IA 

"Elaborazione del Linguaggio e Riconoscimento del Parlato", IRST Trento, pp.8-19. 

Delmonte R. (2000), Shallow Parsing And Functional Structure In Italian Corpora, LREC-2000 

Proceedings, Athens, June 2000. 

Fass D., 1991, “met*: A Method for Discriminating Metonymy and Metaphor by Computer”, 

Computational Linguistics 17(1), pp. 49-90. 

Federici S., S. Montemagni, V. Pirrelli, 1999, “SENSE: an Analogy-based Word Sense 

Disambiguation System”, in corso di pubblicazione in M. Light, M. Palmer (eds.), Special 

Issue of Natural Language Engineering on Lexical Semantic Tagging. 

Fellbaum C., J. Grabowski, S. Landes, 1998 “Performance and Confidence in a Semantic 

Annotation Task”, in Wordnet, An Electronic Lexical Database, Cambridge, MIT Press. 

Gale A. W., K. W. Church, D. Yarowsky, 1992, “A Method for Disambiguating Word Senses in a 

Large Corpus”, Computers and the Humanities 26, pp. 415-439. 

Garside R., G. Leech, G. Sampson, (a cura di), 1987, The computational analysis of English. A 

corpus-based approach, London, Longman. 

Garzanti, 1994, Dizionario Garzanti di Italiano, Milano, Garzanti Editore. 

Goggi S., L. Biagini, E. Picchi, R. Bindi, S. Rossi, R. Marinelli, 1997, Italian Corpus 

Documentation, LE-PAROLE WP2.11, ILC, Pisa. 

Greenbaum S. (ed.), 1996, English Worldwide: The International Corpus of English, Oxford, 

Clarendon Press. 

Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Boston, Kluwer Academic 

Publishers. 

Gross M., 1985, “Sur les determinants dans les espressions figées”, Langages 79, Parigi, Larousse. 

Gross M., 1986, “The Representation of Compound Words”, in 11 th International Conference on 

Computational Linguistics, Proceedings of Coling ‘86, Bonn. 

Gross M., 1988, “Les limites de la phrase figées”, Langages 90, Parigi, Larousse. 

Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi. 

Hanks P., 1996, “Contextual Dependency and Lexical Sets”, International Journal of Corpus 

Linguistics 1, pp. 75-98. 

Hudson R., 1984, Word Grammar, Basil Blackwell, Oxford. 

Hudson R., 1988, “The Linguistic Foundations for Lexical Research and Dictionary Design”, 

International Journal of Lexicography, 1 (4), pp. 287-312. 

Karlsson, F., Voutilainen, A., Heikkila, J. e A. Anttila (eds.). 1995. Constraint Grammar, a 

language-independent system for parsing unconstrained text. Berlin e New York: Mouton de 

Gruyter. 

144


Kilgarriff A., 1993, “Dictionary word sense distinctions: An enquiry into their nature”, Computers 

and the Humanities 26, pp. 365-387. 

Landes S., C. Leacock, R. I. Tengi, 1998, “Building Semantic Concordances”, in Wordnet, An 

Electronic Lexical Database, Cambridge, MIT Press. 

Leech G., R. Barnett, P. Kahrel, 1996, Guidelines for the standardization of syntactic annotation of 

corpora, EAGLES Document EAG-TCWG-SPT/P. 

Leech G., R. Garside, 1991, “Running a grammar factory: the production of syntactically analysed 

corpora or ‘treebanks’“, in Johansson S., Stenstrom A.B., English Computer Corpora: Selected 

Papers and Research Guide, Berlin, Mouton de Gruyter, pp. 15-32. 

Lenci, A., F. Busa, N. Ruimy, E. Gola, M. Monachini, N. Calzolari, A. Zampolli, El. Guimier, G. 

Recourcé, L. Humphreys, U. Von Rekovsky, A. Ogonowski, C. McCauley, W. Peters, I. Peters, 

M. Villegas (1998). ‘Specifications’, SIMPLE Work, Linguistic Deliverable D2.1, Pisa. 

Lenci A., S. Montemagni, V. Pirrelli, C. Soria, K. Netter, M. Rajman, 1999 a, Corpora for 

Evaluation, WP5, ELSE (Evaluation in Language and Speech Engineering), LE4-8340. 

Lenci A., S. Montemagni, V. Pirrelli, C. Soria, 1999 b, “FAME: a Functional Annotation Metascheme 

for Multimodal and Multi-lingual Parsing Evaluation”, in Proceeding of the ACL99 

Workshop on Computer-Mediated Language Assessment and Evaluation in Natural Language 

Processing, University of Maryland, June 22 nd . 

Lenci A., Montemagni S., Pirrelli V., Soria C., 2000. Where opposites meet. A Syntactic Metascheme 

for Corpus Annotation and Parsing Evaluation. LREC-2000 Proceedings, Athens, June 

2000. 

Lin D., 1998, “A dependency.based method for evaluating broad-coverage parsers”, Natural 

Language Engineering 4(2), pp. 97-114. 

Marciniak M., A. Mykowiecka, A. Przepiórkowski, A. Kupsc, 1999, “Construction of an HPSG 

treebank for Polish”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les 

corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, 

disponibili all’indirizzo http://www.biomath.jussieu.fr/ATALA/. 

Marcus M., M.A. Marcinkiewicz, B. Cantorini, 1993, “Building a Large Annotated Corpus of 

English: The Penn Treebank”, Computational Linguistics 19(2), pp. 313-330. 

Marcus M., G. Kim, M.A. Marcinkiewicz, R. McIntyre, R. Bies, A. Ferguson, M. Katz, K. 

Schasberger, 1994, “The Penn Treebank: Annotating predicate argument structure”, in 

Proceedings of the Human Language Technology Workshop, March 1994, Morgan Kaufman 

Publishers Inc., San Francisco, CA. 

MATE, 1998, Multilevel Annotation Tools Engineering, . 

Meyers A., K. Macleod, R. Grishman, 1994, “Standardization of the Complement Adjunct 

Distinction”, in Proceedings of COLING-94. 

Monachini M., 1995, ELM-IT: An Italian Typed Incarnation of The EAGLES Lexicon 

Morphosyntactic Specifications, Work in progress, ILC, Pisa. 

145


Monachini, M, 1996 ELM-IT: EAGLES Specifications for Italian Morphosyntax Lexicon 

Specification and Classification Guidelines, EAGLES Report, Pisa. 

Monachini M., A. Roventini, A. Alonge, N. Calzolari, O. Corazzari, 1994, “Linguistic Analysis of 

Italian Perception and Speech Act Verbs”, DELIS Working Paper, ILC, Pisa. 

Montemagni S., 1990, Definition, General Features and Taxonomy of Multi Word Expressions, 

ILC, Pisa. 

Montemagni S., 1992, Syntactically annotated corpora: comparing the underlying annotation 

schemes, Technical Report NERC-67, ILC Pisa. 

Montemagni S., 1995, Subject and Object in Italian Sentence Processing, PhD Thesis, University 

of Manchester Institute of Science and Technology (UK), Centre for Computational 

Linguistics, Settembre 1995. 

Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Zampolli A., Fanciulli F., 

Massetani M., Raffaelli R., Basili R., Pazienza M.T., Saracino D., Zanzotto F., Mana N., 

Pianesi F., Delmonte R., 2000. The Italian Syntactic-Semantic Treebank: Architecture, 

Annotation, Tools and Evaluation. Proceedings of the COLING Workshop on "Linguistically 

Interpreted Corpora (LINC-2000)", Luxembourg, 6 August 2000, pp. 18-27. 

Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Lenci A., Zampolli A., 

Fanciulli F., Massetani M., Raffaelli R., Basili R., Pazienza M.T., Saracino D., Zanzotto F., 

Mana N., Pianesi F., Delmonte R., 2001 "Building the Italian Syntactic-Semantic Treebank", in 

corso di stampa in Anne Abeillé (a cura di), Building and using syntactically annoted corpora, 

Language and Speech series, Kluwer, Dordrecht; anche disponibile all'indirizzo 

http://www.talana.linguist.jussieu.fr/~nbarrier/treeBank/toc.html. 

Moon R., 1987, “The Analysis of Meaning, in Looking Up, An Account of the Cobuilt Project”, in 

Lexical Computing, Birmingham, Collins ELT. 

Renzi L. (a cura di), 1988, Grande grammatica italiana di consultazione, Vol.I, Bologna, Il Mulino. 

Renzi L., Salvi G. (a cura di), 1991, Grande grammatica italiana di consultazione, vol. 2, Il 

Mulino, Bologna. 

Ruimy N., O. Corazzari, 1991, Be Prep X Frozen Expressions, Eurotra n.13, ILC, Pisa. 

Palazzi, Folena, 1995, Dizionario della lingua italiana. 

PAROLE, 1996-1998, Preparatory Action for Linguistic Resources Organization for Language 

Engineering, LE-4017, Language Engineering. 

Picchi E., 1994, “Pi-Tagger: A tagger and lemmatizer for Italian”, in EURALEX-94 Proceedings, 

Amsterdam. 

Sampson G., 1987, “The grammatical database and parsing system”, in Garside R., Leech G., Sampson 

G., (a cura di), pp. 82-96. 

Sampson G., 1995, English for the Computer, Oxford, Clarendon Press. 

146


Sampson G., 1998, A proposal for improving the measurement of parse accuracy, manoscritto non 

pubblicato. 

Samvelian P., 1990, Les constructions etre Prep X: Formalisation et traitement dans le cadre du 

project EUROTRA, Memoire de DEA, Universite Paris 7, Parigi. 

Sandoval M., A. Lopez Ruesga, S. e F. Sanchez León, 1999, Spanish Tree Bank: Specifications, 

Version 4, Manoscritto. 

Scalise S., 1995, “La formazione delle parole”, in Grande grammatica italiana di consultazione, 

Vol.III, pp. 471-514, Bologna, Il Mulino. 

Schwarze C., 1995, Grammatik der italienischen Sprache 2. verbesserte Auflage, Max Niemeyer 

Verlag, Tubingen. 

Sinclair J., 1996, “The Empty Lexicon”, International Journal of Corpus Linguistics 1, pp. 99-119. 

Somers H., 1984, “On the validity of the Complement-Adjunct Distinction in Valency Grammar”, 

in Linguistics, 22, pp. 507-530. 

SPARKLE, Shallow Parsing and Knowledge Extraction for Language Engineering, 

. 

Ten Hacken P., H. Maas, B. Maegaard, 1991, “Dictionaries in Eurotra”, in The Eurotra Linguistic 

Specifications, C. Copeland, J. Durand, S. Krawer, B. Maegaard, (eds.), Luxembourg, 

Commission of the European Communities. 

Thorsten B., S. Wojciech, H. Uszkoreit, 1999, “Syntactic annotation of a German newspaper 

corpus”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les corpus annotés 

pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, disponibili 

all’indirizzo http://www.biomath.jussieu.fr/ATALA/. 

Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi. 

Voorhees E. M., 1998, “Using WordNet for Text Retrieval”, in Wordnet, An Electronic Lexical 

Database, Cambridge, MIT Press. 

Zingarelli, 1997, Lo Zingarelli 1997 Vocabolario della Lingua Italiana, Bologna, Zanichelli 

Editore. 

147


Appendici 

1. Annotazione a costituenti: rappresentazione in XML 

2. Annotazione funzionale: rappresentazione in XML 

3. Annotazione semantico-lessicale: rappresentazione in XML 

148


Appendice 1 - Annotazione a costituenti: rappresentazione in XML 

1 Dtd 

La formalizzazione dell’annotazione a costituenti, come quella degli altri livelli di annotazione, 

viene prodotta sulla base del linguaggio di markup XML (eXstensible Markup Language). Il 

linguaggio XML prevede una DTD (Document Type Definition), ossia un file di riferimento per la 

codifica dei dati, che contiene al suo interno le regole di definizione dei tag e indica gli elementi ed 

il loro ordine all’interno del documento XML. Tale architettura prevede che la codifica avvenga per 

frase (elemento ). Gli elementi contengono, incassati al loro interno, o uno o più 

elementi o uno o più elementi . A loro volta gli elementi contengono, 

incassati al loro interno, o uno o più elementi o uno o più elementi . Questi ultimi 

elementi puntano in maniera indiretta alle occorrenze lessicali nel corrispondente file morfologico. 

Ricordiamo che l’annotazione a costituenti, come anche quella funzionale e quella semantica, 

presuppone un livello di annotazione morfo-sintattica (la cui DTD è documentata nel Rapporto 

della Linea 1.2). Questo vuol dire che nei files di annotazione a costituenti, come anche nei files 

relativi agli altri tipi di annotazione, troviamo dei puntatori o identificatori, codificati come tratti, i 

quali dal file di annotazione puntano al file con l’annotazione morfosintattica. Ciò è illustrato dagli 

esempi che seguono. 

1.1 L’elemento 

Questo elemento può contenere al suo interno uno o più elementi , oppure uno o più 

elementi . L’elemento è descritto dai seguenti tratti: 

id 

init 

end 

 

[ASCII] 

[ASCII] 

[ASCII] 

Il tratto id è un tratto di identificazione e associa ciascun elemento ad una stringa di 

caratteri [ASCII] i quali indicano il file morfologico e la singola frase, interna ad esso, a cui 

l’elemento in considerazione fa riferimento. 

Il tratto init è un tratto i cui possibili valori sono identificatori di parole morfologiche, in questo 

caso specifico il valore del tratto init identifica la prima parola morfologica della frase che stiamo 

trattando. 

Il tratto end è un tratto i cui possibili valori sono identificatori di parole morfologiche, in questo 

caso specifico il valore del tratto end identifica l’ultima parola morfologica della frase che stiamo 

trattando. 

Riportiamo qui di seguito un esempio che mette in parallelo il file morfologico di una frase ed il 

file di annotazione a costituenti della stessa frase: 

149


Xml Ex. 00 Il tesoro mette sul mercato il 51% a 2.200-2.700 lire per 

azione. 

Il 

Tesoro 

mette 

sul 

mercato 

il 

51% 

a 

2.200-2.700 

lire 

per 

azione 

. 

mword.xml 

cost.xml 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

150



L’elemento , corrispondente al costituente frasale, può contenere al suo interno o uno o 

più elementi o uno o più elementi . 

Segue un esempio dove abbiamo evidenziato gli elementi insieme al file morfologico di 

riferimento. 

Xml Ex. 01 Bruxelles all’Italia: urgente ridurre il deficit. 

Bruxelles 

all’ 

Italia 

: 

urgente 

ridurre 

il 

deficit 

. 

mword.xml 

cost.xml 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

151


L’elemento nodo è descritto da un unico tratto, il tratto type. L’inventario dei suoi possibili 

valori, dichiarati al livello di DTD come di tipo CDATA, è riportato nella sezione sulle specifiche 

di annotazione per il livello a costituenti (sezione 4.2). 

type 

 

CDATA 

Xml Ex. 02 Bruxelles all’Italia: urgente ridurre il deficit. 

… 

il 

deficit 

… 

… 

 

 

 

 

… 

mword.xml 

cost.xml 


L’elemento ha solamente un attributo, mw_id. Il tratto mw_id è un tratto di 

identificazione e associa ciascun elemento ad una stringa di caratteri [ASCII] i quali 

indicano la parola morfologica a cui l’elemento in considerazione fa riferimento. 

mw_id 

 

[ASCII] 

Xml Ex. 03 SERVIZI. 

SERVIZI 

. 

mword.xml 

cost.xml 

 

 

 

 

 

 

 

 

152


Appendice 2 - Annotazione funzionale: rappresentazione in XML 

2 DTD 

Al livello funzionale, la codifica XML dei dati annotati avviene per frase. L’unità minima di 

annotazione è costituita dalla frase, designata nella DTD dall’elemento . 

Ogni elemento può contenere, al suo interno, la lista dei partecipanti alle 

relazioni (con le relative proprietà) seguita dalla lista delle relazioni funzionali tra i partecipanti, 

corrispondenti rispettivamente agli elementi di tipo e di tipo . Gli elementi 

puntano alle relative parole morfologiche nel file di input con l’annotazione morfosintattica; 

gli elementi di tipo descrivono le relazioni funzionali tra i vari elementi di 

tipo . 

Gli elementi per questo livello di annotazione sono ricapitolati di seguito, mentre per la 

descrizione dei tratti associati ai vari elementi rimandiamo alle sezioni successive: 

 

 

 

 

2.1 L’elemento (partecipante) 

Questo elemento descrive il partecipante in una qualsiasi relazione funzionale. La codifica 

dell’elemento presuppone l’annotazione morfo-sintattica del testo. Questo vuol dire, nel 

dettaglio, che tramite la codifica del tratto dell’elemento , lo stesso elemento 

punta direttamente alla corrispondente parola morfologica (per l’architettura modulare 

della Treebank di SI-TAL si rinvia al Rapporto della Linea 1.2). Diamo di seguito una 

esemplificazione di quanto detto: 

Xml Ex.00 I due malavitosi sono stati spesso segnalati in diverse occasioni 

mword.xml 

I 

due 

malavitosi 

sono 

stati 

spesso 

segnalati 

in 

diverse 

occasioni 

. 

funct.xml 

 

153


 

 

 

 

 

 

 

 

 

 

Un elemento di tipo è descritto dai seguenti tratti: quantificazione, cardinalita, 

definitezza, aux, perifra, introdep, caso, status, ruolo, modo, diat, syn_form, 

reflex, pers, num, gen, introsim, partec_id. 

 

quantificazione 

cardinalita 

definitezza 

aux 

perifra 

introdep 

caso 

status 

ruolo 

modo 

CDATA 

CDATA 

CDATA 

CDATA 

CDATA 

CDATA 

dativo, accusativo 

aperto, chiuso 

agente, locativo, temporale 

comparativo, ambito, 

superlativo 

gerundio, part_pass,inf, partic.pres 

CDATA 

diat 

syn_form 

CDATA 

reflex 

CDATA 

pers 1, 2, 3 

num 

sing, plur 

gen 

mas, fem 

introsim 

CDATA 

partec_id 

[ASCII] 

href 

 

154


In quanto segue, riportiamo una esemplificazione di ogni tratto. Per una discussione dettagliata 

dei tratti associati ai partecipanti ad una relazione funzionale si rinvia alle sezioni 5.1.1.1.2 e 

5.1.1.2.1. 

2.1.1 quantificazione 

Il tratto quantificazione viene utilizzato nei casi in cui un partecipante sia quantificato. Il tratto 

quantificazione ha come possibili valori CDATA, ossia qualsiasi stringa di testo. 

Xml Ex. 01 Ho visto molti gatti 

mword.xml 

Ho 

visto 

molti 

gatti 

funct.xml 

… 

 

… 

2.1.2 cardinalita 

Il tratto cardinalita viene utilizzato nei casi un cui un partecipante abbia una certa cardinalità. Il 

tratto cardinalita ha come valore CDATA, ossia qualsiasi stringa di testo. 

Xml Ex. 02 Ho visto due gatti 

Ho 

visto 

due 

gatti 

mword.xml 

funct.xml 

… 

 

… 

2.1.3 definitezza 

Il tratto definitezza viene utilizzato per descrivere la definitezza di un partecipante. L’inventario 

dei possibili valori associati al tratto definitezza è riportato nella sezione 5.1.1.1.2.3. sulle 

specifiche di annotazione per il livello funzionale (al livello di DTD sono dichiarati come di tipo 

CDATA). 

155


Xml Ex. 03 Ho visto il gatto 

Ho 

visto 

il 

gatto 

mword.xml 

funct.xml 

… 

 

… 

2.1.4 aux 

aux viene usato nei casi in cui un partecipante verbale occorra in costruzioni perifrastiche con un 

verbo ausiliare. Possibili valori sono essere e avere (al livello di DTD sono dichiarati come 

CDATA). Cfr sezione 5.1.1.1.2.3. 

Xml Ex. 04 Ho visto i gatti 

Ho 

visto 

i 

gatti 

mword.xml 

funct.xml 

… 

 

… 

2.1.5 perifra 

Il tratto perifra viene utilizzato nei casi in cui un partecipante verbale sia utilizzato in 

costruzioni passive con essere o venire, e nei casi in cui un partecipante verbale sia utilizzato in 

costrutti modali e aspettuali. I possibili valori, dichiarati al livello di DTD come CDATA, sono 

elencati nella sezione 5.1.1.1.2.3. 

Xml Ex. 05 Devono arrivare domani 

mword.xml 

Devono 

arrivare 

domani 

funct.xml 

… 

 

… 

156


2.1.6 introdep 

Il tratto introdep è usato per specificare l’elemento grammaticale che “introduce” un dipendente 

che è parte di una delle seguenti relazioni funzionali: dip; sogg; comp; mod; arg; pred; 

non_pred; ogg_d; obl. L’insieme dei suoi possibili valori è aperto (ed è dichiarato come 

CDATA nella DTD). 

Xml Ex.06 Camminava mentre parlava 

mword.xml 

Camminava 

mentre 

parlava 

funct.xml 

… 

 

 

 

… 

2.1.7 caso 

Il tratto di caso è usato nella descrizione di dipendenti di tipo pronominale. I suoi possibili valori 

sono: dativo e accusativo. 

Xml Ex.07 gli parlo domani 

mword.xml 

gli 

parlo 

domani 

funct.xml 

… 

 

… 

2.1.8 status 

Il tratto status è associato a partecipanti di forma frasale ed è usato per discriminare tra soggetti 

e complementi frasali con la valenza soggetto saturata e quelli con soggetto controllato da 

dipendenze esterne. I possibili valori associati a questo tratto sono: aperto e chiuso. Cfr sezione 

5.1.1.1.2.1. 

Xml Ex.08 Giovanni decise di partire 

mword.xml 

Giovanni 

decise 

di 

partire 

157


funct.xml 

… 

 

 

… 

 

… 

Xml Ex. 09 Giovanni disse che Maria sarebbe partita domani 

mword.xml 

Giovanni 

disse 

che 

Maria 

sarebbe 

partita 

domani 

funct.xml 

… 

 

 

 

… 

2.1.9 ruolo 

Il tratto di ruolo è usato per fornire una caratterizzazione semantica alla relazione funzionale, 

ovvero per rendere esplicito, quando necessario, il ruolo semantico di un dipendente. Il tratto di 

ruolo può assumere i valori di agente, temporale, locativo, compar(ativo), superlativo e 

ambito e viene assegnato per specializzare l’interpretazione della relazione funzionale, fornendo 

così elementi utili per l’interpretazione semantica della relazione in corso di annotazione (cfr 

sezione 5.1.1.1.2.1). 

Xml Ex. 10 è partito da Roma 

mword.xml 

è 

partito 

da 

Roma 

funct.xml 

… 

 

 

158


 

… 

Xml Ex. 11 fu ucciso da Bruto 

mword.xml 

fu 

ucciso 

da 

Bruto 

funct.xml 

… 

 

 

 

… 

Xml Ex. 12 è partito da un’ora 

mword.xml 

è 

partito 

da 

un’ 

ora 

funct.xml 

… 

 

 

 

… 

Xml Ex. 13 è più intelligente dell’insegnante 

mword.xml 

è 

più 

intelligente 

dell’ 

insegnante 

funct.xml 

… 

 

 

 

159


 

 

… 

Xml Ex.14 è il più intelligente 

mword.xml 

è 

il 

più 

intelligente 

funct.xml 

… 

 

 

 

 

 

… 

Xml Ex. 15 è il più intelligente della classe 

mword.xml 

è 

il 

più 

intelligente 

della 

classe 

funct.xml 

… 

 

 

 

 

 

… 

2.1.10 modo 

Il tratto modo specificare il modo di partecipanti verbali. I suoi possibili valori sono riportati 

nella sezione 5.1.1.1.2.1. 

160


Xml Ex 16 Giovanni decise di partire 

mword.xml 

Giovanni 

decise 


partire 

funct.xml 

… 

 

 

 

… 

Xml Ex. 17 camminava parlando 

mword.xml 

camminava 

parlando 

funct.xml 

… 

 

 

 

… 

Xml Ex. 18 la cosa è ormai compiuta 

mword.xml 

la 

cosa 

è 

ormai 

compiuta 

funct.xml 

… 

 

 

 

… 

161


Xml Ex.19 il presidente uscente 

mword.xml 

il 

presidente 

uscente 

funct.xml 

… 

 

 

 

… 

2.1.11 diat 

Il tratto diat(esi) specifica la diatesi di un partecipante verbale. Suoi possibili valori sono 

riportati nella sezione 5.1.1.1.2.2. 

Xml Ex. 20 La Microsoft ha assunto Paolo 

mword.xml 

La 

Microsoft 

ha 

assunto 

Paolo 

funct.xml 

… 

 

 

… 

 

… 

2.1.12 syn_form 

Il tratto syn_form specifica la forma personale/impersonale di un partecipante verbale. I suoi 

possibili valori sono riportati nella sezione 5.1.1.1.2.2. 

Xml Ex. 21 Bisogna discutere di queste cose 

Bisogna 

discutere 


queste 

cose 

mword.xml 

162


funct.xml 

… 

 

 

… 

 

… 

2.1.13 reflex 

Il tratto reflex specifica caratteristiche legate alla riflessività del partecipante verbale. L’insieme 

dei suoi possibili valori è riportato nella sezione 5.1.1.1.2.2. 

Xml Ex. 22 Mi compro una bicicletta 

mword.xml 

Mi 

compro 

una 

bicicletta 

funct.xml 

… 

 

 

… 

 

… 

2.1.14 pers 

pers(ona) specifica la persona di un partecipante verbale. Suoi possibili valori sono 1, 2, 3. 

Xml Ex.23 Mario mangia una pizza 

mword.xml 

Mario 

mangia 

una 

pizza 

funct.xml 

… 

 

 

… 

 

… 

163


2.1.15 num 

num(ero) specifica il numero di un partecipante verbale. Suoi possibili valori sono: sing e plur. 

Xml Ex. 24 Mario mangia una pizza 

mword.xml 

Mario 

mangia 

una 

pizza 

funct.xml 

… 

 

 

… 

 

… 

2.1.16 gen 

gen specifica, ove rilevante (ovvero con partecipanti verbali con diatesi passiva o media, oppure 

con partecipanti verbali che hanno tempi composti), il genere del partecipante verbale. Suoi 

possibili valori sono mas e fem. 

Xml Ex. 25 Maria è arrivata 

mword.xml 

Maria 

è 

arrivata 

funct.xml 

… 

 

 

 

… 

2.1.17 introsim 

Il tratto introsim è usato per specificare l’elemento grammaticale che “introduce” un 

partecipante che è parte di una delle seguenti relazioni funzionali: disg, cong. 

Xml Ex. 26 Mangiare sia il pane che la frutta 

Mangiare 

sia 

il 

pane 

mword.xml 

164


che 

la 

frutta 

funct.xml 

… 

 

 

 

 

… 

2.1.18 partec_id 

Il tratto partec_id associa a ciascun partecipante un numero identificativo unico. 

Xml Ex. 27 Il ragazzo che Maria ha incontrato ieri 

mword.xml 

Il 

ragazzo 

che 

Maria 

ha 

incontrato 

ieri 

funct.xml 

… 

 

 

… 

2.1.19 href 

Questo tratto ha come possibili valori degli identificatori di parole morfologiche: infatti, 

l’annotazione funzionale presuppone un livello di annotazione morfo-sintattica. Livello al quale 

vengono codificati i tratti di POS (Part-Of-Speech), lemma ed altre caratteristiche morfologiche 

quale la persona, il numero, il tempo verbale, etc. I file di annotazione funzionale a livello Xml, 

tramite il tratto href, puntano alle singole parole morfologiche. In altri termini il tratto href punta 

dal file di annotazione funzionale Xml a quello morfologico Xml. 

Riportiamo qui di seguito un esempio di file morfologico (quello che segue è il reale file 

morfologico cui il livello di annotazione funzionale fa riferimento. I file morfologici che abbiamo 

mostrato fino a questo momento sono una versione semplificata di quello che segue, e sono stati 

adottati per semplificare la lettura del documento e non appesantire troppo la grafica): 

165


Xml Ex. 28 Londra. Gas dalla statua Evacuata la Tate Gallery 

 

… 

LONDRA 

. 

 

Gas 

dalla 

statua 

Evacuata 

la 

Tate 

Gallery 

. 

 

… 

Si noti che questo file morfologico contiene l’annotazione morfo-sintattica dell’articolo 001 del 

corpus del “Corriere della Sera” (), costituita da una sequenza di 

parole morfologiche (mw) con diversi tratti ad esse associati. 

Il tratto href del file dell’annotazione funzionale viene codificato come qui di seguito: 

Xml Ex. 29 Londra. Gas dalla statua Evacuata la Tate Gallery 

funct.xml 

… 

 

… 

Ciò vuol dire che il , il cui tratto ha il valore 

“partec_001”, punta alla parola morfologica 001 (mw_001) che è contenuta 

all’interno del file morfologico 001 (morph001) del corpus del “Corriere della 

Sera” (cs). 

166


2.2 L’elemento (relazione funzionale) 

Questo elemento, che ricordiamo essere incassato all’interno dell’elemento , 

viene utilizzato per codificare le relazioni funzionali che compaiono all’interno dell’annotazione 

funzionale. Per quanto riguarda questo elemento è stata decisa la codifica di tre tratti: 

relazionefunzionale, partidrefs, e relfunctid. 

relazionefunzionale 

partidrefs 

relfunctid 

 

dip, sogg, comp, mod, arg, pred, non_pred, ogg_d, obl, 

disg, cong, legame, concat 

[ASCII] 

[ASCII] 

2.2.1 relazionefunzionale 

I possibili valori di questo tratto sono tutte le relazioni funzionali contemplate dalle specifiche di 

annotazione, ossia: dip, sogg, comp, mod, arg, pred, non_pred, ogg_d, obl, disg, 

cong, legame, concat. La tipologia delle relazioni funzionali previste per questo livello di 

annotazione è riportata nelle sezioni 5.1.1.1, 5.1.1.2, 5.1.1.3 e 5.3.1. 

2.2.2 partidrefs 

Questo tratto ha come possibili valori coppie di puntatori interni allo stesso file XML. Questi 

puntatori indicano coppie di partecipanti, precedentemente definiti in base ai tratti che abbiamo 

specificato, ossia quei partecipanti che prendono parte ad una determinata relazione funzionale, 

come possiamo vedere nel seguente esempio di annotazione. 

Xml Ex. 30 Io non so chi ha parlato 

Io 

non 

so 

chi 

ha 

parlato 

mword.xml 

funct.xml 

… 

 

 

 

 

 

 


partidrefs=”partec_003 partec_002”/> 

 

 

… 

In questo caso possiamo vedere, per esempio, che la seconda relazione funzionale che 

incontriamo, la relazione “mod”, sussiste tra i due partecipanti che hanno come identificativo 

“partec_003” e “partec_002” rispettivamente. 

2.2.3 relfunctid 

Questo tratto ha come possibili valori dei numeri identificativi della relazione in considerazione. 

Xml Ex.31 

funct.xml 

… 

 

… 

In questo caso vediamo che la relazione “mod”, che intercorre tra i partecipanti che hanno 

rispettivamente gli identificativi di “partec_002” e “partec_001”, ha come numero identificativo 

“r_001”, è cioè la prima relazione funzionale del file XML. 


L’elemento costituisce l’unità di annotazione al livello funzionale. Al suo 

interno, può contenere uno o più elementi di tipo e uno o più elementi di tipo . 

L’elemento è descritto da un solo attributo, che altro non è che 

l’identificativo numerico. 

id 

functional_phrase 

[ASCII] 

Xml Ex. 32 Gli uomini parlano e sognano sempre di un miglioramento 

… 

 

… 

funct.xml 

168


3 Esempi 

Segue una breve esemplificazione di annotazioni funzionali in XML. 

3.1 Costruzioni con verbo intransitivo 

Cfr. sezione 5.2.2.1. 

Xml Ex. 33 Gli uomini parlano e sognano sempre di un miglioramento 

Gli 

uomini 

parlano 

e 

sognano 

sempre 


un 

miglioramento 

… 

mword.xml 

funct.xml 

 

 

 

 

 

 

 

 

 

 

 

 

… 

169


3.2 Costruzioni con verbo intransitivo inaccusativo 


Xml Ex. 34 Gli studenti erano giunti nella zona alla spicciolata 

Gli 

studenti 

erano 

giunti 

nella 

zona 

alla 

spicciolata 

mword.xml 

funct.xml 

… 

 

 

 

 

 

 

 

… 

Xml Ex. 35 Slitta la riunione, prevista per oggi, della cosiddetta 

commissione Sangalli 

Slitta 

la 

riunione 

prevista 

per 

oggi 

della 

cosiddetta 

commissione 

Sangalli 

mword.xml 

funct.xml 

… 


partec_id=”partec_001”/> 

 

 

 

 

 

 

 

 

 

 

 

 

… 

3.3 Costruzioni con verbo transitivo con oggetto diretto 


Xml Ex. 36 Carnevale ha sbagliato un gol quasi fatto 

Carnevale 

ha 

sbagliato 

un 

gol 

quasi 

fatto 

mword.xml 

funct.xml 

… 

 

 

 

171


 

 

 

 

 

 

… 

3.4 Costruzioni con verbo transitivo con oggetto indiretto 


Xml EX. 37 Gullit ha dichiarato guerra alla stampa sportiva 

Gullit 

ha 

dichiarato 

guerra 

alla 

stampa 

sportiva 

mword.xml 

funct.xml 

… 

 

 

 

 

 

 

 

 



… 

3.5 Costruzioni con verbo transitivo con complemento obliquo 


Xml Ex. 38 La Bimex importa prodotti dalla Union Carbide 

La 

Bimex 

importa 

prodotti 

dalla 

Union 

Carbide 

mword.xml 

funct.xml 

… 

 

 

 

 

 

 

 

… 

3.6 Costruzioni passive 


Xml Ex. 39 I due malavitosi sono stati spesso segnalati in diverse occasioni 

I 

due 

malavitosi 

sono 

stati 

mword.xml 

173


spesso 

segnalati 

in 

diverse 

occasioni 

funct.xml 

… 

 

 

 

 

 

 

 

 

 

… 

Xml Ex. 40 L’accordo è stato firmato ieri al Pentagono dal ministro 

americano 

L’ 

accordo 

è 

stato 

firmato 

ieri 

al 

Pentagono 

dal 

ministro 

americano 

mword.xml 

funct.xml 

… 

 

 

 

 

174


 

 

 

 

 

 

 

… 

3.7 Costruzioni con completive sottocategorizzate 

Cfr.sezione 5.2.2.7. 

Xml Ex. 41 Giovanni ha visto Maria correre 

Giovanni 

ha 

visto 

Maria 

correre 

mword.xml 

funct.xml 

… 

 

 

 

 

 

 

 

 

… 

175


3.8 Costruzioni con interrogative indirette 

Cfr. sezione5.2.2.8. 

Xml Ex. 56 Io non so chi ha parlato 

mword.xml 

Io 

non 

so 

chi 

ha 

parlato 

funct.xml 

… 

 

 

 

 

 

 

 

 

 

… 

3.9 Costruzioni con modificazione frasale (gerundive, participiali, infinitive) 


Xml Ex. 42 Gli evasori hanno aggredito gli agenti di custodia sparando 

all’impazzata 

Gli 

evasori 

hanno 

aggredito 

gli 

agenti 


custodia 

mword.xml 

176


sparando 

all’ 

impazzata 

funct.xml 

… 

 

 

 

 

 

 

 

 

 

 

 

… 

3.10 Costruzioni con complementi predicativi del soggetto e dell’oggetto 


Xml Ex. 43 Maria sembra felice 

Maria 

sembra 

felice 

mword.xml 

funct.xml 

… 

 

 

 

 

177


 

 

 

3.11 Complementazione di nomi e aggettivi 


Xml Ex. 44 Il Parlamento incomincerà un dibattito sulla partecipazione al 

programma 

Il 

Parlamento 

incomincerà 

un 

dibattito 

sulla 

partecipazione 

al 

programma 

mword.xml 

funct.xml 

… 

 

 

 

 

 

 

 

 

 

… 

178


3.12 Negazione 


Xml Ex. 45 I bambini non devono guardare film violenti 

I 

bambini 

non 

devono 

guardare 

film 

violenti 

mword.xml 

funct.xml 

… 

 

 

 

 

 

 

 

 

 

… 

3.13 Costruzioni esistenziali 


Xml Ex. 46 C’è una vespa nella mia camera 

C’ 

è 

una 

vespa 

nella 

mia 

camera 

mword.xml 

179


funct.xml 

… 

 

 

 

 

 

 

 

 

 

… 

3.14 Costruzioni coordinate 

Cfr.sezione 5.2.3. 

Xml Ex. 47 I superstiti e i parenti delle vittime hanno espresso malumore 

per la scarcerazione 

mword.xml 

I 

superstiti 

e 

i 

parenti 

delle 

vittime 

hanno 

espresso 

malumore 

per 

la 

scarcerazione 

funct.xml 

… 

 

 

… 

 

… 

180


Xml Ex. 48 La donna sbrigava le faccende di casa e doveva avere familiarità 

con i cani 

mword.xml 

La 

donna 

sbrigava 

le 

faccende 


casa 

e 

doveva 

avere 

confidenza 

con 

i 

cani 

funct.xml 

… 

 

 

… 

 

… 

Xml Ex.49 Il fatturato complessivo delle società controllate e collegate è 

elevato 

mword.xml 

Il 

fatturato 

complessivo 

delle 

società 

controllate 

e 

collegate 

è 

elevato 

funct.xml 

… 

 

 

… 

 

… 

181


Xml Ex. 50 Il mundial di calcio termina con la finalissima di domenica sera 

e con i risultati conosciuti 

mword.xml 

Il 

mundial 


calcio 

termina 

con 

la 

finalissima 


domenica 

sera 

e 

con 

i 

risultati 

conosciuti 

funct.xml 

… 

 

 

… 

 

… 

Xml Ex. 51 …il bilancio ha ottenuto risultati di rilievo, in campo economico 

e sindacale, ma anche sul fronte dell’autonomia … 

mword.xml 

il 

bilancio 

ha 

ottenuto 

risultati 


rilievo 

in 

campo 

economico 

e 

sindacale 

ma 

anche 

sul 

fronte 

dell’ 

autonomia 

funct.xml 

… 

 

… 

 

… 



… 

3.15 Condivisione di complementi in costruzioni coordinate 

Cfr. sezione 5.2.3. 

Xml Ex. 52 L’assemblea di ieri ha confermato Eugenio Scalari ed ha 

deliberato di aumentare il numero di consiglieri 

mword.xml 

L’ 

assemblea 


ieri 

ha 

confermato 

Eugenio 

Scalfari 

ed 

ha 

deliberato 


aumentare 

il 

numero 

dei 

consiglieri 

funct.xml 

… 

 

 

… 

 

… 

3.16 Ellissi del soggetto 


Xml Ex. 53 Abbiamo visto l’opera nella piazza del paese 

Abbiamo 

visto 

l’ 

opera 

nella 

piazza 

del 

paese 

mword.xml 

183


funct.xml 

… 

 

 

… 

 

… 

3.17 Ellissi del verbo 


Xml Ex.54 Gli esempi sono scritti in corsivo, le glosse in stampatello 

mword.xml 

Gli 

esempi 

sono 

scritti 

in 

corsivo 

le 

glosse 

in 

stampatello 

funct.xml 

… 

 

 

 

 

 

 

 

 

 

 

… 

184


3.18 Relazioni di coreferenza 


Xml Ex. 55 Prost lascia la McLaren per una Ferrari che non cammina 

mword.xml 

Prost 

lascia 

la 

McLaren 

per 

una 

Ferrari 

che 

non 

cammina 

funct.xml 

… 

 

 

… 

 

… 

3.19 Cardinalità complessa 


Xml Ex. 57 Sfiora i 4 mila miliardi 

mword.xml 

Sfiora 

i 

4 

mila 

miliardi 

funct.xml 

… 

 

 

 

… 

3.20 Nomi propri 


185


Xml Ex. 58 …Lamberto Dini… 

mword.xml 

Lamberto 

Dini 

funct.xml 

… 

 

 

… 

 

… 

Xml Ex. 59 Carlo Azeglio Ciampi 

mword.xml 

Carlo 

Azeglio 

Ciampi 

funct.xml 

… 

 

 

 

… 

 

 

… 

3.21 Costruzioni predicative particolari 


Xml Ex. 60 Fare da autista 

mword.xml 

Fare 

da 

autista 

funct.xml 

… 

 

 

… 

 

… 

186


3.22 Costruzioni causative 


Xml Ex. 61 Io ho fatto rispettare la legge 

mword.xml 

Io 

ho 

fatto 

rispettare 

la 

legge 

funct.xml 

… 

 

 

 

 

 

 

 

… 

3.23 Costruzioni partitive 


Xml Ex. 62 Dello stile impero sopravvive una certa indulgenza 

mword.xml 

Dello 

stile 

impero 

sopravvive 

una 

certa 

indulgenza 

funct.xml 

… 

 

 

… 

 

… 

187


3.24 Superlativo assoluto 


Xml Ex. 63 Paolo è il più bello 

mword.xml 

Paolo 

è 

il 

più 

bello 

funct.xml 

… 

 

 

 

 

… 

 

 

… 

3.25 Superlativo relativo 

Cfr sezione 5.2.9.1. 

Xml Ex.64 Il ragazzo più prestigioso d’America 

mword.xml 

Il 

ragazzo 

più 

prestigioso 

d’ 

America 

funct.xml 

… 

 

 

 

 

… 

 

188


 

 

… 

189


Appendice 3 - Annotazione semantico-lessicale: rappresentazione in 

XML 

1 Introduzione 

In questa sezione descriviamo il modo in cui viene rappresentato in formato XML lo schema per 

l’annotazione semantico-lessicale della Treebank di SI-TAL. L'annotazione semantico-lessicale 

implica gli aspetti seguenti: 

• identificazione delle unità di senso; 

• classificazione delle unità di senso in unità semplici (corrispondenti ad una singola parola 

ortografica), oppure di tipo complesso (espressioni polilessicali come composti, idiomi, ecc.) o 

di tipo titolo, ovvero parole sia semplici che complesse che occorrano nei titoli 

• assegnazione, per ogni tipo di unità semantica, di un numero di senso; 

• espressione di tratti di tipo semantico, che convoglino informazioni semantico-lessicali, oppure 

ad uso dell’annotatore; 

Nelle pagine seguenti descriviamo le strategie usate per rappresentare in XML queste 

informazioni. 

2 Elementi di markup 

Gli elementi di markup per l’annotazione semantica sono i seguenti, in ordine gerarchico: 

 

 

 

 

 

 

 

 

 

 

 

Brevemente, il rapporto tra gli elementi di markup sta ad indicare che l’unità di analisi maggiore 

è un costrutto denominato “frase semantica” (), corrispondente all’insieme di unità 

semantiche o forme analizzate in una frase annotata al livello morfosintattico. Una frase semantica è 

costituita a sua volta da unità di senso, ulteriormente classificate in unità semantiche semplici 

, di tipo complesso , o di tipo titolo . 

2.1 

Questo elemento è usato per marcare l’annotazione semantica del corrispondente morfologico di 

una frase. Un elemento contiene un numero n di unità semantiche (semplici, 

190


complesse o titolo), corrispondenti all’annotazione semantica delle parole semanticamente piene 

che occorrono all’interno di quella determinata frase. 

Diamo di seguito una esemplificazione di quanto detto: 

cs-morph-015: (…) Non pago degli insulti, il corazziere avrebbe aggiunto anche la minaccia di 

un attentato, parlando di una bomba pronta a far saltare in aria il capo dello Stato. Il nome del 

carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma) è “top secret”, ma la 

vicenda è stata denunciata alla magistratura e il procuratore militare Antonino Intelisano 

ha aperto un’inchiesta per il reato di offesa all’onore del Presidente della Repubblica. 

L’allarme è scattato alla fine della scorsa settimana. (…) 

sem.xml 

 

 

 

… 

 

L’elemento dell’annotazione riportata in esempio racchiude tutte le annotazioni 

semantiche relative alle parole semanticamente piene che occorrono nella frase n. 10 del file “cs- 

015”, come specificato dall’attributo id. 

2.2 :unità semantica semplice 

Questo elemento è usato per marcare una singola parola semanticamente piena. La codifica 

dell’elemento presuppone il markup morfologico delle parole. Questo vuol dire, nel 

dettaglio, che tramite la codifica del tratto dell’elemento , lo stesso elemento 

punta direttamente alla corrispondente parola morfologica (analogamente a quanto spiegato per 

l’annotazione sintattica). L’elemento viene tecnicamente definito vuoto (empty), in quanto 

non contiene al suo interno degli elementi di livello gerarchico inferiore. L’esempio seguente 

riassume sinteticamente i tratti relativi alla rappresentazione delle unità semantiche semplici: 

10.cs-015: Il nome del carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma) 

è “top secret”, ma la vicenda è stata denunciata alla magistratura e il procuratore militare 

Antonino Intelisano ha aperto un’inchiesta per il reato di offesa all’onore del Presidente 

della Repubblica. 

cs.morph015.xml 

Il 

nome 

del 

carabiniere 

191


( 

 

i 

corazzieri 

sono 

infatti 

un 

reparto 

speciale 

… 

10.cs-015.xml 

 

 

 

 

 

… 

 

I tratti pertinenti per la codifica di un’unità semantica semplice sono i seguenti: ussid, href, 

dbref, numero_senso, tipolemma, alterazione, figurato, nome_proprio, commento, nota. 

Nell’esempio precedente sono state evidenziate le parole morfologiche corrispondenti alle unità 

semantiche semplici. Di seguito illustriamo brevemente il significato dei tratti associati all’elemento 

, rappresentati in XML come insieme di attributi sia obbligatori che opzionali. 

 

ussid 

href 

dbref 

numero_senso 

ID 

 

(gen|eco) 

CDATA 

192


tipolemma 

alterazione 

figurato 

nome_proprio 

commento 

nota 

CDATA 

CDATA 

CDATA 

CDATA 

CDATA 

CDATA 

(CDATA nel linguaggio di markup XML indica qualsiasi tipo di stringa di testo) 

2.2.1 ussid 

L’attributo ussid serve per identificare univocamente l’unità semantica semplice all’interno 

dell’elemento . Il valore dell’attributo è un valore numerico inizializzato a zero. 

 

 

 

 

 

… 

 

10.cs-015.xml 

2.2.2 href 

L’attributo href è usato per identificare il corrispondente morfologico della parola annotata 

semanticamente. Il valore dell’attributo è sempre un identificatore di parola morfologica, ovvero un 

valore numerico che nel file di annotazione morfologica a sua volta identifica univocamente un 

elemento . 

 


/> 

 

 

 

… 

 

dbref="gen" 

numero_senso="4" 

ussid="0" 

href="mw_171" 

dbref="gen" 


ussid="1" 

href="mw_173" 

dbref="gen" 


ussid="2" 

href="mw_176" 

dbref="gen" 


ussid="3" 

href="mw_180" 

2.2.3 dbref 

L’attributo dbref serve per specificare l’appartenenza dell’unità semantica annotata ad una delle 

due componenti che costituiscono il complesso del corpus di Treebank. Il valore gen corrisponde 

alla componente generica (o IWN-Gen), quello eco alla componente economica (EcoWN); cfr 

sezione 6.2.1. L’attributo è opzionale. 

 

 

 

 


href="mw_180" 

/> 

… 

 

2.2.4 numero_senso 

L’attributo numero_senso contiene come valore un numero di senso presente in ItalWordNet (o 

una sequenza congiunta o disgiunta di sensi quando più sensi di ItalWordNet possono essere 

applicati congiuntamente o disgiuntamente alla stessa occorrenza). Altri valori possibili da associare 

all’attributo in esame sono etichette convenzionali la cui forma e significato sono ampiamente nella 

sezione 6.2.2. L’attributo deve essere obbligatoriamente specificato. 

 

 

 

 

 

… 

 

10.cs-015.xml 

2.2.5 tipolemma 

L’attributo tipolemma è usato per annotare informazione semantico-lessicale associata alla 

parola annotata, ad esempio se si tratti di un neologismo o di una forma dialettale. L’attributo è 

opzionale. Cfr sezione 6.2.9. 

2.2.6 alterazione 

L’attributo alterazione (opzionale) codifica il grado di alterazione della forma annotata 

rispetto al lemma. Valori possibili dell’attributo sono etichette mnemoniche, definibili dall’utente. 

195


Le etichette utilizzate durante l’annotazione di Treebank sono ad esempio dim (diminutivo), accr 

(accrescitivo), dispr (dispregiativo), vezz (vezzeggiativo), sup (superlativo), compar 

(comparativo), e alter (per tutti i casi diversi dai precedenti). Cfr sezione 6.2.5. 

2.2.7 figurato 

L’attributo figurato (opzionale) registra la presenza di un uso figurato non lessicalizzato del 

senso di una singola parola. Valori possibili dell’attributo sono etichette mnemoniche, definibili 

dall’utente. Le etichette utilizzate durante l’annotazione di Treebank sono ad esempio metaf (uso 

metaforico), meton (uso metonimico), fig (per tutti gli usi figurati diversi dai precedenti). Cfr 

sezione 6.2.6. 

cs-015.xml 

il 

procuratore 

militare 

Antonino 

Intelisano 

ha 

aperto 

un' 

inchiesta 

10.cs-015.xml 

 

… 

 

… 

 

2.2.8 nome_proprio 

L’attributo nome_proprio (opzionale) può essere usato per l’annotazione di nomi propri, e 

consente di ricondurre il nome proprio ad una specifica classe semantica di ItalWordNet. Valori 

possibili dell’attributo sono etichette mnemoniche, definibili dall’utente. Le etichette utilizzate 

durante l’annotazione di Treebank sono ad esempio pers (per nomi propri di persona), grup (per i 

nomi propri che si riferiscono a gruppi di persone), luogo (per i nomi propri di luogo), man (per i 

196


nomi propri di manufatti e prodotti in genere), np (per tutti i casi diversi dai precedenti). Cfr sezione 

6.2.7. 

2.2.9 commento 

L’attributo commento (opzionale) fornisce un luogo per inserire un commento ad uso 

dell’annotatore. Il valore dell’attributo sarà una qualsiasi stringa inserita dall’annotatore. Cfr 

sezione 6.2.11.2. 

cs-015.xml 

il 

procuratore 

militare 

Antonino 

Intelisano 

ha 

aperto 

un' 

inchiesta 

10.cs-015.xml 

 

… 

… 

 

2.2.10 nota 

L’attributo nota (opzionale) fornisce un luogo per inserire dubbi relativi all’assegnazione del 

senso. Il valore dell’attributo sarà una qualsiasi stringa inserita dall’annotatore. Cfr sezione 6.2.11.1. 

2.3 :unità semantica di tipo complesso 

Questo elemento è usato per marcare una espressione polilessicale, che al suo interno può 

contenere, oltre a parole semanticamente piene, anche parole funzionali semanticamente piena. La 

codifica dell’elemento è in tutto e per tutto analoga a quella dell’elemento , tranne per 

il fatto di contenere al suo interno una rappresentazione degli elementi costitutivi dell’espressione 

polilessicale, codificati come elementi . Questi elementi hanno come unico attributo 

197


obbligatorio quello necessario per la referenziazione della parola a livello morfologico. L’esempio 

seguente riassume sinteticamente i tratti relativi alla rappresentazione delle unità semantiche di tipo 

complesso: 

10.cs-015: Il nome del carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma) 

è “top secret”, ma la vicenda è stata denunciata alla magistratura e il procuratore militare 

Antonino Intelisano ha aperto un’inchiesta per il reato di offesa all’onore del Presidente 

della Repubblica. 

cs.morph015.xml 

… 

presidente 

della 

Repubblica 

… 

10.cs-015.xml 

 

… 

 

 

 

 

 

… 

 

Come si può notare dall’esempio, le uniche differenze (evidenziate in neretto) dell’insieme di 

attributi dell’elemento rispetto a quello dell’elemento sono date dalla presenza degli 

attributi obbligatori lemma, pos, e tipo, che indicano, rispettivamente, il lemma di riferimento, la 

categoria grammaticale, ed il tipo di espressione polilessicale (ad esempio un composto, un idioma, 

o una costruzione con verbo supporto). Sempre in confronto all’elemento , inoltre, 

l’elemento non possiede invece l’attributo alterazione. 

2.4 :unità semantica di tipo titolo 

Questo elemento è usato per l’annotazione dei titoli e per differenziarli dal restante contesto. Può 

riferirsi o ad una singola parola o ad un insieme di parole adiacenti, incluse eventuali parole 

grammaticali. Rispetto agli attributi specificati per l’elemento , l’elemento si 

differenzia per possedere in aggiunta gli attributi lemma, pos e tipo, usati, rispettivamente, per 

annotare il lemma di riferimento, la categoria grammaticale, ed il tipo di entità alla quale il titolo si 

198


riferisce. Non sono invece rilevanti per questo elemento gli attributi tipolemma, alterazione, 

figurato e nome_proprio. 

Analogamente all’elemento , l’elemento può contenere al suo interno uno o più 

elementi . 

3 DTD 

Ricapitoliamo quanto detto in precedenza riportando la DTD per il livello di annotazione 

semantico-lessicale: 

 

 

 

 

 

 

 

 

 

 

 

 

 


commento CDATA #IMPLIED 

nota CDATA #IMPLIED 

ustid ID #REQUIRED> 

200

Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...

Create successful ePaper yourself

Delete template?

Save as template?